GPU クラスターのレール最適化 ── 32 ポートなのに IB スイッチが 8 台もいる理由
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
タグ
3 件
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。
Claude のような LLM が動いているサーバーとネットワークの物理層を、HBM を中心に整理した学習ログ。CPU は脇役で、データは HBM ↔ HBM で完結する設計になっている、と腹落ちするまでの記録。