GPU クラスターのレール最適化 ── 32 ポートなのに IB スイッチが 8 台もいる理由
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
タグ
2 件
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。