GPU クラスターのレール最適化 ── 32 ポートなのに IB スイッチが 8 台もいる理由
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
タグ
5 件
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
GPU が熱いのも巨大化するのも、主犯は計算やなくデータ移動やった。銅線の物理的な限界と、チップの際から光で繋ぐ (CPO / シリコンフォトニクス) 話。
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。
性能勝負として見ると NVIDIA の強さは説明できない。本当の勝因は CUDA というソフトウェア生態系で、AMD や Intel が伸び切らない理由は移行コストにある、と腹落ちするまでのログ。
HBM HBM 言うてるあのニュース、結局なにが問題なんかを 30 秒で復元できるように整理した学習ログ。