AI のボトルネックは『箱と箱のあいだ』:GPU が待つ崖と、IB vs Ethernet の戦争
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。
Application Gateway for Containers (AGC) を入口に AKS の north-south を解剖した学習ログ。「VMSS があるから LB が受け口やろ」という思い込みを、宛先 IP 中心の見方へ切り替えるまでの記録。テスト環境で見える Standard LB は入口でなく出口 (egress) で、AGC は Pod IP へ直接届く。
全固体電池とリチウム電池は何が違うのか。電解質・イオン・電流という基本にさかのぼり、乾電池と豆球のたとえに乗せて図 4 枚で解体した学習ログ。違いは「電解質が液体か固体か」一点に集約される。
Azure / SONiC で使われる dual-ToR の Y ケーブル (スマート mux ケーブル) を、図 4 枚で解体した学習ログ。賢さをケーブルとスイッチソフトに寄せて、サーバーは何も知らないまま ToR を冗長化する仕組み。
Cloudflare をモデルに CDN の内部を解剖した学習ログ。shield / PoP の規模 / cache key / KV の関係を、図 3 枚で 30 秒で復元できるよう整理。
Pod IP / cni0 / veth / VXLAN を、物理 LAN との対比で順に解剖した学習ログ。「Pod は IP を持つが、その IP は物理 LAN には存在しない」を起点に、CNI が物理ネットワークの上にオーバーレイをどう重ねているかを腹落ちさせるまでの記録。
Claude のような LLM が動いているサーバーとネットワークの物理層を、HBM を中心に整理した学習ログ。CPU は脇役で、データは HBM ↔ HBM で完結する設計になっている、と腹落ちするまでの記録。
性能勝負として見ると NVIDIA の強さは説明できない。本当の勝因は CUDA というソフトウェア生態系で、AMD や Intel が伸び切らない理由は移行コストにある、と腹落ちするまでのログ。
HBM HBM 言うてるあのニュース、結局なにが問題なんかを 30 秒で復元できるように整理した学習ログ。