コマンドで見ていく Linux network namespace の世界
netns を『繋ぐ』のではなく『見分ける』側の話。ip / lsns で root netns と空っぽの red を並べ、ネットワーク屋の道具のまま一段下の OS レイヤに降りる学習ログ。
タグ
13 件
netns を『繋ぐ』のではなく『見分ける』側の話。ip / lsns で root netns と空っぽの red を並べ、ネットワーク屋の道具のまま一段下の OS レイヤに降りる学習ログ。
オフィスの LAN は 100m 届くのに、データセンターの ToR 周りの銅線は 3m しか届かんらしい。同じイーサネットやのに何が違うんや? ── BASE-T と BASE-CR、そして『速くするほど距離が縮む』高周波の物理を腹落ちするまでの学習ログ。
1 ラックに GPU サーバー 4 台 × 8 GPU = 32 ポートなのに、なぜ IB スイッチ (InfiniBand スイッチ) が 8 台もいてポートはスカスカなんや? ── AI クラスターの『レール最適化』を、8 本のパラレルワールドとして腹落ちするまでの学習ログ。
スイッチの話をしてたはずが急に Linux が出てきて意味がわからんくなった。ToR スイッチの中身が『ただの Linux サーバー』だった、と腹落ちするまでの学習ログ。
GPU が熱いのも巨大化するのも、主犯は計算やなくデータ移動やった。銅線の物理的な限界と、チップの際から光で繋ぐ (CPO / シリコンフォトニクス) 話。
「オンにすると速くなる」AccelNet の中で何が起きてるか。VF・DMA・eSwitch・FPGA を開けて、ホスト CPU をバイパスしつつ SDN を効かせる仕掛けを追った学習ログ。
bridge の中では ping が通るのに、なぜ外に出る瞬間だけ NAT が要るのか。netns の島から物理 NIC を通ってインターネットに出るまでを、root netns = ホストを主役に掘った学習ログ。
前回 ip netns で作った red / blue を実際につなぐ veth と bridge を、ネットワーク屋の頭で掘った学習ログ。(1)veth = NIC (インターフェース)。必ずニコイチで作り、2 つのもの (netns や bridge) をつなぐ。『ケーブル』の比喩はどこで壊れるかまで。(2)3 台目をつなぐには bridge=仮想 L2 スイッチを挟む。物理スイッチの 48+4 と違いポートは動的・最大 1024・ソフト転送。(3)netns / veth / bridge は全部カーネル機能だが作った時期も人もバラバラ。bridge が最古で元は物理 L2 スイッチ用。Linus はほぼ出てこない。
「cilium って何?」から始めた学習ログ。eBPF とはカーネル内で安全にプログラムを動かすことができる土台のことで、Cilium はその土台の上に建てた k8s 向けのプログラム。ユーザー空間ではなくカーネル空間で動作させることができるため、高速な通信処理ができる。
「AI の発展でネットワークがボトルネック」を、どこが詰まるかまで物理で特定した学習ログ。詰まるのは GPU の中でもユーザーへの配信でもなく、サーバとサーバのあいだ (NVLink → InfiniBand の 15 倍の崖)。学習の all-reduce が崖からはみ出して GPU が待つ時間こそが本体で、その先には IB vs Ethernet の思想戦争があった、と腹落ちするまでの記録。
Application Gateway for Containers (AGC) を入口に AKS の north-south を解剖した学習ログ。「VMSS があるから LB が受け口やろ」という思い込みを、宛先 IP 中心の見方へ切り替えるまでの記録。テスト環境で見える Standard LB は入口でなく出口 (egress) で、AGC は Pod IP へ直接届く。
Azure / SONiC で使われる dual-ToR の Y ケーブル (スマート mux ケーブル) を、図 4 枚で解体した学習ログ。賢さをケーブルとスイッチソフトに寄せて、サーバーは何も知らないまま ToR を冗長化する仕組み。
Pod IP / cni0 / veth / VXLAN を、物理 LAN との対比で順に解剖した学習ログ。「Pod は IP を持つが、その IP は物理 LAN には存在しない」を起点に、CNI が物理ネットワークの上にオーバーレイをどう重ねているかを腹落ちさせるまでの記録。