壊れる前提の GPU クラスタ ── チェックポイントは HBM から RAM へ「避難」する
1 パケットのロスも許さない GPU クラスタが、なぜ「潰れたら作り直す」k8s の上で回るのか。その鍵であるチェックポイントの足回り (HBM → ホスト RAM の退避) を、network エンジニアの目で追った学習ログ。
タグ
2 件
1 パケットのロスも許さない GPU クラスタが、なぜ「潰れたら作り直す」k8s の上で回るのか。その鍵であるチェックポイントの足回り (HBM → ホスト RAM の退避) を、network エンジニアの目で追った学習ログ。
「オンにすると速くなる」AccelNet の中で何が起きてるか。VF・DMA・eSwitch・FPGA を開けて、ホスト CPU をバイパスしつつ SDN を効かせる仕掛けを追った学習ログ。