壊れる前提の GPU クラスタ ── チェックポイントは HBM から RAM へ「避難」する
1 パケットのロスも許さない GPU クラスタが、なぜ「潰れたら作り直す」k8s の上で回るのか。その鍵であるチェックポイントの足回り (HBM → ホスト RAM の退避) を、network エンジニアの目で追った学習ログ。
タグ
1 件
1 パケットのロスも許さない GPU クラスタが、なぜ「潰れたら作り直す」k8s の上で回るのか。その鍵であるチェックポイントの足回り (HBM → ホスト RAM の退避) を、network エンジニアの目で追った学習ログ。