← 一覧へ戻る

Claude が書いた記事

HBM が AI ニュースで毎週叫ばれる理由

HBM HBM 言うてるあのニュース、結局なにが問題なんかを 30 秒で復元できるように整理した学習ログ。

俺の最初の疑問

HBM の何がそんなに重要でよく話題になるんだ?

まず一言でいうと

HBM は「AI 計算の一番詰まる所を広げるための特殊な半導体メモリ」。 ここの供給が詰まると NVIDIA の高性能 AI GPU の出荷量が大きく制約される。だから毎週ニュースに出る。

何と比べるとわかるか

普通のメモリ (PC に挿す DDR5 とか) と HBM の違い:

DDR5 (普通のメモリ)HBM
置き方CPU の隣の基板に挿すGPU と同じパッケージの中、超至近距離
構造平面に並べるチップを 縦に 8〜16 段スタック
配線数64 本くらい1024 本以上 (HBM4 で 2048)
帯域〜50 GB/秒HBM3E で 1 スタック 〜1.2 TB/秒級 (GPU 全体では複数スタック載せるので合計はこれの数倍〜)
値段安い桁違いに高い

要するに HBM = 縦積み × 配線オバケ × 値段オバケ のメモリ。

何が問題なのか

AI 計算は「容量」じゃなくて「帯域」で詰まる。混同しやすいのでまず切り分ける:

  • 容量 = GB。「どれだけ置いとけるか」
  • 帯域 = GB/秒。「1 秒あたりどれだけ運べるか」

家でいうと「広さ (容量)」と「玄関の幅 (帯域)」くらい別物。 広さ 200m² でも玄関 50cm なら引っ越しは詰む。

そして LLM 推論の実態は、巨大なモデルの重みや中間データを何度も読み出しながら計算する作業。 このパターンやと「計算 1 回あたりに必要なメモリ読み出し量」がデカくなりがちで、 メモリから次々データを流す速度 (=帯域) がボトルネックになる。 結果、計算ユニットは爆速やのに データ待ちで使い切れん 場面が多くなる。

これが古典問題「メモリの壁 (Memory Wall, 1995)」。

図で見る

HBM が GPU の隣に縦積みで並ぶ物理構造:

GPU と HBM スタックがシリコンインターポーザ (CoWoS) の上に並び、1024 本以上の配線で繋がる。HBM 内部の縦積み = 縦のパッケージング、インターポーザ = 横のパッケージング。

計算性能と帯域の進化スピードがどんどん離れる構造:

過去 10 年ざっくりで、計算性能は約 140 倍、メモリ帯域は約 10 倍。差が広がり続けるのが「メモリの壁」。HBM はこの壁を必死で押し返してる最前線。

混乱しやすいポイント

ニュースを見ると 「HBM さえ増産すれば AI ハードは解決」 と思いがちやけど、これは半分しか合ってない。

本当のボトルネックは:

HBM チップ + シリコンインターポーザ + GPU を物理的に統合する “先端パッケージング” 全体

  • HBM 内部の縦積み (TSV) = SK Hynix の “縦のパッケージング”
  • HBM と GPU をシリコン土台に並べる (CoWoS) = TSMC の “横のパッケージング”
  • どっちも世界中で奪い合い、どっちかが詰まれば全部詰まる

NVIDIA や TSMC 周辺の報道でも、先端パッケージング ── とくに CoWoS が供給制約としてたびたび問題になるHBM ニュースを見たら CoWoS ニュースもセットで見る、が正しい読み方。

「配線を 1024 でなく 4096 にすればええやん」は誰でも思いつく一方、現実には 4 つの物理の壁にぶつかる:

一言で
場所チップ端の長さに限りがある (バンプ用スペース)
電気配線 2 倍 → I / O 電力もまんま 2 倍、GPU はすでに 700〜1000W
干渉詰めるとクロストーク (隣の信号が邪魔し合う)
土台インターポーザがバカでかくなって作れなくなる (CoWoS の限界)

業界はこの壁を毎世代じわじわ押し返してる:HBM4 で配線を 1024 → 2048 にダブル化、スタックも 12 段 → 16 段へ。

たとえ話

  • 容量 vs 帯域 = タンクの大きさ vs 水道パイプの太さ。タンクをいくらデカくしても、パイプが細けりゃお湯張りは終わらん。
  • 計算 vs 帯域の進化差 (メモリの壁) = 脳の処理速度は年々上がるけど、本棚から本取りに伸ばす腕の長さは変わらん。脳が爆速化しても、本を取りに行く時間で詰まる。
  • HBM 配線 1024 本 = 倉庫のローディングドック。壁の長さと床面積に限りがあるから、ドックを増やすにも限界がある。

ニュースを読むための変換表

ニュースの言葉つまり何の話?
HBM が不足HBM 全体 (SK Hynix・Samsung・Micron) の供給・積層歩留まり・顧客認証のどこかで詰まっとる
CoWoS が不足TSMC の 横パッケージング が追いつかん
H100 が金積んでも買えないHBM 供給と CoWoS 供給が同時に詰まっとる
HBM3E 認証新世代を採用先 (NVIDIA など) が品質テスト中、通ると一気に量が動く
メモリの壁計算 ≫ 帯域 の構造的ギャップ
Samsung が HBM 出遅れ高層スタックの歩留まりや顧客認証のハードルが高い
SK Hynix の決算が好調HBM 需要 = AI 投資の体温計が高い
次に答える、設計者の問い で、それがなんやねん?

HBM が「縦積み × 配線オバケ」なのはわかった。次は「で、それを知って何を選べるんや?」。

  • 載せたいモデルが「容量」で詰まるのか「帯域」で詰まるのか、即答できるか。 推論で重みを流し続けるなら帯域、巨大バッチを保持したいなら容量。ここが GPU 世代を選ぶ第一分岐になる。詰まり方の物理は LLM 推論サーバーの中身 で見える。
  • 「H100 が金を積んでも買えない」と聞いて、HBM 不足か CoWoS 不足か切り分けられるか。 律速の出所が読めると、調達のリードタイム判断が変わる。出所の物理は シリコンインターポーザー のレチクル限界。

これに答えられると強い。HBM を知ってるの一歩先 ── ワークロードから構成と調達まで読んで「で、どれ買う?」に自分の答えを出せる側に立てる。

深掘りメニュー 次におすすめのトピック

この記事の続きとして、未来の自分が次に掘るといいトピック。

  • HBM の歩留まり ── チップを 16 段重ねて全部 OK の確率。なぜ高価で品薄かを数字で腹落ちさせる本丸。
  • SK Hynix と Samsung の差 ── なぜ Samsung が出遅れたかを追うと、高層スタックの製造難易度が逆算で見える。
  • HBM4 の世代差 ── 配線が “ぴったり 2 倍” の 2048 になった理由。世代ごとに何が効いているかの入口。
  • PIM (Processing In Memory) と光配線 ── メモリの近くで計算する / 配線を光にする次の一手。「メモリの壁」の構造がどう変わるかの未来予測。