Claude が書いた記事
HBM が AI ニュースで毎週叫ばれる理由
HBM HBM 言うてるあのニュース、結局なにが問題なんかを 30 秒で復元できるように整理した学習ログ。
俺の最初の疑問
HBM の何がそんなに重要でよく話題になるんだ?
まず一言でいうと
HBM は「AI 計算の一番詰まる所を広げるための特殊な半導体メモリ」。 ここの供給が詰まると NVIDIA の高性能 AI GPU の出荷量が大きく制約される。だから毎週ニュースに出る。
何と比べるとわかるか
普通のメモリ (PC に挿す DDR5 とか) と HBM の違い:
| DDR5 (普通のメモリ) | HBM | |
|---|---|---|
| 置き方 | CPU の隣の基板に挿す | GPU と同じパッケージの中、超至近距離 |
| 構造 | 平面に並べる | チップを 縦に 8〜16 段スタック |
| 配線数 | 64 本くらい | 1024 本以上 (HBM4 で 2048) |
| 帯域 | 〜50 GB/秒 | HBM3E で 1 スタック 〜1.2 TB/秒級 (GPU 全体では複数スタック載せるので合計はこれの数倍〜) |
| 値段 | 安い | 桁違いに高い |
要するに HBM = 縦積み × 配線オバケ × 値段オバケ のメモリ。
何が問題なのか
AI 計算は「容量」じゃなくて「帯域」で詰まる。混同しやすいのでまず切り分ける:
- 容量 = GB。「どれだけ置いとけるか」
- 帯域 = GB/秒。「1 秒あたりどれだけ運べるか」
家でいうと「広さ (容量)」と「玄関の幅 (帯域)」くらい別物。 広さ 200m² でも玄関 50cm なら引っ越しは詰む。
そして LLM 推論の実態は、巨大なモデルの重みや中間データを何度も読み出しながら計算する作業。 このパターンやと「計算 1 回あたりに必要なメモリ読み出し量」がデカくなりがちで、 メモリから次々データを流す速度 (=帯域) がボトルネックになる。 結果、計算ユニットは爆速やのに データ待ちで使い切れん 場面が多くなる。
これが古典問題「メモリの壁 (Memory Wall, 1995)」。
図で見る
HBM が GPU の隣に縦積みで並ぶ物理構造:
計算性能と帯域の進化スピードがどんどん離れる構造:
混乱しやすいポイント
ニュースを見ると 「HBM さえ増産すれば AI ハードは解決」 と思いがちやけど、これは半分しか合ってない。
本当のボトルネックは:
HBM チップ + シリコンインターポーザ + GPU を物理的に統合する “先端パッケージング” 全体
- HBM 内部の縦積み (TSV) = SK Hynix の “縦のパッケージング”
- HBM と GPU をシリコン土台に並べる (CoWoS) = TSMC の “横のパッケージング”
- どっちも世界中で奪い合い、どっちかが詰まれば全部詰まる
NVIDIA や TSMC 周辺の報道でも、先端パッケージング ── とくに CoWoS が供給制約としてたびたび問題になる。 HBM ニュースを見たら CoWoS ニュースもセットで見る、が正しい読み方。
「配線を 1024 でなく 4096 にすればええやん」は誰でも思いつく一方、現実には 4 つの物理の壁にぶつかる:
| 壁 | 一言で | |
|---|---|---|
| ① | 場所 | チップ端の長さに限りがある (バンプ用スペース) |
| ② | 電気 | 配線 2 倍 → I / O 電力もまんま 2 倍、GPU はすでに 700〜1000W |
| ③ | 干渉 | 詰めるとクロストーク (隣の信号が邪魔し合う) |
| ④ | 土台 | インターポーザがバカでかくなって作れなくなる (CoWoS の限界) |
業界はこの壁を毎世代じわじわ押し返してる:HBM4 で配線を 1024 → 2048 にダブル化、スタックも 12 段 → 16 段へ。
たとえ話
- 容量 vs 帯域 = タンクの大きさ vs 水道パイプの太さ。タンクをいくらデカくしても、パイプが細けりゃお湯張りは終わらん。
- 計算 vs 帯域の進化差 (メモリの壁) = 脳の処理速度は年々上がるけど、本棚から本取りに伸ばす腕の長さは変わらん。脳が爆速化しても、本を取りに行く時間で詰まる。
- HBM 配線 1024 本 = 倉庫のローディングドック。壁の長さと床面積に限りがあるから、ドックを増やすにも限界がある。
ニュースを読むための変換表
| ニュースの言葉 | つまり何の話? |
|---|---|
| HBM が不足 | HBM 全体 (SK Hynix・Samsung・Micron) の供給・積層歩留まり・顧客認証のどこかで詰まっとる |
| CoWoS が不足 | TSMC の 横パッケージング が追いつかん |
| H100 が金積んでも買えない | HBM 供給と CoWoS 供給が同時に詰まっとる |
| HBM3E 認証 | 新世代を採用先 (NVIDIA など) が品質テスト中、通ると一気に量が動く |
| メモリの壁 | 計算 ≫ 帯域 の構造的ギャップ |
| Samsung が HBM 出遅れ | 高層スタックの歩留まりや顧客認証のハードルが高い |
| SK Hynix の決算が好調 | HBM 需要 = AI 投資の体温計が高い |
HBM が「縦積み × 配線オバケ」なのはわかった。次は「で、それを知って何を選べるんや?」。
- 載せたいモデルが「容量」で詰まるのか「帯域」で詰まるのか、即答できるか。 推論で重みを流し続けるなら帯域、巨大バッチを保持したいなら容量。ここが GPU 世代を選ぶ第一分岐になる。詰まり方の物理は LLM 推論サーバーの中身 で見える。
- 「H100 が金を積んでも買えない」と聞いて、HBM 不足か CoWoS 不足か切り分けられるか。 律速の出所が読めると、調達のリードタイム判断が変わる。出所の物理は シリコンインターポーザー のレチクル限界。
これに答えられると強い。HBM を知ってるの一歩先 ── ワークロードから構成と調達まで読んで「で、どれ買う?」に自分の答えを出せる側に立てる。
この記事の続きとして、未来の自分が次に掘るといいトピック。
- HBM の歩留まり ── チップを 16 段重ねて全部 OK の確率。なぜ高価で品薄かを数字で腹落ちさせる本丸。
- SK Hynix と Samsung の差 ── なぜ Samsung が出遅れたかを追うと、高層スタックの製造難易度が逆算で見える。
- HBM4 の世代差 ── 配線が “ぴったり 2 倍” の 2048 になった理由。世代ごとに何が効いているかの入口。
- PIM (Processing In Memory) と光配線 ── メモリの近くで計算する / 配線を光にする次の一手。「メモリの壁」の構造がどう変わるかの未来予測。