Nvidiaの次世代GPUアーキテクチャ「Blackwell」がデータセンターで深刻な過熱問題に直面していることが報じられた。AIトレーニング用サーバーラックに72個のAIアクセラレーターを搭載する設計が原因とされ、主要顧客であるMetaやMicrosoft、Googleへの供給が遅延。Nvidiaは設計改修を繰り返す一方、同アーキテクチャの高い性能への期待も高まる。

この問題はデータセンターだけでなく、2025年に発表が予測されるRTX 50シリーズGPUにも波及する可能性が指摘されている。前世代の課題を抱える中、Nvidiaがこの障害をどのように克服するかが注目される。

Blackwellアーキテクチャが直面する「設計上の欠陥」とは

Nvidiaの新たなAIアクセラレーター「Blackwell」は、その高い性能にもかかわらず、「設計上の欠陥」とされる問題が大きな障害となっている。特にデータセンターでは、AIアクセラレーターを1つのサーバーラックに72個搭載する構造が原因で過熱が発生し、主要顧客への供給が滞っている。

この問題についてThe InformationやReutersの報告では、Nvidiaが供給業者に対し設計を何度も修正するよう指示していることが明らかになった。

こうした問題は、AIの大規模トレーニングにおける耐久性と効率性の向上を目指す企業にとって、信頼性の低下を招きかねない。特にMetaやGoogleといった企業はAIトレーニングのスケール拡大を進める中で、熱制御技術や消費電力の最適化を重視しているため、この問題が競争優位性に影響を与える可能性も考えられる。Nvidiaの対応次第では、Blackwellアーキテクチャの将来が大きく変わるだろう。

AI市場におけるAMDの台頭とNvidiaの課題

NvidiaがBlackwellにかける期待は大きいが、同時にライバルAMDの動きも見逃せない。AMDはすでにMI300X AIアクセラレーターを市場に投入し、MI325Xを次世代として準備している。これらの製品は高性能かつ効率的であり、特にデータセンター向け市場でNvidiaとの競争を激化させている。

Nvidiaが強調する「Hopperアーキテクチャの25倍の低コストと省エネ性」は魅力的だが、AMDの攻勢を前に市場での優位を維持できるかは不透明だ。

一方で、Nvidiaが抱える設計上の課題は、AMDの台頭を後押しする要因となる可能性がある。データセンター向けアクセラレーターの信頼性が求められる中、過熱や消費電力の問題は供給計画全体を遅らせるリスクを伴う。これに対し、AMDは安定性と持続可能性を武器にNvidiaのシェアを脅かしつつある。Nvidiaがどのように対抗策を講じるのか、今後の動きが注目される。

次世代GPU「RTX 50シリーズ」に波及する可能性

Blackwellアーキテクチャがデータセンターで抱える課題は、次世代GPU「RTX 50シリーズ」にも影響を及ぼす可能性があるとされている。RTX 4090では電力要件の高さや溶ける電源コネクタの問題が顕在化したが、これが新シリーズでも繰り返される懸念がある。特に、RTX 5090が最大600ワットの電力要件を持つとされる中、Nvidiaは課題解決のための具体策を示さなければならない。

Corsairの情報によると、次世代GPUも12V-2×6コネクタを採用する予定であり、この点はユーザーにとって不安材料となる可能性がある。デスクトップPCとデータセンターでは使用環境が異なるものの、根本的な設計の問題が共通している場合、広範な影響が避けられないだろう。Nvidiaが高性能化を進める中で、省エネと信頼性の両立を実現することが、今後の鍵を握るといえる。