生成AIの進化に不可欠な大規模言語モデル(LLM)のトレーニング分野で、NVIDIAの最新プラットフォーム「Blackwell」が注目されている。業界ベンチマーク「MLPerf Training 4.1」で圧倒的な性能を示し、特にGPUあたりのパフォーマンスが最大2.2倍向上したことが評価を集めた。

GPT-3やLlama 2などのLLMモデルのトレーニングでは、少ないGPU数で従来より効率的に処理が行われ、高帯域幅のHBM3eメモリの活用によって、わずか64基のGPUで膨大な計算を可能にしている点が技術的な進展として大きい。

さらに、前世代のHopperプラットフォームも含む同社の製品は、AIトレーニングと推論において高いスケールアップ性能を発揮。最新のBlackwellアーキテクチャは、新たなカーネル設計とFP4精度の導入により、従来比で推論性能が最大4倍向上した。

NVIDIAは今後もソフトウェアとハードウェアの両面で進化を続け、パートナー企業と共に生成AIの可能性を引き出す革新的な取り組みを進めていく構えである。

Blackwellの画期的なアーキテクチャが生む次世代AIトレーニング

NVIDIAの最新プラットフォーム「Blackwell」が、生成AIトレーニングの性能向上において新たな基準を打ち立てた。MLPerf Training 4.1のテスト結果によると、BlackwellはGPUあたりの性能が最大2.2倍に向上し、より少ないGPU数で大規模言語モデル(LLM)をトレーニングできる環境を実現している。

この画期的な成果の背景には、Tensor Coreを効率的に活用する新しいカーネル設計がある。カーネルは、行列計算などの数学的処理を最適化することで、深層学習アルゴリズムの核となる処理を高速化する重要な役割を担っている。

特に注目すべきは、Blackwellが搭載するHBM3eメモリの大容量・高速な帯域幅である。このメモリにより、GPT-3 175BといったLLMをわずか64基のBlackwell GPUでトレーニングでき、効率性が大幅に向上している。従来のHopperプラットフォームでは256基のGPUが必要とされていたため、この効率向上は一目瞭然である。

NVIDIAの公式ブログによると、こうした進化は企業や研究者にとってもコスト削減とパフォーマンス向上の両面で大きなメリットをもたらしているという。

LLM推論性能の最大4倍向上を実現したQUASAR量子化システム

NVIDIAのBlackwellアーキテクチャがもたらしたもう一つの革新は、QUASAR量子化システムの導入である。QUASARはFP4精度を利用することで、ベンチマークの精度要件を満たしつつも処理性能を飛躍的に向上させた。

この技術により、LLM推論性能が従来のHopper世代と比べて最大4倍に引き上げられている。QUASARは計算精度を犠牲にせず、効率を高める新しい手法であり、これにより生成AIの実用化がさらに加速すると期待される。

また、Blackwellはスケーラビリティの面でも優れており、大規模データセンターやクラウドインフラストラクチャにおいて、効率的にスケールアップが可能だ。これにより、今後より多くの企業が生成AIの活用を視野に入れることができるだろう。

NVIDIAの発表によると、BlackwellのQUASARシステムは、さまざまなAIアプリケーションに対して柔軟に対応できるプラットフォームとして設計されており、今後のAI分野での標準技術の一つになる可能性がある。

継続的なソフトウェア最適化で進化するNVIDIAのパートナーネットワーク

NVIDIAはハードウェアのみならず、ソフトウェア面での最適化にも注力し続けている。最新のMLPerfトレーニング提出物では、HopperプラットフォームがGPT-3 175Bモデルのトレーニング性能を導入時から1.3倍向上させるなど、継続的なソフトウェアの改善が実現されている。

NVIDIA Quantum-2 InfiniBandネットワーキングやNVLink、NVSwitchといった高速通信技術の導入により、AIトレーニングにおけるパフォーマンスの向上とスケールアップが大幅に進展した。

さらに、NVIDIAはパートナー企業と協力し、生成AIと高性能コンピューティング(HPC)市場での存在感を強めている。ASUSTek、Azure、Dell、富士通など、業界を代表する企業がMLPerfのテストにおいて優れた結果を報告し、NVIDIAのハードウェアとソフトウェアの両面から支援を受けている。

NVIDIAはこのパートナーネットワークを通じて、AIとHPCの利用者に対してプラットフォーム投資の価値を最大化し、生成AI市場全体のさらなる成長を目指している。