AIチップの熱管理

Aug 02, 2024

現在、マイクロソフト、グーグル、メタなどの他のテクノロジー大手も、人工知能モデルをトレーニングして実行するためにデータセンターを拡張しています。報道によると、マイクロソフトとOpenAIは数百万個の専用サーバーチップを搭載したスーパーコンピューターを含むデータセンタープロジェクトの構築を計画しており、現在のプロジェクトには2028年に発売予定の人工知能スーパーコンピューター「スターゲイト」も含まれ、1150億ドルかかる可能性があるという。 Metaの最高経営責任者（CEO）Mark Zuckerberg氏も今年1月、同社のコンピューティングインフラストラクチャには2024年末までに30000枚のH100グラフィックスカードが搭載される予定であると述べ、「他のGPUも含めると、H100と同等の計算が約60万枚ある」とも付け加えた。

AI computing

AIGC はビッグモデルとビッグデータに基づいています。大規模モデルとは、大規模で広範なデータでトレーニングした後、下流のタスクに適応できるモデルを指します。大規模モデルの出現後、(1) モデルパラメータの大きさが増加します。 (2) 需要の多様化が計算能力の多様なアップグレードを加速する: 計算能力は、需要のマッチングに応じて基本計算能力、インテリジェント計算能力、スーパーコンピューティング能力に分類できます。 2021 年、世界のコンピューティングデバイスの合計コンピューティング能力は 615 EFlops に達し、成長率は 44% でした。 2030 年までに、CAGR 65% で 56ZFlops に増加すると予想されます。インテリジェントなコンピューティング能力は 232EFlops から 52.5ZFlops に増加し、CAGR は 80% を超えます。ビッグモデルの出現後、コンピューティングパワーの増加に新たなトレンドがもたらされ、コンピューティングパワーが平均 9.9 か月で倍増しました。

AIGC chip cooling

計算能力の向上の背景には、チップの計算効率を高め、より短時間でより多くの計算を完了する必要があり、必然的にチップのエネルギー消費量の増加につながります。スーパーコンピューティングセンターにおけるデータセンターの高密度および高消費電力の特性により、熱放散の問題がますます顕著になっています。最新のデータセンター、特にスーパーコンピューティングセンターには、通常、動作中に大量の熱を発生する高出力デバイスが多数含まれています。熱をタイムリーかつ効果的に放散できない場合、デバイスのパフォーマンスに影響を与えるだけでなく、ハードウェアの故障につながる可能性があります。 IDC のレポートによると、データセンターのエネルギー消費の約 40% が冷却システムに使用されており、データセンターの運用には効果的な冷却ソリューションが重要であることが示されています。

data canter liquid cooling

従来の空冷システムは、現在のスーパーコンピューターの冷却ニーズを満たすことができなくなったため、業界では液体冷却技術が徐々に主流の選択肢になってきました。液体冷却技術の適用により、データセンターは、冷却システムのエネルギー消費を削減しながら、より多くのコンピューティングデバイスを同じスペースに収容できるようになります。液体冷却技術の適用により、計算効率が向上するだけでなく、エネルギー消費と運用コストも大幅に削減されます。液体冷却テクノロジーは、より効率的な熱伝導により、同じエネルギー消費でより多くのコンピューティングタスクを処理できます。

data center immersion liquid cooling

AI トレーニングとハイパフォーマンスコンピューティングの需要が高まるにつれ、液体冷却技術は将来のスーパーコンピューティングセンターでより重要な役割を果たすことになります。液体冷却技術は、増大するコンピューティング需要と熱放散の課題に対応するために、今後数年間でスーパーコンピューティングセンターや大規模データセンターの標準構成になることが予想されます。

上一条: マルチプラットフォーム水冷プレートアプリケーション

次条: 空冷から液冷まで、AI が産業革新を推進

知識

AIチップの熱管理