Nvidia の AI サーバー用液体冷却革命

Mar 12, 2024

最先端の AI チップの消費電力は増加の一途をたどっており、これが次世代 DGX AI サーバーが液体冷却に移行するきっかけとなっています。 Nvidia の主力 H100 GPU の現在の TDP (熱設計電力) は 700 W で、従来の空冷の限界を超えています。 Nvidia は今年後半に TDP が約 1000W の Blackwell アーキテクチャ B100 GPU を発売すると予想されており、その時には液体冷却が必ず必要になります。

Nvidia liquid cooling

高性能コンピューティングシステムの場合、液体冷却には空冷に比べていくつかの重要な利点があります。
優れた熱伝達効率により、より高い TDP のコンポーネントを完全に冷却できます
高速ファンの需要が減少したため、動作音がより静かになりました
システム設計がより高密度になり、かさばるヒートシンクやファンが占めるスペースが少なくなります
液液熱交換器で廃熱を回収して再利用できる可能性

GPU liquid cooling

液体冷却を使用することで、Nvidia は冷却システムによる制限を受けることなく、AI アクセラレータの性能限界を超え続けることができます。人工知能のトレーニング負荷の複雑さが増し続け、それに対応してハードウェアの消費電力も増加するため、これは非常に重要です。 Nvidia の DGX AI サーバーは、複数の GPU を AI ワークロードに最適化されたシステムにパッケージ化しており、大規模企業で急速に導入されています。 Google Cloud、Meta、Microsoft などの主要なクラウドサービスプロバイダーは、自社のデータセンターに DGX システムを導入しています。近年、人工知能の変革力を活用しようとする組織が増えるにつれ、Nvidia DGX 人工知能システムの採用が飛躍的に増加しました。

GPU LIQUID COOLING

Nvidia DGX システムは、誘電性流体を使用する高度な浸漬冷却設計を使用する場合があります。直接チップ冷却は、コールドプレートを必要とせずに、誘電性流体を GPU チップやその他の熱コンポーネントに直接送り込み、より直接的な熱伝達を実現します。単一チップで非常に高い TDP レベル (500W+) をサポートでき、より高密度のシステムを実現します。

Direct chip immersion cooling

人工知能は驚くべきスピードで発展し続けるため、サポートされるハードウェアインフラストラクチャも同時に進化する必要があります。液体冷却は、アクセラレーターが前例のないパフォーマンスレベルにスケールアップできるようにする重要なテクノロジーです。この変革には課題がないわけではありません。データセンターでは液冷インフラの変革と新しいメンテナンスプログラムの開発が必要なため、エネルギー効率、密度、パフォーマンスのメリットは大きく、無視することはできません。

上一条: GPU ヒートシンクの一般的な熱ソリューション

次条: 一般的に使用される Enterprise Server の熱ソリューション

知識

Nvidia の AI サーバー用液体冷却革命