空冷から液冷まで、AI が産業革新を推進
電子デバイスが熱を発生する本質的な理由は、作業エネルギーを熱エネルギーに変換するプロセスです。放熱は、高性能コンピューティング デバイスの熱管理の問題に対処するように設計されており、チップまたはプロセッサの表面から熱を直接除去することでデバイスのパフォーマンスを最適化し、寿命を延ばします。チップの消費電力の増加に伴い、放熱技術は 1 次元ヒートパイプの線形温度均一化から 2 次元 VC の平面温度均一化、3 次元 VC 技術パスの統合温度均一化へと進化してきました。液体冷却技術へ。
3D VC には、「効率的な冷却、均一な温度分布、ホットスポットの減少」などの優れた冷却利点があり、高出力デバイスの放熱や高熱束密度領域での温度均一化といったボトルネック要件を満たすことができます。また、より強力なオーバークロック パフォーマンスとオーバークロック後のシステムの安定性を確保できます。ヒートパイプ/均等化プレート間の熱伝導率は、接触熱抵抗と銅自体の熱抵抗を有する、組み立てられた複数のヒートパイプ/均等化プレートに熱を伝達するためのものです。また、3D VC は、三次元構造の接続性により、内部で液相転移と熱拡散を起こし、チップの熱を歯の遠位端に直接かつ効率的に伝達して放熱します。
冷却技術には空冷と液冷の2種類があります。空冷技術では、ヒートパイプやVCの放熱能力が比較的低くなります。 3D VCの放熱上限は1000Wまで拡張可能で、どちらも放熱用のファンが必要です。このテクノロジーはシンプルで安価で、ほとんどのデバイスに適しています。液体冷却技術は冷却効率が高く、コールドプレートと浸漬型の2種類があります。その中でもコールドプレートは間接的な冷却方法であり、初期投資が中程度で、運用保守コストが低く、比較的成熟しています。 Nvidia GB200 NVL72 はコールド プレート液体冷却ソリューションを採用しています。浸漬冷却は、高い技術要件と高い運用コストとメンテナンスコストを伴う直接冷却方法です。
AI の大規模モデルのトレーニングとプロモーションには、チップのより高いコンピューティング能力が要求され、単一チップの消費電力が改善されます。チップの温度はそのパフォーマンスに影響します。チップの動作温度が 70-80 度に近づくと、温度が 2 度上昇するごとに、チップのパフォーマンスが約 10% 低下します。したがって、単一チップの消費電力が増加すると、熱放散に対する要求がさらに増加します。さらに、Nvidia B200 の消費電力は 1000 W を超え、空冷冷却の上限に近づいています。 「デュアル カーボン」や「東西計算」などのポリシーでは、データ センターの PUE が厳密に要求されており、液体冷却の平均 PUE は空冷の平均 PUE よりも低くなります。 TCO の観点から見ると、空冷と比較して、コールド プレート液冷の初期投資コストは空冷のそれに近く、その後の運用コストは低くなります。
単相浸漬液冷キャビネット:タンクに内蔵された液冷サーバーで、CDUとタンクがパイプラインで接続されています。下部パイプラインは低温の冷却媒体をタンクに輸送し、液体冷却媒体は液体冷却サーバーからの熱を吸収します。温度が上昇した後、熱は CDU に戻り、熱は CDU によって持ち去られます。この構造により、サーバーの完全な水冷を実現でき、ファンレス設計により、空冷と比較して電力密度が向上し、PUE が低くなります。しかし、技術的な難易度は高く、普及率は比較的低いです。
2 段階浸漬: 高度な技術要件により、システムの電力密度を大幅に向上させることができます。サーバーのメインチップは高出力であるため、チップ表面のガス化コアを増加させ、相変化熱伝達効率を高め、100W/個を超える最大放熱密度を達成するために、チップ表面を強化沸騰処理する必要があります。 c㎡。
AI コンピューティング能力とポリシー PUE の発展により、電子デバイスの動作温度を制御するために冷却技術を継続的にアップグレードする必要があります。チップレベルの熱放散は、ヒートパイプ/VCからより効率的な3DVCおよびコールドプレート冷却ソリューションに移行し、チップ冷却技術の継続的な革新を推進します。