Curtis 擁有 34 年 IT 經驗和 25 年資料中心基礎設施專業經驗,在液體冷卻、資料儲存、系統整合和 AI 就緒環境方面擁有深厚的專業知識。他在該行業的豐富經驗使這篇文章成為任何想要了解液體冷卻未來的人的可靠資源,包括塑造下一代人工智慧資料中心的創新直接晶片冷卻技術。
液體冷卻需求不斷成長
隨著人工智慧資料中心將硬體推向新的極限,傳統的空氣冷卻方法難以跟上。 NVIDIA GB200 處理器是所有 AI 資料中心最需要的處理器,它產生大量的熱量,以至於空氣冷卻甚至浸入式冷卻都無法提供足夠的熱管理。這項挑戰使得 直接晶片 (D2C) 單相液體冷卻 高效能AI基礎設施的首選解決方案。
直接晶片冷卻的工作原理
D2C冷卻涉及 冷板 直接安裝到處理器上。一種專門的冷卻劑在這些板中循環,吸收熱量,然後返回到 冷卻液分配單元 (CDU),在那裡冷卻並再循環。 CDU 有兩種主要配置:
- 液對空 (L2A) CDU – 使用風扇冷卻液體然後再循環。此裝置在沒有內置水冷基礎設施的設施中運作良好。
- 液對液 (L2L) CDU – 使用設施水進行冷卻,提供更好的效率,但需要對原本未設計用於液體冷卻的資料中心的基礎設施進行更新。
之間的關鍵區別 單相和雙相冷卻 是在 單相冷卻,液體保持一致的狀態,而在 雙相冷卻,它會轉化為蒸氣並凝結回液體。雖然兩相冷卻效率更高,但其成本和複雜性較高,使得 單相 D2C 冷卻 當今 AI 資料中心的主導選擇。
CDU 大小和部署方法
資料中心需要不同的 CDU 大小和部署配置 根據工作量強度、設施佈局和現有的冷卻基礎設施。主要類型包括:
- 機架式 CDU – 安裝在伺服器機架內的緊湊型單元(通常為 4U 大小)。它使用歧管系統將冷卻劑分配到機架中的所有伺服器。
- 行式 CDU – 位於一排伺服器機架的末端或中間,透過 二次流體網絡(SFN)。適當的管道材料和遵守資料中心政策至關重要。
- 基於設施的 CDU – 安裝在獨立機房的大型冷卻解決方案,旨在支援數兆瓦的散熱。這些需要強大的 SFN 設計來實現高效的冷卻劑分配。
- 後門熱交換器 (RDHx) – RDHx 裝置安裝在伺服器機架背面,可作為被動式熱交換器,使用冷凍水或專用冷卻劑在空氣重新進入設施之前去除空氣中的熱量。
直接晶片冷卻的優勢
人工智慧驅動的工作負載需求 更高的功率密度 與傳統資料中心伺服器相比,冷卻效率是重中之重。 D2C 冷卻比空氣和浸入式冷卻解決方案有幾個優點:
- 更高的效率 – 透過將熱量從處理器直接傳輸到冷卻介質,D2C 冷卻顯著降低了熱阻。
- 降低能源成本 – 傳統的空氣冷卻系統需要大量風扇和冷卻器來維持最佳溫度。 D2C 解決方案 降低功耗從而實現長期成本節約。
- 可擴展性 – 透過模組化 CDU,資料中心可以 逐步升級 冷卻基礎設施,而無需檢修整個設施。
- 減少用水量 – 與傳統的蒸發冷卻不同,D2C 系統使用閉環冷卻劑循環,以最大限度地減少水的使用。
克服液體冷卻應用中的挑戰
儘管有好處,但採用 直接晶片液體冷卻 帶來了一些挑戰:
- 改造現有設施 – 為空氣冷卻而建造的舊資料中心可能需要 基礎設施升級 以適應 L2L 冷卻。
- 冷卻液相容性 – 選擇合適的冷卻液來平衡 熱導率、耐腐蝕性和壽命 至關重要。
- 標準化問題 – 雖然產業領導者正在推動 通用液體冷卻標準,變化 CDU 類型、歧管設計和冷卻劑配方 造成整合障礙。
人工智慧資料中心液體冷卻的未來
As 人工智慧工作負載變得更加密集且耗能更高,液冷也將繼續發展。該行業正在轉向 混合冷卻解決方案, 結合 帶後門熱交換器的 D2C 冷卻 以最大限度地提高效率。 設施供水 也將推動更廣泛地採用 L2L CDU,進一步提高績效和永續性。
結論
直接晶片液體冷卻是 領先的人工智慧資料中心解決方案,提供無與倫比的效率、可擴展性和長期成本效益。作為 處理器功能越來越強大,散熱需求也隨之上升,資料中心必須採用 創新冷卻技術 保持績效和可持續性。了解 D2C 冷卻及其部署策略對於在現代 AI 基礎架構中做出明智的決策至關重要。
At ByteBridge,我們專門提供根據客戶獨特需求量身定制的尖端冷卻解決方案。我們在液體冷卻方面的專業知識(包括直接晶片解決方案)使我們能夠設計和實施優化的節能係統,幫助資料中心擴展並發揮其最高潛力。透過與 ByteBridge,您將獲得一個值得信賴的盟友,幫助您克服現代冷卻的挑戰,同時確保為 AI 工作負載提供面向未來的基礎設施。