ByteBridge

令人興奮的新聞

駕馭擁有自己大腦的巨獸:人工智慧驅動型資料中心營運的崛起

駕馭擁有自己大腦的巨獸:人工智慧驅動型資料中心營運的崛起

隨著人工智慧工作負載規模和複雜性的成長——尤其是跨越數萬個GPU的大型語言模型訓練——傳統的資料中心管理工具已明顯不足以應對。這些為穩定狀態的企業應用而設計的傳統系統缺乏… 敏捷 為了應對現代人工智慧基礎設施的波動性、突發性和高度相互依賴性,解決方案是什麼?部署人工智慧來管理驅動人工智慧自身的環境。這種遞歸法不再是理論上的; 這是 正在由…實施 超大規模 從谷歌到 Meta。

遺留系統管理的局限性

傳統的資料中心基礎設施管理 (DCIM) 平台依賴靜態閾值和人工幹預。但 AI 訓練任務的行為與傳統工作負荷截然不同。 GPU 利用率 負載可在幾毫秒內從空閒狀態飆升至飽和狀態;隨著模型並行性將運算資源重新分配到各個機架,熱分佈也會發生變化;網路擁塞 出現 並非頻寬限制,而是集體通訊模式(例如全縮減操作)造成的。在這種環境下,等待警報或人工幹預意味著浪費週期——以及數百萬次的資源消耗。 in 機會成本損失。

預測性控制,而非被動修復

領先的營運商現在將機器學習直接嵌入到基礎設施控制迴路中。從 LSTM 到基於拓樸感知感測器圖訓練的圖神經網路等時間序列模型,可以提前一小時預測冷卻需求、功耗,甚至磁碟故障機率。在 NVIDIA 的 DGX 大會上, 超級POD 例如,在一些設施中,人工智慧控制器可以即時調節液冷晶片的流量,從而將冷卻器的能耗降低高達 30%。同樣,Google也利用強化學習智能體,動態地將非關鍵批次作業從高溫區域轉移出去,從而在不犧牲吞吐量的情況下平緩溫度峰值。

大規模自癒

在擁有超過 10,000 個加速器的叢集中,硬體故障不可避免。單一網卡或 VRM 的故障就可能導致整個分散式訓練作業停滯。為了應對這種情況,人工智慧驅動的可觀測性堆疊現在會從韌體、內核日誌和硬體計數器中獲取遙測數據,以便在「軟故障」導致崩潰之前很久就檢測到它們。一旦確認有異常,Kubernetes 擴充或自訂作業排程器等編排系統會自動重新對應任務、調整張量並行策略或啟動檢查點副本。 Meta 在 2025 年報告稱,其人工智慧驅動的故障緩解系統將其人工智慧研究部門的 LLM 訓練中斷減少了 45%。 超群 (RSC)。

信任悖論

儘管取得了這些進展,但完全自主 遺跡 爭議不斷。營運商不願將控制權拱手讓給黑箱演算法——尤其是在決策會影響到價值數百萬美元的訓練運行時。為了彌合這一差距,團隊正在整合可解釋人工智慧 (XAI) 功能:儀表板現在不僅顯示… 什麼 系統確實做到了,但是 為什麼例如,「由於三相電壓相關下降,機架式 PDU 限速(異常評分:0.89)」。然而,對抗性輸入、模型漂移以及人工智慧引發的級聯故障風險等挑戰依然存在——在這種情況下,一個誤判會引發子系統間的骨牌效應。 

前方的路

下一個前沿領域是閉環協同設計:人工智慧工作負載調度器、電源管理器和冷卻控制器共享統一的狀態表示,並且 優化 雙方合作。 AWS 和微軟的早期實驗表明,這種整合可以帶來 10% 到 20% 的效率提升。 最終, 人工智慧資料中心正變得越來越不像是機器的集合,而更像是一個反應迅速、自我調節的有機體——它利用自身被設計來服務的智能,學習、適應和修復自身。 具有諷刺意味的 這點無庸置疑:要控制這頭野獸, 我們賦予了它自己的大腦。.

閱讀更多