施耐德電機提出警告,指出目前標準的資料中心設計無法應對人工智能運算所需的電力和冷卻需求,並強調需要新的設計方案。
雖然此觀點來自生產資料中心電力和冷卻系統的公司,但這並不代表施耐德電機的看法是錯誤的。人工智能的工作負載與標準的伺服器端應用(如資料庫)截然不同,傳統的方法已不再適用。
高耗電、高功耗的人工智能運算
施耐德電機在其白皮書中特別指出,人工智能運作所需的電力、冷卻以及頻寬需求極大。在人工智能領域,GPU 是最常見且耗電最多的處理器。舉例來說,英特爾和 AMD 的 CPU 通常消耗約 300 至 400 瓦。Nvidia 最新型號的 GPU 的每個處理器的耗電量高達 700 瓦,且這些 GPU 通常以八個一組的形式交付。
這種情況導致了機架密度的大幅提升。在過去,一個標準機架的密度大約在 10kW 到 20kW 之間,這樣的熱量可以透過空氣冷卻系統(如散熱片和風扇)來有效處理。然而,當機架的功率需求升高至 30kW 以上時,傳統的空氣冷卻方法就不再足夠。在這種情況下,就必須轉向使用液體冷卻系統,但液體冷卻系統的安裝和改造過程相對複雜。
施耐德電機白皮書的作者群表示:“面對這種高密度的挑戰,從人工智能新創公司到大型企業、共置服務提供商,乃至於網路業的巨頭,都必須重新思考並評估其對資料中心物理基礎設施設計和管理所帶來的深遠影響。”
電網與成本考量
施耐德電機預測,今年全球資料中心的總電力消耗將達到 54GW,並估計到 2028 年這一數字將攀升至 90GW。在這段期間內,人工智能處理所佔的電力消耗比例預計將從今年的 8% 增長至 2028 年的 15% 至 20%。
雖然電力和冷卻一直是資料中心建設者關注的重點,但網絡吞吐量和連接性這一方面卻經常被忽視。在人工智能訓練過程中,每個 GPU 都需要一個高吞吐量的專用網絡端口。
然而,GPU 的發展速度已經遠遠超越了網絡端口的能力。例如,若使用的 GPU 從記憶體以 900 Gbps 的速度處理數據,但只配備了 100 Gbps 的運算網絡,這將會拖慢 GPU 的運作速度,因為它需要等待網絡處理完所有數據。另一方面,雖然 InfiniBand 的速度遠超傳統銅線,但其成本卻是後者的十倍。
空間分隔與供應鏈整合
為了避免高熱密度的問題,一種方法是將硬體設備物理上分散開來。這意味著不應將機架填滿,而是應該將它們物理上分開放置。然而,這樣做會導致延遲,因為需要移動傳輸大量數據,而延遲對性能的影響是不容忽視的。
解決方案與建議的精進
施耐德電機提出了一系列的建議和解決方案,以應對日益增長的數據中心需求。首先,他們建議將傳統的 120/280V 電力分配系統升級為更高效的 240/415V 系統,這一作法能有效減少高密度機架中的電路數量。此外,為了確保電力供應的充足,施耐德建議部署多個電源分配單元(PDU)。
對於空氣冷卻系統,施耐德建議設定每個機架的最大功率閾值為 20kW。當功率需求超過此閾值時,他們推薦轉向更高效的液體冷卻系統。儘管空氣冷卻系統在 30kW 時達到極限,施耐德在這方面的建議似乎更為謹慎,這可能是出於對其液體冷卻設備的推廣考量。
在液體冷卻技術的選擇上,施耐德特別推崇直接液體冷卻方法。這種方法中,銅板直接與 CPU 相連,類似於空氣冷卻系統,但配備了雙管道系統:冷水通過一條管道進入,吸收熱量後通過另一條管道排出,進行循環和冷卻。
施耐德對浸沒式冷卻技術的態度較為保留,主要是因為使用於浸沒的介電液體含有可能對環境造成污染的氟碳化合物。
此外,施耐德還指出,由於液體冷卻技術目前缺乏產業標準,因此進行全面的基礎設施評估變得尤為重要,這需要由對相關設備有深入了解的專家來執行。這是基於設施本身能夠進行必要改裝的前提。大多數採用液體冷卻的資料中心都是在建設初期就規劃了相關基礎設施,而非在建成後進行改造。
施耐德的白皮書中還涵蓋了更多其他建議和指導原則。
作者:Andy Patrizio | Oct 3, 2023 | 原文連結-Networkworld
相關連結
第110號白皮書
本白皮書深入探討了人工智能工作負載的關鍵特性與發展趨勢,並詳細描述了這些趨勢對資料中心所帶來的一系列挑戰。白皮書不僅僅停留在問題的提出,還針對電力、冷卻、機架配置以及軟體管理等各個關鍵的物理基礎設施領域,提供了針對性的解決方案和實用指南。
深入瞭解施耐德電機 AI 資料中心
隨著人工智能工作負載的擴散,資料中心運營商將需要調整其基礎設施以滿足需求。了解導入人工智能資料中心所面臨的挑戰和解決方案。
前往諮詢
想深入瞭解文中提及的產品與解決方案嗎?
掌握產業趨勢,引領未來科技
施耐德電機專業洞察,您的產業知識寶庫。我們提供最新的產品資訊和最佳解決方案範例,助您在快速變動的科技世界中保持競爭優勢。想看更多精湛的文章?立即探索,一同打造永續未來。
