帳號:
密碼:
最新動態
產業快訊
CTIMES / 文章 /
擴展AI叢集的關鍵挑戰
 

【作者: Emily Yan】   2025年05月05日 星期一

瀏覽人次:【1296】


AI正以前所未有的速度發展,驅使對更強大且高效資料中心的需求日益迫切。 為因應此趨勢,各國和企業正加速投入對AI基礎設施的投資。 據Forbes報導,2025年科技巨頭在AI方面的支出將超過 2500億美元,其中大部分將用於基礎設施建設。到 2029 年,全球對AI基礎設施(包括資料中心、網路和硬體)的投資將達到 4230 億美元。


然而,AI的快速創新也為資料中心網路帶來前所未有的壓力。例如,Meta最近關於 Llama 3 405B 模型訓練叢集的論文顯示,在預訓練階段該叢集需要超過700 TB 的記憶體和16,000個NVIDIA H100 GPUs。根據Epoch AI 估算, 2030 年AI模型所需的運算能力將是目前領先模型的1 萬倍。


擁有資料中心的企業,進行AI部署只是時間問題。本文將探討擴展AI叢集的關鍵挑戰,並揭示為何 「網路是新的瓶頸」。


AI叢集的崛起

AI叢集是一種大型、高度互連的運算資源網路,用於處理AI工作負載。


不同於傳統的運算叢集,AI叢集針對AI模型訓練、推論和即時分析等任務進行最佳化。它們依靠數千個 GPU、高速互連技術和低延遲網路的支援,以滿足AI對密集運算和資料輸送量的需求。


建構AI叢集

AI叢集的核心功能如同一個小型網路。建構AI叢集需要將多個GPU 相互連接,以形成高效能運算網路,讓資料在 GPU 之間無縫傳輸。由於分散式訓練仰賴於數千個GPU長時間的協調運作,因此強大的網路連接至關重要。


AI叢集的關鍵組件

AI叢集由多個重要組件組成,如圖一所示。



圖一 :  AI資料中心叢集
圖一 : AI資料中心叢集
  • ‧ 運算節點:作為AI叢集的大腦,數千個GPU連接到機架頂部的交換機。隨著問題複雜度提升,所需的GPU數量也隨之增加。


  • ‧ 高速互連:如乙太網路,可實現運算節點間的快速資料傳輸。


  • ‧ 網路基礎設施:包括網路硬體和協定,支援數千個 GPU 間的長時間資料通訊。



擴展AI叢集

為滿足日益增長的AI工作負載和複雜性,AI叢集必須不斷擴展。直到最近,網路頻寬、延遲和其他因素將AI叢集限制在約30,000個GPU。然而,得益於網路和記憶體技術的進步,xAI的Colossus超級電腦專案突破了這一限制,將GPU數量擴展到超過100,000個NVIDIA H100 GPU。


擴展的關鍵挑戰

隨著AI模型增長到數兆參數,擴展AI叢集面臨眾多技術和財務上的挑戰。


網路挑戰

GPU 可以有效地平行執行數學運算。然而,當數千甚至數十萬個GPU在AI叢集中共同處理同一任務時,如果其中一個 GPU 缺乏所需數據或遇到延遲,其他 GPU就會停擺。這種由網路壅塞造成的延長封包延遲或遺失可能導致封包重傳,大幅增加工作完成時間(JCT),並讓價值數百萬美元的GPU 處於閒置狀態。


此外,AI工作負載產生的東西向流量(即資料中心內節點間的資料移動)急劇增加,如果傳統網路基礎設施未針對這些負載進行最佳化,可能導致網路壅塞和延遲問題。


互連挑戰

隨著AI叢集的擴展,傳統互連可能難以滿足所需的傳輸量。為避免瓶頸,企業必須升級到更高速的互連,如800G甚至1.6T解決方案。然而,要部署和驗證此類高速鏈路並非易事,尤其是要符合AI工作負載的嚴苛要求。高速序列通道必須經過精密的調校和測試,以達到最佳的信號完整性、較低的誤碼率和可靠的前向誤差修正(FEC)效能。高速序列通道的任何不穩定性都可能影響可靠性並拖慢AI訓練速度。因此,企業需要高精度、高效率的測試系統,以便在部署前驗證它們。


財務挑戰

擴展AI叢集的總成本遠不止於 GPU 的採購費用。企業還須考慮電力、冷卻系統、網路設備和更廣泛的資料中心基礎設施。然而,通過更好的互連和最佳化的網路效能來加速AI工作負載,可以縮短訓練週期,並釋放資源投入其他任務。每節省一天的訓練時間,就能大幅降低成本,使財務風險與技術風險一樣高。


驗證挑戰

要最佳化AI叢集的網路效能,必須針對網路架構和 GPU 之間的互連進行測試與效能評估。然而,由於硬體、架構設計和動態工作負載特性間的關係錯綜複雜,驗證這些組件和系統極具挑戰性。以下是三個常見的驗證難題:


No 1.實驗室部署限制


由於AI硬體成本高昂、設備可用性有限,且需要專業的網路工程師,全面複製並不實際。此外,實驗室環境與真實世界資料中心的條件不同,通常有空間、電力和散熱方面的限制。


No 2.對生產系統的影響


在生產系統上進行測試可能會造成干擾,並可能影響關鍵的AI操作。


No 3.複雜的AI工作負載


AI工作負載和資料集的多樣性——在規模和通訊模式上也有顯著差異——使問題重現和一致性基準測試變得困難。


隨著AI重塑資料中心的格局,未來網路基礎設施的規劃對於因應快速發展的技術和標準至關重要。是德科技先進模擬解決方案提供關鍵優勢,能在部署前對網路協定和操作情境進行全面驗證。探索我們如何為網路工程師在處理AI工作負載複雜性和最佳化網路效能方面提供支援——確保可擴展性、效率,以及面對AI需求的即戰力。


本文由是德科技(Keysight Technologies)提供


如需更深入探討此主題,歡迎參閱白皮書《提升AI資料中心叢集的可擴展性》


相關文章
為人工智慧 / 機器學習驅動智慧戒指的藍牙連接技術
meet the expert-關稅戰下的生存指南 企業AI助理實務教程
創新3D緩衝記憶體 助力AI與機器學習
車載ADAS系統新趨勢
3D雲端技術與AI深度融合 3D雲平台方案分進合擊
相關討論
  相關新聞
» TrendForce剖析在地自動化成關稅戰避風港 美國智慧工廠成本遠超陸廠
» Discovery《台灣無比精采:AI 科技島》即將首播 外宣台灣科技實力
» Swippitt 推「烤麵包機」造型手機換電站 2秒完成電池更換
» 日本新創推出為「貓舌族」量身打造的吹氣機器貓
» 光程研創和采鈺合作推出新世代矽基Metalens超穎透鏡


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.18.188.148.202
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw