帳號:
密碼:
最新動態
產業快訊
CTIMES / 文章 /
生成式AI當道 GPU算力爭霸方興未艾
 

【作者: 王岫晨】   2025年05月07日 星期三

瀏覽人次:【604】

生成式AI驅動的模型規模與複雜度急遽上升,正迫使晶片架構以遠超摩爾定律的速度進化。在這場硬體競賽中,NVIDIA、AMD、Google等科技巨頭紛紛推出「算力核彈級」晶片,並在效能、功耗與生態系三大戰場上展開正面交鋒。


2023年,ChatGPT在短短五天內突破億級用戶,徹底改寫科技與應用場景的版圖。背後支撐其運行的GPT-4模型,不僅需動用約1.7萬顆GPU,耗電量更高達50GWh,相當於3.6萬戶家庭全年的用電需求。而最新的Sora影片生成模型,其單次訓練成本更被傳已突破5億美元,堪稱「算力黑洞」的代表。



圖一 : ChatGPT需耗用大量的GPU運算資源。
圖一 : ChatGPT需耗用大量的GPU運算資源。

生成式AI驅動的模型規模與複雜度急遽上升,正迫使晶片架構以遠超摩爾定律的速度進化。在這場硬體競賽中,NVIDIA、AMD、Google等科技巨頭紛紛推出「算力核彈級」晶片,並在效能、功耗與生態系三大戰場上展開正面交鋒。OpenAI執行長Sam Altman更喊出募資7兆美元自建晶片廠,預示這場競賽不僅將改寫AI產業的格局,更可能重塑整個半導體生態。


AI模型推動硬體需求徹底重構

從GPT-3的1,750億參數到GPT-4的1.8兆參數,參數量膨脹超過10倍,模型訓練所需的算力也呈指數級上升。而最新的多模態模型,如OpenAI的Sora,更需同時處理文本、影像與物理模擬,Transformer架構中的「注意力機制」(Attention)大幅推升記憶體頻寬需求,是純語言模型的3倍以上。


另一方面,即時生成需求也正在向邊緣裝置逼近。例如Stable Diffusion要求裝置能在1秒內生成一張512×512解析度的圖片,這推動NPU(神經網路處理單元)導入如動態電壓與頻率調整(DVFS)等技術來平衡性能與功耗。


三大技術關鍵指標浮現

為因應模型規模與即時需求並存的挑戰,三大硬體升級重點成為焦點:


‧ 記憶體頻寬:HBM3e(高頻寬記憶體)堆疊技術進一步解放資料吞吐瓶頸。


‧ 稀疏計算支援:Google TPU v6強化稀疏矩陣運算能力,大幅提升訓練效率。


‧ 高速互連:AMD MI300X採用第三代Infinity Fabric技術,將CPU與GPU間延遲壓縮至35ns,強化即時推理場景的反應速度。


三大巨頭硬體技術的競速戰

NVIDIA:CUDA帝國下的霸權延伸

作為AI晶片市場的霸主,NVIDIA以CUDA軟體平台建立起無可撼動的技術護城河。其最新架構在大型語言模型訓練上表現卓越,加上CUDA 12支援動態並行運算,使開發者能更靈活配置資源,提升訓練效率。


目前NVIDIA已獨佔全球92%的AI訓練市場,儘管單顆高階AI晶片售價高昂,卻反而催生出如CoreWeave等GPU雲端租賃服務,讓中小企業得以接觸尖端算力。


NVIDIA之所以能在生成式AI浪潮中脫穎而出,關鍵在於其GPU架構針對深度學習工作負載進行高度優化。以H100為例,其內建的Tensor Core第四代張量處理器專為矩陣運算設計,支援FP8、BF16等混合精度格式,讓大型語言模型訓練速度提升至前代的2倍以上,同時保持精度不墜。


此外,NVIDIA也針對大模型運行瓶頸進行記憶體創新,H100搭載的HBM3記憶體頻寬高達3 TB/s,遠高於傳統GDDR6,顯著降低模型參數載入與中間層數據傳遞的延遲。再搭配NVLink互連技術,可將多張GPU組成高速集群,實現「多GPU如單GPU」的運算體驗,滿足如GPT-4、Sora等超大模型的分散式訓練需求。


AMD異構運算的逆襲

AMD的MI300X以異構整合架構為亮點,將Zen 4 CPU、CDNA 3 GPU與HBM3記憶體整合為單一APU,記憶體容量高達192GB,並大幅減少資料搬移造成的瓶頸。其性價比策略也具競爭力:在同等算力下,MI300X價格比H100低30%,並支援ROCm開源軟體框架,已成功打入Meta的Llama 3訓練系統。不過,相較於CUDA,其軟體生態仍有明顯落差,目前PyTorch對MI300X的運算支援覆蓋率僅約78%。


AMD在AI晶片領域的突圍,建立於其長年經營的異質運算(Heterogeneous Computing)技術基礎之上。MI300X採用APU(Accelerated Processing Unit)架構,將高效能CPU核心(Zen 4)與GPU核心(CDNA 3)以及高頻寬記憶體(HBM3)整合於同一封裝中,透過統一記憶體架構(Unified Memory Architecture),讓CPU與GPU可共享高達192GB的HBM3記憶體資源,大幅降低資料搬移造成的延遲與功耗。


這種設計特別適用於生成式AI推理階段,例如在需要快速回應的即時應用中,資料無需在CPU與GPU間頻繁複製,讓整體運算流程更高效、連續。此外,CDNA 3架構內建對稀疏運算(Sparse Compute)與混合精度計算(例如FP8、BF16)的原生支援,進一步提升AI模型訓練與推理的能源效率。


AMD的架構策略,重點不在於單點性能的極致,而是以系統級協同與封裝創新爭取效能與成本的最佳平衡,這讓MI300X在資料中心與企業AI部署中,成為一項極具競爭力的選擇。



圖二 : NVIDIA與AMD在生成式AI應用領域中的運算優勢比較。
圖二 : NVIDIA與AMD在生成式AI應用領域中的運算優勢比較。

Google封閉但高效的垂直整合

Google以TPU v6為核心推出的Hypercomputer平台,是垂直整合的極致範例,強調能效與協同運作。透過優化的硬體設計與軟體疊代,其整體運行效率領先業界。


然而,這套系統僅供Google Cloud內部與合作客戶使用,其封閉性成為限制其普及化的最大障礙。


算力的突破口

Meta的Llama 3與開源模式

Meta的Llama 3展示了開源模型在算力資源緊張情境下的可行性。訓練一個參數量為700億的模型,需動用7,200顆H100運行90天,光電費就高達870萬美元,相當於3,000台特斯拉Model Y的售價。


為解決這一痛點,Meta導入PyTorch Fully Sharded Data Parallel(FSDP)技術,能將模型參數分散至512張GPU上,大幅提升訓練效率達70%。


CoreWeave雲端算力

CoreWeave則以「算力即服務」模式出線,提供GPU分鐘級租賃服務,H100實例每小時費用僅6.5美元。其與NVIDIA合作開發的液冷伺服器叢集,功率密度達傳統資料中心的8倍,支援千卡級高並行運算,成為中小型AI開發者重要算力來源。


不過,其商業模式也受到外部市場影響。例如過去以太坊合併,從工作量證明 (PoW) 轉為持有量證明(PoS)後,GPU需求暴跌曾導致租金價格瞬間下修47%,揭示出其潛在風險。


下一世代xPU技術的戰場

量子與光子:顛覆既有邏輯的潛力選項

IBM的量子優勢實驗展示出量子運算處理特定優化問題的潛力,速度比GPU快1,000倍,儘管目前錯誤率仍高,但前景令人矚目。


另一方面,新創公司Lightmatter的光子AI晶片利用光取代電子進行傳輸與運算,在矩陣乘法任務中能節省90%能源消耗,已獲Google Ventures等風投資助。


OpenAI重塑晶片設計鏈

Sam Altman高喊7兆美元自建晶片廠的構想,若以每片晶圓產出50顆AI晶片估算,足可建造1,750座晶圓廠,超越台積電、三星與英特爾的總和。


此舉的戰略意涵明確:擺脫對NVIDIA的高度依賴,走蘋果M系列自研晶片的路線,實現演算法與硬體垂直整合。不過,半導體業界普遍質疑其可行性,尤其在先進製程與ASIC設計人才極度稀缺的當下,該計畫恐淪為「資本黑洞」。



圖三 :  NVIDIA高階AI晶片規格與應用比較
圖三 : NVIDIA高階AI晶片規格與應用比較

結語

生成式AI正在從科技突破走向大規模應用,而算力需求已成決定競爭力的關鍵要素。當前這場硬體競賽,不再僅是晶片效能的比拼,更是生態系的全面戰爭。NVIDIA以CUDA鎖定開發者心智,Google透過雲端垂直整合降低總體運算成本,AMD則以異構架構與性價比撬動市場。


然而,OpenAI晶片自研計畫、Meta的開源計算技術,以及RISC-V的潛在顛覆,都預示這場戰爭沒有絕對的贏家。在AI時代,誰能在每瓦電力中萃取出最多智慧,誰就將成為新世代科技霸權的締造者。


相關文章
運用AI提升BFSI產業經營優勢的關鍵策略
當生成式AI遇上機器視覺
生成式AI 整合機器視覺檢測的崛起
形塑AOI產業創新生態
技術認驗證服務多建置 協助臺產業建立數位創新生態
相關討論
  相關新聞
» 震旦家具首推裝配式裝修循環設計 攜手綠色夥伴共築永續解方
» 【Computex】鼎新數智與安提國際、高通攜手 展現AI Agent整合力
» [Computex] COOLIFY x DYNATRON展現散熱科技新樣貌
» 推動長期照護創新行動計畫 培育長照3.0健康AI人才
» 新唐 AI 微控制器賦能智能檯燈應用方案,榮獲智慧創新大賞入圍肯定


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.18.117.140.82
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw