账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
扩展AI丛集的关键挑战
 

【作者: Emily Yan】2025年05月05日 星期一

浏览人次:【13765】


AI正以前所未有的速度发展,驱使对更强大且高效资料中心的需求日益迫切。 为因应此趋势,各国和企业正加速投入对AI基础设施的投资。 据Forbes报导,2025年科技巨头在AI方面的支出将超过 2500亿美元,其中大部分将用於基础设施建设。到 2029 年,全球对AI基础设施(包括资料中心、网路和硬体)的投资将达到 4230 亿美元。


然而,AI的快速创新也为资料中心网路带来前所未有的压力。例如,Meta最近关於 Llama 3 405B 模型训练丛集的论文显示,在预训练阶段该丛集需要超过700 TB 的记忆体和16,000个NVIDIA H100 GPUs。根据Epoch AI 估算, 2030 年AI模型所需的运算能力将是目前领先模型的1 万倍。


拥有资料中心的企业,进行AI部署只是时间问题。本文将探讨扩展AI丛集的关键挑战,并揭示为何 「网路是新的瓶颈」。


AI丛集的崛起

AI丛集是一种大型、高度互连的运算资源网路,用於处理AI工作负载。


不同於传统的运算丛集,AI丛集针对AI模型训练、推论和即时分析等任务进行最隹化。它们依靠数千个 GPU、高速互连技术和低延迟网路的支援,以满足AI对密集运算和资料输送量的需求。


建构AI丛集

AI丛集的核心功能如同一个小型网路。建构AI丛集需要将多个GPU 相互连接,以形成高效能运算网路,让资料在 GPU 之间无缝传输。由於分散式训练仰赖於数千个GPU长时间的协调运作,因此强大的网路连接至关重要。


AI丛集的关键组件

AI丛集由多个重要组件组成,如图一所示。



图一 :  AI资料中心丛集
图一 : AI资料中心丛集
  • · 运算节点:作为AI丛集的大脑,数千个GPU连接到机架顶部的交换机。随着问题复杂度提升,所需的GPU数量也随之增加。


  • · 高速互连:如乙太网路,可实现运算节点间的快速资料传输。


  • · 网路基础设施:包括网路硬体和协定,支援数千个 GPU 间的长时间资料通讯。



扩展AI丛集

为满足日益增长的AI工作负载和复杂性,AI丛集必须不断扩展。直到最近,网路频宽、延迟和其他因素将AI丛集限制在约30,000个GPU。然而,得益於网路和记忆体技术的进步,xAI的Colossus超级电脑专案突破了这一限制,将GPU数量扩展到超过100,000个NVIDIA H100 GPU。


扩展的关键挑战

随着AI模型增长到数兆叁数,扩展AI丛集面临众多技术和财务上的挑战。


网路挑战

GPU 可以有效地平行执行数学运算。然而,当数千甚至数十万个GPU在AI丛集中共同处理同一任务时,如果其中一个 GPU 缺乏所需数据或遇到延迟,其他 GPU就会停摆。这种由网路壅塞造成的延长封包延迟或遗失可能导致封包重传,大幅增加工作完成时间(JCT),并让价值数百万美元的GPU 处於闲置状态。


此外,AI工作负载产生的东西向流量(即资料中心内节点间的资料移动)急剧增加,如果传统网路基础设施未针对这些负载进行最隹化,可能导致网路壅塞和延迟问题。


互连挑战

随着AI丛集的扩展,传统互连可能难以满足所需的传输量。为避免瓶颈,企业必须升级到更高速的互连,如800G甚至1.6T解决方案。然而,要部署和验证此类高速链路并非易事,尤其是要符合AI工作负载的严苛要求。高速序列通道必须经过精密的调校和测试,以达到最隹的信号完整性、较低的误码率和可靠的前向误差修正(FEC)效能。高速序列通道的任何不稳定性都可能影响可靠性并拖慢AI训练速度。因此,企业需要高精度、高效率的测试系统,以便在部署前验证它们。


财务挑战

扩展AI丛集的总成本远不止於 GPU 的采购费用。企业还须考虑电力、冷却系统、网路设备和更广泛的资料中心基础设施。然而,通过更好的互连和最隹化的网路效能来加速AI工作负载,可以缩短训练周期,并释放资源投入其他任务。每节省一天的训练时间,就能大幅降低成本,使财务风险与技术风险一样高。


验证挑战

要最隹化AI丛集的网路效能,必须针对网路架构和 GPU 之间的互连进行测试与效能评估。然而,由於硬体、架构设计和动态工作负载特性间的关系错综复杂,验证这些组件和系统极具挑战性。以下是三个常见的验证难题:


No 1.实验室部署限制


由於AI硬体成本高昂、设备可用性有限,且需要专业的网路工程师,全面复制并不实际。此外,实验室环境与真实世界资料中心的条件不同,通常有空间、电力和散热方面的限制。


No 2.对生产系统的影响


在生产系统上进行测试可能会造成干扰,并可能影响关键的AI操作。


No 3.复杂的AI工作负载


AI工作负载和资料集的多样性在规模和通讯模式上也有显着差异使问题重现和一致性基准测试变得困难。


随着AI重塑资料中心的格局,未来网路基础设施的规划对於因应快速发展的技术和标准至关重要。是德科技先进模拟解决方案提供关键优势,能在部署前对网路协定和操作情境进行全面验证。探索我们如何为网路工程师在处理AI工作负载复杂性和最隹化网路效能方面提供支援确保可扩展性、效率,以及面对AI需求的即战力。


本文由是德科技(Keysight Technologies)提供


如需更深入探讨此主题,欢迎叁阅白皮书《提升AI资料中心丛集的可扩展性》


相关文章
让IEEE 1588交换器设计变得简单
高柏科技:以创新散热方案 应对AI时代的高性能运算挑战
[Computex] Nordic引领IoT产业迈向高效、互通、安全的全新阶段
Micro LED高成本难题未解 Aledia奈米线技术能否开创新局!?
推进负碳经济 碳捕捉与封存技术
相关讨论
  相关新闻
» 杜邦计画分拆电子业务独立公司Qnity品牌识别
» 人算不如天算? 陆成功发射全球首批AI算力星座卫星
» 微型医疗机器人技术突破 内建视觉回??实现亚微米级精准操控
» 美国ABS与韩国釜山大学结盟 发展液态氢运输船技术
» 杜邦强化光学矽胶材料技术能力 扩大在台实验室


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 远播信息股份有限公司版权所有 Powered by O3  v3.20.2048.216.73.216.68
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw