AI正以前所未有的速度发展,驱使对更强大且高效资料中心的需求日益迫切。 为因应此趋势,各国和企业正加速投入对AI基础设施的投资。 据Forbes报导,2025年科技巨头在AI方面的支出将超过 2500亿美元,其中大部分将用於基础设施建设。到 2029 年,全球对AI基础设施(包括资料中心、网路和硬体)的投资将达到 4230 亿美元。
然而,AI的快速创新也为资料中心网路带来前所未有的压力。例如,Meta最近关於 Llama 3 405B 模型训练丛集的论文显示,在预训练阶段该丛集需要超过700 TB 的记忆体和16,000个NVIDIA H100 GPUs。根据Epoch AI 估算, 2030 年AI模型所需的运算能力将是目前领先模型的1 万倍。
拥有资料中心的企业,进行AI部署只是时间问题。本文将探讨扩展AI丛集的关键挑战,并揭示为何 「网路是新的瓶颈」。
AI丛集的崛起
AI丛集是一种大型、高度互连的运算资源网路,用於处理AI工作负载。
不同於传统的运算丛集,AI丛集针对AI模型训练、推论和即时分析等任务进行最隹化。它们依靠数千个 GPU、高速互连技术和低延迟网路的支援,以满足AI对密集运算和资料输送量的需求。
建构AI丛集
AI丛集的核心功能如同一个小型网路。建构AI丛集需要将多个GPU 相互连接,以形成高效能运算网路,让资料在 GPU 之间无缝传输。由於分散式训练仰赖於数千个GPU长时间的协调运作,因此强大的网路连接至关重要。
AI丛集的关键组件
AI丛集由多个重要组件组成,如图一所示。
- · 运算节点:作为AI丛集的大脑,数千个GPU连接到机架顶部的交换机。随着问题复杂度提升,所需的GPU数量也随之增加。
- · 高速互连:如乙太网路,可实现运算节点间的快速资料传输。
- · 网路基础设施:包括网路硬体和协定,支援数千个 GPU 间的长时间资料通讯。
扩展AI丛集
为满足日益增长的AI工作负载和复杂性,AI丛集必须不断扩展。直到最近,网路频宽、延迟和其他因素将AI丛集限制在约30,000个GPU。然而,得益於网路和记忆体技术的进步,xAI的Colossus超级电脑专案突破了这一限制,将GPU数量扩展到超过100,000个NVIDIA H100 GPU。
扩展的关键挑战
随着AI模型增长到数兆叁数,扩展AI丛集面临众多技术和财务上的挑战。
网路挑战
GPU 可以有效地平行执行数学运算。然而,当数千甚至数十万个GPU在AI丛集中共同处理同一任务时,如果其中一个 GPU 缺乏所需数据或遇到延迟,其他 GPU就会停摆。这种由网路壅塞造成的延长封包延迟或遗失可能导致封包重传,大幅增加工作完成时间(JCT),并让价值数百万美元的GPU 处於闲置状态。
此外,AI工作负载产生的东西向流量(即资料中心内节点间的资料移动)急剧增加,如果传统网路基础设施未针对这些负载进行最隹化,可能导致网路壅塞和延迟问题。
互连挑战
随着AI丛集的扩展,传统互连可能难以满足所需的传输量。为避免瓶颈,企业必须升级到更高速的互连,如800G甚至1.6T解决方案。然而,要部署和验证此类高速链路并非易事,尤其是要符合AI工作负载的严苛要求。高速序列通道必须经过精密的调校和测试,以达到最隹的信号完整性、较低的误码率和可靠的前向误差修正(FEC)效能。高速序列通道的任何不稳定性都可能影响可靠性并拖慢AI训练速度。因此,企业需要高精度、高效率的测试系统,以便在部署前验证它们。
财务挑战
扩展AI丛集的总成本远不止於 GPU 的采购费用。企业还须考虑电力、冷却系统、网路设备和更广泛的资料中心基础设施。然而,通过更好的互连和最隹化的网路效能来加速AI工作负载,可以缩短训练周期,并释放资源投入其他任务。每节省一天的训练时间,就能大幅降低成本,使财务风险与技术风险一样高。
验证挑战
要最隹化AI丛集的网路效能,必须针对网路架构和 GPU 之间的互连进行测试与效能评估。然而,由於硬体、架构设计和动态工作负载特性间的关系错综复杂,验证这些组件和系统极具挑战性。以下是三个常见的验证难题:
No 1.实验室部署限制
由於AI硬体成本高昂、设备可用性有限,且需要专业的网路工程师,全面复制并不实际。此外,实验室环境与真实世界资料中心的条件不同,通常有空间、电力和散热方面的限制。
No 2.对生产系统的影响
在生产系统上进行测试可能会造成干扰,并可能影响关键的AI操作。
No 3.复杂的AI工作负载
AI工作负载和资料集的多样性在规模和通讯模式上也有显着差异使问题重现和一致性基准测试变得困难。
随着AI重塑资料中心的格局,未来网路基础设施的规划对於因应快速发展的技术和标准至关重要。是德科技先进模拟解决方案提供关键优势,能在部署前对网路协定和操作情境进行全面验证。探索我们如何为网路工程师在处理AI工作负载复杂性和最隹化网路效能方面提供支援确保可扩展性、效率,以及面对AI需求的即战力。
本文由是德科技(Keysight Technologies)提供
如需更深入探讨此主题,欢迎叁阅白皮书《提升AI资料中心丛集的可扩展性》