白皮书白皮书: 面向ai智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 1 /19页面向 ai 智算数据中心网络架构与连接技术的发展路线展望白皮书 白皮书白皮书: 面向ai智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 2 /19页1 aigc 及智算网络简述...............................................................................................................3 1.1 aigc 市场前景................................................................................................................... 31.2 ai 网络架构对于 aigc 应用发展的重要性 ...................................................................... 31.3 传统云计算数据中心网络架构 ........................................................................................ 41.4 智算中心网络架构 ............................................................................................................ 51.5 ai网络架构所能容纳的最多gpu数量............................................................................ 51.6 ai计算网络中对于gpu与cpu的权衡........................................................................... 62 ai智算网络两大主流架构介绍及差异......................................................................................72.1 infiniband网络架构......................................................................................................... 72.1.1 infiniband 网络流控机制.............................................................................................72.1.2 infiniband 网络特点:链路级流控与自适应路由..........................................................82.2 rocev2网络架构.............................................................................................................. 82.2.1 rocev2网络流控机制...................................................................................................82.2.2 rocev2 网络特点:强大兼容性与成本优化...................................................................92.3 infiniband与rocev2的技术差异................................................................................... 93 ai智算网络800g/1.6t主流传输方案......................................................................................93.1 800g主流传输方案与1.6t传输方案展望.......................................................................93.2 实际应用环境对传输带宽的影响 .................................................................................. 103.3 单模传输创新j9九游会登录入口首页新版的解决方案:基于ebo(expanded beam optical)的扩束技术.......... 113.4 室外超大芯数传输安全可靠j9九游会登录入口首页新版的解决方案:预端接技术 ................................................... 134 ai智算网络降耗增效j9九游会登录入口首页新版的解决方案................................................................................................154.1 创新光模块lpo与其他光模块的技术差异.................................................................. 164.2 应对ai数据中心高能耗高热量的问题——液冷j9九游会登录入口首页新版的解决方案.......................................... 164.2.1 罗森伯格液冷j9九游会登录入口首页新版的解决方案——灵活安装的配线架....................................................... 174.2.2 罗森伯格液冷j9九游会登录入口首页新版的解决方案——半浸没式 rj45 跳线...................................................... 174.2.3 罗森伯格液冷j9九游会登录入口首页新版的解决方案——即插即拔防水连接器................................................... 185 结语............................................................................................................................................19参考文献.......................................................................................................................................19目 录 白皮书白皮书: 面向ai智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 3 /19页1 aigc 及智算网络简述 2024 年以来,全球 ai 市场热度不衰。open ai 旗下 sora 的发布,再次拔高了 ai 内容创作的上限。同时,国内人工智能领域也迎来了新的焦点——kimi,这款 ai 大模型产品凭着高达 200 万字的上下文窗口技术,将国产 ai 大模型“卷”出了新高度。业界普遍预测,2024 年将成为 ai 大模型应用的爆发之年。 1.1 aigc 市场前景idc 的数据显示,全球企业对生成式人工智能(下文简称:“aigc”)j9九游会登录入口首页新版的解决方案的投资热情不断上升,预计到 2024 年投资额将达到 200 亿美元,而到 2027 年,这一数字预计将激增至超过 1400 亿美元。这一趋势不仅凸显了 aigc 技术的商业潜力,也预示着 ai 将引领一个创新与增长的新时代。在这样的背景下,aigc 的未来增长需要坚实的支撑——而 ai 网络架构正是这一增长的“骨骼”,它正逐渐成为推动 ai 发展的关键力量。 1.2 ai 网络架构对于 aigc 应用发展的重要性 ai网络架构的重要性在aigc应用的发展中显得尤为突出。在aigc工具方面,厂商正通过深度技术投资,挖掘大量数据并提升算力,使得这些工具从基础应用转变为强大的生产力工具。而在ai社交领域,大模型的发展重点在于融合ai技术与用户互动,创造富有情感和温度的互动体验,旨在重塑用户体验并探索新的商业模式。其中,自主研发能力和丰富的训练数据成为了打造有竞争力产品的关键。我们不难发现,这两个赛道的发展都依赖高效、可靠的网络架构,以支持ai大规模训练集群的算力和显存需求。 白皮书白皮书: 面向ai智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 4 /19页llm(大规模语言模型)进化树(来源:harnessing the power of llms in practice: a survey on chatgpt and beyond)传统云数据中心与 ai 智算中心网络架构对比图 1.3 传统云计算数据中心网络架构 传统的云数据中心网络架构较为成熟,但存在着诸多痛点,导致其无法完美适配 ai 网络架构需求。实际上,传统的云数据中心网络的设计基于对外提供服务的流量模型,以南北向流量为主导,云内部东西向流量作辅。承载智算业务时,传统云计算数据中心面临着如下挑战: 带宽收敛比较高:leaf 交换机上下联带宽收敛比设计,导致上下联带宽比约为 1:3; 互访高时延:云内部服务器间互访都需经过 spine 交换机,增加转发路径,提高时延; 网卡带宽低:单台物理机通常只有一张网卡,带宽不超过 200gbps,限制了整体带宽。 这些问题共同影响了智算业务的高效运行,需要通过构建新的网络架构来应对需求。 白皮书白皮书: 面向ai智算数据中心网络架构与连接技术的发展路线展望 作者: 万雨声,孙慧永,张德胜,何雯思,于素景,鉏丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第 5 /19页ai 网络架构图(来源:锐捷)1.5 ai 网络架构所能容纳的最多 gpu 数量 ai 网络的性能和扩展性与其网络架构和交换机端口密度紧密相关,随着网络层次的增加,可接入的 gpu 卡数量也随之增长。在胖树网络架构中,例如端口数为 p 的交换机最多可连接 p/2 台服务器和其他交换机,其最大容量可达 p²/2 张 gpu 卡。在更复杂的三层网络架构中,通过增加汇聚和核心交换机组,网络容量可以进一步扩展至 p³/4 张 gpu 卡。随着技术的进步,市场上已经出现了能够支持高达 524k 张 gpu 卡的网络j9九游会登录入口首页新版的解决方案,这展示了 ai 网络架构在扩展性和性能上的巨大潜力。1.4 智算中心网络架构 ai 智算网络采用 fat-tree(胖树)架构,有效解决了传统云数据网络面临的挑战。这种架构通过 1:1 的无收敛配置,确保了网络的高性能和无阻塞传输。其次,为了降低时延,网络设计将 8 台交换机构成一个资源池,池内节点单跳通信,而跨集群通信则通过汇聚交换机,最多实现三跳传输,从而优化数据传输效率。 此外,网络采用 rdma 技术,绕过操作系统