算力网络原创技术与nicc新型智算中心技术体系中国移动 段晓东2023.9 中国移动算力网络发展历程回顾 算力网络发展主线主线三面向创新技术引领主线一面向算网基础设施构建主线二面向业务融合创新物理空间、逻辑空间、异构空间、多主体算力融通“4 n 31 x”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈srv6/g-srv6打造统一算网底座实现算网高效协同,支持chbn业务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑实现创新技术引领,打造原创技术策源地三横两纵体系架构提出十大技术发展方向三十二个核心技术体系 继往开来,成功迈入算力网络新阶段起步:泛在协同发展:融合统一跨越:一体内生协同编排网随算动智慧内生算网一体一站服务、协同运营融合服务、统一运营一体服务,模式创新 十四五阶段十五五阶段及更长期2021-2023 2024-20252025~算网融合智能编排 构筑算力网络发展源动力,开创算网一体原创技术体系广域rdma突破广域传输性能瓶颈空芯光纤新型光纤介质与系统在网计算打破算网边界全调度以太突破无损以太性能瓶颈算力度量打破单维算力指标移动算力5g、6g新增计算面算力路由突破互联网架构协议存算一体突破冯氏架构算力原生实现应用跨架构迁移400g/800g超高速大容量全光网络g-srv6统一ip承载协议算力卸载多算力形态统一底座算力并网实现算力供给侧改革新一代sd-wanunder与overlay协同算力解构应用模块化解构部署算力智能内生计算要素创智能服务空天地一体突破异构算网融合隐私计算安全数据分析计算应用感知应用类型识别otn光电联动新型全光网架构全光接入新型接入网架构云原生敏捷高效体系总线互联卡间高速通信50g pon fttr新型接入网架构原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、g-srv6 聚力“高、广、深”,实现新发展提升高度拓展广度挖掘深度算为中心①打造算力供给高峰网为根基②实现深度融合统一多要素融合③开创一体化服务④模式以算为中心①、网为根基②,网、云、数、智、安、边、端、链等深度融合③、提供一体化服务④的新型信息基础设施 打造智能算力新高峰——nicc新型智算中心以高性能gpu、ai加速卡为中心,以高速互联智算集群为目标,形成集约化建设的e级超大规模算力基础设施,具备软硬件ai全栈环境,支撑ai大模型的高效训练和推理 新型智算中心新算效新互联新存储新平台新节能 1、新型智算中心是对传统云数据中心的飞跃异构时期(~2021)pcie 扣卡模组单机柜40kw,冷板式液冷25g传统以太海量非结构化数据,融合存储单机8卡高速互联算力池化,分布式训练独立存储裸机/虚机/容器风冷集群时期(~2025)存算一体冷板/浸没式液冷内存池化百卡高速总线互联算力原生超级池化时期(2025~)中小模型中大模型(百亿-千亿)大模型(千亿-万亿) dpu高性能无损网络nicc新型智算中心传统云数据中心gse平台存储节能算效互联 2、nicc新型智算中心的架构基础设施智算平台rocmcudacanntesnsorflowpytorchpaddlepaddledeepspeed文件对象块存储计算cpugpu液冷高效供电机房配套冷却水系统应用使能......跨架构编译器算力抽象运行时算力原生智算运维裸金属实例虚拟机实例容器实例dpu 高速互联计算总线内存池融合存储全局统一存储hypervisor ai开发框架智算运营跨节点分布式训练调度编排调度计量计费算力交易用户界面运营管理模块开发管理交付管理运维管理模块虚机容器iaas管理模块裸机存储网络网络rocegse平台存储互联节能算效cim 3-1、nicc新互联——高速互联计算总线 千亿模型:高通信需求(张量并行)集中8卡之间万亿模型:高通信需求(moe并行)集中在百卡之间0123456701234567...sever nsever 1...0123456701234567super sever(s2)架构模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间012345...n一组有n张gpu/ai卡计算总线总线 switch总线 switch总线 switch总线 switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接基于高速计算总线的s²的架构 3-1、nicc新互联——高性能新以太互联网络专用网络、超高性能、成本昂贵•infiniband生态开放、性能有限、性价比高•传统无损以太传统:网络性能和成本无法兼得以开放破垄断以创新提性能未来:突破以太技术、升级高速互联流级ecmp被动拥塞控制独立转发决策基础转发机制导致ai场景性能受限创新全调度以太网(gse),革新以太网底层转发机制,增强物理层、链路层、网络层、传输层协议能力,全面提升网络性能盲发 被动拥塞控制“局部”决策转发逐流分发感知 主动流量控制“全局”最优调度逐“报文容器”分发分发粒度发流模式转发策略as-isto-be 3-1、全调度以太网组网场景gse协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案场景一:仅网侧运行gse,网卡不感知场景二:部分功能下沉网卡,实现端网协同gsf...gsfgsp...leaf网卡网卡网卡计算卡计算卡计算卡gsp网卡网卡网卡计算卡计算卡计算卡spinegsf...gsfgsp...leaf网卡网卡网卡计算卡计算卡计算卡gsfgspgspgsp计算卡计算卡计算卡spine网卡•gsp和gsf角色均由网络设备担任,执行gse头解封装、多路径分发、端到端授权应答及报文排序•传统roce网卡,对网卡无额外要求ø源gsp、gsf由网络设备担任,执行gse头解封装、多路径分发等功能ø网卡承担部分gsp角色,负责授权应答及报文排序 3-1、gse原型机系统特性产品规格:•当前32*100g(业务口 互联口),盒式设备、1u•采用p4 fpga芯片实现•可同时兼做gsp和gsf硬件设备,软件灵活切换 功能特性:•支持基于报文容器的全路径“喷洒”•支持端到端dgsq请求及授权•支持报文乱序重排•报文容器长度支持16kb 性能特性:•相较于roce网络,allreduce及alltoall场景jct时间可缩短2-3倍 3-1、全调度以太网(gse)工作进展及计划联合产业发布《全调度以太网(gse)技术架构》白皮书中国算力大会正式启动全调度以太网(gse)推进计划中国网络大会发布业界首款gse原型系统在ccsa成功立项《全调度以太网总体技术要求》期待更多产学研j9九游会登录入口首页新版的合作伙伴加入gse推进计划,携手共建新型智算中心网络产业生态!2023.62023.82023.92023.5 3-2、nicc新存储——内存池化传统:hbm和ddr分立未来:hbm和ddr池化•数据多次复制,延迟高,影响模型训练效率•ai模型开发复杂,需要手动管理数据搬移cpugpuddrhbmcpugpu统一内存池cpugpugpugpugpugpuddrhbmddrhbm•数据无需多次搬运,gpu可快速访问巨量共享内存•提供统一寻址空间,ai软件模型开发简化 3-3、nicc新算效——升级计算架构gpu、cpu、dpu三大芯片协同下一代gpu芯片设计性能瓶颈显存带宽和容量的制约数据搬移的功耗激增演进路线①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计三大芯片协同提升算效迎接更加爆炸式的数据处理需求存算一体,突破传统计算范式突破冯·诺依曼架构达到能效比数量级提升•面向大模型推理场景•基于sram,中大算力,100tops •无限擦写,数模混合,精度拼接•gpu dpu,参数面网卡升级,进一步满足可编程拥塞控制及大qp数量等前沿需求•gpu dpu cpu,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程cpugpudpu 3-4、nicc新平台 —— 引入算力原生• 跨架构综合编译器实现图算融合的跨架构综合编译、多级ir互转优化,生成中间元语格式的算力原生程序• 原生程序格式规范全系统共识的“中间元语”。host侧、device侧指令元语及执行策略的一体承载• 原生运行时实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行一次开发、一次封装、跨芯迁移算力原生层跨架构流转的原生程序原生运行时 编程模型转换、编译、优化程序加载动态链接oneapicudaneuwarerocm......cann硬件层应用层框架层工具链pytorch......√ √ √ 3-5、nicc新节能——标准化大规模液冷技术tdp(w)2016~20192020~20212022~cpugpu150-250250-300300-400250400500挑战1:单一ai服务器功耗超过10kw700300w挑战2:单机柜功耗超过40kw通用服务器ai服务器5-10kw/架30-60kw/架kw/架15kw/架单机架功率举措:制定五大统一标准,实现三“极”目标液冷机柜冷却塔冷水机组cdu二次侧供水二次侧回水一次侧回水一次侧供水①机柜尺寸标准②液冷接口标准③液冷工质要求④供电系统标准⑤监控管理要求五大统一•极致能效 pue≤1.15•极高密度 单机柜功耗>40kw•极简运维 兼容传统机房三“极”目标12354 产业倡议明确智算技术架构,完善计算、存储、网络、平台关键技术方案,形成开放统一的技术标准体系发挥产业链链长作用,依托协同创新基地,联动产业成立智算编队,建立研采投等产业协同机制依托科学装置进行大模型培育,带动国产化成熟,开展科研类验证,打造标杆应用依托算力网络试验网cfiti,打造新型智算样板间,验证新型智算技术,推动技术成熟与规模建设 技术标准 编队作战 创新试验 科学装置 谢谢莅临!