ii 01|“人工智能 ”时代公共云发展模式与路径研究 前言 新一代人工智能技术正步入跨越式发展新阶段,成为引领现代产业变革的核心力量,大力发展通用人工智能已经成为全球潮流。2024年我国政府工作报告中提出“开展‘人工智能 ’行动,打造具有国际竞争力的数字产业集群”,既顺应全球人工智能发展趋势,也反映了未来中国产业升级的现实需求,开启了人工智能技术在各行各业广泛应用的新篇章。 随着人工智能技术和应用创新不断加速,模型复杂度和数据量急剧增加,对包括算力在内的新型基础设施建设提出了新需求和新要求。实践层面看,目前我国算力资源在规模和使用成本等方面仍然不能满足人工智能的规模化应用和快速迭代创新的需要,建立适应“人工智能 ”时代的高质量算力服务体系迫在眉睫。 公共云是破解我国“人工智能 ”时代算力“供不上、用不起”瓶颈问题的重要抓手。公共云具有大规模集群管理能力,能以资源利用效率最大化的方式,帮助提升我国算力供给能力,并通过规模经济效应推动算力门槛降低,让更多的用户享受普适普惠的算力服务。公共云和人工智能相结合还将推动“云计算”走向“云智算”,云计算不再局限于it计算本身,而是提供包括算力、模型、数据、生态等与智能化发展相关的全方位创新服务,从而促进“人工智能 ”切实落地,引领新质生产力不断发展。 本报告阐述了公共云的概念内涵及其对未来经济社会发展的重要意义,在分析我国公共云当前发展态势与面临问题的基础上,提出了“人工智能 ”时代公共云发展的典型模式、模式要求、技术服务架构和健康长效发展路径,以期为相关从业者提供指导和参考。 01|公共云概述 02|“人工智能 ”时代公共云发展模式与路径研究 01|公共云概述 03|“人工智能 ”时代公共云发展模式与路径研究 (一)公共云的概念与内涵 公共云是指面向公众提供的云计算资源,其本质是将云计算资源规模化、大范围进行共享,聚合各类算力并通过在线的模式为各类用户提供简单易用、且近乎无限扩展的计算服务。 在传统的用户单位自建数据中心模式下,需要大量人力物力投入来建设基础设施、系统、中间件服务等,支出庞大且维护复杂。区别于私有云、公有云的“有”,公共云强调的则是“用”,重视使用权,是以需求为导向以应用为目的的一种公共服务模式。公共云模式下,用户单位无需过多关注上述技术细节,通过按需使用公共云服务商所提供的计算、存储、网络等开放资源,能够大大减轻it成本,并转而投入更多的精力聚焦业务持续创新。 公共云是云计算发展的初心和核心价值所在。随着互联网技术的发展和虚拟化技术的成熟,云计算应运而生。云计算的核心理念是将计算资源集中起来,并通过互联网按需提供给用户;其核心价值和优势体现在资源共享、按需使用、灵活性和可扩展性。从实践层面看,全球公共云巨头亚马逊最早推出云计算服务aws(amazon web services),企业和个人只需通过互联网就能按需获取计算和存储服务。aws自成立的第一天起,就肩负着以公共云对外提供云计算服务的使命。贝索斯曾这样描述aws的愿景——“学生在宿舍里就能使用与世界上最大的公司一样的基础设施”。 面向未来看,人工智能特别是深度学习等技术的发展,对算力提出了更高要求,推动“云计算”走向“云智算”。人工智能的发展与公共云密不可分,公共云不仅支撑了人工智能大模型的突破,未来大模型也将以云的方式提供服务。“人工智能 ”时代,从模型预训练到模型部署和推理应用,算力的需求呈指数级增长,公共云将成为破解算力资源紧张、算力成本昂贵的关键抓手。 01|公共云概述 04|“人工智能 ”时代公共云发展模式与路径研究 (二)公共云有效支撑经济社会数智化发展 “人工智能 ”上升为国家战略行动,人工智能从推动各行业提质增效的技术手段,升级为支撑经济社会数智化转型升级不可或缺的基础设施和核心能力。我国持续加强顶层设计,加快形成以人工智能为引擎的新质生产力。 随着人工智能应用和产业发展进入加速期,公共云成为推动全球经济增长和提升社会发展质量的关键驱动力。通过提供可扩展、灵活且经济实惠的计算资源,公共云成为连接不同行业、不同规模企业协同创新的桥梁,为各行各业提供了转型升级的新机遇,能够助推创新能力的整体提升,促进经济多元化、可持续发展。 01|公共云概述 05|“人工智能 ”时代公共云发展模式与路径研究 1、推进技术、应用和模式创新 公共云降低了使用和试验新技术的门槛。公共云通过提供按需访问的计算资源、存储和广泛的服务,显著降低了开发者和企业创新研发的门槛,使个人开发者和中小型创业公司能够利用先进的技术栈进行产品实验和原型设计。如saas(software as a service,软件即服务)允许个人和企业以订阅的方式访问最新的软件和工具,以较低的试错成本快速验证新设计的可行性,加速了技术创新和业务模式的演进。随着近年来人工智能等新技术的迅速发展,公共云的定位也在不断演变,不再仅仅是一种普惠、灵活的基础资源,还是个人和企业获取新技术新能力的重要渠道。 图 1 公共云助力构建创新生态 公共云提供了协同、开放发展的创新生态服务体系。公共云支持数据和应用程序的集中存储,通过提供丰富的api、开发工具和集成服务等,为开发者构建和部署新的应用程序提供了创新平台,促进了企业、开发者和各类研究机构间协作,推动了商业模式和应用场景创新。例如,亚马逊aws、微软azure、谷歌等公共云厂商通过提供虚拟化的计算资源、存储空间和各种服务,支撑了医疗健康、能源、金融科技等各领域的数据挖掘和应用创新。 01|公共云概述 06|“人工智能 ”时代公共云发展模式与路径研究 2、强力服务全行业数字化转型 公共云降低了企业数字化转型的成本。公共云服务允许企业根据计算能力、存储空间和网络带宽等实际需求快速调整多元的算力组合与服务模式,能够帮助企业、尤其是中小企业应对突发的业务量变化,减少了因资源不足而错失数字化转型机会的风险,对降低中小企业技术成本有至关重要的作用。 图 2 公共云助力数字化转型 公共云为企业提供广泛的数字化服务生态。公共云服务模式下,通过共享基础设施和资源,为广大使用者提供灵活的数据分析、应用快速开发和部署、容灾恢复等云服务,能够促进企业在业务流程优化、业务精准决策、产品质量提升、业务数据安全等方面实现数字化智能化转变,是初创数字企业贯彻数字化思维、推动中小企业跨越数字鸿沟、赋能企业节本增效、助力产业升级的战略性工具。 01|公共云概述 07|“人工智能 ”时代公共云发展模式与路径研究 3、提升云服务用能效率促进绿色发展 公共云能够有效提升能源利用效率。与分散部署的传统数据中心相比,大型公共云平台的能源需求和消耗更加集中。公共云通过集中管理和运营,实现能源监控和负载平衡,确保能源消耗与实际需求紧密匹配,减少能源浪费。公共云平台通过计算资源集约化、转移工作负载,实现了更高的能源利用率(公共云的资源利用率是企业自建机房的5-10倍1),有助于减少能源浪费,从而降低碳排放。 图 3 公共云助力绿色发展 公共云有效推动清洁能源的利用。公共云对能耗的管控水平更高,为集中利用风能、太阳能等清洁能源提供了可行载体。例如,2023年,亚马逊宣布当年已投资78个全新的太阳能和风能项目,预计到2025年,亚马逊aws、亚马逊物流中心、实体商店和公司办公室在内的所有业务运营100%使用可再生能源2;谷歌、微软等公共云服务商也在积极探索通过使用可再生能源减少环境足迹。 1 来源:为绿色低碳注入科技动能——探访阿里云张北数据中心,http://www.xinhuanet.com/techpro/20210722/21ba34f4b01a410db5c1dc94e2378a62/c.html,2021年7月22日。 2 来源:亚马逊宣布全球新增78个可再生能源项目,包括中国大庆和博白风能项目,https://www.amazonaws.cn/newsroom/2023/1115-sustainability/,2023年11月15日。 02|公共云已成为“人工智能 ”时代数智化发展的战略抉择 08|“人工智能 ”时代公共云发展模式与路径研究 02|公共云已成为“人工智能 ”时代数智化发展的战略抉择 09|“人工智能 ”时代公共云发展模式与路径研究 (一)公共云已成为支撑国际领先大模型的云服务首选 公共云为大模型训练提供万卡集群的技术能力。自openai于2022年11月发布chatgpt以来,全球大型科技企业掀起了基础大模型之战,不断升级大模型版本。当前,全球领先基础大模型的能力遵循“规模化定律”(scaling law),即模型参数、训练数据和算力规模越大,则模型效果越好。尽管公共云和专属云都可以用于训练基础大模型,但训练全球领先的基础大模型需要调度至少万张gpu高效协同工作。在此背景下,只有极少数公共云具备相应能力。例如,openai的chatgpt部署在微软azure云上,anthropic的claude和meta的llama部署在亚马逊aws云上,midjourney和google的gemini部署在谷歌云上。具体如表1所示。 表 1 全球领先基础大模型训练芯片规模及部署方式 02|公共云已成为“人工智能 ”时代数智化发展的战略抉择 10|“人工智能 ”时代公共云发展模式与路径研究 公共云为大模型应用提供“ai 云”的服务方式。智能时代云计算技术体系加速演进,从单点技术竞争升级为芯片、网络、计算、模型全体系技术综合能力的竞争。公共云巨头为新一代人工智能技术进步提供了强大支撑。以openai和微软azure的合作为例,微软提供装备了上万块英伟达h100 gpu和超过20万核cpu的超级计算系统,用于支持chatgpt大模型训练和在线服务。在公共云上部署大模型,不仅能让用户更加及时地获取到大模型的最新功能和应用,还能通过其paas层和saas层为用户提供极为丰富的工具、组件和应用,从而支撑千行百业智能化应用。截至2023年11月,已有超过18000家组织通过azure接入openai大模型服务3。 3 来源:microsoft 365 copilot set to provide a generative ai revenue boost,https://www.forbes.com/sites/robertdefrancesco/2023/12/19/microsoft-365-copilot-set-to-provide-a-generative-ai-revenue-boost/。 02|公共云已成为“人工智能 ”时代数智化发展的战略抉择 11|“人工智能 ”时代公共云发展模式与路径研究 (二)公共云已成为破解全球算力瓶颈的核心手段 公共云能够缓解人工智能发展算力紧缺问题。大模型发展带来了ai算力需求的快速上升,所消耗的计算资源每3-4个月翻一倍4,算力需求的增长速度已经远超芯片性能提升和产能扩张速度的上限。随着人工智能大模型规模化应用,支撑海量用户频繁使用所需要的推理算力成本也将急剧上升,尤其是多模态大模型对于算力的消耗将远高于文本类大语言模型。算力资源紧缺已成为制约大模型规模化应用的主要瓶颈。据估计,截至2023年8月,全球h100(英伟达主流高端gpu)的供给缺口超过43万张5。受限于封装技术及产能不足,h100订单交货周期长达36周到52周不等,即使是美国订单也无法得到保障。公共云可以多路复用,通过多租户使用同一套计算资源大池,削峰填谷,显著提升硬件资源利用率。随着公共云技术体系加速升级,ai训练、ai推理以及hpc超算等计算资源将并池管理,实现算力普惠和模型普及。 公共云能够实现我国算力供给能力的边界突破。国内大量企业自建数据中心的平均资源使用效率不到5%,而亚马逊aws、谷歌等公共云厂商的数据中心资源使用效率一般可达25%-40%6。在我国高端算力芯片进口受限的背景下,破解我国算力瓶颈的关键路径