“东数西算”两周年沿革:立体协同推动AI大发展

  进入数据井喷时代,尤其是在AI大模型涌动下,如何高效、绿色地应用全国算力资源正成为当前阶段算力产业发展的重要话题之一。

  2022年2月“东数西算”工程正式启动。至今随着各部门持续推进对算力协同、算力租赁等一体化调度方面的完善工作,以“东数西算”为代表的跨区域数据流动和应用正加速渗透到各类场景中。

  百度智能云混合云总经理杜海对21世纪经济报道记者提到,“东数西算”工程在全国层面对算网相关基础设施,如数据中心间的跨地域和跨网络交互、算力统筹和智能调度等,通过系统化统筹实现相关能力提升。

  “基于这一逻辑,未来将形成云-边-端一体的完整混合架构。”他续称,“在我看来,‘东数西算’工程是数据从产生到处理、计算,再到生成对应模型、反馈结果,进而对用户侧分发,这一整套路径的核心基础设施环节,尤其是枢纽网络环节,正式打通了。”

  当然,考虑到跨区域协同间必然产生延迟和一定损耗,“东数西算”的应用场景受限于一定技术进展和实际需求。产业链厂商也在推动技术层面优化,来持续满足更多边缘侧推理应用的涌现。

图片来源:IC photo

  从建设到调度

  2022年初,国家发改委联合四部委正式批复同意在国内8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。自此,我国一体化大数据中心体系完成总体布局设计。

  记者发现,在“东数西算”工程正式推出前后,国内包括云服务商、超算中心、通信运营商在内的多个产业链角色,已经在围绕西部区域或一线城市周边,逐渐建设相关数据中心或智算中心并推动应用落地。

  一体化建设两年至今,国家和地方在政策层面也在持续加码,推动算网跨区域联动、算力租赁等多维度的能力协同。

  2023年12月,国家发改委等五部门联合发布了《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,其中提出统筹通用算力、智能算力、超级算力的一体化布局、统筹东中西部算力的一体化协同等主要任务。

  赛迪顾问指出,加快推进全国一体化算力网建设,令中国“东数西算”从“建设”逐步进入“调度”阶段。该机构统计显示,2023年我国数据中心规模超过800万架,在全球数据中心整体规模占比17.5%,两年复合增长率达26.7%。

  不过当前,以生成式大模型为代表的前沿技术竞速,凸显出我国仍面临算力资源还需逐渐完善的现状。

  赛迪智库今年初测算,2023年中国智能算力需求达到123.6EFLOPS,但智能算力供给规模仅为57.9EFLOPS,仅是智算需求的46.8%;同时,2023年东部地区算力需求占全国总需求的83.5%,然而这些地区的算力供给仅占全国算力供给的68.2%。随着东部地区政策对土地、碳排放等要求更加严格,算力中心建设重心正向西部偏移,短期内东部地区算力缺口仍然存在。

  应用演进

  “东数西算”的持续完善,旨在一定程度缓解这一现状。

  不过由于数据在“东部”产生,而运算则在“西部”,过程中存在明显的跨区域流动,因此有庞大计算需求,但对传输时延要求不高的场景,是当前“东数西算”的主要应用落脚。

  赛迪顾问人工智能与大数据产业研究中心高级分析师姚学超对21世纪经济报道记者分析,离线分析、存储灾备、视觉渲染、模型训练等对数据计算和调用时延不敏感的业务场景更适合“东数西算”。

  “举例来说,大模型训练时间周期长、训练数据体量大,需要更多相对低成本、高性能的算力资源。‘东数西算’可以有效支撑大模型训练和发展,帮助参数快速增长并长时间持续训练的大模型节省算力成本,同时也能通过网络传输及时返回大模型训练的结果。”他续称。

  IDC中国副总裁周震刚对21世纪经济报道记者分析,“东数西算”主要适用于需要处理大量数据和进行高强度计算的任务。如大数据分析、云计算、人工智能和机器学习等。“尤其训练,需要大规模并行计算和数据中心内部的高性能网络。对跨区域跨站点网络传输是一次性需求,比较适合这种模式。”

  当然,当前AI大模型的发展重点正从训练转向推理,有越来越多的边缘端侧设备逐渐被赋予一定大模型能力。行业观点还认为,今年下半年有望迎来AI PC的快速换机,这也将加速对端侧硬件推理能力的需求。

  但端侧受限于硬件的整体尺寸规模,其计算能力和存储相关配置极容易面临硬件上限,如何配置边缘算力、协同云端和边缘端也是重要命题。

  姚学超认为,“东数西算”工程统筹通用算力、智能算力、超级算力以及边缘算力一体化布局,同时算力泛在分布和算网协同发展成为必然趋势,这将推动更多的算力延伸到业务运行现场和智能终端设备。

  周震刚对21世纪经济报道记者分析,“东数西算”规划只涉及数据中心,因此仅限于云侧计算的资源调配。然而,随着端侧AI的计算需求日益增长,边缘端推理的使用可以解决一部分数据中心端的算力缺口,把它们放在端侧处理,但还需要解决一定关键问题,如数据传输延迟、边缘设备的计算和存储能力限制等。未来,如果能够实现云边协同,将有望更好地满足边缘端的计算需求。

  多路融合

  在前述去年末发布的文件中,还提到“东数东算”“西数西算”与“东数西算”三者协同,业界认为,这将共同构成面向实际业务场景的完整算力服务体系。

  杜海对记者表示,相比之下“东数东算”大众较为熟悉,是让数据在本地产生、本地处理;“西数西算”方面,更多是要结合西部的现有场景发展。

  他指出,西部相关应用场景,较大程度是与能源相关,考虑到西部多个区域能源资源丰富,如何对应开展数字化、智能化转型,尤其在绿能供应尚不稳定的背景下,如何确保绿电与骨干电网之间,形成“削峰填谷”的较好协同,都需要通过算力体系进行能力支持。“结合当地实际电能产生和当地消耗场景做分布式调度,实现能源智能化应用,是我们目前看到在西部区域有较大数据产生和处理调度需求的场景。”

  此外,自动驾驶场景也有一定需求。杜海对记者分析,自动驾驶在算力需求方面主要分为前后两个发展阶段,在前期的试点、验证阶段,对数据采集、高精地图绘制等有诸多诉求,这时西部区域由于地域广阔,在安全性要求方面有较好的政策指引前提下,可以更适合完善相关数据积累。后期则根据汽车销售情况在各地有针对性算力诉求。

  姚学超对21世纪经济报道记者分析,“西数西算”关键是要激发西部地区数字经济的发展活力,西部地区要加快推动政企市场更多的应用软件、系统平台、工业设备、IT基础设施等上云上平台;同时,要拓展大数据、人工智能、工业互联网等数字技术的应用场景,通过更多业务场景“上云用数”带动提升本地算力中心的利用率。

  从技术方面,对于这种跨越区域之间能力联动存在的掣肘。产业界都在努力应对。

  周震刚对21世纪经济报道记者表示,“东数西算”推进过程中,减少算力传输损耗和将适合的算力资源匹配到相应场景是两个重要命题。目前,这些难题在一定程度得到了解决。例如通过优化网络基础设施、提升数据传输效率等方式可以减少算力传输损耗;同时,通过智能化的算力调度系统可以将算力资源精准地匹配到各个应用场景中。然而,仍然待解决的难题,包括进一步提升数据传输效率、优化算力调度算法等。

  姚学超对21世纪经济报道记者指出,“东数西算”涉及大规模数据跨区域交互、承载不同类型的业务应用,亟需进一步降低东西部数据传输成本、扩大网络带宽、提升算力调度水平;同时西部的算力中心要进一步提升算力服务的品质、性能、成本优势等,吸引更多“东数”向算力资源丰富的西部地区流动和集聚。