关于东数西算,李国杰院士重磅发声
来源:中国科学报 更新时间:2022-08-02

关于东数西算,李国杰院士重磅发声
 
东数西算,这个热词喧嚣热闹了已有半年。

它首先是一项伟大工程,但这半年多来,无论是有数的没数的、能算的不能算的,卖硬件的还是埋线的,都在热炒这个大词,然后把自己塞进去。而实现东数西算的目标及分歧、难点与堵点、如何审题命题破题,总在有意无意间被忽视。

日前,中国工程院院士李国杰在信息化百人会上作了题为《算力网络的未来前景与巨大挑战》的主题报告,针对东数西算战略下的算力网络命题,提出了自己的见解。

他提出的诸如“算力现在并不如水电一样方便”“东数西算的意义不能光拿省电来说事”等论点,直指当前行业浮躁之风,读来醍醐灌顶,很有向导意义。特整理,供查阅。

本文受权发布前,经过李院士亲自修改、补充。

编者按,本文首发于中国科学报公众号

作者系 中国工程院院士、中国计算机学会名誉理事长

●传统的“信息高速公路”的技术天花板已出现。

●(有的文章认为)算力现在就可以做到像供水和供电一样方便,这是太乐观了。

●全国的算力网应避免单一“帝国制”垄断运营,探索新型的“联邦制”管理模式,激活中小企业的参与热情。

●放在全国的大盘子上,“东数西算”工程对全国节能减排只有一定比例的贡献,不能无限制地夸大。

●“东数西算”的意义不能光拿省电来说事。

●“东数西算”要达到“西电东输”和“南水北调”的实效,还要做艰苦的努力。

信息社会进入智能化新阶段,信息基础设施的主要作用已不是解决连通问题,而是为人类的生产与生活提供充分的分析、判断和控制能力,因此,计算能力和大数据资源成了新的信息基础设施的关键。算力作为数字经济时代的新生产力,必须实现基础设施化。

算力和GDP呈正相关的关系,未来“算力指数”可能是比“电力指数”更重要的经济指标。因此,未来信息基础设施必须通盘考虑算力网和通信网,还要与电力等能源网络协同配合,做好算力、通信、电力网全国一盘棋的顶层设计,统筹兼顾,力争全局优化。

算力网络是新型基础设施的一个组成部分,而“东数西算”又是算力网络的一个组成部分。我们要基于经济社会发展的大逻辑、大格局、大趋势,做好顶层路线图的设计,避免“只见树木不见森林”。

不同视角下的未来信息基础设施

计算机界和通信界对未来的信息基础设施有着不同的视角。

计算思维的核心是分层次抽象。对应到未来信息基础设施,就是以新的抽象来屏蔽不同“云”的差异,实现“跨云计算”。众所周知,互联网“Internet”是网际网 (network of network),未来的信息基础设施就是“互联云” (Intercloud: cloud of cloud)。

从计算机的视角来看,这是以云为中心,强调以云调网、云网融合、一云多网的信息基础设施,重点是解决各种软硬件的不兼容问题。算力网基本载荷单元不是消息,而是计算任务。核心创新是做任务交换和高通量的计算,追求低熵有序。

而通信界的视角则是以网络为中心,把计算和存储能力看成是可调动的资源,即“网调云”,因而强调算力资源评估、交易和调度,目标是构建网络和计算高效协同的网络架构。新的网络架构重视算力的感知、异构算力的统一标识和算力资源的标准化等。

目前,算力网络被认为是 6G与未来网络中一项重要的基础技术,即在网络中部署数据处理能力。这一理念目前主要是电信运营商在推动,中国电信等运营商先后发布了《算力网络白皮书》,也提出了国际标准。2021年7月,国际电信联盟电信标准分局(ITU-T)发布了第一个算力网络技术的国际标准Y.2501。算力网络的提出不仅仅是技术发展趋势,更是市场竞争的需求。电信运营商希望在“连接+计算”一体化服务场景下实现业务扩展,避免被管道化。

工信部通信科技委常务副主任、中国电信科技委主任韦乐平曾提出“网是基础、云为核心、网随云动、云网一体”,我认为这是云网融合一个正确的发展原则。我希望通信领域的专家考虑网调云的时候,要充分理解哪些计算资源现在可以通过网络进行调配,哪些现在还不能通过网络调配。实际情况是,目前只有相当少量的计算资源可以调配,很多还不能调配。

算力网络是一个宏伟的目标,前景光明

“人工智能之父”约翰·麦卡锡早在1961年就提出Utility Computing 的目标:“有一天,计算可能会被组织成一个公共事业,就像电话系统是一个公共事业一样”。让计算能力成为像电一样公共基础设设施(Utility),这是计算机界已经奋斗了半个多世纪的宏伟目标。1984年,SUN公司提出的“网络就是计算机”也是今天讲的“算力网络”的美妙前景。

从提出“Utility Computing”的奋斗目标开始,计算机界就清楚公共计算服务与公共电网不同,至少需要关注三个问题。一是接口——用户如何和资源进行对接?二是服务设备——用户通过什么设备将资源转换成服务?三是产品的异质性——计算是一种复杂的服务,存在多样性,不同的编程语言和硬件如何兼容?通过几十年的努力,已经发明了用于远程接入的互联网、管理物理计算资源的操作系统、把资源分给多人同时使用的虚拟化技术。近十年广泛流行的云计算集成了这些技术,为实现“计算的公共基础设施”找到了出路。只要云、边、网、端都尽可能地实现云化,就有可能将原本不是公共物品的计算能力变成虚拟的公共物品。从长远目标来看,算力网络的前景一定是光明的。

算力资源不同于水电,还需大量原始创新

媒体上有些文章将目前在做的算力网络与交通网络、电力网络等量齐观,认为算力现在就可以做到像供水和供电一样方便,这是太乐观了。计算能力终究不是像水电一样具有同质性质的公共品,每个算力产品都想通过专有的特性赢得竞争,所以算力网络的实现比交通和能源网络复杂得多、也困难得多。构建算力网的技术还不成熟,还需要做很多基础性的原始创新和大量的技术攻关。

正在研究突破的与算力网有关的计算技术包括:任务交换技术、智能流抽象、资源赋名、控域、网程、标签化体系结构、内构安全、在网计算等等。突破这些技术都需要付出艰苦的努力。通信与网络界也要突破许多关键技术,其中确定性网络对实现性能与用户体验可控的算力网络具有重要意义。

算力网络要为“减熵”做贡献

传统的“信息高速公路”的技术天花板已出现。“信息高速公路”遵循“无序共享”原则,这一原则为现有的信息基础设施埋下了巨大隐患——性能干扰,用户可感知的服务质量存在很大的不确定性(从信息论的角度看,就是“熵”比较大)。由于采用大量冗余,各大云计算中心均面临总体效率不高的问题,许多数据中心的利用率甚至不到20%。因此,在计算机界人士的眼中,算力网络作为未来网络的组成部分,要为“减熵”作贡献。

中国科学院计算技术研究所提出的“信息高铁”就是建设“高通量低熵算力网”。“信息高铁”强调“低熵有序”,针对高通量计算,其性能指标是“通量”(goodput,通量 = 任务吞吐率×良率),即“保质任务吞吐率”,也就是单位时间完成的保质任务数。信息高铁追求的目标是“可测、可控、可调、可信”,希望能显著改善应用品质,提升系统通量与效率。

“信息高铁”按照“一横一纵”的思路,重新定义下一代信息基础设施的边界。“一横”是通过联邦制的方式横向联通,最大化组织起所有愿意共享的大/小数据中心的各类异构算力资源,为用户提供统一封装、抽象易用的算力资源;“一纵”是纵向打通云、网、边、端全链路基础设施资源,通过全链路多级多维度测调、控域隔离等方式,实现海量物端应用的端到端服务质量确保。

中科院计算所对“信息高铁”做了初步的测试实验,结果表明,不管是任务的良率还是任务的通量,都比传统的互联网高出6-7倍。而且,越是负载高的时候,“信息高铁”的优势越明显,良率也是如此。

算力网要避免“帝国制”垄断运营

从顶层设计的角度,我认为国家算力网的建设应由三部分组成:第一部分是以国家或地方财政建立的公共算力基础设施;第二部分是电信运营商和龙头云服务商建设的骨干企业级算力基础设施;第三部分是由大量中小型信息服务企业协作建立的算力网。

算力网的构建要高度重视中小企业。我希望全国的算力网避免单一“帝国制”垄断运营,探索新型的“联邦制”管理模式,激活中小企业的参与热情。运行方式是否得当,决定着算力网的前途。

在布局上,算力网络既要“全局统一”,又要“环节解耦”。“全局统一”是指全国主要算力中心协同管理,形成东西互补、南北贯通的一体化算力网,提供统一的算力资源服务。“环节解耦”是指算力的设备提供商、运营商和增值服务商合理解耦,消费者仅需按统一定价支付费用就可得到多样性的服务。在我看来,算力网的生命力在于协同合作,过分强调一家企业的端到端一体化,不利于算力网的发展。

计算的应用可分为实时(数据处理)和非实时两大类。一般而言,有实时要求的应用并不要求很强大的算力,但那些面向基础研究的科学计算、人工智能的训练等不要求实时的应用,往往需要使用超级计算机和超大规模的人工智能训练平台。

新药的研制、新材料的研发,集成电路等新产品的设计等,都需要巨大的算力。非实时的计算可能对国家发展具有更基础、更长远的作用,国家级的算力网络资源应优先考虑非实时的高性能计算和智能计算(模型的训练)。实时性强的工业互联网和金融网络等大多由企业自建。此外,边缘计算和物联网大多有实时要求,算力网建设要高度重视确定性网络的研究。

不能无限夸大“东数西算”对减排的贡献

启动“东数西算”工程,有利于集中建设数据通信网络,促进我国西部地区的数字经济发展,能在一定程度上缓解东部供电的压力。但是,放在全国的大盘子上,“东数西算”工程对全国节能减排只有一定比例的贡献,不能无限制地夸大。

数字中心只要建了,不管建在东部还是西部,都是要耗电的。在西部建数据中心有两方面的好处:

一是西部的PUE值低一点,相对于在东部建数据中心,有可能会节省20%的用电。但如果采用曙光公司发明的浸没相变液冷技术,耗电量对数据中心所在地的平均气温就不是十分敏感。

二是传输线路的损耗,2000公里长距离输电的损耗是6%左右。两者加起来,在西部建数据中心节省的用电不会超过西部数据中心用电量的30%。根据中国信通院统计的各省2020年的算力规模,贵州、甘肃、宁夏、新疆、重庆等西部各省算力总和还不到5Eflops, 只占我国数据中心算力总规模(140Eflops)的4%左右。即使未来几年翻倍的增长,估计西部新建数据中心的算力5年内也难以超过全国算力的20%。

全国数据中心每年耗电2000亿度左右,未来西部数据中心最多用电400亿度的30% 就是120亿度。能节省120亿度电当然是值得努力争取的大事,但与我国总用电量8万亿度相比,只占0.15%。与每年跨省输电2万亿度相比,也只有西电东输的0.6%。

因此东数西算的意义不能光拿省电来说事,也不能把“东数西算”看是我国算力基础设施的整体战略和全部内容,应从国家东西部平衡发展、构建全国算力网络新基础设施的大局着眼。目前东部大城市建数据中心的需求很迫切,但没有用电指标,批地也很困难,向西部寻求算力资源是迫切而合理的选择。

值得指出的是,我国现行的《供电营业规则》不允许光伏和风力发电站直接给数据中心供电——发电必须入网,电力统购统销。这种政策不利于在西部建设数据中心。建议国家给数据中心一定的灵活性,推行“源网荷储一体化”的理念,支持算力跟着能源走,促进绿电的消纳。

“东数西算”取得实效尚需艰苦努力

另外值得注意的是,中西部地区数据中心的在用机架数的全国占比已上升到39%,超过北京、上海、广东三个数据中心聚集区的在用机架数的全国占比(31%),但机器利用率不高。“东数西算”工程在西部建设的四个数据中心基地如何开展业务,大幅度提高算力的利用率,要做大量细致的工作。“东数西算”要达到“西电东输”和“南水北调”的实效,还要做艰苦的努力。

美国拥有多个开放的、全球性的与算力网有关的科研创新综合试验平台,它们为美国信息领域科研创新提供了肥沃的土壤;而我国现在仅有一个国家级的未来网络实验平台,在先进算力、分布式系统、云计算、边缘计算等领域的国家级科研试验平台还处于空白的状态。

建议国家尽快成立算力基础设施研究中心和“东数西算”工程技术的试验场,建一些开放性的平台。这些平台不能是一个“孤岛”,应该与现有的网络系统互联互通,研发面向“东数西算”的联邦制管理、算力测调和搓合交易系统等,形成算力基础设施化的核心技术、基础软件和关键系统,并向“东数西算”工程推广,加快各环节关键技术从孵化到完善的全过程,最终形成一套可面向“一带一路”推广的新信息技术体系。

(本报记者赵广立受权根据李国杰院士在信息化百人会第八届信息战略论坛上的发言整理,本文发表前作者做了必要补充,题图来源于网络,侵删)