数算融合网络发展趋势与思考
中国工程院院士、紫金山实验室首席科学家
刘韵洁
尊敬的刘局长,各位领导、各位嘉宾,我跟大家分享一下关于网络和数据怎么去融合发展的一些挑战。
第一部分 数算融合网络发展需求
大家知道,从2023年12月份到2024年1月份,大概一个多月不到两个月的时间,国家发展改革委跟数据局还有工信部,连续地发布了关于城市数据要素的三份文件。在人工智能这个大的领域当中,国家高度重视。
关于大模型支持我们国家经济飞速发展这个方面,大家都有共识。艾瑞咨询有一个报告,它统计的2023年的我国关于大模型的经济,就是生成式AI这个方面的经济大概是143亿。预测到2030年超过1万亿。这个经济领域分3个层次,一个是基础设施层,就是我们今天开会要讨论的一个问题。这个问题除了智能的算力中心以外,网络的能力也是一个必需的选项,提出了一体化的算力网络基础设施,就是包括这部分的内容。另外二层是大模型层和应用层,形成人工智能的产业。
我们现在存在的问题是什么?因为芯片的封锁,我们单点算力的差距会越来越大。我们该怎么解决算力紧缺,算力的协调可能是解决这个问题的一个主要途径。因为在AI大模型方面我们与国际存在差距,算力方面也有差距,我们的机会就是在行业大模型应用方面,我们在算力集群协同计算方面会弥补这样一些差距,这个事情我们要找到突破国外封锁的途径。
算力的需求在递增,十年的时间需求增加了几十万倍,数十万倍的算力的需求。GPU的算力能力最近五年增长了90倍,我们的网络算力、网络的带宽只增长了10倍,这个差距实际上就是这上面讲的。网络带宽,现在更准确地是说网络和网络带宽将成为瓶颈,这个瓶颈会制约我们国家人工智能的发展。刚才为什么说不光是带宽?因为现在广域的无损传输存在瓶颈,我们东部的一些数据和用户,不管数据是存储西部,还是大模型的训练与计算在西部,都需要无损传输的技术。现在没有无损的传输技术,传输的效率大大降低,长距离的传输,只要是丢包,传输的效率就会大大降低。举个例子,微软的云70%都使用无损传输的协议RDMA进行传输,2023年实现了80公里的这样一个远距离的无损传输。
构建“千公里级无损确定性广域传输能力”已成为算力广域高效传输互联重要基础,如果解决不了长距离的无损传输,那么这个传输效率会大大降低。华为在一个白皮书做了一个实验:100G的带宽,8个节点,RDMA的传输率是TCPIP传输效率的8倍多。国内国外都说无损的传输技术在人工智能的一体化网络建设当中至关重要,刚才刘局长讲怎么能够大胆地去流通,怎么去流得出、流得动、用得好,但安全问题也是很突出的,韩国三星员工直接将企业机密信息以提问方式输入至ChatGPT中,使得相关内容进入学习数据库从而泄漏,导致半导体设备测量资料、产品良率原封不动传输至美国公司。
另外一个怎么解决数据的确权流通和共享。因为现在好多厂家都说,因为你只要在互联网上,这些行业的数据都不敢在网上去流通,不流通这个数据要素的价值体现不了,解决的办法就是建立行业专网。要建立一个公用的行业专网,一个企业、一个行业的专网是建不起的,它的方便性、它的费用像公网一样便宜,专网得有安全的保障,这样就能很好地解决我们数据要素怎么承载的问题。我们不光是大模型需要大流量地去传输,这个普通的行业数据去承载,这个问题是一个必须迫切解决的,否则数据要素流通没有手段,也没法共享。
我觉得欧洲终于明白过来不能完全依靠美国,德国和法国牵头,27个国家建立一个数据主权,现在又发布一个法律,关于AI的主权,这些工作就是要摆脱美国的控制。我认为我们国家数据局的成立,这么多文件,在我们全球来讲开了一个好头。更加显现我们国家这样一个战略部署。
现在国际上也成立了国际数据空间协会(IDSA)这样一个组织,有20多个国家、130多个用户,协会针对全球的数据共享流通发挥作用。这里面谈到一个问题,就是安全问题、确权问题,价值保护问题成为数据流通的三大关键问题。不解决安全问题,不解决确权问题,不解决价值保护问题,这个问题就会影响它的流通、它的价值发挥。
我再举一个例子,美国科研数据网,就是能源科研网,实际上是美国整个的科学网。2022年10月,美国能源科学网络(ESnet)正式升级到第六代ESnet 6,拥有15000英里(24000公里)的专用光缆,横跨全美国,主干链路达400 Gbbps,具备46Tbps交换容量,成为全球最快的科研网络。美国能源部(DOE)投资约1.5亿美元构建Esnet6,互联了美国“国家实验室”等40个研究站点、140个科研网络和商业网络,2021年传输数据量超过了1.1艾字节(约1000PB)。就跟我们现在要建的一体化的算力网是异曲同工的一件事情。这些网络每年的业务量增长55%。
它实现海量数据并行计算,支撑大科学模型,一个是从礼佛摩尔(加州)到阿贡国家实验室、橡树岭国家实验室,每天传输7.4P天气数据。另外一个超算互联,服务风力发电,需要110亿数据点,每秒1.4TB数据,依赖全国超算分布式并行计算来控制新能源的这些问题。另外,他们做了一个实验,AI模型跨广域训练:7秒发送训练数据、19秒完成训练、5秒返回训练模型;远程训练是本地训练时间的1/30,原来如果自己算要30个月,那么它协同训练就1个月就可以了。还有支撑鲁滨逊天文台大型综合巡天望远镜实验,实现海量数据实时回传,他们现在已经在做这些事情了。
美国2022年10月份建立的第六代网,本来要运行三五年再开通第七代的,但是它2023年的时候就开始启动下一代的规划。下一代的规划,第一个就提出端到端的确定性网络的能力,支持全网的可编程和资源的调度,网络的调度包括算力的调度等。我们在2022年都已经完全实现了规划的部分技术,这表明我们技术并不落后多少。美国2022年10月开通第六代网,2023年发布了这样一个标准,因为它发现算力需要这些能力,需要整个网络调度的能力和编程的能力。
第二部分 数算融合网络关键技术
我国亟须构建面向数据与算力传输的基础网络设施,我认为这个基础设施分两个方面,一个是算力中心内部的,一个是算力中心之间的,就是DC内部和DC之间的。不管是DC内部和DC之间的,都要完成两个指标。一个指标要传输效率大于90%,不大于90%就有很大的问题;另外还有一个指标,就是丢包率要小于十万分之一,如果不小于十万分之一,远程的传输效率就会大大的下降,丢一个包就1%的丢包,效率就下降了50%,2%的丢包效率等于是0。所以不管是DC内还是广域网,都需要关注这两个指标。这DC内的指标,其中一个丢包的附带均衡,这个技术可以使训练的速度提高80%。我重点讲一下数据中心建设,就是广域的这个网怎么去架构。
我们最近突破了一个确定性光电融合的技术,支持新型RDMA协议、负载均衡协议,整体转发容量不低于51.2T,单端口速率支持400G/800G。这个就为将来我们这样一个技术成为一个最大的问题。我们做一个新的设备,把光和电完全融合在一起。这个就是所有的应用包括大模型训练、存储,这样的技术已经在从南京到上海,上海回来到南京,1000多公里已经运行了一个月,为我们国家下一步东数西算做了一个非常好的基础。这个在东数西算方面,我们用这些技术提供一些服务。另外,我们在长三角这个网和南京市的网都用确定性网络提供行业专网这些东西。另外,这个方面胶东半岛已经布局了,长三角也布局了,大湾区有15个城市也已经布局了,在京津冀和成都、重庆也都有在规划布局这样一些问题。
这个我讲一下承载要素在济南的一个例子。济南建了一个12个区县节点的确定性网络,一个是数据要素怎么能够安全地跟数据交易,跟应用、训练结合起来,提供这么一个平台。另外一个就是政务网的数据,通过确定性网络给它打通,所有企业就可以接了。它有6个行业的专网,就是6个化工园区,把这些行业专网跟政务网,跟整个的训练数据要素结合起来。
第三部分 数算融合网络应用思考
最后一个我觉得,就是我们的确定性网络能够提供这些专网,这些行业专网以后就支持每个行业大模型的训练,这样才能形成新质生产力,给千行百业赋能。通过大数据,加上AI的算力底座,给每一个行业提供一个解决方案。谢谢大家!
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面