欧阳万里在第八届数字中国建设峰会数字气象分论坛上的发言
发布时间:2026-01-07 11:51 文章来源:峰会组委会秘书处

AI4Science的思考及风乌的近期进展

上海人工智能实验室领军科学家

欧阳万里

  各位领导、各位专家、各位观众,大家好,首先非常荣幸有这个机会介绍我们实验室关于AI4Science的思考以及风乌最近的实践。

  来自《Nature》2023年的文章统计发现,随着时间离今天越来越近,发表的文章越来越多,但是科学方面的创新和进展却越来越缓慢,另一方面人工智能在最近这些年发展越来越快,而在去年AI4Science作为一个专门能够为科学提供很大进展的方向开始被科学家所认可,表现在诺贝尔奖方面。过去这些年AlphaFold在生命科学能够从蛋白质一维序列区域预测到三维结构,而AlphaProf能够解决数学奥赛水平的问题,在自然科学的材料方面人工智能也能自动产生新的原来大家没有设计过的材料,工具的革命已经悄然地发生。其实在科学界,革命的工具也是存在的,比如在天文望远镜方面,原本的望远镜可能是一个工具的文明,比如帮助我们看得更远可见的光,但是来自不可见光的新的望远镜的开发包括射频、伽马射线望远镜的开发,使得我们能够探知到原来人看不到的东西,从而证明未来有些理论推导是不对的,从而带来的是理论新的革新。而在未来,我们希望和科学方面的专家一起推动AI4Science方向,能够推动利用人工智能带来未来科学发展新一轮变革,这方面实验室也有一些思考。

  当今对于AI4Science的研究非常多样,如何对它进行整理是我们需要思考的。在实验室我们认为AI4Science包含三个大类:一是AI 4 Data,针对专门的科学数据人工智能的处理;AI for  Computation,对于科学计算的提升;另外对于科学研究者本身就是AI For Innovator;对于创新者我们希望提供相应的工具让他做出更好更顶尖的研究。

  在AI For Data方面以往要利用千万级的冷冻电镜获得一个蛋白质的三维序列,而AlphaFold可以直接从一维序列获得原来需要冷冻电镜获得的结果,大大提升了获得三维结构的蛋白质序列的能力。在实验室也有一些探索,比如我们能将气象数据从400TB压缩到0.85TB,大大节省数据存储和传输所需时间。我们也在神经科学方面发现利用一个好的AI方法可以将压缩比达到2000倍左右,而且还达到近无损压缩,做脑图谱的科学家们发现我们提供的近无损图像和原来的图像对他进行脑图谱的标注几乎没有区别。

  在计算领域的人工智能应用方面,传统上需要通过求解确定性方程来理解原则及其相互作用的分子动力学,如今借助人工智能技术,这一过程已能通过模拟来实现。同样地,以往依赖求解Nx方程来进行气象预测,现在在中国,人工智能在气象领域的应用已取得显著进步。在我们的实验室,我们以2023年发布的风云气象大模型为基础,针对未来不同领域的发展,也取得了相应的进展。这包括开发了首个能够面向9公里分辨率的全球中期气象预报模型,该模型能够将中期气象预报与四季节检验预报整合在一个系统中进行(包括海洋预报、台风强度预测等),这些是公认的人工智能难以解决的问题,我们为此设计了专门的模型。

  在Ai for Innovator针对创新者方面,实验室在生命科学发现利用大语言模型幻觉能够产生创新的知识,能够得到符合生物学常识,有新颖性并且最终被验证是有生命科学价值的idea,这方面也已经获得相应Nature子刊的认可。

  在气象领域,我们的风乌模型取得了三项主要进展。首先,模型集成了更多物理信息,包括相关模型的利用。其次,预报体系得到了完善,这不仅体现在对不同阶段气象因素的综合考量,也包括了集合预报体系的整合。最后,创新的模式实现了端到端的模型构建,以往同化和气象预报需要分别依赖不同模型,现在则可以通过单一模型来完成这两项任务。

  在实验室中,我们亦进行了若干探索工作。我们与国家气象中心、国家气象信息中心以及上海气象局紧密合作,共同设计了“雨师”模型。传统模型在强对流天气预报方面,通常依赖于双倍雷达数据,而我们的模型则采用了三维雷达切片技术。然而,仅凭三维雷达切片数据,尚无法获取垂直运动和速度信息。为此,我们结合了三维连续方程,以获取三维垂直速度数据,从而更精准地描绘强对流天气的发展和消散过程。

  在以风云为基座模型的基础上,我们设计了一款能够将中期气象预报与四季节气象预报整合,迈向多尺度的通用模型。我们提出了首个能在25公里分辨率下,对全国范围内未来60天的气象情况进行逐6小时预报的模型。该模型为气象预报体系提供了更为完善的解决方案,并体现了实验室致力于使一个基座模型服务于多种不同气象预报需求的探索精神。我们发现,通过有效利用这些模型,能够提前四周预测到超过250毫米的极端降水并且为集合预报的实施提供了新的思考路径。

  在传统的气象预报方法中,从卫星、雷达、温度计等设备获取的观测信号需经过一系列同化处理,才能转化为最终的预报结果。在这一过程中,信号的整合与后续的预报步骤是分开进行的。然而,在我们提出的新型框架内,可以直接利用卫星观测数据进行同化处理,并在此基础上生成最终的预报结果。此外,无论信号源自哪个观测站点,都可以同化过程中。这一创新体现了我们对未来气象模型架构的深思熟虑。

  实验室亦高度关注气象模型在实际应用中的效能。在一项具体实践中,我们与从事风光发电的企业携手合作,在内蒙古的427个新能源场站实施部署,以预测未来的风光发电量。借助风乌模型的支持,我们能够节约高达4000万元人民币的年运行成本。这一成果仅在内蒙古地区实现,我们期望未来能在更多地区推广,以进一步促进中国绿色能源事业的发展。该模型通过结合虚拟数据与实际场站数据,实现了虚拟与现实数据的无缝对接。这使得即便在新的省份,无需依赖当地训练数据,我们也能获得比以往更优的预测结果。

  以上就是我们关于风乌以及AI4Science的一些思考,谢谢大家。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面