与时代共昇腾——华为智算赋能数智气象
华为技术有限公司昇腾首席架构师
段雪涛
各位领导、各位专家,下午好!下面由我介绍《与时代共昇腾——华为智算赋能数智气象》主题报告。
一、人工智能发展趋势,行业AI正在走向生产系统
从AI发展历史来看,AI的出发点是从1970年开始,一直到现在发现它有几波技术革命和迭代。第一波技术迭代时基本处于规则性或者专家系统的变革,主要产品是拟人的AI前世,比如ELIZA或者ALICE比较典型的早期的ChatBot。在21世纪10年代,AlexNet出现是统计学科技术的爆发,体现在神经网络、CNN和RNN技术的爆发,在文字、语音和视频处理都有明显的技术成长。到2017,Transformer架构出现以后,为现在大模型提供了技术基础,在Transformer架构下出现了GPT到GPT3.5彻底引来了第三波AI的技术变革,它在自然语言交互、AIGC都带来非常大的体验改观和对工业、学习、生活各方面影响。当然在未来,我们期待着AGI类人智能会在自主意识和超人工智能给我们更多的惊喜。这是我们认为未来的发展以及现阶段处于L3阶段。
基于发展历史,扩展算力和自主学习算法是AI的发展方向,它会带来通用AI、生成式AI以及深度思考模式的三大关键能力。
中国的AI产业通过场景的驱动正在构造新的优势。AI变革最开始都是从互联网的应用发展起来,现在的典型ChatGPT目前聊天类的应用月活最新数据达到6亿,紧接着就是智能办公的突破,微软Copilot现在的付费用户达到2000万级别。2024年Sora的横空出世改变了非常多的场景,比如互联网短视频、广告、电影工业都带来非常大的影响,包括这两年火热的自动驾驶都是AI方向融入科技、生活的一系列变革。我认为AI现在的算力智力和正常人类已经非常接近,相信不久的将来比如GPT5、GPT10达到AGI的水平一定达到超人工智能水平。同时,AI也正在走向生产系统。现在越来越多的智能物流、智能能源或者智能制造把AI技术应用在产业里,通过产业的数字化、产业的智能化水平对它提供闭环的价值通路,能用这种方式驱动进一步发展。
我们也看到一些趋势,以AI4Science来看,AI进军科学领域、工业领域,形成新质生产力的重要方向。科学研究的三大方面:科学实验、理论研究、科学计算,AI都已经在这三大支柱起到非常关键的作用。比如AI在指导和加速科学实验来看,现在的GPT4在很多方面可以把科学和生产工具融合起来,通过GPT4驱动实验的自主设计、自主规划及自主执行。AI启发理论及算法发现,从深度学习应用能发现更好的矩阵运算或者深度学习预测宇宙常数和基础理论模型起到非常大的作用,在很常见的编程模型中,DeepMind推全新AI算法,可以把几十年没有改变的排序算法计算效率提升70%,这是非常惊人的效果。AI在加速和优化科学计算也体现非常强大的能力,AI在模型精确预测蛋白质结构比如AlphaFold提升非常大的生产效率,在深度神经网络加速飞机气动仿真也起到非常关键的作用。这是在AI4S三大支柱实验看到的效果。
在泛气象领域,AI4S持续创新,大幅提升传统数值预报模式的效率和精度,从几个层次。在底层通过高效的系统层不管是基础软件还是核心基础库能够得到比较大的性能提升,之上通过数据挖掘做到特征工程以及数据建模发展,结合基础特性做算法和模型创新,赋能气象的各种应用。现在看到的AI赋能气象应用有4个方面得到显著收益:一是数值模式内嵌AI,替换动力系统大规模线性方程组初值,通过这个方式提升性能:把方程迭代次数减少30+,通用性得到提升;二是轻量化智能预报上,AI降尺度实现模式的快速精准计算:预测精度高,相对传统方法误差下降50%+;三是AI时序预测,神经算子提升非线性能力,预测极端天气,预测精度相对业界方案提升20%。四是同化AI预研,为四维变分同化系统提供更精确的输入初值。
另一个趋势,数据驱动的气象预报和行业高速发展,中国走在世界前列。从2018年时间线拉到现在可以分为几个期。2018年左右属于探索期,在欧洲起步比如EC。2020年后不只是国外的NVIDIA、谷歌等,国内华为盘古、上海AI实验室风乌、复旦的伏羲、清华大学和国家气象中心的NowCastNet都体现非常强的能力,在分辨率、精度、时效性都得到比较大的提升。2024年,风清、风雷、风顺以及风宇这一系列的大模型示范计划都体现非常强大的预测能力,气象预测大模型的快速演进给我们在预报时效性、算法创新和应用拓展方面带来很大的提升。
二、技术创新,深度开放,全栈工具助力中国气象智能化加速落地
华为提供的解决方案将从三个主要方面促进中国气象事业的快速发展。首先,华为的技术创新将专注于计算关键技术的持续进步,这包括从传统服务器到超节点算力的大幅提升,以及网络性能的大规模优化。此外,系统集成方面,华为将实现从单维并行到多维并行的转变,通过多维度的TP/EP/DP并行计算,显著提高计算效率。在模型方面,华为将推动从单一算子到融合算子的演进,以及从单机推理到集群推理的转变,通过系统性的计算关键技术创新,提高算力和存储的利用效率,进而提升大规模模型的计算效率。其次,华为坚持能力的开源开放,致力于与第三方生态的兼容。除了全面赋能合作伙伴外,华为还将自身的先进技术开源,例如OpenEular系统、OpenGauss系统、昇思开放框架以及算子平台,均处于开源状态,以便客户能够基于这些开源系统与华为共同进行联合开发和创新。同时,华为在兼容第三方生态方面也做出了大量努力,支持了包括Pytorch、TensorFlow、DeepSpeed、MegatronLM在内的众多流行的开源AI框架。最后,华为将通过全流程工具的支持,加速行业的落地实施,在技术赋能、开发支持和联合创新等方面提供助力。
请允许我更精确地阐述,近期人工智能算力核心技术取得了哪些进展。在人工智能领域,无论是气象预测、AI for Science还是大型模型计算,关键在于算力是否足够强大,以支撑训练、推理和研发的效能。华为近期推出了超节点架构,相较于传统节点架构,后者依赖网络互联,其带宽通常限制在200Gbps以内,这极大地影响了算力设备间的通信效率。然而,超节点架构打破了这一限制,通过NPU即昇腾处理器的总线互联方式,将分散的NPU集成起来,实现了高速互联,其带宽达到了784TB,相较于传统网络互联,效率提升了数十倍。这使得计算、存储和网络的整体效能得以充分发挥,进而提升了整体运算效率。
在软件方面,华为不仅在算子层面进行了融合优化,还在通信层面实施了多项All To All通信优化和内存语义优化,以支持低延迟通信。在并行优化方面,通过支持多专家动态均衡和亲和部署,资源利用率提升了20%。此外,在推理系统中,华为实现了大专家和PD的分离,使得单卡吞吐性能提升了三倍以上。得益于昇腾超节点架构和多维并行融合算子等创新技术,华为能够满足未来气象大模型的持续训练和大模型推理算力需求,以及未来技术演进的发展需求。这些成果体现了华为在硬件和软件方面的持续创新。
华为一贯秉持深度开放的策略,全面拥抱业界各类框架、加速库以及第三方社区生态。在第三方模型方面,我们已经支持了数百个来自社区的模型,可以说,业界广泛使用的模型均得到了我们的支持。在AI框架和加速库方面,我们支持了多种兼容版本和高级特性。第三方推理服务能够实现零代码快速集成。特别值得一提的是,华为于2023年成为PyTorch基金会的成员,自2023年起,所有PyTorch版本将与昇腾同步发布,使得开发者能够在昇腾的NPU上进行原生PyTorch开发,体验与直接在PyTorch上开发无异。基于此,PyTorch基金会的董事们对华为的贡献给予了高度评价。总体而言,昇腾的深度开放将促进各类大型气象模型的迁移,并推动气象智能开发生态的发展。
在实际的开发流程中,模型迁移是不可或缺的一环,而昇腾提供了全面的工具链以辅助这一过程。模型迁移工作可以细分为几个关键步骤:首先是模型分析,其次是精度优化,再次是性能优化,最后是部署与上线。华为昇腾的工具链全面覆盖了这些方面。通过迁移转换工具,可以进行扫描分析并生成报告,明确指出在迁移过程中哪些部分可以无需改动直接上线,哪些部分仅需少量修改即可上线,并且这些工具还支持开发测试。精度分析工具则支持GPU与NPU、NPU与CPU之间的全面对比分析。此外,可视化调优工具支持丰富的数据采集、瓶颈分析和可视化系统,能够直接提供优化建议,使得系统性能调优过程得以迅速进行,通常开发调优时间可控制在一周之内。在部署上线阶段,昇腾也提供了丰富的工具链支持,包括轻量化部署、云边协同训练和推理工具等,整套工具链的支撑使得气象大模型的迁移、调优和上线流程得以简化。
华为致力于推动中国气象智能化进程,并提出三项建议。首先,我们期望与行业专家携手合作,以开放的心态共同构建气象人工智能生态系统,这包括对第三方生态库的支持、政策扶持以及生态系统的共同建设。其次,我们需与行业专家共同进行技术的联合创新,打造先进的气象计算能力。华为在软件设计与优化方面已有诸多实践,我们希望与气象领域的专业算法算子进行更深入的合作,通过软硬件协同设计,充分利用硬件性能和模型特性,实现联合创新并取得优异成果。最后,我们期望与气象领域的具体应用场景共同构建全流程工具链,以便在气象大模型迁移和落地过程中遇到的问题能够被迅速且及时地发现。无论是模型迁移、精度分析还是可视化调优,我们都希望有一整套工具来提供支持,从而帮助相关模型或业务快速上线,持续推动中国气象智能化的快速发展。
谢谢大家。
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面
