刘德兵在第八届数字中国建设峰会数字气象分论坛上的发言
发布时间:2026-01-08 11:49 文章来源:峰会组委会秘书处

从Deep到Auto——大语言模型智能体发展

北京智谱华章科技有限公司董事长

刘德兵

  各位领导、嘉宾大家下午好!很高兴参加这次分论坛介绍我们的工作。我们是做大模型的,从事和行业的合作也非常多,这次主要介绍现在大模型公司主流做的事叫智能体,这也是我们重点发力的地方。

  首先简单回顾大模型发展阶段。首先从2018年开始大家更多知道基础预训练大模型,这是做得最多的,而基于它更多让大模型学到现实的各种世界知识,把数据间的各种关系找出来。第二是做对齐和推理,把人的思维方式、FFT的结果告诉大模型,使得大模型理解人类的知识,实现智能激活。第三是实现大模型的自我学习,这是当前所有大模型公司主力攻克的阶段,也就包括现在说的智能体,核心是让模型能够实现自我学习。第一个阶段是大模型疯狂读书学知识,第二阶段是人告诉大模型哪些是对的、哪些是错的,第三个阶段是大模型学习知识之后它可以自己再去学,这就是我们说的推理模型。再往后基于自学习实现的反思、沉思也是我今天重点说的,这里诞生了一系列模型,不详细介绍,我们公司也做了基础的模型架构和代码模型。再往后第四级的智能实现模型的自我认知及实现意识智能,目前大家应该有一些接触但还没有对应的成果,现在大家最主要在第三级智能自我学习。

  我们公司是国内比较早的开始做大模型研究,2019年开始投入,目前已经发布了像多模态模型、语言模型、代码模型等一系列模型40多款,同时有20多款模型进行了开源。现在我们的重点更多把模型往推理、沉思方向做。

  国际主流大家用的模型一般是语言模型和多模态模型,这些模型的结果更多是你有什么需求直接给你反馈答案,这是第一级。现在紧跟着就是做第二级就是反思模型,你问我一个问题给你一个答案时我还思考这个答案对不对。举例擅长对确定性的问题进行求解,比如解三元一次方程,它在解三元一次方程时可以思考多种路径思考这个题,而不是直接有一个结果反馈给你,我可以有多种结果测试哪个结果更好,甚至我把结果跑出来以后还可以反过去做一次验算,就像我们做高考题一样做完以后做一次验算,这就是反思模型,核心是对确定性的问题进行反复思考,速度也比较快。

  现在更大的重点做沉思模型,国际主流的大模型在做但做得比较少,成果有一部分,核心是对开放性问题去深入思考,而思考之后还会把它拿到网络上找相关资料进行论证,论证之后形成迭代。它有一个环可以进行多轮迭代,然后形成长时间的结果,比如要问一个问题说当前国内国际AI发展应该走什么道路类似这种开放性问题,它没有标准答案,这时候就要到网上找很多资料,然后形成自己的结果,同时可能再迭代几次,最后通过5~10分钟的迭代生成一万多字的报告,类似这样是沉思模型做的事情。

  而这里会涉及好几个模型,包括我们现在做的基座模型GLM-4-Air,它是一个语言+多模态模型,在这个多模态模型基础上形成一个推理模型就是GLM-Z1-Air模型以及沉思模型,在这两个模型的基础上形成代理模型叫Auto-GLM,这个代理模型的核心在于我们可以在原有模型推出的结果之上与现实世界进行交互,比如调手机、电脑里的工具,现实形成交互产生闭环。现在我们这几个模型都实现了开源,而且开源是遵照MIT许可协议,换个说法大家可以基于这个模型研发自己的应用产品,不会有商业问题、版权问题,可以直接自己做商业化应用。

  简单比较我们现在模型跑出的结果。

  首先是基座模型。我们现在是32B基座模型,和当前主流的Agentic模型的性能基本持平或者超过,但是参数量比较小,包括现在比较熟知的DeepSeekV3模型,包括指令遵循、综合工具调用、智能体工具调用、后续搜索问答等一系列场景都有标准的测试集,我们是在所有的标准测试集上进行测试得到这个结果。

  第二基于基座模型实现GLM-Z1-Air的推理模型,推理模型可以在应用过程中使用。左图是用户用这个模型实现自己的功能应用,比如你说模拟太阳系的行星运动,只要给出这样的语言要求它就可以画出这样的图,或者让它绘一些函数曲线图或者其他的多模态图都可以直接把图做出来,这是基于推理模型。同时推理模型现在也在一系列测试集上进行比较,效果还是很不错的。

  更重要的我们现在做模型注重商业化应用,不只是在测试集跑出一个结果,商业化应用非常关注的是推理速度和成本。现在我们专门做了优化。在推理模型可以达到200Token/秒的推理速度,这在国际国内的主流模型都是最高的,比较主流的模型像千问、DeepSeek通常在90多Token的量,我们的速度提升了一倍。同时价格上降到了主流模型的1/30的价格,每百万Token大概0.5元。基于这些模型,后面我们研发了沉思模型,核心是可以让模型与现实世界的数据进行多轮迭代,让我们模型跑出的结果更加富有逻辑性而且更加全面。

  这是现在几个模型形成的结果。首先是感知世界的模型,我们叫GLM-4V,它可以用多模态方式拿到世界知识,拿到现实世界中的比如通过视频、语音、文字或者输入拿到各种信息。同时基于深度思考的模型Z1定模型对模型结果进行分析、思考、再产出结果,再然后通过我们的工具模型AutoGLM对现实世界进行迭代,这就形成了闭环。下面有一个视频展示模型,核心是可以调用手机和电脑里的工具实现对模型输出结果与现实世界的交互。

  这里的所有操作都是AI自动操作的,而且不需要现有软件对AI有任何支持,它就像人一样使用软件,输入文字都是自动识别的。目前已经支持手机里的十多款应用包括打车、微信、点外卖。时间关系就不全部播完了,这是国际主流都在做的东西,而且在智谱上线,大家可以直接申请试用。

  目前公司更多是强调生态式的发展,因为我们是创业公司,更多愿与合作伙伴一起推动AI的发展。上游的芯片、硬件基础设施以及我们的模型层和后续应用层的大框架,我们更多聚焦在模型层可以做多模态的模型、通用模型、智能体模型,与上下游进行联动,支撑下游生态合作伙伴,我们还有与气象中心的合作。这里举两个例子是与气象中心的合作。

  第一是和气象中心构建了一个基于大模型的智能代理,实现数智预报员功能。把气象数据库、气象算法库和气象模型库连接起来,打造“智脑”为核心的天气业务一体化,支持气象预报员去做智能网络、远洋航天等一系列应用做相关分析结果。现在我们和气象中心已经部署,并且在应用中进行测试,我们的结果可以帮助气象预报员提升工作效率达到30%以上。

  我们也与气象公共服务中心联合做了“风和”大模型,核心是针对气象公服构建的一个模型框架。底层使用现有的与气象公服中心一起合作,训练了风和大模型(230B),目前模型已经训练成果,输出气象相关知识、气象知识理解问答和多模态的能力。基于这个基座模型基础上研发了气象服务智能体开发平台,基于这个平台可以输出一系列API调用,可以输出气象智能体的构建能力。再基于此可以把能力输出给气象系统内部的各个应用包括省级、市级的气象中心使用这个公服模型。包括两大应用,一是在公众服务做天气查询、个性化服务推荐,还有在典型行业应用做科普问答、健康指导、出行规划,一系列的应用都可以放在这个平台服务所有气象单位。我们特别期待与气象行业各位同仁一起合作,把基于大模型上的气象应用做得更广更深入。

  AGI的分级是从一级到五级,目前整体做的是第三级的智能,而第三级智能往上发展有些大的想法。一是向成熟智能体方向发展,就是让智能体的应用通过大量应用场景的迭代让这个智能体越来越成熟,在应用中产生更好的效果。二是让基座模型的智能水平提升,比如从L3级跳到L4级,使模型的治理水平实现自我认知。三是探索模型意识实现机制,结合神经科学与其他科学的研究,使得我们的模型能够形成大的飞跃,这也是现在所有模型公司所期待的。

  谢谢大家。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面