陈怡星在第八届数字中国建设峰会自然资源数智变革分论坛上的发言
发布时间:2025-12-23 16:34 文章来源:峰会组委会秘书处

多模态大模型及行业落地应用

阿里云计算有限公司资深专家、大模型高级产品经理

陈怡星

  我今日所阐述的内容涵盖以下三个核心议题:

  首先,关于大模型发展的最新动向。

  第一,大模型带来的新一轮人工智能浪潮

  OpenAI的问世,标志着我们迈入了第三次科技革命的宏伟浪潮。尽管人工智能的发展已近七十年,但预训练大模型的出现,确实对整个人机交互的范式产生了根本性的变革。

  在此过程中,我认为与自然资源最为密切相关的,是大模型的多模态化趋势,这也是我今日讲座的核心议题。回顾历史,大模型最初仅限于大语言模型和视觉大模型等单模态模型。直至2021年,谷歌推出了多模态大模型Gemini,标志着这一技术的突破性进展。多模态大模型的核心价值在于VLM(vision-language modeling,即视觉与语言模型的结合,通过信息对齐实现深度信息挖掘)。

  我们认为,李飞飞教授于2024年提出的“世界模型”具有划时代意义。李飞飞教授首次提出,人工智能的发展不应仅限于文本或图像的理解,而应能理解和生成三维世界,并在物理和社会环境中进行互动。

  因此,我们看到李飞飞教授的工作更多地是基于一张图片,生成一个三维点云空间,即真实的三维空间位置。然而,很快地,结合具身智能和自动驾驶技术,推出了VLA(visual-language-action,即视觉、语言与行动的结合,实现了人与虚拟三维世界的互动),我们认为这才是大模型未来发展的新方向。

  当然,未来我们还需结合DeepSeek等更重要的趋势,从数据处理转向推理计算。若这两者相结合,我们坚信大模型对真实物理世界的理解将展现出令人期待的前景。同时,我们认为自然资源领域应在这其中发挥基础性作用。今日各位院士所阐述的观点,我们深表赞同,认为应当有大量底层理论、数据和算法创新的支持。因为我们作为国家空间数据的生产者和空间资源的管理者,肩负着重要的责任。

  第二,阿里在大模型领域的能力和重心

  自2017年起,我司便开始对大模型进行战略性投入。当时,大模型尚未引起广泛关注。然而,至2022年,相关投入已呈现指数级增长。目前,我司各业务板块已全面拥抱大模型,形成了一种全面深入的发展态势。

  在此过程中,我们特别注重以下三个方面的积累:

  首先是算力集群的建设。

  我司通过自主研发的PPJ卡生产,成功构建了国内规模最大的算力集群,达到11万卡。同时,结合阿里云的数据管理与存储技术,我们实现了网络超低延时和每秒20TB的并行高吞吐量。基于此,我司算力集群不仅支撑了公司自身的通义大模型,还支撑了国内约50%的大模型训练工作,包括AI六小龙中的四个(百川、智谱、月之暗面、零一万物),均运行在我司云平台之上。

  其次是通义大模型的开发。

  通义大模型以其全尺寸、跨模态和广开源的特点而著称。全尺寸方面,从通义千问大语言模型的14B到11B版本,均实现了开源。在国内,这种高参数模型的开源现象尚不多见。

  此外,我们还开源了多模态理解模型,如通义VL和多模态生成模型,以及今年春节刚开放的通义千问推理模型,实现了全量开源。

  第三是大模型训练平台——百炼平台的建设,该平台支持广大开发者,实现了从学习、训练、评估到使用的全链条服务。从知识中心的构建、训练中心的构建、测评中心的构建到应用场景的构建,形成了一个全方位的平台。

  我们特别强调面向多模态大模型的平台建设,在知识中心中,我们不仅支持副模态文本解析、音视频解析,还支持栅格类照片和图像的构建,以及接入相关数据库进行标准化处理,为后续的BI分析做好准备。因此,知识中心构建了一个多模态的体系。

  在模型中心,我们注重广兼容性。我们不仅接入了公司的通义千问,还整合了其他第三方开源模型,甚至包括人工智能、深度学习中的CV模型,同时提供了相应的训练算法支持,以进一步优化模型。

  在实际应用中,我们支持直接调用大模型进行Agnet或模型优化等不同使用方式,这些功能均可在平台上实现。

  基于这三个核心算力平台和模型积累,我们与行业合作伙伴共同推进了众多行业应用。其中,我们投入最深、最多的领域是自然资源。自然资源大模型是一个以空间数据为核心的跨模态模型,它不仅体现在底层数据的多模态,更体现在技术方法上,融合了大语言模型、多模态模型、视觉模型以及科学自然大模型的综合技术体系。

  经过长期不懈地努力,我们的工作主要集中在五个方面:即知识中心的建设。在此过程中,我们汇聚了全国力量,共同参与建设。目前,知识中心已完成四类数据的接入,解析了一万多个副模态文档,生成了七类多模态语料。在此基础上,模型中心也接入了多元基础大模型,并重点优化和完善了五类时空大模型插件,同时从一张图等平台接入了30多种时空小模型工具,以满足实际应用需求。

  第三,自然资源领域这两年多以来的实践

  基于深入调研和广泛合作,我们汇聚了众多生态伙伴的力量,共同打造了一系列标准化的Agnet应用。

  以智能问答为例,我们不仅致力于构建问答系统,更着眼于知识库的构建、提示词的优化,从而形成一个功能全面的智能问答平台。该平台能够实现对单一文档的知识检索,并在征地等实际场景中,提供精准的答疑、补偿标准的信息推送以及智能化的补偿计算。通过智能体的训练,我们显著提升了计算的准确性。

  此外,我们运用大规模模型驱动代码生成技术,为数据处理提供了强大的支持。业务人员无需编程知识,即可通过提出需求,快速获取所需数据并进行分析计算,生成仪表盘。每位用户将拥有个性化的数据卡片,我们期望在未来实现这一目标。

  在多模态领域,我们利用VL模型优化了传统的CV模型,解决了泛化能力不足和样本需求庞大的问题。通过VL模型的融合,我们力求将样本量降至最低,甚至实现零样本学习。

  目前,我们正与国土调查部门如数字月球项目紧密合作。大模型不仅能够识别单个要素,还能够对事件进行整体理解,通过多张照片实现要素间关系和时间序列的分析。这些技术已应用于交通事故溯源、违法事件处理等领域。

  在城市体验领域,我们构建了智能体,实现了用户对大模型提出抽象需求的能力,包括公共服务指标的计算、数据调用、分析报告生成等流程。

  经过两年的实践,我们深刻认识到行业大模型能力建设的必要性,这需要大家的共同努力和共创。我们认为,开源是大模型核心技术的体现,未来高质量可共享的行业知识和语料级共建,以及行业测评标准和数据集的建立,都是我们共同的责任。同时,我们也期待与大家共同探索更多应用场景的开发。

  感谢各位的聆听!

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面