程健在第八届数字中国建设峰会大数据融合应用分论坛上的发言
发布时间:2025-12-02 11:07 文章来源:峰会组委会秘书处

太阳石矿山大模型数据治理体系与实践

中国煤炭科工集团有限公司首席科学家

程健

  各位领导嘉宾下午好,我们煤炭行业是国家主体能源,所以有些人把它放到能源行业。当然有的把它放在矿业领域,我今天汇报是大模型方面的内容,煤炭行业也在转型发展,采矿业是一个传统的工业门类,所以怎么转型发展?也要按照最新的技术、最先进的技术,引入到最传统的行业怎么做,我们有一些思考。

  在座各位对这个深入理解,人工智能发展是不可阻挡的,我所在中国煤炭科工集团也是一家央企,国资委在去年2月份专门召开了AI赋能产业焕新,经过一年的发展,在今年2025年2月份,国资委又提出央企要AI+的专项行动深化部署,应用的结果就是对场景的深度理解,对场景的深度理解就是在座各位的理解,所谓场景业务在人工的理解,就是数据,打交道的就是数据,所以我们做的就是这个事。煤炭行业也要绿色、智能、高端,当然也要可靠、专业、安全,在这个指引之下我们也要有所动作。

  我所在的煤炭科学研究总院成立于1957年,最早是直属于煤炭工业部的科研事业单位,我们经过一系列的改革,现在改成中国煤炭科工集团成了央企。在国资委90多家央企里,我们定义为一个公益性科技型的央企,就是科研院所改资质的央企。

  我们设有研究生院,该机构拥有国资委直属企业中独有的两个博士流动站,这在其他中央企业中是罕见的。这两个博士流动站分别专注于矿业工程和安全科学与工程领域。此外,我们还设有四个博士点,并且研究生院在校研究生人数已超过400人,构成了一个完整的教育体系。我们集团拥有四个全国重点实验室,整个集团的员工总数约为2.5万人,其中科研人员大约有1.5万人。煤科总院培养出了10位院士,其中包括现任国资委主任,他也是我们学院的前任院长。目前,我们学院在职的院士还有5位。

  去年四月,我们成立了矿山人工智能研究院,旨在推动感知智能、认知智能及决策智能领域的研究,并促进数字煤炭产业的高质量发展。我们的研究重点是大型模型,经过调研,我们识别了与矿业相关的十余种大型模型。例如,将某一知名大型模型与“矿业”二字结合,便形成了矿业专用的大型模型。尽管我们期望取得突破,但目前尚未产生令人满意的结果。正如“橘生淮南则为橘,生于淮北则为枳”,环境适应性是一个挑战。经过一两年的努力,我们仍未创造出一个理想的成果。因此,以“煤矿军团”形式推进项目也面临诸多困难。

  我们必须深入理解行业场景,这需要我们亲自承担起责任。因此,我们期望煤炭科学研究总院能够承担起这一使命,构建起支撑行业应用能力的矿山领域大型模型基础架构。通过这一基础架构,我们来探讨数据处理的问题。以一个年产量大约为1000万吨的中型智能化矿井为例,其日常产生的数据量高达数亿条。然而,这些数据中的大部分并未得到充分利用,而是被当作无用信息丢弃。这是因为在我们的监测监控系统中,产生的数据主要用于安全方面的超限报警,导致我们虽然积累了海量数据,却如同置身于数据的海洋之中,却难以找到可利用的信息,数据量虽大,但质量却不高。

  我们所关注的领域,例如安全监测中的瓦斯监测和压力监测,这些数据的敏感性极高。然而,这些数据的流动性较差,部分数据甚至不允许离开矿区,尤其是煤矿数据。因此,其整体价值较低,可用于训练大型模型的语料库极为有限。因此,我们首先将数据作为突破点进行工作。我们的目标是建立标准、提升质量、确保安全、促进数据流通,这些是各个行业普遍面临的问题,故不再详细展开。关于如何建立标准、提高质量、确保安全使用,每个行业都有其特定的挑战。在煤炭行业,除了常见的文本、语音、视频、图像等大模型数据外,我们还拥有大量设计类数据,因为煤矿生产离不开设计。对于设计图纸类数据,以及感知监测类数据,我们面临的是数据的多样性和异构性问题,从管理数据到有效利用数据,这是一个重大挑战。因此,我们必须解决如何将数据的丰富资源转化为智能应用的矛盾。

  为打破信息孤岛、整合异构系统、确立统一标准,我们划分了十余个主要场景,并进一步细分为四十多个二级分类,从而构建起一个支撑性的标准体系。这项工作极为复杂。众人都渴望成为掌勺的厨师,但又有谁愿意承担洗菜、备菜的职责?数据的准备工作同样重要。正如烹饪中的颠勺技巧,我们需要在前期做好标准的准备工作。我们在提高效率、清晰度、数据增强以及格式标准化方面投入了大量工作,并且在大型模型的能力提升上取得了显著进步。我们已经建立了自己的标准系统,并且在国家数据局举办的论坛中,我们的高质量数据标注案例也荣幸地被选为优秀案例。

  另一方面,确保高质量数据能够使系统理解煤炭行业的专业术语至关重要。即便在煤矿环境中生活,不同专业领域之间的术语差异显著,例如煤层气与煤矿瓦斯之间的细微差别,以及煤炭行业特有的“上山”与一般意义上的“上山”之不同,还有“石门”“开拓”“洞室”等专业词汇,这些都需要大模型能够准确解读并运用。为了实现这一点,我们进行了大量研究工作,基于此,我们的大模型构建了包含数百亿token的语料库。在检出效率、行业理解及检出准确率方面,与通用模型相比,我们的模型实现了显著的提升。具体而言,我们部署了DeepSeekR1,因为我们的大模型底层采用了模型编排技术,并在千问2.5的基础上进行了微调。DeepSeek技术实际上是在千问的基础上进行蒸馏,两者的技术原理相似。通过这些努力,我们实现了模型性能的大幅度提升。

  关于数据安全,首先需确保数据本身的安全性,同时考虑到煤炭行业相关的法律法规,评估其是否适宜进行严格的安全管理。其次,需深入理解数据安全的各个方面,包括数据的真实性、是否遭受污染或恶意篡改,以及内容安全到能力安全的各个层面,这些我们同样予以重视。即便数据本身安全无虞,其展现的内容及其能力表现可能依旧不尽如人意。例如,我们遵循相关法规,并采用可信的推理框架来确保内容的安全性,当然,我们的大型模型也经过了中国泰尔实验室对内容安全及其他安全性能的评估。

  在安全检查过程中,若意外发现一氧化碳浓度超标,我们如何利用大型模型来识别问题?例如,一氧化碳超标并非由采矿活动直接引起,而是由于井下无轨胶轮车的排放导致。在这样的真实场景下,安全监管机构不会仅仅依据超标情况进行罚款。

  接下来,我们关注数据流通的问题。目前,浙江和江苏都已提及,如何将数据转化为数据资产和实现数据流通。我们已经获得了煤炭行业首个数据知识产权证书,并已构建了三个大型数据集。对于其他行业的专业人士,若有意进入煤炭行业,欢迎使用我们的数据集,自行构建数据集将是一项艰巨的任务。

  在实践层面,我们的太阳石矿大模型已于四月底顺利通过北京市网信办的审核并完成备案,目前可以向公众提供正式服务。未来,我们计划开放API接口,供公众免费使用。在此基础上,我们构建了矿山百通系统。在创建初期,由于缺乏明确的切入点,我们并不清楚从何着手。然而,得益于煤炭科学研究总院所拥有的21本期刊资源——包括煤炭行业顶级期刊,以及6本被SCI和EI检索的期刊,我们得以覆盖煤炭科研全链条的期刊资源。我们拥有超过五十万篇文献,这些文献构成了我们煤炭行业专业理解能力的数据集基础,进而催生了矿山百通系统的诞生。该系统的主要功能包括智能问答、AI伴读、辅助协作以及专利编写等。目前,矿山百通系统在安卓系统下已有应用程序,在苹果系统下则以小程序形式存在,我们诚挚邀请大家体验使用。

  此外,我们的矿上数工项目,通过七个模态统一的标注,已被评为优秀标注案例。我们还拥有矿山视频系统,该系统处理了大量煤炭行业的视频监控数据,包括安全监控和生产监控。通常一个矿井拥有超过一千个摄像头,而大多数矿井也有数百个摄像头。这些视频数据的处理工作,使我们的矿山视频系统在去年荣获世博会十大产品金奖,并且已经推广应用于数十个煤炭行业项目中,成为新一代人工智能下的视频质量分析系统。

  我们拥有一套矿山中控系统,该系统作为煤炭生产数据的集散地,不仅汇集了所有相关数据,还整合了大型模型的处理能力,并具备了自动编程等管理功能。展望未来的发展方向,尽管各行各业存在差异,但所面临的核心问题却大同小异,主要集中在数据标准的不统一上。国家数据局已经率先发布了47项标准,这反映出国家对此问题的紧迫感。因此,我们鼓励并积极参与到这一进程中,实际上我们也在引领这一工作。

  在评估数据质量时,不可避免地会牵涉到利益相关的问题。同时,设立标准门槛可能会导致某些参与者被排除在外。为了避免无序竞争的评价,以及确保能力水平的安全性和挑战性,这是众所周知的。数据投毒和数据污染问题也是我们所关注的。考虑到目前大模型的使用可能不如以往频繁,我们不应仅依赖它们进行诗歌创作或绘画。因此,与我们的生产和生活紧密相关的,是能力水平的安全性问题以及行业数据流通的障碍。

  针对这四个问题估计大家都用得到,当然我们行业只能去解决它,每一个问题不能回避,只能解决。所以一步一步地做,路虽远行则将至。

  煤炭科学研究总院不仅致力于定义和构建适用于矿业及煤炭行业的大型模型,更致力于成为该领域的专家和知识转化的枢纽。我们所提供的不仅仅是工具,更是行业与技术实验之间跨学科沟通的桥梁。众所周知,煤炭行业是一个相对艰苦的行业,目前仍有超过三百万矿工在为社会提供光和热。

  人工智能技术的普及并不意味着矿工将面临失业。实际上,我曾提出,未来的工作重心将从煤炭开采转向数据挖掘。许多矿工凭借其丰富的经验和专业知识,有望转型成为数据标注师。在煤炭行业中,数据标注产业有可能成为最先崛起的领域。因此,我们正致力于推进这一进程,并且正在稳步实施相关计划。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面