人工智能大模型作为新一代人工智能发展的重要方向,正在深刻改变科技创新、产业发展、经济运行和社会治理方式。行业高质量数据集作为人工智能发展的基础性资源,是支撑大模型从拥有“通用能力”走向拥有“专业能力”的关键底座。当前,我国高质量数据集建设仍存在高价值数据供给不足、数据加工与质量治理尚未形成闭环等问题,亟待扎实推进高质量数据集建设行动,为人工智能发展提供坚实支撑。
能力提升和价值转化的关键支点
建设高质量数据集意义重大,既关系人工智能大模型能否形成可靠专业能力,也关系海量数据能否转化为可用资产和现实生产力,是夯实人工智能发展根基、释放数据要素价值的关键支撑。
一是有助于提升大模型能力上限。大模型能力的形成,本质上依赖其从高质量数据中学习的知识结构、语义关系和任务规律。高质量数据集能够通过提高知识密度、优化样本分布、增强长尾场景覆盖,为模型提供更稳定、更丰富、更贴近实际应用的训练信号。同时,通过减少错误、重复、过时和低相关数据,降低模型学习噪声和偏差,提升模型在知识理解、复杂推理、专业问答和场景泛化等方面的能力。
二是有助于提升数据要素价值转化能力。建设高质量数据集是促进数据资源转化为数据资产、数据要素转化为现实生产力的重要抓手。高质量数据集能够把企业生产经营中的经验性、流程性和场景性知识沉淀下来,并通过模型训练转化为可迁移、可复用、可扩展的智能能力,更好支撑研发设计、生产制造等环节,促进产业提质增效。
高质量数据集建设存在堵点
当前,我国数据资源丰富、应用场景广阔,为高质量数据集建设提供了良好基础。国家数据局相关数据显示,我国已建成高质量数据集超11.6万个,总体量超960拍字节(PB),高质量数据集建设取得积极进展。但也要看到,高质量数据集建设仍存在以下堵点。
一是高价值数据供给不足。丰富的数据资源并不等同于可直接用于人工智能训练、微调、评测和应用验证的高质量数据。大量数据沉淀在业务系统、生产设备和行业平台中,缺少清洗、标注和场景化治理,难以直接转化为模型可用资源。此外,高质量数据集建设主体较为分散,数据管理部门对资源底数、建设进展和质量水平难以及时全面掌握,影响高质量数据集建设的统筹布局、供需对接和动态管理。
二是数据加工与质量治理尚未形成闭环。原始数据需要经过清洗、增强、标注、融合、评测等环节,才能转化为模型可用的高质量数据资源。当前,不少行业仍缺乏标准化、自动化、智能化的数据加工工具和流水线,在长尾样本补充、稀缺场景生成、复杂语义标注等方面能力不足。同时,质量评估和反馈机制仍不健全,部分数据集缺乏统一评测标准、模型效用验证和全过程记录,难以持续监测和动态优化。数据生产与模型训练之间尚未形成有效反馈,哪些数据能真正提升模型能力、哪些数据需要补充修正,仍缺乏可追溯、可验证的闭环机制。
三是供需对接、数据流通和价值分配机制有待健全。高质量数据集建设,关键在于推动高价值数据在供给侧资源与需求侧场景之间实现精准匹配和有序流动。但现实中仍存在数据权属边界不清、开放共享不足,数据供需双方信息不对称、对接渠道不畅等问题。同时,高质量数据集涉及数据供给、治理加工、模型训练和场景应用等多个环节,各参与主体的价值贡献难以准确衡量,数据价值评估、定价、收益分配等机制仍需完善。这些问题影响了各方持续参与的积极性,制约着高价值数据集的持续供给和高效利用。
技术、标准、生态三方面协同发力
高质量数据集建设是一项支撑人工智能发展的系统工程,既需要技术创新,也需要制度保障、标准引领和生态协同。要围绕资源供给、质量治理、可信流通和价值释放等关键环节,推动各类主体协同参与、持续供给、共建共享。
一是要加强重点领域高质量数据集布局。应从国家数据资源体系整体出发,建立高质量数据集资源目录和重点场景清单,动态掌握重点行业、重点领域的数据资源底数、建设进展和质量水平,形成“底数一本账、调度一盘棋、协作一张网”的格局。围绕先进制造、医疗健康、科学智能、具身智能等重点领域和前沿方向,应以典型场景和模型训练需求为牵引,分层建设一批具有行业代表性、场景真实性和持续更新能力的数据集。对真实数据不足、采集成本较高的领域,可探索真实数据与合成数据协同建设,综合运用仿真生成、数据增强、生成式模型合成等方式提升数据集建设能力。
二是要提升数据加工与质量治理闭环能力。建设面向大模型的高质量数据集,关键在于提升数据采集、清洗、增强、标注、融合、评测和反馈的全过程能力。要探索建设面向模型训练的数据工厂,发展可信采集、合成增强、精细标注、多模态融合、质量评测等关键技术,推动数据生产从一次性收集加工转向标准化、流水线化、可持续、可验证的生产体系。同时,应完善数据集建设标准规范,强化全过程记录、数据血缘、质量闸门和任务效用评价,推动模型能力评测结果反向指导数据集建设和优化,形成数据质量提升与模型能力优化相互促进的动态反馈闭环。
三是要健全数据供需对接、可信流通和价值分配机制。应建立面向重点行业、重点场景的数据集供需对接机制,推动数据供给目录与模型训练、场景应用需求有效衔接。要在保障安全合规的前提下,探索数据授权运营、可信数据空间、行业数据联盟等机制,建设模型训练场和数据可信使用环境等支撑载体,推动数据供给方、模型开发方、行业应用方和监管部门形成良性互动,使数据在可管可控条件下实现“供得出、流得动、用得好”。同时,应完善数据价值评估、定价和收益分配机制,探索按数据质量、使用场景和应用成效等维度确定数据价值,合理保障各方权益,增强高价值数据供给和高价值数据持续更新的内生动力。通过制度创新和技术创新协同发力,让更多高价值数据被发现、被治理、被使用、被增值。
人工智能发展的根基在数据,数据价值释放的关键在应用。面向未来,应把高质量数据集建设作为人工智能基础设施和数据要素市场建设的重要支撑,持续提升数据资源供给、模型赋能应用和产业价值创造能力。只有夯实高质量数据底座,推动数据、模型、场景协同发力,才能更好促进人工智能技术创新与产业创新深度融合,为培育新质生产力、推动高质量发展提供坚实支撑。
(作者:徐照光 系大连理工大学经济管理学院副教授;叶鑫 系大连理工大学经济管理学院教授、院长;袁军 系国家数据发展研究院副院长)
扫一扫在手机上查看当前页面


网站地图