文化资源数据采集、要素提取与智能标注
北京邮电大学党委常委、副校长
苏森
尊敬的各位领导、各位专家、各位朋友,大家下午好!
非常高兴和大家共聚福州参加数字中国建设峰会,数字文化分论坛。我今天向大家汇报北京邮电大学文化大数据领域完成的一项工作,文化资源数据采集要素提取与智能标注。
首先,我们看一下文化大数据服务与应用的新需求。
2022年3月,两办联合印发《关于推进实施国家文化数字化战略意见》,明确要求到2035年建成物理分布、逻辑关联、快速连接、高效搜索、全面共享、重点集成的国家文化大数据体系,同时在产业界也提出了新需求,文化资源大数据业务需求已经从数字化、信息化向知识化和智能化方向发展,所谓的“知识化”就是以应用场景为中心的知识服务,所谓的“智能化”以数据为中心的数字智能服务生态。
根据我们对国内外文化大数据领域研究项目调研,我们发现全球的文化大数据资源已经大规模汇聚,数字化智能服务水平不断升级。同时,大数据资源汇聚方面逐渐向物理分散、逻辑集中发展,在内容挖掘方面逐渐向主题丰富、分类细致发展,在展览展示上逐渐向个性化体验、形式化多样发展。根据我们的调研,我们还发现如果要实现文化大数据的新服务需求,必须解决三个关键核心问题。
第一,海量数据如何实现数据的检阅表征。
第二,数据之间如何形成数据标识的关联。
第三,多端数据如何实现可信共享。
为解决这三个关键核心问题,北京邮电大学牵头承担了国家重点研发计划、文化科技与现代服务业重点专项项目、文化资源大数据服务技术集成与典型应用。其中,还有很多单位参与。这个项目目标是探索突破文化资源大数据服务加工中的关键问题,构建文化数字化与应用技术体系,打造文化资源数据化。关联数据资产化、数据分享平台化、创新创造智慧化、消费体验场景化的应用新范式,赋能国家文化大数据体系建设。
在这个项目中,北邮除牵头外还承担了一项任务,即在这个课题中主要研究构建文化资源大数据服务工程方法、文化资源数字化采集修复技术,以及文化记忆符号提取与群智、标志技术。在这个课题中取得第一项成果是:文化数字化原真采集与多模态技术,突破单一模态采集界限和传统三维建模架构,实现文化数字化多维感知,与深度计算一体化,解决超高维信息统一表征影射,与数字修复、语义呈现全貌难题,为文化大数据准确预测提供基底数据。
目前,一套原真采集硬件已完成搭建,为文化可量化、可理解、可传承三大科学问题,提供核心竞争力,为生产端文化数字化生产线的高效原真卡脖子问题提供最核心技术支撑。
创新和进展二,是在文化符号表征和特征提取方面。针对海量数字文化符号类型复杂、视觉特征与语义间存在理解鸿沟等问题,提出时空关联的文化记忆符号表征模型,并通过时空一致性关联规则挖掘,构建具有语义预测与视觉特征一致性的数字文化熵度量空间,解决文化符号语义度量难的问题。
这部分工作的进展体现为一系列算法和标准的提出。要素提取和标注技术的专利池和标准群已初见形态。
下一步,我们将进一步加大集成和示范力度,技术赋能文化大数据服务产业生态链各环节,服务文化科技服务行业的变革,服务文化产业数字化转型升级。
谢谢大家!祝论坛取得圆满成功!
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面