数据硬茧,大模型驱动企业知识价值跃迁
360集团高级副总裁、数智化集团CEO
殷宇辉
各位领导,业界同仁们大家好,我是360集团殷字辉。360集团坚持安全和人工智能双主线发展,秉持上山下海助小微的战略使命,坚定地拥抱人工智能产业革命,也很高兴来到第八届数字中国建设峰会与大家共同交流大数据和大模型相关趋势。
2024年中国大数据产业规模达2.4万亿人民币,从当中我们看到一个趋势,硬件、软件、服务三分天下。软件和服务的占比超过59%,标志着产业结构向高附加值升级,同时“东数西算”重点工程在落地,中国的大数据IP增速也居全球第一。从算力基建到数据要素流通构建起来最完整的大数据产业链,我们正在实现产业链自主可控,在整个产业里面自主可控比例越来越高,这意味着中国不仅是数据大国,更是数据基数的强国。大数据和大模型技术正在深度融合,这不仅改变企业在数据处理和分析上的方式,更催生全新商业模式和应用场景。
从技术上来看,大数据本身发展已经走到深水区,从存储、数据处理机制逐渐迈向多模态一体化处理,因果推理相关复杂应用机制。从应用场景上,比如说在政务领域大模型可以助力民生痛点识别与资源优化,通过如何结构化和非结构化数据为决策提供更全面的洞察和分析。从趋势上来看,一个最典型的趋势是结构化和非结构化数据快速融合,虽然公司做市场调研、问卷数据规整有序,但是用户反馈一般杂乱无章,大模型出现之后这一切都改变了,因为大数据有语义理解的能力,有视频理解的能力,它能读懂数据到底在说什么,在表达什么。
基于多模态的融合能力,让不同类型的数据能够携手合作,更方便去挖掘数据间隐藏的关系,有了大模型智能搜索会更精准,合规的质检会更高效,司法监督也能挖掘出关键线索,让数据真正去释放实用价值和巨大能力。
另一方面,真正带来大数据普惠,像前面大家讲到的多种方式出现让原来数据分析不仅仅是数据分析师和程序员在使用,它大大降低大数据操作门槛也带来新的交互体验。传统分析用户反馈的时候,我们可能需要人工去整理文字评论、统计评分,以及图片,耗时非常长。而大模型基本能在分钟级识别用户反馈的情感,以及相应内容,还有评分的观点,直接可以输出用户对产品的包装、设计、颜色等等洞见。这就是数据普惠力量,让数据真正由一线运营人员能够随手可用,让决策随时随地可以发生。
在大数据的治理环节,我们看到基于AI大模型的智能数据治理,不管是在数据的接入,自动打标,数据质量的增强这些方面都有了有效作用,以前数据治理像打扫一个脏乱差的书房,海量数据要分类,要贴标签,说是智能全靠人工。
当前,大规模模型已具备利用数据自动进行标注的能力,例如能够识别合同中的身份证号码异常,检测财务报表中的异常数据,甚至能够生成治理报告。我们观察到,许多机构采用此类技术后,数据合规效率显著提升,超过60%,同时人力成本也节省了一半以上。大数据与大规模模型的发展是相互促进的,大数据在大规模模型领域扮演着关键角色。正如先前专家所分享的,训练大规模模型需要依赖于计算能力、算法和数据。因此,优质的数据准备和适当的数据比例对于训练大规模模型至关重要。
另一方面,大模型像前面一些专家分享的,到矿山到这种场景,其实已经进入到垂直领域了,垂直领域更离不开行业和企业私域知识的整理和调优,只有从企业数据库到构建企业的知识库才能更好为应用大模型打牢地基。
在应用大型模型的过程中,我们同样遭遇了模型幻觉等挑战。大数据技术为此类问题的解决提供了强有力的支撑。例如,通过数据模型对多模态异构数据进行解析和结构化处理,并在应用时结合CQL过滤及相应的聚合技术,能够显著提高RAG的准确性和相关性。此外,结合企业知识图谱进行知识检索,可以实现推理过程的可视化。这一策略至关重要,因为众多现实问题涉及人、物、场等多方面的关联,并包含了大量企业相关的知识。
通过这些知识召回技术可以为模型提供更准确信息,将推理过程可视化之后去做思考过程的透明化处理,让使用者能够清晰地看到模型是怎么得出结论,这就是留下对应知识链,增强模型输出可信度和可解释性。这一操作不仅提升大模型性能、准确性、关联性,也是大模型走向真正严肃场景必备的基础。
考虑到360公司的主要用户群体,主要包括互联网用户和政府及企业单位。经过多年的积累,我们已经构建了包括360AI搜索、数据平台、安全大数据等在内的一系列关键大数据应用场景和技术平台。通过将大型模型与大数据相结合,我们一方面对相关工具进行了升级,实现了从数据检索到多模态知识管理、多模态知识创作的转变;另一方面,我们将安全大数据提升至安全大模型的层面,致力于构建安全知识运营,并成功打造了数十种安全智能体。
接下来,我将简要介绍我们的产品进展。去年,我们在互联网领域推出了360AI搜索;今年,我们又推出了纳米AI。我将阐述两者之间的差异。去年,我们所见的大多数人工智能产品是以Copilot的形式呈现,当你阅读一篇文章时,它可能在页面右侧弹出一个助手,帮助你进行总结和归纳。然而,今年我们主要采用了一种类似文件夹的知识库形式,你无需关注文件格式,也不必打开文件,只需将其上传,它便能在提问环节自动为你进行总结归纳,并进行深入研究,甚至可以成为你个人的长期记忆。
纳米AI提供了一站式的个人知识管理与应用解决方案。可以想象,许多人的手机中存储着数百张图片和数十个文档。在这种情况下,纳米AI充当了知识管理者的角色。用户只需拍摄会议笔记的照片,系统便能自动将其转换为文件并生成摘要;拍摄培训视频,系统则能从中提取关键信息并生成相关的考试题目。这无疑成为职场人士的得力工具。
在过去一年的观察中,我们发现企业在应用人工智能技术方面面临诸多挑战。一方面,企业对AI技术抱有浓厚兴趣,但同时又存在使用上的顾虑,担心数据安全问题以及模型的网络传输风险。另一方面,企业内部数据的复杂性以及与业务系统的整合难度,也使得企业对AI技术的应用感到力不从心。此外,一些企业部署了Deepseek后,发现其功能相对有限,仅限于通用知识问答,这进一步加剧了企业的犹豫。为此,我们推出了纳米AI企业版,旨在解决一系列问题。
1.企业内部算力网络的统一调度问题。众多企业部门拥有各自的Deepseek一体机和算力资源,但缺乏一个高效易用的Web UI界面和AI客户端。
2.实现企业知识资产的统一运营。无论知识资产存储于云盘还是传统知识库,都应实现统一的接入和管理。
3.实现模型的统一治理,确保模型的高效管理和优化。
4.实现智能体在多端设备上的协同调度,提升工作效率和响应速度。
5.统一管理内生安全与外挂安全,确保企业数据和系统的全面防护。
为什么这样讲呢?因为大模型安全和传统安全不一样,大模型安全很多来自内生安全的部分,需要从大模型本身训练阶段数据到输出阶段生成式访问控制整体去进行管控和防护,以此为参考企业可以规划并建设自己AI算法到模型到应用的一体化建设方案,做到安全、向善、可信、可控地使用AI相关的服务。
凭借这些核心能力,我们在政府和企业客户的相关流程中提供助力,以提高效率。例如,我们协助检察院构建法律监督知识库,并开发了专门领域的法律监督模型以及智能检物的预约架构。最初,我们利用智能问答系统减少实际工作中的简单重复性劳动。此外,我们对历史档案、案件和模型进行多模态版式分析,通过多轮渐进式要素抽取,实现线索的自动推送、检测预警和文书生成等功能。核心关注点在于刑事审判等环节,用户的收益十分显著,实现了从人工监督到智能监督的转变,有效提升了法律监督的效率。
在安全领域的探索中,360公司拥有全网最庞大的安全大数据资源。这一坚实的基础支撑着数亿网民的安全防护需求。经过十余年的积累,我们整合了包括漏洞情报、攻防知识图谱在内的多元数据,孕育出我们的安全大模型。
请参考下图,我们的安全大模型由多个子模型构成,并非仅依赖单一模型。例如,工具检测大模型、运营处置大模型等,它们通过高质量数据的训练和安全运营的专项经验不断进化。在实际应用中,安全大模型展现了巨大的价值。它不仅保障了自身的安全,还通过模型治理模型的方式,应对了AI系统面临的各种风险。在安全运营方面,它提炼安全知识,实现有问必答,使安全管理智能化,并监督流程。在安全服务方面,它提供技术支持,实现自动化和高效运作。此外,我们还提供十余类数字员工的订阅服务,确保实现全天候的安全托管运营服务。
最后,大数据和大模型的快速融合,让我们真正迎来知识普惠的时代,也让我们一起期待数据破茧成蝶,知识驱动未来。谢谢大家!
(以上内容根据嘉宾发言速记整理)
扫一扫在手机上查看当前页面
