王磊在第八届数字中国建设峰会大数据融合应用分论坛上的发言
发布时间:2025-11-28 11:20 文章来源:峰会组委会秘书处

密态计算重构数据融合的安全边界

蚂蚁密算CEO

王磊

  各位领导,各位专家大家好,我今天汇报的题目是《密态计算重构数据融合的安全边界》。随着国家数据要素市场化一系列政策文件不断深入,我们知道现在整个数据要素市场化已经进入深水区,进入到落地的关键阶段,可信数据空间是很关键的抓手。

  第一,可信数据空间的三大核心能力。一是可信管控能力、二是资源交互能力、三是价值共创能力。我认为这三个能力不是并列关系,而是依赖关系。首先,必须确保数据流通过程的安全性,并提供数据流通的可信管控能力。在此基础上,方可进行数据流通和资源交互,通过协议和标准化手段解决数据流通问题。数据流通和融合实现后,方可进一步进行价值共创和价值挖掘。鉴于这些依赖关系,底层实现和技术路线对上层工作具有显著影响。若底层决策不明确,上层工作未来可能需要重新审视和调整。可信管控的话我们觉得目前整个落地过程中面临着巨大的困难和挑战。这里说两个我认为比较大的困难和挑战。

  第二,可信数据空间落地的现实困境与挑战。现在整个流通是基于明文数据进行流通。很多可信空间采用的技术是传统的基于沙箱隔离和管理人权限模式进行控制。这个模式之前主要是企业内部服务于企业内部的管理这个过程中其实已经有过大量的数据风险存在。这是2024年IBM数据泄漏报告,有个横轴、纵轴。横轴是由于各类事件在整个数据泄漏中研发原因占比。纵轴是平均每个事件的本身百万美元,所以刚才列了两个,与刚才说内部的数据流转技术强烈相关的两个风险点。

  一是内部人员的泄漏,这个大概占整个泄漏事件的7%,但是泄漏损失非常大,每个泄漏平均成本大概在500万美元。另一个是说凭据被泄漏、滥用。凭据被泄漏和滥用,大多数情况也是由于内部人员无论是由于客观和主观原因管理不善,滥用等等原因导致的,它的整个占比是16%,每次造成的损失是480万。

  当我们内部这一套技术体系被用于数据的外循环,就是跨主体之间进行流通的时候,这时候你运维人员、数据加工者都不是企业内部人员。这时候我们认为风险会变得更大,整个风险损失可能就不是20%了,而且可以看到每一个损失造成的单笔风险成本都是巨大。所以我们认为通过当前的技术,当前的明文数据流通我们觉得没有办法实现可信管控。

  二是原始数据不出域的标准建设不清晰,制约了可交互性。原始数据不出域这是国家数据二十条提出的,但是因为没有细化标准,什么是原始数据,大家没有达成一致。

  在数据传输实际使用过程中,我们遇到了很多原始数据不同的方式,举几个常见的有:

  第一种方式采用数据脱敏。就是你把整个身份证隐藏掉其中一些位数,或者其他数据进行脱敏处理,这是不是原始数据?很多地方认定这不是原始数据,所以可以出域。

  第二种方式采用嵌入式向量。就是机器学习有很多中间过程,是嵌入式向量,这些向量你是没有办法知道它的原始数据到底是什么,通过肉眼是没有办法判断,那它是不是原始数据?很多地方大家认为它也不是原始数据。

  第三种方式采用AES-256对数据进行加密,它是一个密文数据。它是不是原始数据,很多地方认为是,因为你对数据加了密,还是原始数据。

  但是我认为原始数据不出域这件事情,我们不能形而上地理解。我们为什么会说原始数据不出域?核心真的是关心原始数据吗?我觉得不是,我们认为原始数据出域会造成安全风险和隐患,所以原始数据不出域我认为它背后是如何让数据安全可控地进行流通。

  从安全性进行分析。第一种数据脱敏方式。看起来似乎不叫原始数据,但是这里放的是美国人口普查局的统计数据,通过脱敏的34张表的统计表格,成功进行了原始数据的还原。数据脱敏使用了一系列非常复杂的机制,现在看来很多数据脱敏在强度远远不够,是能被攻破的。

  第二种嵌入式向量方式。网上有很多论文证明可以通过中间向量,比较容易地恢复出来原始数据。

  第三种AES256加密,在不获得密钥的前提下,基于现有算力绝对无法还原出原始数据的,这是有理论证明的,从安全角度来说它是安全的。

  第三,密态计算重构数据融合的安全边界。要解决整个问题,这里讲两个概念。

  一是定义什么叫密态,我们认为密态是数据处于一种除了密钥持有方之外,任何人都没有办法看见数据的状态,我们称之为密态。密态最大的好处是收敛了整个攻击边界,你的数据在明文流动时,整个系统数据非常复杂,它是一个非常复杂的边界,这么大的边界下很容易被攻击。就像你是在守一座城,如果敌人可以从四面八方对城发起攻击,你很难守住稍一疏忽就会被攻破。密态的好处是它把这个复杂的系统边界,收敛到了数据的数字化的边界上就是密钥。数学上已经证明,你只要能够把密钥守好,你就能保证你自己的安全性。通过这种边界的收敛,可以极大减小数据在流转过程中的攻击面。

  二是密态计算。就是整个数据流转过程中,从数据的采集、传输、存储、计算,整个全链路都能够确保数据是处于密态的状态下。当我的数据通过密态的方式流出物理边界之后,依然能够对整个数据,在外面流转的可控性,所有操作都能形成共识。也是我能够确保我的数据在什么时间,被什么人用什么样的方式使用,我可以随时撤回授权,把数据销毁拿回来。这是密态计算最核心的能力,它能 实现数据离开物理边界之后的管控。

  在这里我们主张两个观点。

  一是密态计算,首先一定是基于技术性能而非运维性能。就是我们要确保所有的过程中不是运维人员可以随意篡改,我的数据出去不是说到了别人运维系统的数据就不安全,别人运维了系统就能够通过一些后门或者特殊权限的方式拿到我的数据。我一定所有东西都是基于技术的方式解决这个问题。

  二是我们需要对原始数据做一个相对比较明确的定义,这样才能让数据更好地在原始数据不出域的大背景下看到它更好的流动性。这里提到一个重要点,我们觉得密态数据,它不是原始数据。

  第四,传统隐私计算的瓶颈与密态计算的革新。也有人会问,之前讲隐私计算,现在又讲密态计算,这是不是一个新概念。我想说密态计算和隐私计算一脉相承,不是一个新的东西,更多称之为下一代的隐私计算,它是一个隐私计算的发展。之前的隐私计算实际落地过程中会存在问题和困难,这就导致隐私计算在大规模的数据流转中没有办法完全发挥价值。

  密态计算通过软硬件结合的方式去解决这些困难。

  第一,性能和规模。原来是纯粹的基于密码学的方式,无论是计算性能还是整个大量网络传输,网络延迟和网络带宽造成的瓶颈,使性能和规模实现。现在通过软硬件结合的方式,可以支持海量数据,可以大语言模型LLM的训练和预测。之前隐私计算也可以做大模型的一些东西,但是更多用在学术研究阶段,开源社区已经有大语言模型,包括学术界有很多基于隐私计算的框架引领去做大语言模型训练。但是它更多停留在学术研究阶段,很难在实际落地中进行使用。

  第二,计算成本。通过软硬件结合,基本可以把成本控制在明文流通的2-10倍之内。这是根据它的安全等级,安全等级要求越高,成本可能会越高,但是大体上明文的2-10倍应该已经能够在实际业务场景落地使用了。

  第三,之前更关注计算过程中的安全性,就是如何确保计算过程中大家数据不会泄漏。但是我们知道数据在未来全域流转过程中要解决的是全链路安全性。所以这里要把单点的安全问题,扩展到系统性安全问题。这里通过把传统的安全和隐私计算结合,构建数据全链路。

  第五,蚂蚁密态的可信数据空间产品。总体是基于密态计算技术,包括芯片级安全的隔离环境还有星绽的可信系统软件栈和可信隐私计算框架,这两个都是蚂蚁开源的在整个社区有非常大影响力的开源软件。其中可信隐私计算框架引领是中国最大的隐私计算开源社区。这之上我们构建了可信管控,包括价值共创等等能力。

  除了之前提到的全链路安全,高性能,低成本这些特点以外。最重要的是从上到下都是蚂蚁全栈自研,目前我们在主导九个国际标准制订,整个隐私计算的专利数,现在蚂蚁是全球第一。

  第六,从技术信任到价值共生。我们对于整个数据要素流转大概趋势的判断,用自来水做了个比喻,把整个数据流转分成四个阶段:

  第一,数据孤岛。企业自己产生数据,自己消费数据,称之为水井。

  第二,数据要素点对点流通。点对点可信对接,缺乏基础设施支撑,称之为桶装水。

  第三,数据要素区域化可信流通。在行业和地域区域化流通,由数字化领先行业和地域基础设施率先推动,称之为自来水网。

  第四,数据要素广域可信流通。跨行业、跨地域、跨云的可信互联互通,降低边际成本,普惠千行百业,称之为综合水利工程。

  谢谢大家。

  (以上内容根据嘉宾发言速记整理)

扫一扫在手机上查看当前页面