面对即将到来的数据密态时代,隐私计算需要可信加持

2022-03-17 16:43:35 来源:网络整理

数据密态计算的影响可能被低估了。

2017年至今,《网络安全法》《数据安全法》以及《个人信息保护法》的先后落地,让数据严监管成为大势所趋。

此前,这带来的直接观感是,应用隐私计算等相关技术,数据被加密之后,可以像从前一样被使用,只是加大了成本。业界对其重要性显然还没有充分认知。隐私计算被视作实现数据“可用不可见,可算不可识”的唯一技术解。2021年火遍创投圈的隐私计算,也只是落地了一些超大型政府、金融等机构的小规模试点,更多的中小机构仍处在观望状态。

但是,中国正在迈进一个前所未有的数据密态时代,数据密态时代的影响将不止于此。1月12日,来自中国信通院、清华大学、清律律师事务所等专家共同参与的“隐私计算合规白皮书座谈会”上,蚂蚁集团副总裁、安全隐私技术委员会主席韦韬认为,未来数据跨主体流动将发生质的变化,数据将会从明文进入密态时代,并且这将给业界带来一连串的连锁反应。

数据密态时代来临

数据密态时代与历史的分界点在2021年。

此前,2019年公安部组织部署全国公安机关开展的“净网2019”专项行动拉开了数据密态时代的大幕。这次专项行动的目标是,依法严厉打击侵犯公民个人信息、黑客攻击破坏等网络违法犯罪活动。

这场整治行动之前,在从数据源到数据使用方之间的庞大数据产业生态中,数据使用简单粗暴,用明文直接传递,这带来巨大的问题。数据生态链较长,数据在很多主体之间流动,其中任何一环产生问题都可能会导致数据泄漏,从而危及个人隐私及安全。2016年8月,山东女孩徐玉玉因被诈骗电话骗走上大学的费用9900元,伤心欲绝,郁结于心,最终导致心脏骤停离世,这一案例是个人身份信息泄露带来恶果的典型案例。

整治行动之后,市场迎来巨变。能够使数据实现“可用不可见”的隐私计算技术受到关注。但是那时,整个行业还不能说进入数据密态时代,因为虽然数据监管已经趋严,但是能够用来解决问题的隐私计算技术却尚未成熟。比如,在金融科技领域,早期训练一个逻辑回归的风控模型,同样的样本和特征数量,联邦学习的建模耗时是明文的数十倍,这在实际业务场景中是无法接受的。

转折点的真正到来在2021年。这一年,隐私计算技术经过2019年、2020年在实际场景中的不断打磨和迭代,性能得到大幅提升,达到基本可用的状态。这意味着,数据在加密状态下进行计算,有了技术支撑。与此同时,隐私计算技术开始在真实商业场景中大规模落地,拥有隐私计算技术的公司在这一年都开始大力推广市场,隐私计算技术的招投标开始活跃。

再加上政策和法律的助力,数据进入密态时代的环境已经完全具备。

2020年4月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术一起列为生产要素,明确指出了市场化改革的内容和方向。

数据流通及融合应用的需求巨大,而数据黑产带来威胁的背景下,法治环境趋严,为数据安全及个人信息保护提供保障。目前已经形成了包括民法、刑法及其他法律在内的法律框架体系。其中,2017年6月开始施行的《网络安全法》及2021年9月及11月分别开始施行的《数据安全法》和《个人信息保护法》对数据相关行业的影响最大,尤其是2021年落地的这两部法律,给数据相关行业带来了新的冲击和挑战。

韦韬认为,数据密态时代的核心,是数据流通使用方式的巨大改变,数据将以密态形式在主体间流动和计算,显著降低数据泄露的风险,并在合规前提下支撑各种形态业务的发展。此前,数据被加密之后只能用来传输或者存储,但是未来数据在加密状态下可以被计算,这将带来巨变。

经历了2021年之前的技术探索,韦韬判断,2022年整个数据行业将迈向“数据密态时代”。

可信隐私计算是技术未来方向

迈进数据密态时代,蚂蚁集团看到,隐私计算技术需要进一步升级,“可信隐私计算”是非常重要的方向。

蚂蚁集团是中国最早探索隐私计算应用的机构之一。蚂蚁集团在隐私计算方面的布局始于2014年,不仅探索过几乎所有的技术路线,也在实际商业场景中进行过广泛的应用尝试。

与此同时,蚂蚁集团在技术方面也拿出了覆盖全面的创新产品。其中包括:蚂蚁链摩斯隐私计算平台、蚂蚁链隐私计算一体机、蚂蚁链数据隐私协作平台FAIR,以及隐语隐私计算通用框架、Occlum可信计算通用框架等。

在前期探索的基础上,韦韬认为,隐私计算往前走、进一步落地非常重要的方向是“可信隐私计算”。

《个人信息保护法》中信息主体授权同意的规定给数据产业带来不小的挑战。其中规定了27个不同场景下的“同意”,形成一道“授权墙”,要求每一新应用场景使用个人信息都要获得个人明确的单独授权,即便在隐私计算“原始数据不出域,数据可用不可见”的情况下,都要先有授权,概括授权是违法违规的。

韦韬列举了两个典型场景下的困境:

一是AI模型训练,如果每一个新应用场景的AI模型训练,都需要每一条数据主体个人的重新授权,大多数场景因为这样巨大的授权调整将难以获得无偏见的训练数据,从而导致AI技术的应用效果受到严重影响,进而严重制约人工智能与数据要素产业的发展。

另一个典型场景是,对于风控等与黑灰产对抗的领域,黑灰产所使用的账号,更不可能给予相关授权。

这个问题的解法是“匿名化”。《隐私计算法律与合规白皮书(2021年)》指出,隐私计算技术可作为匿名化技术方案的一个组成部分,有助于减轻授权同意的合规隐患,“假设获取数据的一手数据源首先获得了个人信息主体没有权利瑕疵的授权同意,或者在获取数据后对数据进行的脱敏、加密处理满足了匿名化的要求,那么输入模型的数据也就不再属于个人信息,其他参与方也可能不再需要重复授权”。

但问题在于,匿名化在没有限定的开放环境下,仍存在被恢复识别的风险。韦韬指出,在这种情况下,可信计算技术能够与隐私计算技术很好地结合在一起,解决匿名化后个人信息重新被识别的问题——可信计算能够非常好地满足对环境的限定、对使用的限定,并支持审计,使合规与数据权益的管控达到好的平衡点。

可信计算,英文名称为Trusted Computing。可信计算组织( Trusted Computing Group,TCG)的可信计算技术思路是通过在硬件平台上引入可信平台模块( Trusted Platform Module,TPM)(通过TCG标准的安全芯片)来提高计算机系统的安全性,这种技术思路目前得到了产业界的普遍认同。

北京信息科学技术研究院院长、中国科学院院士冯登国主要从事信息与网络安全方面的研究与开发工作,是可信计算领域最具代表性的研究者之一。其在评述《创新发展中的可信计算理论与技术》(2020)中指出,与TCG的思路类似,其将可信理解为以安全芯片为基础, 依托安全硬件建立不受恶意代码攻击的可信执行环境, 确保系统实体按照预期的行为进行。值得注意的是,随着可信计算的发展,可信平台模块不一定是硬件芯片的形式。在移动可信计算方面, 软硬件结合的可信执行环境体系架构设计和实现逐渐成为研究重点;在可信物联网方面, 可信计算技术也在不断地拓展其应用边界。

韦韬阐释,可信隐私计算的核心是在隐私计算的技术体系以及技术实现层面提供可信保障,以对个人信息和敏感数据提供高效的、全生命周期的安全合规保障。业界可以在可信隐私计算的框架下有效的解决当下面临的合规、业务支撑、安全适用挑战。具体来讲有三个层面:

第一,在业务合规层面。特别是为了满足匿名化要求,实现“可算不可识”,需要可信。特别的,可信计算技术能很好的满足对环境的管控、对使用场景的限定、以及对审计的支持,使合规性、数据权益管控达到好的平衡点。

第二,在复杂业务支撑方面:跨网计算需要可信。现在大部分隐私计算是需要“跨网”完成计算的。这对于中小规模应用、非实时、非关键应用是够的。但再往下跑,真正支撑行业大规模数据业务,支持实时关键业务就要新的突破,不能所有计算都强依赖于大量的公网/专线通信交互。通过公网/专线的大规模计算稳定性保障的挑战非常大,中间网络抖动都可能会导致严重问题。以前解决性能瓶颈的主要法宝是加机器,但现在跨网隐私计算的瓶颈是在公网带宽加机器没用,加机器成果差、成本高、还面临功能的限制。要应对这个挑战,主要技术方向也需要融合可信计算技术。

第三,行业需要可信的隐私计算标准。隐私计算技术由于太专业,大部分应用客户不能真正理解其安全性和适用范围。缺乏完善标准测评会就会产生浑水摸鱼,导致一些不安全的方案进入实际应用,并且进一步导致方案在行业大规模应用时产生严重数据泄漏。如果这一结果发生,将对整个行业造成严重伤害。要防患于未然,就需要行业标准与测评协同推进,保障行业健康发展。

“我们相信可信隐私计算能够助力行业更好地迎接数据密态时代的挑战。与以前各种隐私计算技术一盘散沙不一样,未来会形成有体系的技术支撑。我们可以在不同场景下使用不同技术,最后完成整个行业数字化转型的数据安全和隐私保障工作。”韦韬表示。

连锁反应与跨越式发展

未来,数据密态时代的到来可能意味着更多。

它首先意味着更多的挑战。比如,目前隐私计算不同的技术路径各有长短,适用于不同的场景,而技术的突破仍然是整个行业面临的共同课题。再比如,通信的挑战。在隐私计算领域,目前业界在讨论避免跨网做计算,以规避数据传输中带宽和延迟的限制。在相关技术突破之前,利用公网传输面临的性能损失仍将是基础设施层面的障碍,而利用专网又面临价格昂贵的问题。

它也意味着技术将不得不迎来革命性的冲击和变革。目前,在实际应用中,这样的冲击已经开始显现。韦韬举例,比如对算法就有巨大影响。以前明文状态下使用所有数据都有标签,而未来在《数据安全法》和《个人信息保护法》的限定下,研发人员在调整参数时看不到具体个人信息了,使用模式完全不同了。这可能使得行业的知识结构发生很大变化。很多在数据密态时代能够提供的算法的精度、性能和规模会与之前完全不同,这将进一步使得未来对从业者的要求可能发生非常大的变化。

相应地,未来人才需求与教育可能也会随之改变。近几年参加国际安全顶级会议的时候,韦韬看到,隐私计算不是单独一门技术,而是涉及密码学、系统安全、AI、大数据等诸多细分学科,目前这些细分学科之间正在国际安全顶会上进行更多跨学科交流,相互倾听对方在讲什么。这个领域未来对人才需求非常大,这有点像AI行业的发展。前些年AI被广泛关注,这五年来全社会产生海量的人才市场。现在,隐私计算以及安全密码学相关领域人才缺口非常大,再加上这个领域还需要和法律相交叉,相关人才更加稀缺。

但是与此同时,这也带来新的突破式创新、跨越式发展的机遇。

业内人士介绍,由于监管环境的不同,许多国家仍处于数据收集阶段,而中国已进入数据融合发展阶段。在这一方面,中国拥有先发优势。从国际横向对比来看,中国的隐私计算技术已经走在前沿。

三年前,韦韬记得微软、IBM、英特尔的专利水平是业界追赶的目标。

但是在过去两年多时间里,这个差距正在被大幅缩小。

根据第三方机构IPRdaily与incoPat创新指数研究中心联合发布的《2020年全球新兴隐私技术发明专利排行榜》,截至2021年3月19日,中国有7家公司冲进前十,蚂蚁更是以740件的专利申请数量遥遥领先,微软居第二, IBM及英特尔,分别位列第五名及第六名。

图1 2020年全球新兴隐私技术发明专利排行榜前十(截至2021年3月19日)

“中国在这方面将引领发展,数据行业有这样的机会。”韦韬最后表示。