编者按
信息化时代,数据已成为一种新型生产要素。如何在守护隐私底线的基础上,挖掘数据潜力,发挥数据价值?实际上,业界已经给出了答案——让数据“可用不可见”“可控可计量”的隐私计算。作为数据合规从业人员,有必要了解的隐私计算技术有哪些类型?隐私计算为何会被引入隐私数据保护领域?如何从法律角度分析隐私计算技术的合规性?从法律角度分析隐私计算技术的合规性?
笔者结合多年实务经验,将这些问题综合实践案例进行梳理,与大家分享。
目录索引
01 隐私计算的实践:从表情包到奥运会
02 隐私计算的法律等式:最小化×匿名化
03 总结
01 隐私计算的实践:从表情包到奥运会
(一)从表情包到奥运会,二者与隐私计算的关系
关于隐私计算的应用实践,已经渗透到各行各业,包括表情包和奥运会,大家可能会想,到底隐私计算和表情包、奥运会有什么关系呢?
隐私计算在表情包与奥运会的应用,刚好是一正一反,一主动一被动,一产业一法律的组合。
我们可能会在很多种场景中使用表情包,如果能把用户使用不同表情包的频率进行统计,不仅能得出其适用的场景,也能起到更好的推广作用。而苹果公司希望在本地系统中就完成统计分析的工作,所以它引入了差分隐私,如此,它可以在个人信息不出本地端设备的情况下,在服务器端最终完成用户群体使用不同表情的频率统计。
奥运会的案例则与苹果公司相反。挪威的网络安全部门发现奥委会在自有的公有域名上有它们的数据库,里面有上百万的个人数据发生了泄露。调查发现,奥委会切换云盘的时,为了试验弹性搜索的功能,就用了一个数据库来做这个实验,但是它显然没有做好安全措施,就导致了泄露。
挪威的网络安全部门在对其的处罚决定中说到,这种测试本来可以用合成数据,也是一种隐私计算技术。合成数据在格式、字段等各方面跟真实数据相似。本可以用合成数据做测试,但却用了真实的个人数据,此举违反了GDPR的最小化原则。
(二)隐私计算的类型与技术原理
目前主流的隐私计算技术主要分为三大方向:
第一类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;
第二类是以多方安全计算为代表的基于密码学的隐私计算技术;
第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。
1、以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术
联邦学习依据的是一种分布式机器学习技术,通过安全算法协议进行联合机器学习,可以在数据不出本地的情况下进行多方数据源建模,提供数据模型推理和预测的服务。
在传统数据分析的情况下,羊想要吃到草,就要把草地上的草割下来送到羊圈中。就好比我们需要把数据仓库的数据喂给模型,才能提升模型的推理和预测能力。
但是在联邦学习的情况下,就是草不动,羊可以跑到草地里分别吃各自的草。即原始数据不脱离本地模型,部署到各个数据源去建模提升。
联邦学习其实是一种学习的模式,它具体实现时也需要用到安全算法协议,其中可以考虑使用同态加密、差分隐私、秘密分享等方式。
举一个医学领域上的例子。基因组学习对于基因的研究非常重要,包括基因研究分析、癌症早筛,这些对于延长人类的寿命和健康的提升是有很大作用的。
但是基因数据又极其重要、极其敏感,一旦离开医院本身的管理边界,在传输过程中或者即使是在可信的第三方也会面临泄露的风险。
所以现在在医学和基因研究上也会使用到联邦学习的方法,它的隐私建模是在多中心的数据联合分析中,使患者的数据不出医疗机构的管理边界,在数据可用不可见的情况下,通过交互加密的模型统计方式,实现数据的虚拟融合,进而完成联合数据的建模和分析。
也即在基因数据没有脱离医院原来严格管理流程的情况下,但完成了一个基因组,在多个数据中心实现了大样本的分析,并提升了整体分析的结果。
具体来说,数据分享时,不同数据源和全局服务商之间的通信链路通常是攻击高发的环节,对这种攻击,研究团队使用了基于“安全套接字层”的消息验证方式来降低风险。
同样对于全局分析来说,内部攻击也是一个比较大的威胁,通常会运用likelihood rate进行测试。在测试过程中,会测试患者有没有被重新识别的可能性,同时因为有内部攻击的存在,也增加可信计算环境来保证所有数据都可追溯、可验证。
联邦学习简单来说就是数据不动模型动。但是在这个过程中,在每一个具体案例中,可以看到它从原始数据拆解到数据中间统计结果和最后的模型输出结果里的每一个环节都要考虑到它有可能的外部攻击和内部攻击,然后再去选择相应的技术模型来解决问题。
2、以多方安全计算为代表的基于密码学的隐私计算技术
多方安全计算是参与方把明文形式的数据加密后或者转化后提供给其他方,任何一方在不用接触到明文数据,保证数据安全的情况下,能把数据用于该用的地方。多方安全计算经典的模型是百万富翁的例子,就是在不知道两个百万富翁分别有多少钱的情况下,能得出谁更有钱的结论。
在疫情情况下,社区和医院各有一份需要进行疫苗接种的名单,但是这两份名单里都有各自所不知道的数据。如果直接进行互相分享,会造成数据被过度访问和过度使用,而且有可能会造成数据泄露。
此时可以采取多方安全计算的方式,在任何一方不提供明文数据,不可以被访问明文数据的情况下,计算期望的数据值,也就是这个辖区里面没有接种过疫苗的人员名单。
3、以可信执行环境为代表的基于可信硬件的隐私计算技术
可信计算是以硬件本身的安全环境来保障隐私计算的安全性。
隐私计算本身虽然在过程中运用了很多的方式,但是它还没有解决一个问题,就是可验证的问题。所以在这种情况下,区块链因为其共享账本、智能合约、共识机制等等的技术特性,可以实现在原始数据上的链上存证,计算过程上的关键数据和环节上的上链存证回溯,确保计算过程可验证。所以区块链现在也逐步进入了隐私计算。
隐私计算解决的是数据可用不可见,区块链保证这个方式本身是可验证以及可信,所以区块链也成了新的流派。
隐私数据保护视角中的隐私计算分类
第一类:K 匿名和差分隐私。
实际上这两种隐私计算技术严格来说不一定对应于具体的技术实现。差分隐私其实有不止一种技术路线可以去实现,它包括相似的K匿名以及其他一些变体。
隐私的提出,提供给了数据保护、个人信息保护概念量化的指标,以此反映隐私是否得到了保护?被保护了多少?风险是否有降低?降低到了什么程度?
在不同的法律中,对于具体隐私技术的承认程度有所不同。以GDPR为例,它对匿名化的评估标准着重于三点:关联路径、识别路径、再识别。同时又进一步将其分解成三种风险:区分的风险、关联的风险、推断的风险。
如果说差分隐私或K匿名实施得比较好,所带来的区分风险比较小,又或者说差分隐私因其概念难以清晰分辨,所带来的关联风险虽然需要缩解,但对推断风险的影响不大。在上述视角下,GDPR会在一定程度上认可这一类技术。
第一类技术实际上就是一个指标,它试图改变游戏规则,试图度量隐私以及个人信息的保护,试图衡量识别--再识别的风险。有很大一部分法律已经开始明文承认这样一些指标,这也为具体适用提供了合法性基础。
第二类:可信执行环境、安全多方以及相关同态。
此类技术更多是在已有规则中玩游戏。以可信执行环境为例,它如果能被良好地执行,它真的可以保证只有那特定的、在规则中规定的那一部分人才能看到或使用个人信息数据,但也只能在环境里,以指定的协议、指定的方式进行处理,并做到极致。
(三) 隐私计算的目的——解决安全问题or数据合规问题
隐私计算在海外兴起的时间远远早于国内,在1980年,它兴起的缘由跟国内不太一样,海外首先意识到了整个信息网络技术的快速发展,使技术对人的隐私保护产生了挑战。
当时有一个流派坚持认为既然它是技术发展带来的问题,那么可以用技术的方式嵌入到流程当中去解决隐私保护的问题。所以在1980年就引入了一个名词——隐私增强技术(PETS,Privacy Enhancing Technologies)。它所强调的是用最小化的数据处理原则,希望通过隐私增强技术来让控制者更容易地履行数据保护的责任。
基于这种精神,欧盟在 2007 年开始大力推行隐私计算的增强技术。自此以后,隐私增强技术拥有了独立的计算机学科,促进了密码学、安全计算的发展,开启了在法律、社会科学和经济学上跨学科的探讨。
隐私增强技术可以避免不必要的数据处理活动,且不会损失信息系统功能性的一项技术,它的落脚点是最小化原则,它所强调的是不损失信息技术系统本身的功能性,所以它是一个保护和可用性兼容的一项技术。
国内引进该项技术,所关心的点在于促进数据流通。在数据生产要素的市场化配置诉求下,希望解决数据孤岛的问题。
根据隐私计算应用研究报告2022年版本,19年起到现在,隐私计算的落地逐年增长。仅在 2022年的上半年,招标数量就超过了前两年总和的60%,进入部署实施阶段的产品比例从 48% 提高到了55%。据不完全统计,目前隐私计算赛道的总融资量达到了 50 亿以上,厂家超过了 260 家。
我国首先从政策上给出了流通利好,数据成为了生产要素,可以通过市场化进行配置。
其次,在一些核心行业场景里,如金融行业首先推进了隐私计算技术,在保证合规的情况下,促进数据的可用不可见、数据不动、价值动的状态。
同时,在立法上也满足了诉求。这也就是为什么国内的隐私计算可以发展得那么好,因为它的发展源头跟合规性没有强绑定关系,并不是希望它来解决合规问题,而更多是让它来解决流通过程中的问题。
(四)隐私计算可以为哪些隐私保护场景提供解决方案
第一:从匿名化、去标识化以及最小化角度来看,隐私计算可以把纷繁多变的隐私计算技术在人们所关心的具体场景要求下进行组合,帮助实现个人信息的保护,实现各个维度上的最小化。
第二:以广告层面为例,广告不局限于一家公司,也不局限于一个行业。作为当今社会的信息主体,我们可以感受到每一个隐私保护的在线广告方案里面都有隐私计算的应用。
谷歌在这方面的体现最鲜明。谷歌的广告隐私沙盒里有具体的隐私计算技术体现的组件,其中很重要的就是隐私预算。出于对各方面要素的综合考虑,它希望通过隐私计算技术将它整个下一代的广告方案进行组合,以此定义隐私,量化对隐私的保护。
第三:以往我们都是从孤立的个例场景去讨论隐私计算技术,但是越来越多的应用APP的出现也带来了很多的变化。如美国在披露人口普查数据之前就用隐私计算的方式对个人信息进行了保护。
除了普查之外,苹果和谷歌都在去年的发布会上,对APP的开发者提供基于差分隐私计算处理之后的APP运营数据。在最新的场景中,如欧盟往美国传输数据,在涉及数据出境的复杂情况下,也可运用隐私计算技术以达到GDPR对跨境的要求。
总之,隐私计算的运用其实是全方位的,不再是单个场景,单个企业或单个行业。
(五) 在解决合规问题的角度上,隐私计算与技术结合的价值
纯靠隐私增强技术本身没有办法解决技术产生的数据合规问题。
隐私合规的落地其实就是基于风险评估得出来的风险值,对应选择恰当的组织和技术措施。风险本身光靠技术是不够的,光靠隐私增强技术去保护人的身份和保护数据内容本身也是不够的,它还需要辅以其他的一些配套措施。
评判隐私计算的合规性,回归本源,用合规评估、隐私影响风险评估的基本逻辑来进行判断,拆解事实,确定对人造成的风险,排查企业对应的合规义务清单是否都做到了相应的内容。
隐私计算只是一个保护措施,更应该去分析的是隐私计算运用的当前场景本身,去评判它的目的,评判这种安全技术措施是否足以保护用户的隐私。
从法律人的角度,我们要准确地判断隐私计算在这个场景下的风险,评估本身问题,再去评判隐私计算的拆解、转化和数学化处理的方式本身是不是达到了对应风险的安全措施的能力。如果达到了,那它符合要求。如果达不到,它不符合要求。
在隐私计算、数据保护合规兴起的初期,行业场景的差异又那么大,综合性人才很缺乏的情况下,谁能嗅到在这个场景下应该运用的隐私计算是什么?没有人能够给出准确的判断。
如果一旦合规评价框架体系选定了场景,选定了技术选型,选定了想实现的目标,也评估了风险,那么评估了的风险本身是否恰当?最小化、匿名化怎么认定?细节怎么去判断?
首先看适用法,其次看行业标准,最后看最佳实践。
技术要从实验室走到实践,要有一套稳定、稳健和可信的技术评价体系。比如联邦学习依赖的是分布式技术,那如果现在面临大数据量,可用性会不会变差?终端的算力不够怎么办?机器算法的能力不好怎么办?这些选择技术评价体系需要考虑的问题。
真正考虑运用隐私计算,首先应该抛弃用隐私计算就能解决所有合规问题的想法,而是先要确定场景是什么,只有场景目标和它的技术选型能够对应上,隐私计算才能发挥最大功用。
第二,基于《个人信息保护法》的基本理论评价它的合规性。
第三,请技术部门做可靠性、可用性和可信任度的技术评测。这是选用隐私计算时应当考虑的问题。
02 隐私计算的法律等式:最小化×匿名化
(一)如何理解隐私计算的法律等式
隐私计算本来也就只能解决最小化和匿名化这两类问题,隐私计算不是合规的万能药。
我们要客观看待隐私计算,它只是千万种可选的技术措施之一。要做到完全合规,还需要其他的一些辅助技术措施或者组织措施等。
从技术可实现的角度,首先,匿名化不是第一步,识别身份才是第一步。第二步,识别关联性信息。第三步,从信息本身做出一定推断。
最小化原则是隐私保护里最核心的原则。有人认为可以从处理数据的类型、处理数据的数量、处理数据的时长、处理之后存储的最小化来判定最小化。
但最小化实质上就是尽可能的小,但它不一定是最小,它一定有更小。所以最小化的判断要基于当前的场景、技术可实现、成本可接受的情况。
所以隐私计算核心目的实现性上只考虑匿名化和最小化这两个点是不是能达到。
达到了匿名化、最小化之后,还要考虑告知同意、合法性基础,第三方技术提供的风险等问题。所以不要神化隐私计算,它其实就是众多可选的技术措施的一部分。
(二)隐私计算对未来隐私保护方式可能有哪些改变
1、立法里直接出现隐私计算。
欧盟的数据法案和人工智能法案在全世界都有很大影响。数据法案和人工智能法案都鼓励进行隐私计算的实践。
2、越来越明确合规领域的基础性概念和复杂概念。
分析隐私计算时,通过不停查看不同法律、不同场景,也能感受到某些概念的进一步分层化,进一步体系化。如果没有分层体系的构造,将会不利于工作的开展。随着隐私计算的广泛应用,越发揭示出在几个关键概念上,可能需要在具体的场景里、具体的体系里进行构造,才能够更好地分析越来越多的科技问题。
3、监管随着实践的发展愈发严格
监管人员不需要具体地了解每个技术本身,只需要通过比较对技术的不同使用,就可以深化最小化概念,并基于此加强监管要求。
03总结
隐私计算不解决所有的合规问题,它只不过是解决匿名化、判断最小必要、判断是否属于第三方数据等问题的可选方法之一。所有的合规问题都可以运用个人信息保护法的核心判断逻辑、隐私影响评估方法论、合规清单而得到解决,此间差异无非就是一个“尺度”。
对于“尺度”的理解,需置于场景中、置于实践中、置于整个行业大背景中。每个企业有清晰的合规基准,有强有力的风险防控举措,能够做好相应的举证和证明,就足以应对合规风险。
但,风险永不灭。风险控制是不断变化发展的,其依赖的风险控制逻辑是具有社会历史性的。
其次,要用攻防的视角去看到问题,比如今天黑客的技术更强了,原来设定的无法识别的个人信息现在变成可识别了,所以需要我们动态地看待风险变化,这样会使得企业更好履行社会义务,也更加具有社会责任感。
字节跳动朱玲凤&朱悦:透过法眼看隐私计算(附报告合集)
作者:朱玲凤 朱悦来源:iLaw合规

编者按 信息化时代,数据已成为一种新型生产要素。如何在守护隐私底线的基础上,挖掘数据潜力,发挥数据价值?实际上,业界已经给出了答案——让数据“可用不可见”“可控可计量”的隐私计算。