本地化差分隐私

本文是笔者在阅读《本地化差分隐私研究综述》时所写下的笔记，留下了一些自认为比较重要的知识点，权当是学习笔记不做其他用途。

论文DOI：10.13328/j.cnki.jos.005364，URL：[知网原文]

中心化差分隐私对于敏感信息的保护始终基于一个前提假设:可信的第三方数据收集者,即保证第三方数据收集者不会窃取或泄露用户的敏感信息.

本地化差分隐私技术继承自中心化差分隐私技术,同时扩展出了新的特性,使该技术具备两大特点:

(1) 充分考虑任意攻击者的背景知识,并对隐私保护程度进行量化;

(2) 本地化扰动数据,抵御来自不可信第三方数据收集者的隐私攻击

定义 1. 给定 n 个用户,每个用户对应一条记录,给定一个隐私算法 M 及其定义域 Dom(M) 和值域Ran(M) ，若算法 M 在任意两条记录 t 和t’(t,t’∈Dom(M))上得到相同的输出结果t*(t*∈Ran(M))满足下列不等式,则 M 满足-本地化差分隐私.

$Pr[M(t)=t^<em>]<=e^ε </em> Pr[(M(t')=t^*]$

从定义一中可以看出，本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法 M 满足-本地化差分隐私

差分隐私技术具有序列组合性和并行组合性两种特性

序列组合性强调隐私预算可以在方法的不同步骤进行分配,而并行组合性则是保证满足差分隐私的算法在其数据集的不相交子集上的隐私性

本地化差分隐私：每个用户按照隐私算法对数据进行扰动,然后把数据上传给数据收集者,数据收集者接收数据分析者的查询请求,并进行响应.

在中心化差分隐私保护技术中,为保证所设计的算法满足-差分隐私,需要噪声机制的介入,拉普拉斯机制和指数机制是其最常用的两种噪声机制,其中拉普拉斯机制面向连续型数据的查询,而指数机制面向离散型数据的查询

中心化差分隐私技术通过定义全局敏感性为查询结果添加响应噪声,再以ghgfhjfwenzhanglaixzizhenggegedboke@@@@统计的方式限制隐私信息泄露的量化边界,从而能将个体记录隐藏在统计结果中.因此,中心化差分隐私技术并不对统计数据量作特别要求.不同于此,本地化差分隐私技术对个体数据进行正向和负向的扰动,最终通过聚合大量的扰动结果来抵消添加在其中的正负向噪声,从而得到有效的统计结果.然而,由于噪声的随机性,要保证统计结果的无偏性,必然需要海量的数ghgfhjfwenzhanglaixzizhenggegedboke@@@@据集来实现满足数据可用性的统计精度.

交互式和非交互式数据保护框架的最大区别在于输出结果之间的关联性.

(1) 交互式框架适用于最终输出结果与前 i 个输出有依赖关系的情形,如通过家族病史数据进行疾病诊断。家族病史数据记录了家族成员对于某些疾病的患病情况,由于遗传等因素,其中通常存在前后的关联关系.在对此类数据进行本地化差分隐私保护时,由于某个个体的数据会对其他个体的输出产生影响,因此需要考虑用交互式框架对其进行保护

(2) 非交互式框架适用于前后的输入输出之间无依赖关系的情形,如商场的购物数据分析.一般而言,不同用户的购物清单数据之间不存在相互的关联关系,因此,在对该类数据进行本地化差分隐私保护时,直接应用非交互式框架即可.

本地化差分隐私下的研究工作大都基于随机响应技术展开,包括针对离散型数ghgfhjfwenzhanglaixzizhenggegedboke@@@@据的频数发布和针对连续型数据的均值发布.频数发布形式包括列联表、直方图等,其中,根据变量的数量不同分为单值频数发布和多值频数发布.基于本地化差分隐私的单值频数发布主要是通过编码-解码技术以及概率扰动技术发布属性候选值的频数来保护数据隐私,而多值频数发布则是在此基础上进一步利用采样技术和降维技术等提高了数据的可用性.目前,针对本地化差分隐私的均值ghgfhjfwenzhanglaixzizhenggegedboke@@@@发布研究工作还较少,其主要思想一般是在无偏估计的前提下对连续值进行离散化

从定义来看,本地化差分隐私技术对数据的保护程度主要依赖于隐私预算的设定ghgfhjfwenzhanglaixzizhenggegedboke@@@@,因此，的取值决定了隐私化处理后数据的可用性高低.但同时,本地化差分隐私保护技术对所处理数据集的数据量有一定的要求,数据量也是影响数据可用性的一个重要因素.

对隐私保护而言,隐私保护程度与数据可用性呈负相关,隐私保护程度高则数据可用性低,隐私保护程度低则数据可用性高.本地化差分隐私中,隐私保护的程度同样由参数决定,它通过控制随机响应技术输出真实值的概率值来控制数据的偏离程度,进而保护隐私.

对于本地化差分隐私技术的保护机制而言,不同的隐私预算直接决定了随机响应技术中用于响应真实结果的概率 p,越大,则 p 越大, 即用户以更高的概率响应真实结果

在本地化差分隐私技术中,无论是频数统计还是均值统计,当给定相同隐私预算时,用于统计的数据量大小决定了数据可用性高低,数据量大则统计结果的可用性高,数据量小则统计结果的可用性低.