一种动态度量发布数据隐私保护效果与数据效用的方法

文献发布时间：2024-04-18 20:01:55

技术领域

本发明属于信息安全技术，涉及度量已发布数据的隐私保护程度与效用保留程度的算法，具体来说是一种动态度量发布数据隐私保护效果与数据效用方法。

背景技术

在如今的大数据时代，相关活动的组织方会通过收集分析个人部分数据，以进行计划与决策。这些大量的信息不仅有可能会在各组织之间定期交换，甚至有可能直接在公共领域发布。整个数据收集和发布的过程要么是出于组织间的合作或交易，要么是出于学术的需要。在发布前，需要为要发布的数据文件提供足够的隐私保证。如发布人口普查数据，医院的患者治疗数据等。对这些数据进行有效的分析可以帮助政府进行政策的制定，可以帮助医疗科研人员找到更好的疾病治疗方法。但是，这些数据往往含有大量的个人信息，直接将数据给予研究组织可能会使得个人信息发生泄露。尽管直接能明确识别受访者的属性往往会在发布前被删除，但在实际的数据共享场景中，通过剩余的信息仍然有可能对应到个人数据。

(一)隐私保护的数据统计分析(PPSA)研究中主要包含五种实体：数据提供方、数据、数据管理方、数据使用方、隐私敌手，各实体的角色描述如下：

数据提供方：数据的来源，通常为个人(如网站用户)；

数据使用方：数据统计分析结果的使用者，通常是服务提供方；

隐私敌手：试图在PPSA的流程中试图获取关于数据提供方的信息(如身份或属性特征)，数据使用方和数据管理方也有可能是隐私敌手；

数据管理方：数据采集与管理方，负责从数据提供方收集数据，并发布统计分析结果给数据使用方。

(二)数据集属性一般分为四类：

识别符：能明确识别受访者的属性(例如：身份证号)。

关键属性(或准识别符)：可与外部来源或数据库相连接或结合，以重新识别受访者(例如：姓名，年龄、邮政编码)。

不敏感属性：不包含任何关于受访者的关键信息。

保密(敏感)属性：包含关于被调查者的最关键信息，其披露会导致隐私泄漏(例如：薪资，家庭住址)。

(三)按照隐私攻击的目标，隐私敌手的攻击主要可以分为身份攻击、属性攻击、存在性攻击、概率知识攻击：

身份攻击：假定隐私敌手已有关于攻击目标的准标识符信息作为背景知识，且确定该攻击目标存在于数据管理方的数据集中，身份攻击行为期望从发布的数据集中得知攻击目标所对应的数据条目；

属性攻击：假定隐私敌手已知该攻击目标存在于数据管理方的数据集中，属性攻击行为期望从发布的数据集或者查询结果中得知(或概率性地得知)攻击目标在数据集的属性值。相比于身份攻击，属性攻击不一定需要获取攻击目标对应的数据条目；

存在性攻击：隐私敌手的存在性攻击行为期望从数据管理方发布的数据集或者查询结果中得知攻击目标是否在数据管理方的数据集中；

概率知识攻击：已知隐私敌手具有某些部分包含不确定性(概率性)的先验背景知识，概率知识攻击行为期望通过分析数据管理方发布的数据集或者查询结果，降低背录知识的不确定性。

在发布数据时，从攻击者的角度看，侵犯用户隐私的核心目标是，通过准标识符，找出用户的敏感属性。因此，数据匿名化处理主要有两个目标，一是在隐私敌手已有被攻击者的准标识符信息或部分准标识符信息时，增加其通过这些信息在发布数据中的找出攻击目标的难度，隐私敌手无法直接找到相关信息，只能找到多个有概率正确的目标。另一方面，在隐私敌手找到多个目标后，保证其依此找到的隐私信息种类足够多，从而保证个人隐私信息不会被泄露。

数据主体的隐私可以通过：泛化或微聚集个人信息、加入随机产生的噪声、在个别记录中交换值。一般来说，基于泛化或微聚集的技术能更好地保护数据集的效用，因为其只会导致信息的信息熵减少，不会导致信息失真，因此有着更加广泛的应用场景。而随机噪声只有数值型的数据可以添加，类别型的数据不能直接加入噪声。而倘若某个属性中的值被交换，那么整个属性都有可能丧失效用，因为读出的所有数据都有可能为假。

本发明中的工作重点是开发一个量化的衡量标准，能够准确地计算出：经过熵减处理后的数据的隐私保护程度的大小，与效用保留程度的大小。具体来说，本发明提出一个指标，用来衡量处理后的数据集的隐私和效用。然后，采用基于加权和的策略来结合这两个变量，从而在隐私-效用权衡方面量化处理过程的整体效果。同时使用了常用的数据集，在经过处理满足一些常用的隐私模型(如：k-anonymity、t-closeness、l-diversity)后，来验证所提出的算法是否准确。

发明内容

发明目的：本发明提供一种动态度量发布数据隐私保护效果与数据效用的方法，可以动态量化对数据进行熵减处理后，数据的隐私泄漏程度与效用保留程度。

技术方案：一种动态度量发布数据隐私保护效果与数据效用的方法，步骤如下：

S1、将原始数据的所有准识别符属性结合记为X

其中i∈[1,d]，d为敏感属性数量；

S2、基于X的信息熵计算公式为H(X)，将步骤(S1)中的属性参数带入公式，可得属性i的隐私保护程度

整体数据的隐私保护程度是每个隐私属性的隐私保护程度的加权和，即：

S3、计算属性i的效用保留程度

整体数据的效用保留程度即每个隐私属性的效用保留程度的加权和，即：

S4、将隐私保护程度与效用保留程度加权相加，度量出整体数据的处理程度，计算表示为η＝w

S5、监测原数据是否被更改，如果发生改变，在数据变化相对原始数据的变化达设定区间后进行二次隐私保护，并重新度量计算。结合实际的考虑，数据变化程度设定为超过10％。

进一步的，对于步骤(S2)，其原理和计算推导如下：

S21、H(X)代表X的信息熵，计算公式为：H(X)＝-∑

S22、I(X,Y)代表X与Y的互信息，计算公式为：

S23、公式原理：

S24、由公式的原理可知，

S25、为保证整体的η

进一步的，对于步骤(S3)，其原理和推导过程如下：

S31、公式原理：在对数据进行匿名化处理后，会发生信息损失，总体的信息量会减少，从而使得可从数据中获取的信息减少。信息的保留量与原始信息量的比值，可作为数据效用保留程度的大小。原始信息的总信息量为准识别符的信息量与隐私信息的信息量之和，即H(X

S32、由于数据进行的是熵减处理，因此

有益效果：本发明使用了信息论的相关方法，可以度量出对数据进行熵减处理后的隐私保护程度与效用保留程度，并使用一个在区间[0,1]的数表示度量结果，不仅可以对每个隐私属性使用该方法进行估计，同样可以根据实际情况，给每个隐私属性加权，根据不同值的权重，量化整体值的隐私保护程度与效用保留程度。也可以根据实际情况，分别给隐私与效用设置权重，得到整体的数据处理效果，从而检测出同时满足隐私保护与效用保留的处理结果。

附图说明

图1为数据处理前的韦恩图；

图中：大圆为准识别符的信息熵，小圆为第i个隐私信息的信息熵，它们的交集即二者的互信息，小圆可完全包含在大圆内。

图2为数据处理后的韦恩图；

图中：处理后圆缩小，信息熵减少，同时两个圆的交集减少，二者的互信息减少；二者交集占隐私信息的比例减少(隐私保护程度增加)。同时两个圆的总面积减少(总效用减少)。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明提出了一个量化的衡量标准，能够准确地计算出：经过熵减处理后的各个隐私数据的隐私保护程度的大小(η

本发明提供的是一种动态度量发布数据隐私保护效果与数据效用的方法，通过该种方法对应的计算结果，用来衡量处理后的各个数据的隐私和效用。其中，对于每个隐私数据，可以通过加权求和的方式，得出整个数据的隐私保护效果与效用保留效果。同样也可以采用基于加权和的策略来结合隐私与效用这两个变量，从而在隐私-效用权衡方面量化处理过程的整体效果。并且严格控制了度量值的范围在区间[0,1]内。

结合真实数据集，本发明实施的度量发布数据的隐私保护程度算法步骤如下：

S1、将原始数据的所有准识别符属性结合，记为：X

数据集选用：成人数据集，最初是从1994年美国人口普查数据库中提取的。它由15个数字和分类属性组成，共32561行。但是，在删除包含丢失信息和删除在我们工作中没有特定作用的属性之后，我们选择了该数据集的一个子集。成人数据集的最后子集有30162行和以下十个属性-索引，年龄，工作类型，教育程度，母国国籍，职业，种族，性别，薪资和婚姻状态。数据集的具体情况如下表：

使用ARX软件对数据进行处理，该软件为开源的敏感数据匿名软件。在整个过程中，设置匿名的方式为泛化，分别使得数据或属性满足，k-anonymity、t-closeness、l-diversity。其中k＝{2,4,9}数据的隐私保护程度随着k值的增加而增加，t＝{0.2,0.4,0.9}两个属性的t值相同，其隐私保护程度随着t值的增加而减少。而l＝{2,4,6}时，仅对隐私属性婚姻状况进行处理，因为薪资属性仅包含两个不同的值，l最大只能取到2，整体数据的隐私保护程度会随着l的增加而增加。

(1)k-anonymity处理

要求发布的数据中，同一个准标识符至少要有k条记录。满足k-anonymity的数据能保证攻击者无法知道某个人是否在公开的数据中；给定一个人，攻击者无法确认他是否有某项敏感属性；同样攻击者无法确认某条数据对应的是哪个人。

不过k-anonymity无法防御，同质化攻击(某个k-anonymity组内对应的敏感属性的值也完全相同，这使得攻击者可以轻易获取想要的信息)。背景知识攻击(即使k-anonymity组内的敏感属性值并不相同，攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息)。未排序匹配攻击(当公开的数据记录和原始记录的顺序一样的时候，攻击者可以猜出匿名化的记录是属于谁，需要在发布时更改数据的顺序)。补充数据攻击(假如公开的数据有多种类型，如果它们的k-anonymity方法不同，那么攻击者可以通过关联多种数据推测用户信息)。

(2)l-diversity

如果一个等价类里的敏感属性至少有1个良表示(well-represented)的取值，则称该等价类具有l-diversity。如果一个数据表里的所有等价类都具有l-diversity，则称该表具有l-diversity。

(3)良表示如下：

1)可区分良表示：最简单的l-diversity要求同一等价类中的敏感属性要有至少有l个可区分的取值。

2)熵良表示：记S为敏感属性的取值集合，p(E,s)为等价类E中敏感属性取值s的概率，熵l-diversity要求Entropy(E)＝-∑

3)递归良表示：确保最频繁的值不会出现得太频繁，而频率较低的值不会出现得太少。设m是等价类E中的值的数目，和r

本实验使用的为可区分良表示。

t-closeness：t-closeness认为，在数据表公开前，观察者有对于客户敏感属性的先验信念(priorbelief)，数据表公开后观察者获得了后验信念(posteriorbelief)。这二者之间的差别就是观察者获得的信息(informationgain)t-closeness将信息获得又分为两部分：关于整体的和关于特定个体的。

记观察者的先验信念为B

t-closeness通过限制P与Q的距离来限制B

如果等价类E中的敏感属性取值分布与整张表中该敏感属性的分布的距离不超过阈值t，则称E满足t-closeness。如果数据表中所有等价类都满足t-closeness，则称该表满足t-closeness。

S2、将相关数据代入公式：

其中w

当数据处理满足k-anonymity时，通过上表可以看出，随着k值的不断增加，无论是薪资属性，还是婚姻状况属性，其隐私保护程度相应也会增加，结果符合预期。同时可发现，薪资属性

当薪资属性与婚姻状况属性，数据处理后满足t-closeness时，t的值越大，则保护程度越弱，同时观察测量值，薪资属性与婚姻状况属性都满足这个要求。在t＝0.9时，

由于薪资属性在原数据表中，仅仅存在两种不同类型的值<＝50K与>50K，数据无论怎样处理，都无法满足l>2时的l-diversity。在测试l-diversity时，仅仅使用婚姻状况属性的值进行检测，不过虽然未对薪资属性进行匿名处理，但由于对表中的准识别符进行了处理。薪资属性的隐私也会随之得到一定程度的保护。

S3、将相关数据代入公式，计算出

当数据处理满足k-anonymity与l-diversity时，通过上表可以看出，效用保留程度随着k或l值的不断增加而减少，同样效用保留越大，隐私保护程度反而越小，结果符合k-anonymity定义。

当薪资属性与婚姻状况属性，数据处理后满足t-closeness时，t的值越大，数据保留程度越多，效用保留越好，算法测量值，薪资属性与婚姻状况属性都满足这个要求。

S4、根据实际情况，将隐私保护程度与效用保留程度加权相加，即可度量出整体数据的处理程度：η＝w

二者权重w

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载