掌桥专利:专业的专利平台
掌桥专利
首页

基于差分隐私的用户数据匿名编码方法及装置

文献发布时间:2023-06-19 12:00:51


基于差分隐私的用户数据匿名编码方法及装置

技术领域

本发明属于大数据技术领域,具体涉及一种基于差分隐私的用户数据匿名编码方法及装置。

背景技术

众所周知,差分隐私是针对统计数据库的隐私泄漏提出的一种新的隐私定义。某条记录在或者不在数据集中,对计算结果的影响是微乎其微的。因此,一条记录添加到数据集中所引起的隐私泄漏风险被控制到非常小且在可接受的范围内,并且攻击者不能通过观察计算结果而获得准确的个人信息。与传统的隐私保护模型相比,差分隐私保护模型有两个显著的优点:

第一:差分隐私对攻击者拥有的背景做了最严格的定义,即使攻击者掌握了除了要保护的信息以外的所有相关的背景知识,也依然能保护用户的个人信息。

第二:差分隐私建立在坚实的数学基础上,对隐私保护进行了严格的定义并提供了量化评估的方法,使得数据集在不同参数处理下所提供的隐私保护水平具有可比较性。由于差分隐私既克服了加密技术带来的计算复杂度的问题,又克服了K-ANONYMITY及衍生的匿名隐私保护技术中攻击者背景知识假设不严格的各种攻击问题。因此自差分隐私保护模型提出以来,就被相关业界人员认可并迅速成为隐私保护领域中的研究热点。

但在实际应用中想要找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化差分隐私技术的应用。鉴于此,在不可信第三方数据收集者的场景下,本地化差分隐私(LOCAL DIFFERENTIAL PRIVACY)技术应运而生,其在继承中心化差分隐私技术定量化定义隐私攻击的基础上,细化了对个人敏感信息的保护。具体来说,其将数据的隐私化处理过程转移到每个用户上,使得用户能够单独地处理和保护个人敏感信息,即进行更加彻底的隐私保护。

如何在有效利用数据给人类提供便利服务的同时,并能使个人隐私信息能够得到有效的保护,是目前急需解决的问题。

发明内容

本发明属于大数据技术领域,针对现有技术中的问题,本发明扩充了比特向量编码方案的特性,使其能应用于数据发布的场景。在保护用户隐私的前提下,使得针对数据量大的应用场景估计误差较小,在数据量大的应用场景有很高的实用性。

为解决上述技术问题,本发明提供以下技术方案:

第一方面,本发明提供一种基于差分隐私的用户数据匿名编码方法,包括:

根据接收的用户数据生成随机序列;

根据所述随机序列对所述用户数据进行编码,以生成比特向量;

根据所述比特向量对编码后的用户数据进行差分隐私处理。

一实施例中,所述根据接收的用户数据生成随机序列,包括:

将预接收的用户数据划分为目标均匀分布数据;

根据所述目标均匀分布数据以及所述用户数据生成所述随机序列。

一实施例中,所述根据所述目标均匀分布数据以及所述用户数据生成所述随机序列,包括:

对所述用户数据进行列置换,以生成列置换后的用户数据;

根据所述目标均匀分布数据以及所述列置换后的用户数据生成所述用户数据的随机序列。

一实施例中,基于差分隐私的用户数据匿名编码方法还包括:根据差分隐私处理后的用户数据计算所述用户数据对应的直方图发布K。

第二方面,本发明提供一种基于差分隐私的用户数据匿名编码装置,包括:

随机序列生成模块,用于根据接收的用户数据生成随机序列;

用户数据编码模块,用于根据所述随机序列对所述用户数据进行编码,以生成比特向量;

用户数据差分处理模块,用于根据所述比特向量对编码后的用户数据进行差分隐私处理。

一实施例中,所述随机序列生成模块包括:

用户数据划分单元,用于将预接收的用户数据划分为目标均匀分布数据;

随机序列生成单元,用于根据所述目标均匀分布数据以及所述用户数据生成所述随机序列。

一实施例中,所述随机序列生成单元包括:

用户数据列置换单元,用于对所述用户数据进行列置换,以生成列置换后的用户数据;

随机序列生成子单元,用于根据所述目标均匀分布数据以及所述列置换后的用户数据生成所述用户数据的随机序列。

一实施例中,基于差分隐私的用户数据匿名编码装置还包括:参数计算模块,用于根据差分隐私处理后的用户数据计算所述用户数据对应的直方图发布K。

第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现基于差分隐私的用户数据匿名编码方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于差分隐私的用户数据匿名编码方法的步骤。

从上述描述可知,本发明实施例提供的基于差分隐私的用户数据匿名编码方法及装置,首先根据接收的用户数据生成随机序列;接着,根据随机序列对用户数据进行编码,以生成比特向量;最后根据比特向量对编码后的用户数据进行差分隐私处理。本发明扩充了比特向量编码方案的特性,使其能应用于数据发布的场景。在保护用户隐私的前提下,使得针对数据量大的应用场景估计误差较小,在数据量大的应用场景有很高的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的实施例中基于差分隐私的用户数据匿名编码方法流程示意图一;

图2为本发明的实施例中步骤100的流程示意图;

图3为本发明的实施例中步骤102的流程示意图;

图4为本发明的实施例中基于差分隐私的用户数据匿名编码方法流程示意图二;

图5为本发明的具体应用实例中基于差分隐私的用户数据匿名编码系统的结构图;

图6为本发明的具体应用实例中基于差分隐私的用户数据匿名编码方法的流程示意图;

图7为本发明的具体应用实例中改进的比特向量机制示意图;

图8为本发明的具体应用实例中比特向量编码示意图;

图9为本发明的具体应用实例中基于改进比特向量编码机制直方图发布原理图;

图10为本发明实施例中基于差分隐私的用户数据匿名编码装置结构框图一;

图11为本发明的实施例中随机序列生成模块10的结构框图;

图12为本发明的实施例中随机序列生成单元102的结构框图;

图13为本发明实施例中基于差分隐私的用户数据匿名编码装置结构框图二;

图14为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的实施例提供一种基于差分隐私的用户数据匿名编码方法的具体实施方式,参见图1,该方法具体包括如下内容:

步骤100:根据接收的用户数据生成随机序列。

可以理解的是,在步骤100之前还需要确定用户数据的数据区间,具体地:对于给定的数据集D,确定数据区间u=U-L,其中U数据上界,L为数据下界,确定编码长度s和阈值t。

步骤200:根据所述随机序列对所述用户数据进行编码,以生成比特向量。

步骤200中的一个比特向量b是一个具有l(是一个常数)长度的0或1的序列。

步骤300:根据所述比特向量对编码后的用户数据进行差分隐私处理。

差分隐私的目的是对查询的结果加入噪声,使得攻击者无法辨别某一样本是否在数据集中。进一步地,数据收集者能够收集到用户数据的总体统计特征,将收集到的数据进行挖掘分析,进而优化自己的产品并改善用户体验;服务方提高自身服务的同时不能收集到用户的原始信息,从而保证用户的隐私。

具体地,数据拥有者对编码后的数据进行差分隐私处理,得到匿名数据集,将编码结果特定概率输出真实值,并进行翻转(1翻转成0,0翻转成1),对编码结果中的每一比特位进行扰动,得到扰动后的编码结果。

从上述描述可知,本发明实施例提供的基于差分隐私的用户数据匿名编码方法,首先根据接收的用户数据生成随机序列;接着,根据随机序列对用户数据进行编码,以生成比特向量;最后根据比特向量对编码后的用户数据进行差分隐私处理。本发明扩充了比特向量编码方案的特性,使其能应用于数据发布的场景。在保护用户隐私的前提下,使得针对数据量大的应用场景估计误差较小,在数据量大的应用场景有很高的实用性。

一实施例中,参见图2,步骤100包括:

步骤101:将预接收的用户数据划分为目标均匀分布数据;

具体地,数据拥有者产生用于编码的均匀分布,根据数据范围u=[L,U]和编码长度s计算均匀数据r

步骤102:根据所述目标均匀分布数据以及所述用户数据生成所述随机序列。

一实施例中,参见图3,步骤102包括:

步骤1021:对所述用户数据进行列置换,以生成列置换后的用户数据;

步骤1022:根据所述目标均匀分布数据以及所述列置换后的用户数据生成所述用户数据的随机序列。

在步骤1021以及步骤1022中,具体地,数据拥有者之间在交换参数时协商出一个相同的置换机制P。该置换机制采用列置换,对原始分布r

基于数据拥有者之间协商的置换机制P,将均匀分布的序列计算得出随机序列r

对于需要编码的数据x,若x∈[r

一实施例中,参见图4,基于差分隐私的用户数据匿名编码方法还包括:

步骤400:根据差分隐私处理后的用户数据计算所述用户数据对应的直方图发布K。

数据经改进的比特向量(Improve Bit Vectors,IBV)编码机制编码成匿名空间后,利用随机响应的方式对每一比特位进行扰动得到扰动后的数据。数据收集者根据收到的比特串统计出匿名空间下每一位的比特和,并且估计出原IBV编码方案的比特向量的每一位上的比特和。最后对每一个数据进行IBV编码得到的比特向量B,并利用矩阵B和上一步估计的M,再用Lasso回归估计k,k即为估计的直方图。

为进一步地说明本方案,本发明还提供基于差分隐私的用户数据匿名编码方法的具体应用实例,具体包括如下内容。

参见图5,本具体应用实例还提供一种基于差分隐私的用户数据匿名编码系统,该系统包括:多个用户、服务器以及数据分析者,首先用户将自己的用户数据上送至服务器,服务器对用户数据进行差分隐私处理后存储,最后数据分析者从服务器中获取差分隐私处理后的用户数据,并将隐私数据进行挖掘、数据分析以及发布共享等操作。

参见图6,基于上述的基于差分隐私的用户数据匿名编码系统,本发明具体应用实例所提供的基于差分隐私的用户数据匿名编码系统方法具体包括以下步骤:

S1:确定数据参数。

具体地,对于给定的数据集D,确定数据区间u=U-L,其中U数据上界,L为数据下界,确定编码长度s和阈值t。

S2:生成均匀分布。

数据拥有者产生用于编码的均匀分布,根据数据范围u=[L,U]和编码长度s计算均匀数据r

S3:数据拥有者对数据集中的数据用改进的比特向量编码方法进行编码。

具体地,参见图7,步骤S3具体包括:

(1)根据数据范围u=[L,U]和编码长度s计算均匀数据r

(2)数据拥有者之间在交换参数时协商出一个相同的置换机制P。该置换机制采用列置换,对原始分布r

(3)基于第二步数据拥有者之间协商的置换机制P,根据置换机制P,将均匀分布的序列计算得出随机序列r

(4)对于需要编码的数据x,若x∈[r

S4:数据拥有者对编码后的数据进行差分隐私处理,得到匿名数据集。

将步骤S3中的编码结果B

S5:数据收集者对匿名数据进行直方图估计。

步骤S4中的编码结果统计出匿名空间下的每一位比特和M′

数据收集者根据公式(2)估计出原编码结果的每一位比特和

对每一个数据进行改进比特向量编码得到B,利用矩阵B和上一步估计的M,使用Lasso回归估计k,使得kB

最后得到直方图发布k。基于差分隐私的改进的比特向量算法进行直方图估计的原理,如图9。可知数据经改进的比特向量(Improve Bit Vectors,IBV)编码机制编码成匿名空间后,利用随机响应的方式对每一比特位进行扰动得到扰动后的数据。数据收集者根据收到的比特串统计出匿名空间下每一位的比特和,并且估计出原IBV编码方案的比特向量的每一位上的比特和。最后对每一个数据进行IBV编码得到的比特向量B,并利用矩阵B和上一步估计的M,再用Lasso回归估计k,k即为估计的直方图。

基于差分隐私的改进比特向量的直方图估计具体的实现算法如下:

从上述描述可知,本发明实施例提供的基于差分隐私的用户数据匿名编码方法,首先根据接收的用户数据生成随机序列;接着,根据随机序列对用户数据进行编码,以生成比特向量;最后根据比特向量对编码后的用户数据进行差分隐私处理。本发明扩充了比特向量编码方案的特性,使其能应用于数据发布的场景。在保护用户隐私的前提下,使得针对数据量大的应用场景估计误差较小,在数据量大的应用场景有很高的实用性。

基于同一发明构思,本申请实施例还提供了一种基于差分隐私的用户数据匿名编码装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于基于差分隐私的用户数据匿名编码装置解决问题的原理与基于差分隐私的用户数据匿名编码方法相似,因此基于差分隐私的用户数据匿名编码装置的实施可以参见基于差分隐私的用户数据匿名编码方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现基于差分隐私的用户数据匿名编码方法的基于差分隐私的用户数据匿名编码装置的具体实施方式,参见图10,基于差分隐私的用户数据匿名编码装置具体包括如下内容:

随机序列生成模块10,用于根据接收的用户数据生成随机序列;

用户数据编码模块20,用于根据所述随机序列对所述用户数据进行编码,以生成比特向量;

用户数据差分处理模块30,用于根据所述比特向量对编码后的用户数据进行差分隐私处理。

一实施例中,参见图11,所述随机序列生成模块10包括:

用户数据划分单元101,用于将预接收的用户数据划分为目标均匀分布数据;

随机序列生成单元102,用于根据所述目标均匀分布数据以及所述用户数据生成所述随机序列。

一实施例中,参见图12,所述随机序列生成单元102包括:

用户数据列置换单元1021,用于对所述用户数据进行列置换,以生成列置换后的用户数据;

随机序列生成子单元1022,用于根据所述目标均匀分布数据以及所述列置换后的用户数据生成所述用户数据的随机序列。

一实施例中,参见图13,基于差分隐私的用户数据匿名编码装置还包括:参数计算模块40,用于根据差分隐私处理后的用户数据计算所述用户数据对应的直方图发布K。

从上述描述可知,本发明实施例提供的基于差分隐私的用户数据匿名编码装置,首先根据接收的用户数据生成随机序列;接着,根据随机序列对用户数据进行编码,以生成比特向量;最后根据比特向量对编码后的用户数据进行差分隐私处理。本发明扩充了比特向量编码方案的特性,使其能应用于数据发布的场景。在保护用户隐私的前提下,使得针对数据量大的应用场景估计误差较小,在数据量大的应用场景有很高的实用性。

本申请的实施例还提供能够实现上述实施例中的基于差分隐私的用户数据匿名编码方法中全部步骤的一种电子设备的具体实施方式,参见图14,电子设备具体包括如下内容:

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;

其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备以及客户端设备等相关设备之间的信息传输;

处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于差分隐私的用户数据匿名编码方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:

步骤100:根据接收的用户数据生成随机序列;

步骤200:根据所述随机序列对所述用户数据进行编码,以生成比特向量;

步骤300:根据所述比特向量对编码后的用户数据进行差分隐私处理。

本申请的实施例还提供能够实现上述实施例中的基于差分隐私的用户数据匿名编码方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于差分隐私的用户数据匿名编码方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:

步骤100:根据接收的用户数据生成随机序列;

步骤200:根据所述随机序列对所述用户数据进行编码,以生成比特向量;

步骤300:根据所述比特向量对编码后的用户数据进行差分隐私处理。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

相关技术
  • 基于差分隐私的用户数据匿名编码方法及装置
  • 一种基于聚类匿名化与差分隐私保护的数据处理方法及系统
技术分类

06120113135641