一种偏好感知的轨迹匿名方法及系统

文献发布时间：2023-06-19 10:32:14

技术领域

本发明涉及网络通信技术领域，特别是指一种偏好感知的轨迹匿名方法及系统。

背景技术

基于位置的社交网络(LBSNs)(例如：Foursquare、FacebookPlace、Twitter以及街旁等)的特点是利用用户的签到信息，将在线社交网络和物理位置结合起来，以实现虚拟世界中基于位置的服务资源的共享与传播。近年来，由于大量传感器嵌入的智能移动设备的广泛应用，使得LBSNs获得了空前发展。但是，隐私泄露问题是目前需要考虑的一个重要问题。用户将真实的位置数据发布到LBSNs服务器，不可信第三方可能窃取用户的位置数据，做一些非法活动。对于用户而言，为了保护自身的隐私，只需发布一些不完全的GPS轨迹数据。尽管如此，攻击者仍然能够通过地理位置间的时空关系，采用数据分析的相关技术，推理出受害者的敏感个人信息(例如：家庭住址、工作地点或者生活习惯等)。甚至，攻击者通过GPS轨迹数据挖掘出受害者的移动行为模式，预测受害者下一时刻将要访问的位置，从而对用户的人身安全造成严重的影响。因此，一旦用户发现位置社交网络存在一定的隐私威胁，用户将不再使用该位置社交网络提供的服务，导致服务的可信度降低。

轨迹隐私保护是LBSNs中一种新的隐私保护形式。与位置隐私保护方法不同，轨迹保护方法的目的是为了保护用户的敏感位置信息泄露，这些敏感信息能够反映用户的个性化兴趣或者偏好。传统的轨迹隐私保护主要包括：假数据、空间匿名以及抑制技术。其中，基于假数据的轨迹隐私保护方法是在原始的GPS轨迹数据中增加一些错误的位置数据，从而攻击者无法从上传的轨迹数据中获取用户的真实位置信息；基于空间隐藏的轨迹隐私保护方法是将原始的GPS轨迹数据中敏感的位置数据进行泛化处理，从而降低攻击者获取真实位置信息的概率；基于抑制技术的轨迹隐私保护方法是禁止GPS轨迹数据中一些敏感位置数据的发布，从而保护用户的个人隐私。

因此，现有技术至少存在以下不足：

第一、在实际情况下，只考虑位置匿名无法有效地实现轨迹隐私保护，攻击者能够利用关联攻击、数据分析等相关技术推理出用户的敏感信息；第二、轨迹匿名方法没有考虑用户的偏好以及背景知识，造成有效数据的丢失，从而使得用户无法享受个性化的服务体验；第三、无法根据不同的隐私风险度，自适应地采取不同的轨迹隐私保护方法，导致服务精确度下降。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种偏好感知的轨迹匿名方法及系统，解决了现有位置数据隐私保护中无法根据隐私保护强度定制不同的隐私保护方法，导致隐私保护服务精确度低的技术问题。

本发明的技术方案是这样实现的：

一种偏好感知的轨迹匿名方法，其步骤如下：

S1、获取用户所访问位置的语义信息以及移动轨迹数据；

S2、利用位置空间匿名方法对用户的移动轨迹数据中包含的原始点依次进行停留区域泛化和位置区域泛化，得到用户的位置序列；

S3、通过分析用户的位置序列获取用户对语义类型的熟悉度以及每个位置在语义类型中的流行度；

S4、设置用户熟悉度阈值和位置流行度阈值，根据用户对语义类型的熟悉度、每个位置在语义类型中的流行度与用户熟悉度阈值和位置流行度阈值之间的关系获得用户的位置的隐私分类，并根据用户的位置的隐私分类采取不同的位置匿名方法，获得用户的匿名轨迹序列；

S5、通过计算用户的匿名轨迹序列的信息熵获取用户的轨迹隐私度。

所述利用位置空间匿名方法对用户的移动轨迹数据中包含的原始点依次进行停留区域泛化和位置区域泛化的方法为：

S21、可信第三方从用户的移动轨迹数据中提取停留点，通过停留点反映用户的移动行为，一个停留点可表示为：

其中，

S22、通过将提取的停留点按照用户的移动轨迹数据中原始点的先后顺序连接起来，重构一条泛化的停留点序列Tra_S：Tra_S＝S

S23、可信第三方从泛化的停留点序列中提取位置，通过位置反映用户的个性化行为及偏好，一个位置可表示为：

其中，

S24、通过将提取的位置按照停留点序列中停留点的先后顺序连接起来，重构一条泛化的位置序列Tra_L：Tra_L＝L

所述通过分析用户的位置序列获取用户对语义类型的熟悉度以及每个位置在语义类型中的流行度的方法为：

S31、利用高斯公式计算用户的两个位置之间的地理相似度：

其中，Sim

S32、令His(u

其中，P

S33、根据步骤S32中的公式构建位置转移概率矩阵

S34、根据用户从位置L

其中，

所述用户的匿名轨迹序列的获得方法为：

令λ表示用户熟悉度阈值，τ表示位置流行度阈值；

当用户对语义类型的熟悉度小于λ，并且每个位置在语义类型中的流行度大于或等于τ时，将用户的位置的隐私分类归属于非熟悉且流行类，可信第三方不需要对该用户的位置进行隐私保护；

当用户对语义类型的熟悉度小于λ，并且每个位置在语义类型中的流行度小于τ时，用户的位置的隐私分类归属于非熟悉且非流行类，可信第三方需要采用假数据的方法保护该用户的敏感位置匿名空间；

当用户对语义类型的熟悉度大于或等于λ，并且每个位置在语义类型中的流行度大于或等于τ时，用户的位置的隐私分类归属于熟悉且流行类，可信第三方需要采用空间隐藏的方法保护该用户的敏感位置匿名空间；

当用户对语义类型的熟悉度大于或等于λ，并且每个位置在语义类型中的流行度小于τ时，用户的位置的隐私分类归属于熟悉且非流行类，可信第三方需要采用抑制技术来禁止该用户的位置匿名空间发布到位置社交网络服务器，以保护用户的个人隐私；

根据以上四种隐私分类，可信第三方自适应地选择不同的位置匿名方法，最终生成用户的匿名轨迹序列。

所述通过计算用户的匿名轨迹序列的信息熵获取用户的轨迹隐私度的方法为：

计算用户的匿名轨迹序列在(t,t+1)时间区间内的信息熵H

其中，p

当用户在t+1时刻访问所有候选位置的概率相同时，计算用户的匿名轨迹序列在(t,t+1)时间区间内的最大信息熵MaxH

将信息熵H

因此，轨迹隐私度H

一种偏好感知的轨迹匿名方法所采用的轨迹匿名系统，包括位置空间生成模块、语义描述模块、行为模式提取模块、隐私风险评级模块和轨迹匿名模块；所述隐私风险评级模块与轨迹匿名模块相连接；所述位置空间生成模块与语义描述模块相连接，语义描述模块与行为模式提取模块相连接，行为模式提取模块与轨迹匿名模块相连接；所述轨迹匿名模块将原始轨迹序列转化为匿名轨迹序列，隐私风险评级模块根据匿名轨迹序列调整原始轨迹序列。

所述位置空间生成模块，用于将历史数据集中的原始点聚类为位置，从而构建用户的位置空间集合；

所述语义描述模块，用于将用户的地理位置信息转换为语义位置信息；

所述行为模式提取模块，用于挖掘用户的移动行为习惯及运动模式；

所述隐私风险评级模块，用于根据用户的行为偏好及熟悉度，划分不同的隐私风险评级；

所述轨迹匿名模块，用于根据不同的隐私风险评级，自适应采取响应的位置匿名方法，从而构建匿名的轨迹序列。

与现有技术相比，本发明产生的有益效果为：本发明通过构建敏感位置攻击模型，利用位置空间匿名方法，将原始点泛化为位置区域，对位置区域进行语义描述，计算用户对语义类型的熟悉度以及位置在该语义类型中的流行度，划分不同的隐私风险评级，根据用户轨迹中位置对应的不同隐私风险度，自适应采取不同的位置匿名方法；为用户提供可定制的隐私保护，通过分析用户的兴趣及偏好特征，个性化地隐藏用户的敏感信息，提高数据的可用性，同时根据用户的熟悉度以及位置的流行度，划分四种隐私风险评级，实现隐私保护强度的可量化，为未来位置数据发布中个性化轨迹匿名提供有益的解决思路。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的流程图；

图2是本发明的敏感位置攻击示意图；

图3是本发明的轨迹泛化处理示意图；

图4是本发明的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，如图1所示，一种偏好感知的轨迹匿名方法，具体步骤如下：

S1、获取用户所访问位置的语义信息以及移动轨迹数据；

假设攻击者能够获取到受害者的一些先验知识，包括：受害者所访问位置的语义信息以及按时间排列的移动轨迹序列。根据每个位置的语义描述，受害者的语义轨迹序列可以表示为：C

如图2所示，为一种敏感位置攻击的示意图。从图2中可以看出，用户A、用户B以及用户C均具有各自的移动模式。其中，用户A与用户B的移动模式相同，即：“学校→体育馆→餐厅”。假设对用户A来说，“餐厅”是其敏感位置信息，不希望其他人知道。但是，攻击者如果知道用户B的移动模式，并知道用户A与用户B之间具有相似性，那么当用户A访问过“学校→体育馆”，攻击者将以很大地概率推理出用户A将要访问“餐厅”，从而导致用户A的个人隐私遭到泄露。

S2、利用位置空间匿名方法对用户的移动轨迹数据中包含的原始点依次进行停留区域泛化和位置区域泛化，得到用户的位置序列；利用位置空间匿名方法，将原始点泛化为位置区域，对位置区域进行语义描述。

定义1：每一个位置匿名空间

在位置匿名空间中，可信第三方通过调整匿名空间的大小，实现不同强度的隐私保护。并且，可信第三方能够利用匿名空间测量其隐私保护的数据效用，即：轨迹匿名阶段丢失的信息量。

通过两次泛化过程隐藏用户的原始点，包括：停留区域泛化以及位置区域泛化。如图3所示，为轨迹泛化处理示意图，从图3中可以看出，可信第三方先将原始点重构为停留点，然后将停留点重构为位置，最后将位置按时间顺序连接生成泛化的轨迹序列。

S21、对于停留区域泛化，可信第三方从用户的移动轨迹数据中提取停留点，通过停留点反映用户的移动行为，一个停留点可表示为：

其中，

S22、通过将提取的停留点按照用户的移动轨迹数据中原始点的先后顺序连接起来，重构一条泛化的停留点序列Tra_S：Tra_S＝S

S23、对于位置区域泛化，可信第三方从泛化的停留点序列中提取位置，通过位置反映用户的个性化行为及偏好，一个位置可表示为：

其中，

S24、通过将提取的位置按照停留点序列中停留点的先后顺序连接起来，重构一条泛化的位置序列Tra_L：Tra_L＝L

根据上述两个泛化过程，攻击者即使获取到用户的位置序列，也无法推断出用户的原始点信息。但是，攻击者可以通过该位置序列，利用背景知识信息，挖掘出用户的频繁移动模式，从而推断出受害者的日常活动规律或者行为偏好。因此，在轨迹隐私保护时，需要考虑用户频繁移动模式的泄露问题。

S3、通过分析用户的位置序列获取用户对语义类型的熟悉度以及每个位置在语义类型中的流行度；具体方法为：

S31、在地理空间，两个位置之间的距离能够反映用户的浏览行为。通常情况下，两个L

其中，Sim

通过分析用户的历史位置序列能够挖掘出用户的移动模式及偏好。因此，在获取到用户历史位置序列的前提下，用户u

S32、令His(u

其中，P

在语义空间，需要对构建的位置匿名空间进行语义描述，以挖掘出用户的兴趣或者偏好信息。标注每一个位置匿名空间的语义信息。首先，每一个语义类型i在停留点匿名区域

其中，N表示停留点匿名区域中兴趣点的总个数，n

从而，每一个停留点匿名区域的特征向量可以表示为f

对权重值进行归一化处理后，可以得到：

从而，每一个位置匿名区域的特征向量可以表示为f

本发明提出的语义描述方法通过选择位置匿名区域特征向量f

S33、根据步骤S32中的公式构建位置转移概率矩阵

S34、中心节点的个数表示用户熟悉度，从而可以通过权威节点的值的总和来计算用户对语义类型的熟悉度，根据用户从位置L

权威节点的个数表示位置流行度，从而可以通过中心节点的值的总和来计算位置在语义类型中的流行度，根据用户从位置L

其中，

利用迭代的方法，

其中，n表示迭代次数。

初始化

通过以上过程，本发明构建了用户对位置匿名空间的偏好模型。

所述用户的匿名轨迹序列的获得方法为：

令λ表示用户熟悉度阈值，τ表示位置流行度阈值；

(1)非熟悉且流行(NFP)

当用户对语义类型的熟悉度小于λ，并且每个位置在语义类型中的流行度大于或等于τ时，将用户的位置的隐私分类归属于非熟悉且流行类，该类型指用户不是该位置匿名空间所属语义类型的专家，如果攻击者获取到该位置匿名空间，也无法推断出用户的偏好信息。并且，由于位置流行度比较高，表示该位置匿名区域已经被许多用户访问过，因此，可信第三方不需要对该用户的位置进行隐私保护。

(2)非熟悉且非流行(NFNP)

当用户对语义类型的熟悉度小于λ，并且每个位置在语义类型中的流行度小于τ时，用户的位置的隐私分类归属于非熟悉且非流行类，该类型指用户不是该位置匿名空间所属语义类型的专家，但是位置流行度较低，攻击者能够通过背景知识信息推理出访问该位置匿名空间的用户身份信息，因此，可信第三方需要采用假数据的方法保护该用户的敏感位置匿名空间。

(3)熟悉且流行(FP)

当用户对语义类型的熟悉度大于或等于λ，并且每个位置在语义类型中的流行度大于或等于τ时，用户的位置的隐私分类归属于熟悉且流行类，该类型指用户是该位置匿名空间所属语义类型的专家，攻击者能够根据用户访问的位置匿名空间推理出用户的偏好信息，因此，可信第三方需要采用空间隐藏的方法保护该用户的敏感位置匿名空间；

(4)熟悉且非流行(FNP)

当用户对语义类型的熟悉度大于或等于λ，并且每个位置在语义类型中的流行度小于τ时，用户的位置的隐私分类归属于熟悉且非流行类，在该类型中，由于位置匿名空间对用户来说具有高的用户熟悉度，并且在其语义类型中具有低的位置流行度，攻击者不仅能够根据用户访问的位置匿名空间推理出用户的偏好信息，而且能够标识用户的身份信息，因此，可信第三方需要采用抑制技术来禁止该用户的位置匿名空间发布到位置社交网络服务器，以保护用户的个人隐私。

根据以上四种隐私分类，可信第三方自适应地选择不同的位置匿名方法，最终生成用户的匿名轨迹序列。

S5、通过计算用户的匿名轨迹序列的信息熵获取用户的轨迹隐私度。

参考信息熵的定义，对于一组概率分布p

H＝-∑p

假设用户在t+1时刻访问的位置是敏感位置，通过提出的隐私保护算法在t+1时刻为敏感位置选出了k-1个候选位置。我们定义用户在t+1时刻访问k个位置中的其中一个位置的概率为p

其中，p

根据熵的特点，当用户在t+1时刻访问所有候选位置的概率相同时，计算用户的匿名轨迹序列在(t,t+1)时间区间内的最大信息熵MaxH

将信息熵H

因此，轨迹隐私度H

本发明提出的偏好感知的轨迹匿名方法能够根据用户对位置的偏好，自适应地为用户定制个性化隐私保护方法，从而不仅防止用户的个人隐私泄露，而且提高轨迹数据的可用性。

实施例2，如图4所示，一种偏好感知的轨迹匿名方法所采用的轨迹匿名系统，包括位置空间生成模块、语义描述模块、行为模式提取模块、隐私风险评级模块和轨迹匿名模块；所述隐私风险评级模块与轨迹匿名模块相连接；所述位置空间生成模块与语义描述模块相连接，语义描述模块与行为模式提取模块相连接，行为模式提取模块与轨迹匿名模块相连接。

所述位置空间生成模块，用于将历史数据集中的原始点聚类为位置，从而构建用户的位置空间集合。

所述语义描述模块，用于将用户的地理位置信息转换为语义位置信息。

所述行为模式提取模块，用于挖掘用户的移动行为习惯及运动模式。

所述隐私风险评级模块，用于根据用户的行为偏好及熟悉度，划分不同的隐私风险评级。

所述轨迹匿名模块，用于根据不同的隐私风险评级，自适应采取响应的位置匿名方法，从而构建匿名的轨迹序列。

实施例2提供的偏好感知的轨迹匿名系统在进行轨迹隐私保护时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例2提供的数据传输装置与数据传输方法实施例属于同一构思，其具体实现过程详见实施例1。

综上所述，在本发明实施例中，构建敏感位置攻击模型，利用位置空间匿名方法，将原始点泛化为位置区域，对位置区域进行语义描述，计算用户对语义类型的熟悉度以及位置在该语义类型中的流行度，划分不同的隐私风险评级，根据用户轨迹中位置对应的不同隐私风险度，自适应采取不同的位置匿名方法。本发明实施例提供的方案，为用户提供可定制的隐私保护，通过分析用户的兴趣及偏好特征，个性化地隐藏用户的敏感信息，提高数据的可用性，同时根据用户的熟悉度以及位置的流行度，划分四种隐私风险评级，实现隐私保护强度的可量化，为未来位置数据发布中个性化轨迹匿名提供有益的解决思路。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：朱亮;蔡增玉;陈燕;张建伟;余丽萍;刘啸威;张卓;冯媛;王景超;
专利申请人：郑州轻工业大学;

上一篇：一种飞机机身门框区截面扭转刚度的计算方法
下一篇：一种均质袋