掌桥专利:专业的专利平台
掌桥专利
首页

基于粒子群优化算法的轨迹间相关性隐私保护方法和系统

文献发布时间:2023-06-19 11:08:20


基于粒子群优化算法的轨迹间相关性隐私保护方法和系统

技术领域

本发明属于计算机领域,更具体地,涉及基于粒子群优化算法的轨迹间相关性隐私保护方法和系统。

背景技术

不同用户的轨迹间相关性可直接应用于许多应用场景,例如,定向广告推荐和流行病学调查等。虽然轨迹间相关性可以带来许多好处,但是由于轨迹间相关性可以以较大概率推理出轨迹所属用户之间的关系,进而导致很容易推理出轨迹所属用户间的宗教信仰、健康状态等的关系,导致严重的隐私威胁。

目前,已有少数研究者提出了针对轨迹间相关性的隐私保护方法。然而,这些方法限制了它们只能应用在离线发布两条轨迹的场景中。比如在著名的打车应用滴滴、Uber中,当两位同行的乘客想要隐藏他们通过滴滴或Uber产生的移动轨迹之间的关联时,这些方法能够达到期望的目标。而事实上,真实的社交网格应用(如微博)上不可能只有两个用户,因此当这些社交网格应用想要从第三方服务商处获取基于位置的推荐等服务时,这些应用向第三方服务商公开发布的轨迹一般远多于2条。已有的方法并未基于这种场景作进一步的拓展。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种基于粒子群优化算法的轨迹间相关性隐私保护方法和系统,其目的在于基于改进的粒子群优化算法,通过尽可能保持输入轨迹在扰动前后的网格访问频率向量这一统计特征变化较小的同时尽可能降低与其它轨迹间的网格访问频率向量的相似性,从而保护轨迹间的相关性隐私,保证扰动后发布的轨迹数据具有较高的数据可用性和安全性。

为实现上述目的,按照本发明的第一方面,提供了一种基于粒子群优化算法的轨迹间相关性隐私保护方法,该方法包括以下步骤:

S1.将待发布所有轨迹所在的地理空间进行网格划分得到网格域G,所述轨迹包括经纬度和时间戳,把每条轨迹从经纬度形式映射为网格形式后,统计每条网格轨迹在网格域G上网格访问频率向量

S2.对于每一条网格轨迹,采用改进的粒子群优化算法求解目标,得到更新后的网格访问频率向量

S3.对于每个更新后的网格访问频率向量

有益效果:

(1)本发明对轨迹数据集所在的经纬度空间进行了离散化,得到一个网格空间,尽量避免无用信息的干扰。

(2)本发明基于网格空间提取出网格轨迹的网格访问频率向量,并以两个向量之间的相似度作为轨迹间相关性的量化,用来计算向量相似度的具体方法包括余弦相似度、皮尔森相关系数等,以前述方式对轨迹间相关性进行量化的方法的时间复杂度是O(n)量级的,计算更高效,因此更适合于用在本发明中这种需要大量重复计算轨迹间相关性的场景里。

(3)与原始的粒子群算法相比,改进的粒子群算法体现在每一轮迭代中,更新完每个粒子的位置向量和速度向量后,采用稀疏向量技术为粒子的位置向量对应的频数向量添加拉普拉斯噪声,再将扰动后的频数向量归一化得到扰动后的粒子的位置向量,保证迭代过程的安全性。

(4)本发明设计的通过改进的粒子群算法求解的目标函数能够同时考虑并降低待保护的轨迹与其余轨迹间的相关性,无需面临现有的轨迹相关性隐私保护技术只能有效保护两条轨迹的问题。

(5)本发明在轨迹合成时,避免了穷举所有可能的轨迹这种低效的方法,实现了一种平衡了轨迹合成效率和合成轨迹的数据可用性的方法。

优选地,步骤S1中,对网格域G中的每个网格进一步划分得到L*L个子网格,其中,L与q(C

其中,q(C

有益效果:本发明改进了现有的自适应网格划分方法,由于现有的自适应网格划分方法在对网格域G中的网格进一步划分时,只考虑了落在每个网格中的位置个数,容易导致每个网格被过度划分为过于密集的子网格,本发明改进了划分子网格的依据,修改成考虑落在每个网格中的不同位置的个数,从而控制了子网格的规模,有利于提升本发明的轨迹合成过程的效率。

优选地,步骤S2中,改进的粒子群优化算法的目标函数如下:

改进的粒子群优化算法的约束条件如下:

其中,函数sim(·)计算两个向量之间的相关系数;P

有益效果:本发明通过特殊设计的约束优化目标函数,目标函数的分母表示输入轨迹的网格访问频率向量在更新前后的相关性大小或其倒数,为了尽可能保持给定输入轨迹(或称为待保护的轨迹)的网格访问频率向量这一统计特征;分子表示输入轨迹更新后的网格访问频率向量与其它轨迹对应的网格访问频率向量的相关性大小或其倒数之和,为了尽可能降低给定输入轨迹与轨迹数据集中其余轨迹之间的相关性。约束条件的含义是网格访问频率向量的各个分量之和等于1。该约束条件的作用是用于粒子群算法中对局部最优粒子和全局最优粒子的更新过程。其次,由于该目标函数的处理对象是网格访问频率向量,并且该向量是基于同一个网格空间提取得到的,说明所有的网格访问频率向量的维度数都是一致的,与每条轨迹的长度无关,因此无需考虑轨迹长度与经度和纬度是否能独立地处理这些问题。最后,本发明通过改进的粒子群优化算法求解上述目标函数,得到的解使得目标函数取得极小值,等价于在分母取得极大值的同时分子取得极小值。分母取得极大值意味着给定输入轨迹的网格访问频率向量这一统计特征得到了较好的保持,有利于数据可用性;分子取得极小值意味着给定输入轨迹与其余轨迹之间的相关性得到了较好的保护,有利于扰动轨迹的安全性。

优选地,P

若输入轨迹第j个节点对应的原始网格是C

在对P

对每个网格的最大访问次数归一化,得到P

有益效果:本发明通过限制网格访问频率向量中每个维度的取值范围,控制了输入轨迹的每个节点的原始网格只能被扰动到周围的9个网格之一,从而能够有效控制扰动后的网格轨迹偏离原始网格轨迹的距离,增强扰动前后的网格轨迹的不可区分性,而且有利于尽量保持请求基于位置的服务时的准确性,从而保证数据可用性。

优选地,步骤S2中,改进的粒子群优化算法,为每一轮迭代分配的隐私预算计算公式如下:

其中,itr表示改进的粒子群优化算法当前执行到的迭代轮次,M表示改进的粒子群优化算法的最大迭代次数,ε

有益效果:本发明通过三角数的倒数序列为改进的粒子群优化算法的每一轮迭代分配合适的隐私预算,由于为每一轮迭代分配的隐私预算会随着迭代轮次的增长而增大,从而实现了越靠后的迭代轮次被分配的隐私预算越多,添加的拉普拉斯噪声越少,对所在迭代轮次的粒子的位置向量的影响越小,就越有利于使得粒子趋近目标函数的解。

优选地,步骤S3包括:

S31.统计得到P

S32.依次从集合S

S33.对于每个节点对应的网格,从该网格中选择一个位置多样性最大的子网格,从落在该子网格内并且属于给定输入轨迹对应用户的位置集合中选择一个访问频率最高的位置作为当前时序的扰动位置,从而转化为经纬度形式的轨迹T

有益效果:本发明在合成网格轨迹的过程中,为每个节点选择可用性最高的新网格,并动态地评估已合成的部分网格序列的可用性,从而在保证了最终合成的完整网格轨迹具有较高可用性的同时避免了直接在所有可能的合成网格轨迹中选择一条网格轨迹时的低效问题,在算法执行效率和数据可用性两者中达到了较好的平衡。本发明在把合成的网格轨迹转化为经纬度形式的轨迹时,通过子网格的位置多样性和子网格中每个位置的访问频率的控制,从而实现了转化得到的经纬度形式的轨迹具有较好的可用性,能够有效保持输入轨迹中包含的对不同位置的访问偏好(频率)和网格访问频率向量这一特征。

优选地,步骤S32中,每个网格的可用性定义如下:

其中,t

有益效果:本发明通过为当前节点的候选网格集合中的每个网格设计一个可用性函数,可用性函数包含两个部分,如上所述,前一部分用于从候选网格集合中选出最符合输入轨迹里当前节点的时间戳下的访问偏好的新网格,后一部分用于从候选网格集合中选出使得已合成的网格序列与输入轨迹截止到当前节点的相似性最高的新网格,从而使得扰动前后的网格轨迹截止到当前节点的网格访问频率向量相似性最高,且尽可能保持当前节点的时间戳所属时间段内的空间偏好。

为实现上述目的,按照本发明的第二方面,提供了一种基于粒子群优化算法的轨迹间相关性隐私保护系统,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的基于粒子群优化算法的轨迹间相关性隐私保护方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

本发明基于改进的粒子群优化算法,通过尽可能保持输入轨迹在扰动前后它的网格访问频率向量这一统计特征变化较小的同时尽可能降低与其它轨迹间的网格访问频率向量的相似性,从而保护轨迹间的相关性隐私,保证扰动后发布的轨迹数据具有较高的数据可用性和安全性。并且,与现有的对比方法相比,本发明提出的方法数据可用性更高,隐私保护力度在大部分时候都更强。本发明支持使用多种方法来计算两条轨迹间的相关性。

附图说明

图1为本发明提供的一种基于粒子群优化算法的轨迹间相关性隐私保护方法流程图;

图2为本发明实施例所用轨迹数据集的空间分布图;

图3为本发明实施例与轨迹对应的网格访问频率向量各个维度取值上界的计算示意图;

图4为本发明与AdaTrace、DPT和TGM的数据可用性比较图;

图5为本发明与AdaTrace、DPT和TGM的隐私保护力度比较图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示,本发明的方法分三个步骤实施:

在说明执行过程之前,首先介绍本实施例采用的轨迹数据集以及一些关键的参数设置。

本实施例采用的轨迹数据集是韩国首尔延世大学采集得到的数据集Yonsei,源于延世大学的9位研究生在2011年的两个月内使用手机位置服务应用——SmartDC产生的数据。本实施例所使用的是Yonsei数据集中经纬度坐标位于首尔市范围内的签到记录构成的子集Yonsei-Seoul。Yonsei-Seoul数据集包含的用户只有9个,但每个用户的平均签到数高达4094.5,是一个非常稠密的轨迹数据集。从图2可以看出,此数据集在空间上的聚集程度非常高。经过在此轨迹数据集上进行预实验,观察到当最大迭代次数M=2000时,改进的粒子群算法波动较小,可以认为近似收敛。因此本实施例把M参数设置为2000。

本实施例需要用到隐私预算参数ε,在实验中分别取0.1,1,3,5,10五个不同的数值,以观察各项实验结果的变化情况。在本发明的方法中,位置多样性自适应的网格划分步骤和基于粒子群优化算法的网格访问频率向量的更新步骤需要消耗隐私预算,本实施例为这两个步骤分配的隐私预算ε

步骤一:位置多样性自适应的网格划分

输入数据:包含多条轨迹数据的数据集Yonsei-Seoul(记为D),轨迹数据的形式是T={(x

处理过程:根据D找出轨迹所在地理空间的最大经纬度和最小经纬度,对最大最小经纬度构成的地理区域划分为N*N的网格域G;遍历处理D中的每条轨迹,转化为网格形式的轨迹,形如

输出数据:原始轨迹数据集D;由网格轨迹构成的数据集D

本实施例选择网格域的划分规模为8*8。首先将待发布的Yonsei-Seoul轨迹数据所在的地理空间划分为64个网格,得到网格域G。然后,将经纬度形式的轨迹按如下方式转换为网格形式的轨迹:对于每条轨迹T

步骤二:基于粒子群优化算法的网格访问频率向量的更新

输入数据:原始轨迹数据集D;由网格轨迹构成的数据集D

处理过程:根据网格轨迹数据集D

输出数据:原始轨迹数据集D和网格轨迹数据集D

对于每一条网格轨迹T

其中,第一个公式是目标函数,第二个公式是约束条件。sim(·)函数计算的是两个向量之间的相关系数,在本发明中用于量化两条轨迹间的相关性,本实施例采用皮尔森相关系数公式作为sim(·)函数的具体实现;P

为了保证较高的数据可用性,本发明对P

接着利用粒子群算法求解上面带约束条件的目标函数,其中粒子的位置向量被定义为输入轨迹的待更新的网格访问频率向量。具体的求解过程采用以下算法实现。

由于原始的粒子群优化算法的执行过程没有加入任何噪声,无法保证安全性,为此,本发明对它进行了定制化修改,即函数ImprovedPSO。函数ImprovedPSO的算法伪代码归纳为算法2。

在上述改进的粒子群算法中,PerturbedPositionVector(·)表示利用稀疏向量技术为每个粒子的位置向量对应的频数向量添加拉普拉斯噪声,再将扰动后的频数向量归一化得到扰动后的位置向量的过程,而这一步骤正是本发明使用的改进的粒子群算法与原始的粒子群算法的区别之处。

为了保证早期加入的拉普拉斯噪声不被后期的随机变异“吞噬”,本发明为每一轮迭代都分配一定比例的隐私预算。考虑到itr越小时,每个粒子位置向量变化的随机性越大。随着itr逐渐增大,后期迭代过程中的粒子越来越接近最优粒子。因此,越后面的迭代,应该被分配越多的隐私预算,使得加入的拉普拉斯噪声越少,对最优粒子的影响越小。本发明采用三角数的倒数序列实现这一目的。因此,每一轮迭代消耗的隐私预算的计算公式如下:

其中,itr表示粒子群算法执行到第几轮迭代,M=2000表示ImprovedPSO的最大迭代次数,ε

由于每个粒子的位置向量代表的是一个网格访问频率向量,即拉普拉斯机制的扰动对象是一个向量,因此本发明采用稀疏向量技术(SVT)为每个粒子的位置向量对应的频数向量添加拉普拉斯噪声,再将扰动后的频数向量归一化得到扰动后的位置向量,具体的实现过程如下算法所示。

步骤三:基于更新后的网格访问频率向量的轨迹合成

输入数据:原始轨迹数据集D和网格轨迹数据集D

处理过程:在轨迹合成过程中,根据更新后的网格访问频率向量p′统计得到的候选网格集合Set

输出数据(即最终结果):扰动后的轨迹数据集D′,其中D′与D中的轨迹一一对应,数据组织形式也相同,区别在于D′中的每条轨迹是D中对应轨迹的扰动轨迹。

利用改进的粒子群算法求解目标函数后,得到使目标函数取得极小值的一个网格访问频率向量P

其中,t

本发明采用以下迭代过程完成网格轨迹的合成。

在得到合成的网格轨迹T

本发明采用位置访问频率向量的杰森-香农散度、位置访问频率向量的肯德尔系数、平均查询误差三种数据可用性指标和抵御贝叶斯攻击的能力、轨迹相关性的保护效果两种安全性指标来说明本发明的优势。对于位置访问频率向量的杰森-香农散度和平均查询误差两种可用性指标而言,其值越小,表示可用性越高,而位置访问频率向量的肯德尔系数指标正好相反。对于抵御贝叶斯攻击的效果指标而言,其值越小,表示安全性越高,而轨迹相关性的保护效果指标正好相反。从本实施例在Yonsei-Seoul轨迹数据集上的实验效果来看,本发明的方法在三种数据可用性指标上都强于AdaTrace、DPT和TGM三种对比方法;在两种安全性指标上,本发明的方法在大多数时候展示出的隐私保护力度也都强于对比方法。可见,本发明的方法无论在数据可用性还是隐私保护力度上,都表现出较明显的优势。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于粒子群优化算法的轨迹间相关性隐私保护方法和系统
  • 基于拉格朗日优化的轨迹间相关性隐私保护方法
技术分类

06120112810467