一种不同场景下的轨迹隐私保护方法

文献发布时间：2024-05-31 01:29:11

技术领域

本发明涉及计算机和通信技术领域，尤其涉及一种不同场景下的轨迹隐私保护方法。

背景技术

随着移动通信和北斗导航定位技术的不断发展，基于位置服务(Location BasedServices,LBS)的设备层出不穷，如车载导航、北斗智能手机以及智能手表等。LBS不断改变人们的生活方式，在给人们带来极大的便利的同时，也带来了新的安全隐患——轨迹隐私泄露。

目前轨迹隐私保护主要的方法有假轨迹法、抑制法、泛化法以及差分隐私法。其中差分隐私法因其不关心攻击者拥有的背景知识、不需要进行特殊的攻击假设等特点被广泛应用于隐私保护领域。在离散场景下，融入兴趣区域的差分隐私轨迹数据保护方法、基于兴趣点的差分隐私轨迹保护机制和基于停留点隐私预算分配的差分隐私轨迹数据保护方法都采取了局部扰动的方法来提高轨迹数据的可用性，但没有考虑到轨迹语义信息，且只对轨迹中重要位置点添加扰动信息，因此在轨迹保护的过程中仍存在数据可用性较低的问题；在实时场景下，现有方法大多是将发布预算统一分配给所有的时间戳，再决定在某个时间戳进行位置数据发布，并吸收之前为发布数据所分配的隐私预算，同时也必须从后续的时间戳中取消相同的预算，迫使它们的输出变为空。但在此过程中，轨迹数据的可用性有所降低。因此，在保证轨迹隐私不被泄露的前提下，提高数据的可用性成为了目前轨迹隐私保护的主要研究趋势。

发明内容

本发明针对由于差分隐私预算分配不合理、停留点选取不当等因素造成的低数据可用性以及不同应用场景造成的隐私泄露等问题，提出了一种不同场景下的轨迹隐私保护方法(ATrajectory Privacy Protection Methods in Different Scenarios，DSTPP)。

本发明提出的一种不同场景下的轨迹隐私保护方法，该方法包括如下步骤：

步骤1：获取待保护轨迹数据并判断应用场景为离散场景或实时场景；

步骤2：获取待保护轨迹数据的时间属性，并将时间属性转换为时间戳，获得原始轨迹数据，并根据原始轨迹数据构建待保护轨迹数据集；

步骤3：当应用场景为离散场景时，对待保护轨迹数据集进行离散场景隐私保护，得到经离散场景隐私保护后的轨迹数据；当应用场景为实时场景时，对待保护轨迹数据集进行实时场景隐私保护，得到经实时场景隐私保护后的轨迹数据；

步骤4：对经离散场景隐私保护后的轨迹数据和经实时场景隐私保护后的轨迹数据进行数据发布，实现不同场景下的轨迹隐私保护；

步骤1中的所述判断应用场景的方法为：通过分析获取的待保护轨迹数据是单一位置点还是完整的轨迹数据，来判断应用场景为离散场景或实时场景；若待保护轨迹数据是单一位置点，则判断应用场景判决指标为1，此时应用场景为实时场景；若待保护轨迹数据是完整的轨迹数据，则判断应用场景判决指标为0，此时应用场景为离散场景，表达式如下：

其中T

步骤3中所述对原始轨迹数据进行离散场景隐私保护的方法为：

步骤A1：向待保护轨迹数据集中添加速度属性，并删除速度异常的位置点，得到离散轨迹数据集Φ′；

步骤A2：对离散轨迹数据集Φ′进行轨迹划分并选取兴趣停留点，得到兴趣区域集合Φ

步骤A3：对兴趣区域集合Φ

步骤A4：根据聚类结果设计隐私预算分配函数，为兴趣区域集合Φ

步骤A5：向分配的隐私预算中添加拉普拉斯扰动，得到经离散场景隐私保护后的轨迹数据；

步骤A1中所述向待保护轨迹数据集中添加速度属性的方法为：设初始位置点的速度为0，计算轨迹中任意两两相邻位置点之间的地理距离，再计算相邻位置点的平均速度作为两点中后一个位置点的速度属性；对于待保护轨迹数据集的第i+1个位置点L

所述步骤A2进一步包括：

步骤A2.1：若离散轨迹数据集Φ′中的某个位置点在经纬度坐标为(x,y)的位置点的停留时间超过预置的时间阈值T

步骤A2.2：将离散轨迹数据集Φ′中所有子轨迹划分点存入子轨迹起止点集合Φ

步骤A2.3：将任意一段子轨迹的起始位置点存入兴趣区域集合Φ

步骤A2.4：判断该子轨迹中后续相邻位置点的距离是否小于预置的距离阈值T

步骤A2.5：查询该子轨迹中每个位置点的语义信息，将位置点语义信息出现频率大于语义频域阈值T

步骤A4中所述根据聚类结果设计隐私预算分配函数的方法为：根据聚类后得到的簇，判断兴趣区域集合Φ

其中ε′表示为聚类结果为-1的位置点分配的隐私预算；ε为总隐私预算；

其中d

步骤3中所述对原始轨迹数据进行实时场景下的隐私保护的方法为：

步骤B1：查询原始数据轨迹中位置点的语义信息并加入待保护轨迹数据集，得到实时轨迹数据集Φ″，构建该位置点的语义重要程度函数G

步骤B2：设计隐私预算分配函数，为t时刻实时轨迹数据集Φ″中的每个位置点分配隐私预算，并根据分配的隐私预算生成相应的拉普拉斯扰动添加到原始轨迹数据中；

步骤B3：对添加拉普拉斯扰动添加到原始轨迹数据进行卡尔曼滤波；

步骤B4：利用比例-积分-微分PID误差和下一时间戳剩余预算设置自适应采样间隔，用于在实时场景中对时间进行采样，得到经实时场景隐私保护后的轨迹数据；

步骤B1中所述语义重要程度函数G

其中k为t时刻当前位置点的的语义信息频数；c

步骤B2中所述隐私预算分配函数为：

其中ε

步骤B4中所述设置自适应采样间隔的方法为：设当前采样点为k

其中K

采用上述技术方案所产生的有益效果在于：

在无历史数据集的情况下，针对不同应用场景进行了不同方法的隐私保护，本发明方法将应用场景分为：离散场景和实时场景，并对上述两种应用场景的用户进行隐私保护。其中离散场景下的轨迹隐私保护是通过选取兴趣停留点对隐私预算进行合理分配；实时场景下的轨迹隐私保护则是由滑动窗口构建隐私预算分配函数。

本发明方法根据不同的应用场景对隐私预算函数进行设计，灵活地分配隐私预算，在保护数据隐私的同时减少信息损失。同时经实验表明：离散场景下，DSTPP的数据可用性评判指标RMSE与现有方法中融入兴趣区域的差分隐私轨迹数据保护方法(Trajectory-Differential Privacy-Protection Method with Interest Region，TDPPIR)、基于兴趣点的差分隐私轨迹保护机制(Differential privacy based on DBSCAN and point ofinterest，DPPOI)以及基于停留点隐私预算分配的差分隐私轨迹数据保护方法(Differential Privacy Trajectory Data Protection Method Based on Stay PointAllocation of Privacy Budget，DPSP)的RMSE相比均有效降低；实时场景下，DSTPP的RMSE与蝙蝠算法(Bat Algorithm，BA)的RMSE相比有效降低。因此本发明方法实现了对不同应用场景下的轨迹进行隐私保护，并一定程度上提高轨迹数据可用性。本发明方法应用于用户在不同场景下的轨迹隐私保护，尤其适用于位置点的访问频率低但具有重要语义信息的轨迹隐私保护。

附图说明

图1为本实施方式中一种不同场景下的轨迹隐私保护方法的流程图；

图2为本实施方式中轨迹数据处理的过程示意图；其中图(a)为原始轨迹数据集的示意图；图(b)为时间属性处理后轨迹数据集的示意图；图(c)为添加速度属性后轨迹数据集的示意图；图(d)为删除速度异常值后轨迹数据集的示意图；

图3为本实施方式中转向敏感位置点的示意图；其中图(a)为路口转向敏感位置点示意图；图(b)为支路转向敏感位置点示意图；

图4为本实施方式中卡尔曼工作的原理图；

图5为本实施方式中离散场景下使用不同数据集时DSTPP与现有方法的数据可用性对比图；其中图(a)为Geolife数据集下的数据可用性对比图；图(b)为T-Drive数据集下的数据可用性对比图；

图6为本实施方式中不同数据集下滑动窗口w对数据可用性的影响对比图；其中图(a)为Geolife数据集下滑动窗口w对数据可用性的影响对比图；图(b)为T-Drive数据集下滑动窗口w对数据可用性的影响对比图；

图7为本实施方式中不同数据集下隐私预算ε对数据可用性的影响对比图；其中图(a)为Geolife数据集下隐私预算ε对数据可用性的影响对比图；图(b)为T-Drive数据集下隐私预算ε对数据可用性的影响对比图。

具体实施方式

为了便于理解本申请，下面结合附图和实施方式，对本发明方法的具体实施方式作进一步详细描述。以下实施方式用于说明本方法，但不用来限制本方法的范围。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

本实施方式的一种不同场景下的轨迹隐私保护方法，如图1所示，该方法包括如下步骤：

步骤1：获取待保护轨迹数据并判断应用场景为离散场景或实时场景。

所述判断应用场景的方法为：通过分析获取的待保护轨迹数据是单一位置点还是完整的轨迹数据，来判断应用场景为离散场景或实时场景；若待保护轨迹数据是单一位置点，则判断应用场景判决指标为1，此时应用场景为实时场景；若待保护轨迹数据是完整的轨迹数据，则判断应用场景判决指标为0，此时应用场景为离散场景，表达式如下：

其中T

在本实施方式中，获取待保护轨迹数据并根据公式(1)判断应用场景，根据判断结果构造不同的隐私保护机制，当T

步骤2：获取待保护轨迹数据的时间属性，并将时间属性转换为时间戳，获得原始轨迹数据，并根据原始轨迹数据构建待保护轨迹数据集。

所述待保护轨迹数据时间属性的格式为“年-月-日时：分：秒”，记为“YYYY-mm-ddHH:MM:SS”；所述时间戳以秒为单位。

在本实施方式中，如图2所示，将格式为“YYYY-mm-dd HH:MM:SS”时间属性转换为以秒为单位的时间戳，得到原始轨迹数据，转化前的时间属性数据如图2(a)所示，转化后的时间戳数据如图2(b)所示。

所述构建待保护轨迹数据集的方法为：对于含有n个位置点的原始轨迹数据构建待保护轨迹数据集，记为Φ＝{L

步骤3：当应用场景为离散场景时，对待保护轨迹数据集进行离散场景隐私保护，得到经离散场景隐私保护后的轨迹数据；当应用场景为实时场景时，对待保护轨迹数据集进行实时场景隐私保护，得到经实时场景隐私保护后的轨迹数据。

所述对原始轨迹数据进行离散场景隐私保护的方法为：

步骤A1：向待保护轨迹数据集中添加速度属性，并删除速度异常的位置点，得到离散轨迹数据集Φ′。

所述向待保护轨迹数据集中添加速度属性的方法为：设初始位置点的速度为0，计算轨迹中任意两两相邻位置点之间的地理距离，再计算相邻位置点的平均速度作为两点中后一个位置点的速度属性；对于待保护轨迹数据集的第i+1个位置点，将添加速度属性后的L

在本实施方式中，对待保护轨迹数据集进行数据处理，得到离散轨迹数据集Φ′。针对有n个位置点的待保护轨迹数据集为Φ，设初始位置点的速度为0，根据公式(2)计算轨迹中任意两两相邻位置点之间的地理距离，通过公式(3)计算相邻位置点的平均速度作为计算相邻位置点的平均速度作为两点中后一个位置点的速度属性，则添加速度属性后的轨迹数据如图2(c)所示，并删除速度异常的位置点，最终得到离散轨迹数据集Φ′，如图2(d)所示。

其中Δ

步骤A2：对离散轨迹数据集Φ′进行轨迹划分并选取兴趣停留点，得到兴趣区域集合Φ

步骤A2.1：若离散轨迹数据集Φ′中的某个位置点在经纬度坐标为(x,y)的位置点的停留时间超过预置的时间阈值T

步骤A2.2：将离散轨迹数据集Φ′中所有子轨迹划分点存入子轨迹起止点集合Φ

步骤A2.3：将任意一段子轨迹的起始位置点存入兴趣区域集合Φ

步骤A2.4：判断该子轨迹中后续相邻位置点的距离是否小于预置的距离阈值T

步骤A2.5：查询该子轨迹中每个位置点的语义信息，将位置点语义信息出现频率大于语义频域阈值T

在本实施方式中，先将子轨迹的起始位置点存入兴趣区域集合Φ

其中θ

步骤A3：对兴趣区域集合Φ

在本实施方式中，由于在选取的轨迹数据中可能存在用户未移动，但采样的轨迹数据发生的偏移，因此采用基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)将兴趣区域集合Φ

步骤A4：根据聚类结果设计隐私预算分配函数，为兴趣区域集合Φ

所述根据聚类结果设计隐私预算分配函数的方法为：根据聚类后得到的簇，判断兴趣区域集合Φ

其中ε′表示为聚类结果为-1的位置点分配的隐私预算；ε为总隐私预算；

其中d

在本实施方式中，将轨迹中包含的位置点分为兴趣区域位置点集合Φ

步骤A5：向分配的隐私预算中添加拉普拉斯扰动，得到经离散场景隐私保护后的轨迹数据。

在本实施方式中，向根据公式(6)-(8)分配的隐私预算进行扰动添加，如公式(9)所示，

其中Y为拉普拉斯扰动项；～表示添加扰动数据服从拉普拉斯分布；Lap(·)为拉普拉斯函数；Δf为全局敏感度；x′

所述对待保护轨迹数据集进行实时场景隐私保护的方法为：

步骤B1：查询原始数据轨迹中位置点的语义信息并加入待保护轨迹数据集，得到实时轨迹数据集Φ″，构建该位置点的语义重要程度函数G

所述语义重要程度函数G

其中k为t时刻当前位置点的的语义信息频数；c

在本实施方式中，根据实时接受的原始轨迹数据中位置点的经纬度信息调用高德地图API查询该位置点的语义信息，并将语义信息添加到轨迹数据集中，得到实时轨迹数据集Φ″，并构造公式(10)为t时刻该位置点的语义重要程度函数G

步骤B2：设计隐私预算分配函数，为t时刻实时轨迹数据集Φ″中的每个位置点分配隐私预算，并根据分配的隐私预算生成相应的拉普拉斯扰动添加到原始轨迹数据中。

所述隐私预算分配函数为：

其中ε

在本实施方式中，需当前剩余隐私预算，而在第一次进行隐私保护时剩余隐私预算等于总隐私预算，后续则需要根据公式(11)计算当前剩余隐私预算。

步骤B3：对添加拉普拉斯扰动添加到原始轨迹数据进行卡尔曼滤波。

在本实施方式中，通过对添加拉普拉斯扰动添加到原始轨迹数据进行卡尔曼滤波来提高轨迹数据的可用性。卡尔曼滤波器包括预测和矫正两部分，其工作原理图如图4所示，即通过公式(15)验证扰动后位置信息数据的后验概率，进行过滤来提高数据可用性。

p＝p+N(0,q) (13)

其中p为近似测量噪声；q为收集的原始轨迹数据的方差；F为全局敏感度；w为滑动窗口大小；

如图4所示，先验估计

步骤B4：利用比例-积分-微分(Proportional-Integral-Derivative，PID)误差和下一时间戳剩余预算设置自适应采样间隔，用于在实时场景中对时间进行采样，得到经实时场景隐私保护后的轨迹数据。

所述设置自适应采样间隔的方法为：设当前采样点为k

在本实施方式中，因为采用的是滑动窗口算法，需考虑采样的时间间隔，即自适应采样间隔，并进行时间采样，再在采样完后对这个窗口内的数据一起进行扰动，以达到实时情况下位置点个数不确定时隐私保护的目的，设置完自适应采样间隔之后再进行数据发布。

为了避免当剩余隐私预算较小时引入较高的扰动误差导致数据可用性降低，应该选取相对较大的采样间隔，用于收回先前分配而未使用的隐私预算，此时下一采样间隔S

其中K

步骤4：对经离散场景隐私保护后的轨迹数据和经实时场景隐私保护后的轨迹数据进行数据发布，实现不同场景下的轨迹隐私保护。

在本实施方式中，为验证DSTPP在离散场景下的数据可用性，分别使用Geolife数据集和T-Drive数据集在隐私预算分别为ε＝0.01、ε＝0.1、ε＝0.5、ε＝1、ε＝1.5以及ε＝2进行对比分析，得到的结果如图5(a)和图5(b)所示，以均方根误差RMSE作为隐私保护程度判断依据，RMSE越大说明添加扰乱信息越大，隐私保护程度越高；反之，RMSE越小说明添加扰乱信息越小，隐私保护程度越低。此时测得的均方误差为保护后的整条轨迹与真实轨迹之间的误差。

其中L为待保护位置点的真实位置信息；L′为发布的待保护位置点的轨迹信息；N为待保护位置点的总个数。

由图5可见，本发明提出的DSTPP与现有的DPPOI、TDPPIR以及DPSP都随着隐私预算ε的增大，RMSE逐渐减小。其中DSTPP的RMSE结果相比与DPPOI低0.2009-1.11、与TDPPIR相比低0.3216-1.1539，与DPSP方法相比低0.1744-1.1389。同时，DPPOI、TDPPIR和DPSP方法都是进行的局部扰动且并没有考虑轨迹的语义信息，只针对轨迹中的频繁位置点或频繁位置区域添加扰动信息，而对于轨迹中的非频繁位置点直接发布，因此仍存在隐私泄露的风险。DSTPP方法将地理信息和语义信息相结合，构造隐私预算分配函数，根据轨迹中位置点的重要程度不同添加了一定的扰动信息，因此相比于DPPOI、TDPPIR以及DPSP方法有更高的隐私保护水平。从而表现出DSTPP方法在离散场景下具有更高的数据可用性以及更高的轨迹隐私保护程度。

进一步，为了测试在实时场景下DSTPP的滑动窗口w对数据可用性的影响，分别使用Geolife数据集和T-Drive数据集在ε＝1的条件下选取滑动窗口大小为3、10、40、80、120、160以及200进行测试分析，得到的结果如图6(a)和图6(b)所示，即随着滑动窗口w的增大，DSTPP以及BA算法的RMSE也逐渐增大。BA算法在数据评估中引入了评估误差噪声，其噪声大小与活动窗口w成正相关。因此DSTPP以及BA方法的数据可用性会随着滑动窗口的增大而降低。而DSTPP选取有变化规律的间隔进行采样且采样间隔在隐私预算过低时也会进行相应的延长。滑动窗口的引入避免了加入过大的噪声到轨迹数据中，从而表明DSTPP具有更高的数据可用性。

最后，为了测试在实时场景下DSTPP隐私预算ε与数据可用性之间的关系，分别使用Geolife数据集和T-Drive数据集在w＝10的条件下分别选取ε＝0.1、ε＝0.5、ε＝1、ε＝1.5、ε＝2与BA进行对比分析，得到的结果如图7(a)和图7(b)所示，即随着隐私预算ε的增大，DSTPP和BA的数据可用性逐渐提高。这是因为在DSTPP中，总隐私预算ε全用来进行数据扰动，而BA选用ε/2进行数据扰动，剩余部分用来判断是否发布新数据。根据差分隐私定义可知，隐私预算越小添加扰动信息越大。因此BA方法数据可用性低于DSTPP方法，从而表明所提方法DSTPP有着更高的数据可用性。

综上所述，与其他方法相比，本发明中提出的DSTPP方法能有效提高发布轨迹的可用性，具有一定的优越性。数据可用性的提高使得位置供应商可以根据轨迹数据为用户提供个性化的推荐和位置服务，满足用户的个性化需求。同时，足够可用的轨迹数据，使得研究人员能够获取更全面的数据，从而做出更准确的分析和决策。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

完整全部详细技术资料下载