掌桥专利:专业的专利平台
掌桥专利
首页

一种基于随机链路填充和差分隐私的流量混淆方法

文献发布时间:2023-06-19 19:30:30


一种基于随机链路填充和差分隐私的流量混淆方法

技术领域

本发明涉及网络安全领域,具体的说是一种基于随机链路填充和差分隐私的流量混淆方法。

背景技术

随着社会对网络和信息的依赖性逐渐增强,数据安全、通信网络安全、隐私保护等概念越来越受到重视。即使人们越来越多地使用加密技术来保护个人隐私,但加密流量的数据包大小、数据包到达间隔时间和数据包方向等统计特征泄露了用户信息。流量分析攻击被建模为一种基于侧信道信息的分类问题。攻击者利用数据包长度、时间序列等信息提取特征,并在一组网站或者应用中进行分类,特征越显著独,流量分析攻击的效果越好。

流量混淆技术是抵抗流量分析的常用技术之一,保证目标量在观测流量集中无法被攻击者识别。常见的流量混淆方式是利用各种手段将目标流量特征字段或统计特征等信息随机化,使得不信任监听者监听目标流量时无法识别。但高性能的机器学习分类算法给流量混淆带来的巨大挑战,导致以往的网站指纹混淆方法无法抵御流量分析攻击。因此需要一种更加有效的流量混淆方法。

经过检索,最接近的现有技术中,CN113347156,一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质,该发明结合直接时间采样和自适应随机填充技术,针对网络用户生成的网站流量进行混淆,以此抵御基于神经网络分类器的网站指纹攻击。但是现有技术中只考虑了数据包的到达间隔时间,而数据包长度信息也是流量分析常使用的特征。

发明内容

为了保护数据包长度、数据包到达间隔等信息,本发明提出一种基于随机链路填充和差分隐私的流量混淆方法,具体包括以下步骤:

采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;

根据配置文件读取填充预算和采样窗口;

根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;

计算数据包的噪声值,根据该噪声值更改该数据包长度;

根据时间表调度虚拟数据包,并采样IAT;

倒计时IAT,若倒计时过程中五数据包到来,则IAT倒计时结束后插入额外的虚拟数据包。

进一步的,根据配置文件读取填充预算和采样窗口包括:

B

若服务器或服务器端的最大填充时间和最小填充时间为PT

进一步的,客服端和代理服务端分别根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表,表示为:

其中,t表示时间戳,w表示采样窗口长度,w={w

进一步的,数据包的噪声值的计算过程表示为:

其中,

进一步的,时间戳G(t)的计算包括:

其中,D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂。

进一步的,不同时刻从拉普拉斯分布采样得到的随机数r

其中,Lap()表示拉普拉斯分布;ε表示隐私参数,将决定产生的噪声值的大小;D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂;

进一步的,根据该噪声值更改该数据包长度时,若产生的噪声为ρ,数据包大小为s

进一步的,IAT倒计时结束后插入额外的虚拟数据包的长度从数据包长度矩阵中采样,虚拟包的时间戳等于当前流量时间戳加上采样得到的时间IAT,虚拟包的方向和上一个真实数据包的方向相同。

本发明能混淆原始网站的真实特征,提高了匿名网络中用户上网的安全性。

附图说明

图1为本发明中的整体流程示意图;

图2为实施例中有限状态机转换图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出一种基于随机链路填充和差分隐私的流量混淆方法,具体包括以下步骤:

采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;

根据配置文件读取填充预算和采样窗口;

根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;

计算数据包的噪声值,根据该噪声值更改该数据包长度;

根据时间表调度虚拟数据包,并采样IAT;

倒计时IAT,若倒计时过程中五数据包到来,则IAT倒计时结束后插入额外的虚拟数据包。

对流量分析攻击而言,数据包到达间隔时间和数据包大小都是攻击者用于分类的基本特征。此外,每个网页流量的前几秒(称为流的前域)泄漏了对流量分析极有用的特征。因此,本发明侧重于用虚拟数据包混淆前域的时间间隔特征,同时也考虑数据包长度信息带来的信息泄露问题。

如图1所示,本发明是一种基于随机链路填充和差分隐私的流量混淆方法,针对网络用户生成的网站流量进行混淆。首先从非用户目标网站抓取流量用作目标流量集,然后使用时间采样方法从目标流量集中获取所需的时间信息。然后根据用户配置信息得到填充开销预算和采样窗口,根据销预算和采样窗口生成服从瑞利分布的填充时间表,以此混淆流量前域的间隔时间特征,即给定一个真实或虚拟包P

如图2所示,本发明通过一个有限状态机来描述整个流程,主要分成三个部分。首先是初始化模式,根据采集的流量生成流量时间间隔和长度特征矩阵,然后根据配置生成时间表。当有数据包来临时,先根据时间表调度虚拟数据包,然后计算噪声值,以填充数据包。最后根据采样得到的时间IAT决定是否插入额外的虚拟数据包。

在本实施例中,设T为目标网站生成的流量序列,给定一个m个可能的到达间隔时间IAT样本,将目标流量序列描述为一个列向量,概率质量函数X可表示为:X=[x

本实施例设B

若服务器或服务器端的最大填充时间和最小填充时间为PT

在对上述变量进行采样后,客户端和代理服务端生成各自的填充时间表,以调度虚拟数据包。生成的时间表服从瑞利分布,其概率密度函数为:

其中,t表示时间戳,w表示采样窗口长度,w={w

其中

其中,其中,Lap()表示拉普拉斯分布;ε表示隐私参数,将决定产生的噪声值的大小。

到达间隔时间是一个独特的特征,到达间隔时间的差异将直接影响数据包的分布。为了尽可能减少混淆机制造成的延迟和带宽开销,我们需要用伪数据包来填充流量序列的间隔,从而使延迟最小化,避免影响真实数据包的传输。当接收到第一个真实包时,首先根据步骤S2产生的时间表调度虚拟数据包。然后采样得到到达间隔时间IAT,如果IAT结束之前无数据包到来,则再添加虚拟数据包,然后重新启动IAT采样。

在添加虚拟包时,生成的虚拟包由时间戳、真实包的方向和长度决定。在添加虚拟包之前,从LT中采样得到长度l,则本次添加的虚拟包长度为l。虚拟包的时间戳等于当前流量时间戳加上采样得到的时间IAT,虚拟包的方向和上一个真实数据包的方向相同。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种基于联合随机翻转的差分隐私保护方法
  • 一种基于差分隐私保护的随机森林车流预测方法
技术分类

06120115938008