掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态融合的暗网流量分类方法及系统

文献发布时间:2024-04-29 00:47:01


基于多模态融合的暗网流量分类方法及系统

技术领域

本发明属于网络空间安全与加密流量分类技术领域,具体涉及一种基于多模态融合的暗网流量分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

随着科技的发展,网络与人们的日常生活的联系日益密切,同时这也使得网络空间安全与社会安全的关系变得更为紧密。暗网是一种隐藏的网络,无法通过常规搜索引擎检索,仅能通过特殊的软件和配置进行访问,使得用户能够匿名访问互联网,从而更加容易产生影响网络空间安全和社会安全的问题,如非法交易,传播非法信息等。

暗网流量属于加密流量。随着网络加密流量成为网络中数据传输的主体,对于加密流量的分类技术的研究也日渐增多。一方面,通过加密流量识别应用类型,可以有效地辅助实现服务质量控制,提升用户的网络用户体验,另外对于加密流量进行分类也可以直接实现网络流量中的恶意流量检测、入侵检测等,如对于暗网流量的分类识别有助于在恶意软件肆虐前对其进行检测,并在爆发后对恶意活动持续监控,对于维护网络空间安全具有极其重要的作用。

对于加密流量分类的研究中,部分研究者认为数据包头部分的有效信息较少,只保留了数据包的有效载荷数据,并按照会话进行分割;而在多数研究中,研究者会将数据包头和载荷作为整体,进行流量分割,然后构建深度学习模型对其进行分类。然而网络流量数据由数据包头和有效载荷组成。数据包头往往包含多种协议,如IP,TCP/UDP等;有效载荷通常包含应用层协议和真正要传输的信息数据。显然,数据包头和载荷的语义不同,但以往的研究中却往往忽视网络流量数据本身的结构特点。因此,如何结合网络流量数据的结构特点,提高对于加密流量分类与应用类型识别任务的性能等成为亟需解决的问题。

发明内容

本发明为了解决上述问题,提出了一种基于多模态融合的暗网流量分类方法及系统,本发明可提高暗网流量检测及分类的性能。

根据一些实施例,本发明采用如下技术方案:

一种基于多模态融合的暗网流量分类方法,包括以下步骤:

获取原始的网络流量数据;

采用训练后的暗网流量分类模型对网络流量数据进行分类与应用识别,得到有无暗网流量及流量类型与应用类型的识别结果;

所述暗网流量分类模型的处理过程包括,将网络流量数据的包头部分和载荷部分进行分离,并转换为两种模态,将包头部分转换为结构化数据,将加密的载荷部分的数据转换为图像数据;

使用多层感知器对结构化数据进行特征提取,使用卷积神经网络进行图像数据的特征提取;

通过交叉注意力的方式将两部分的特征进行特征融合,利用分类器进行最终的分类。

作为可选择的实施方式,还包括对原始的网络流量数据进行流量清洗和流量匿名,将包头与载荷部分进行分割,对包头部分进行数据填充和对齐,转换为结构化数据,对于载荷部分,则转换为图像数据。

作为进一步的实施方式,进行流量清洗和流量匿名的具体过程包括:

将原始的网络流量数据在数据包的颗粒度上切分为多个流量数据;

将切分后的网络流量数据进行清洗,丢弃没有有效载荷的数据包和畸形数据包;

将IP地址和端口置零。

所述多模态融合的暗网流量分类模型包括依次连接的特征提取层、多模态融合层和分类层。作为进一步的实施方式,所述特征提取层包括包头特征学习模块和载荷特征学习模块,分别被配置为学习包头部分的抽象特征和载荷部分的抽象特征。

作为进一步的实施方式,所述多模态融合层包括交叉注意力模块和自注意力模块,其中交叉注意力模块用于头部特征序列中获取Q矩阵,从载荷特征序列中获取K、V矩阵,进行注意力的计算,得到输出张量,所述自注意力模块用于加深两种模态特征的融合。

作为进一步的实施方式,所述分类器层包括平均层和全连接层,其中平均层用于沿着数据嵌入的维度将特征矩阵压缩为特征向量,所述全连接层用于分类。

一种基于多模态融合的暗网流量分类系统,包括:

数据获取模块,被配置为获取原始的网络流量数据;

识别分类模块,被配置为采用训练后的暗网流量分类模型对网络流量数据进行分类与应用识别,得到有无暗网流量及流量类型与应用类型的识别结果;

所述暗网流量分类模型的处理过程包括,将网络流量数据的包头部分和载荷部分进行分离,并转换为两种模态,将包头部分转换为结构化数据,将加密的载荷部分的数据转换为图像数据;

使用多层感知器对结构化数据进行特征提取,使用卷积神经网络进行图像数据的特征提取;

通过交叉注意力的方式将两部分的特征进行特征融合,利用分类器进行最终的分类。

一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。

与现有技术相比,本发明的有益效果为:

本发明针对网络流量数据的特点,将其分离转换为结构化数据和图像数据两种模态,然后通过不同的特征提取器提取出抽象特征,最后通过交叉注意力的方式,自然地将其进行多模态的融合,弥补了传统的机器学习需要手工设计提取特征的问题,提高检测效率,同时弥补了误报率、漏报率过高的不足。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本实施例的基于多模态融合的暗网流量分类模型结构示意图;

图2是本实施例的数据预处理的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供一种基于多模态融合的暗网流量分类与应用识别方法,包括:

获取原始的网络流量数据,即pcap包;

采用训练后的暗网流量分类模型对网络流量数据进行分类与应用识别,得到有无暗网流量及流量类型与应用类型的识别结果;

所述暗网流量分类模型,由预处理层、特征提取层、多模态融合层和分类层组成,如图1所示,训练过程包括:首先将网络流量数据的包头部分和载荷部分进行分离,并转换为两种模态,即将包头部分转换为结构化数据,将加密的载荷部分的数据转换为图像数据。然后使用多层感知器对结构化数据进行特征提取,而图像数据则经过卷积神经网络提取特征。包头和载荷经过不同的特征提取器提取出抽象特征后,通过交叉注意力的方式将其进行特征融合,最后通过分类器进行分类。

在本实施例中,对采集的网络原始流量数据进行预处理,如图2所示,具体地:

(1)流量分割,将采集到的网络原始流量数据在数据包的颗粒度上切分为多个流量数据;

(2)流量清洗:将网络流量数据进行清洗,丢弃没有有效载荷的数据包、畸形数据包等;

(3)流量匿名,将IP地址和端口置零;

(4)包头与载荷分离,将数据包头与载荷分离,统一数据包头的协议组成,将其进行协议的填充与对齐,转换为结构化数据。对于有效载荷部分,取前256个字节,并将其转为16*16的灰度图像,若载荷部分的长度小于256个字节时,将其进行0填充,最后统一进行归一化处理。

在本实施例中,所述暗网流量分类模型的特征提取层,如图1所示,由包头特征学习模块和载荷特征学习模块组成,包头特征学习模块是一个多层感知器网络,用于对结构化数据的特征学习。而载荷特征学习模块则是一个卷积神经网络,由二维卷积层、ReLU层和全连接层组成,用于对图像数据的特征学习。

在本实施例中,所述暗网流量分类模型的多模态融合层由多头交叉注意力模块与多头自注意力模块组成,如图1所示,从结构化数据中提取的包头特征和从图像数据中提取的载荷特征,经过数据嵌入后,我们从尺寸较小的头部特征序列中获取Q矩阵,从尺度较大的载荷特征序列中获取K、V矩阵,然后进行注意力的计算,再通过残差归一化层和前馈层,即可得到多头交叉注意力机制模块的输出张量,这里需要注意的是,该张量与数据嵌入后的头部特征序列的尺寸和维度相同。然后,通过自注意力模块加深两种模态特征的融合。

更具体地,在进行数据嵌入时,使用Transformer中常用的正余弦位置编码的方式进行嵌入,如公式1所示:

其中,pos是位置,d

需要说明的是,可以使用多层交叉注意力模块与自注意力模块,提取高级的分类特征。

如图1所示,本实施例中,将深度融合模块的层数设置为m,将多模态融合层的层数设置为n,即在多模态融合层中,设置n个多模态融合模块,而每个多模态融合模块由一个交叉注意力机制模块和m个自注意力机制模块组成。

在本实施例中,所述暗网流量分类模型的分类器层由平均层和全连接层组成,如图1所示,输入为融合后的特征矩阵。先用平均层沿着数据嵌入的维度将特征矩阵压缩为特征向量,然后使用常用的分类器—全连接层进行分类。

实施例二

一种基于多模态融合的暗网流量分类系统,包括:

数据获取模块,被配置为获取原始的网络流量数据;

识别分类模块,被配置为采用训练后的暗网流量分类模型对网络流量数据进行分类与应用识别,得到有无暗网流量及流量类型与应用类型的识别结果;

所述暗网流量分类模型的处理过程包括,将网络流量数据的包头部分和载荷部分进行分离,并转换为两种模态,将包头部分转换为结构化数据,将加密的载荷部分的数据转换为图像数据;

使用多层感知器对结构化数据进行特征提取,使用卷积神经网络进行图像数据的特征提取;

通过交叉注意力的方式将两部分的特征进行特征融合,利用分类器进行最终的分类。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,本领域技术人员不需要付出创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于跨模态特征融合的多任务加密网络流量分类方法
  • 一种基于不完全监督的暗网加密流量分类方法
技术分类

06120116594728