掌桥专利:专业的专利平台
掌桥专利
首页

基于软边缘三元组损失函数的孪生网络未知流量识别方法

文献发布时间:2023-06-19 19:30:30


基于软边缘三元组损失函数的孪生网络未知流量识别方法

技术领域

本发明涉及网络人工智能、未知流量识别、未知流量聚类技术领域,尤其涉及基于软边缘三元组损失函数的孪生网络未知流量识别方法。

背景技术

未知流量识别对于网络安全管理和网络资源优化十分重要,运营商或网络管理员可以识别潜在的未知恶意流量或者网络攻击;同时可以对识别出的流量进行细粒度的网络资源分配与动态智能化调配,以支持网络切片业务、可定制化网络服务等业务的发展。因此实现细粒度的未知流量识别能够促进网络资源高效率利用、降低网络能耗、降低网络安全潜在风险。

未知网络流量识别主要包括未知流量检测和未知流量聚类两个阶段。前者确保未知的应用流量能够被检测到,以一定的置信率与已知种类区分,避免未知流量与已知种类混淆,从而导致一些隐匿性安全风险或者阻碍具有针对性的网络资源优化;后者则确保已经被识别出来的未知流量根据其相似度聚类成纯度更高的簇,以引入专家系统(指具有流量识别背景知识的技术人员,在传统技术或者人工智能技术辅助下组成的专业系统,以进一步提高识别的准确度)、深度包解析技术等进一步分析未知流量种类,丰富已知样本库,进而提升网络流量的识别准确度。

传统的未知流量识别方案主要分为以下三种:(1)基于无监督聚类的识别方法直接对所有的流量样本根据选定特征进行无监督聚类,通常导致未知流量不能被有效区分且堆簇数目不确定;(2)基于半监督聚类的识别方法通常引入部分带标签样本指导聚类过程,该种方式会导致未知流量样本被已知流量样本吞噬,导致识别精度下降,且污染已知样本;(3)基于One-class思想的识别方法针对任何一个已知种类的流量类别均构造出一个二分类器判断样本是否属于该类别,若所有二分类其均判定为否,则样本被判定为未知。这种方法开销过大,当实际网络环境中出现上千种应用,则需要维护过多二分类器。

发明内容

本发明的目的在于,解决传统的未知流量识别方案中存在的上述问题。

为实现上述目的,本发明提供了一种基于软边缘三元组损失函数的孪生网络未知流量识别方法,该方法包括以下步骤:

构建孪生网络训练需求的三元组数据集合,采用随机构建的方式,通过多轮迭代,形成多种组合的三元组训练数据集;

在孪生网络模型训练阶段,软边界三元组损失函数指导孪生网络模型训练,训练完成后的孪生网络单独作为编码器;使用编码器将被测试样本与所有已知流量数据样本编码;计算被测试样本与已知流量应用的距离,通过与预设阈值比较判定其是否属于未知样本;

将判定为未知流量的样本通过相似度聚类,形成纯度更高的堆簇;根据簇纯度决定最佳分簇数量,最终引入专家系统进行细粒度分析。

本发明采用策略学习的思想,解决传统无监督聚类方案与深度学习方案在未知流量识别领域的聚类数量不明确、维护孪生网络模型过多等问题。训练阶段在软边界三元组损失函数约束下,使同类别样本距离拉近,同时推理不同类别样本使其距离增大,以此在新的映射空间里使得不同类别流量数据的边界更为明显,提高识别精度。

附图说明

图1为本发明实施提供的一种基于软边缘三元组损失函数的孪生网络未知流量识别方法流程示意图;

图2为图1所示方法中软边缘三元组损失函数的孪生网络未知流量识别方案架构示意图;

图3为性能对比结果示意图。

具体实施方式

下面将参照以上说明更详细地描述本公开的示例性实施例。虽然本实施例显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于软边缘三元组损失函数的孪生网络未知流量识别方案,该方案的实现核心思想是将同类别的样本在空间距离拉近,将不同类别的样本在空间中的距离推远,最终使得不同类别样本的聚集堆簇在空间中的边界更为清晰,不产生重叠。进而将被测试样本与各个已知流量堆簇之间的距离与定义的阈值作比较,从而确定被测试样本是否已知。

图1为本发明实施提供的一种基于软边缘三元组损失函数的孪生网络未知流量识别方法流程示意图。如图1所示,该方法包括步骤S101-S103:

步骤S01,构建孪生网络模型训练需求的三元组数据集合,采用随机构建的方式,通过多轮迭代,形成多种组合的三元组训练数据集;

具体地,本发明实施例包括孪生网络模型训练和未知流量识别两个过程,其中,孪生网络模型训练过程主要包含软边界三元组损失函数设计与训练三元组数据构造。

软边界三元组损失函数设计是实现本方案的核心。本发明实施例设计的损失函数定义为:

其中,(x

训练三元组的数据集构造作为孪生网络模型训练的输入,孪生网络模型在损失函数的指导下学习三元组数据信息,优化孪生网络模型。三元组构造流程如下:

i、对于任意一个已知流量的数据样本x

ii、对所有的已知流量样本,重复一的操作;

iii、设定迭代次数E,将过程i和ii迭代E次,以产生不同组合的三元组训练数据。

步骤S02,在孪生网络模型训练阶段,软边界三元组损失函数指导孪生网络模型训练,训练完成后的孪生网络单独作为编码器;使用编码器将被测试样本与所有已知流量数据样本编码;计算被测试样本与已知流量应用的距离,通过与预设阈值比较判定其是否属于未知样本;

具体地,未知流量识别阶段:该阶段主要目的是区分未知流量与已知流量样本,识别流程如下:

对已知流量类别中的每个类别的每个样本,通过训练完成的孪生网络对其完成编码;通过欧式距离计算每个类别的簇中心,选取距离簇中心最近的k个样本作为每个已知类别的代表样本;

使用孪生网络模型对被测试样本进行编码,然后计算被测试样本与每个已知应用类别的k个代表样本的平均距离;

设定距离阈值T,如果被测试样本与所有已知类别的距离都大于阈值T,则该样本被判定为未知流量;否则最短距离对应的流量标签设定为该样本的流量类型。

步骤S03,将判定为未知流量的样本通过相似度聚类,形成纯度更高的堆簇;根据簇纯度决定最佳分簇数量。本发明实施例在聚类阶段仍然支持用户自定义无监督聚类算法,例如K-mean、谱聚类、图聚类等。根据簇纯度决定最佳分簇数量,最终引入专家系统进行细粒度分析。

具体地,聚类过程主要包括识别阶段和聚类阶段,其核心工作原理如下:

未知流量聚类阶段主要目的是将被判定为未知流量的样本通过相似度聚类,形成纯度更高的堆簇,聚类流程如下:

对已经被孪生网络模型编码的未知流量样本,部署无监督聚类算法;

计算最佳簇值,通过计算簇内纯度,选取纯度最高的对应数值作为最佳簇值;

引入后续专家系统、深度包解析技术等完成进一步分析。

本发明实施例在真实网络流量数据集ISCX-VPN完成实验验证,该数据涵盖18种细粒度应用或应用活动,具体如表1所示。为模拟未知流量识别环境,本实验构造三组测试用例,每组测试用例中随机选取部分应用作为未知应用,剩下所有应用作为已知应用训练孪生神经网络,三组测试用例构造如表2所示。

表1ISCX VPN数据集具体应用类别

表2测试用例

识别阶段选取纯度(PR)、准确度(ACC)、正例探测指标(TDR)、负例探测指标(FDR)测试本发明实施例方案性能,其中,PR、ACC、TDR、FDR取值均为[0,1],前三者1表示最佳性能,对于FDR,0表示最佳性能。判断方案性能为优的标准是PR、ACC、TDR尽可能大,同时要保证FDR尽可能小。本发明实施例方案(LSN-SMTL)选取当前本领域最优方法(SEEN)作为实验对比,具体结果如图2所示,可以看出本发明实施例方案在三个测试用例上表现均明显优于SEEN,关于准确度(ACC)在三个测试用例上平均提升25.8%。

聚类阶段选取簇内纯度(CP)作为评价指标,表明孪生网络模型编码器对于流量样本编码后在新的映射空间里的聚类效果,CP取值为[0,1],1表示每个簇内的数据样本均属于同一类别,性能最优。三个测试用例的聚类实验结果如表3所示,本发明实施例的关于簇内纯度指标在三个测试用例上平均提升13.1%。

表3孪生网络模型编码器对数据样本编码后的簇内纯度(CP)结果对比

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的的结构是显而易见的。此外,本发明也不针对任何特定的编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明内容,并且上面对特定语言、系统功能模块的调用所做的描述仅仅是为了披露发明的最佳实施方式。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要去及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术分类

06120115929132