掌桥专利:专业的专利平台
掌桥专利
首页

基于Canopy-FCM加权属性的未知协议分类方法

文献发布时间:2023-06-19 19:28:50


基于Canopy-FCM加权属性的未知协议分类方法

技术领域

本发明属于未知协议分类领域,涉及基于Canopy-FCM加权属性的未知协议分类方法。

背景技术

互联网迅速发展的当下,网络通信的快速发展为人民提供了便利,但是随着用户数量的增多和应用领域等多方面的拓展,网络协议不断更新,随之而来的网络安全问题也逐渐暴露。由于网络协议在通信领域中的重要地位,新型网络应用的不断更新产生了众多类型的协议,其中能够准确获知协议功能和规范的被称为已知协议,但是仍有众多协议的规范属于企业或机构的机密,其协议规范文档几乎无法获取,故将这类协议称为私有协议或未知协议。由于未知协议的特性,很容易被不法分子所利用,对网络安全产生了威胁;并且由于网络中大多数数据传输是基于TCP/UDP传输协议的,所以上层的未知协议分类很容易被错分为其他不同类型的协议,因此对于网络中的未知协议,需要设计准确高效的未知协议分类方法,有效地将未知协议类型进行分类,从而精准的对网络中的流量数据进行控制,进一步对网络进行安全有效地管理。

针对协议分类的研究中,已知协议的分类识别已经逐渐趋于成熟,但是对于未知协议分类的研究中,研究的重点是对于协议流数据的特征构造和特征提取方法。传统的基于端口的协议识别技术,仅针对端口固定的情况,不再适用于当下基于动态端口的应用协议识别;基于负载的深度包检测(Deep Packet Inspection)技术虽然已经大规模应用,但其仅适用于已知协议的识别,无法适用于未知协议的分类;基于模式匹配和流统计行为特征的协议识别技术并不受限于网络流量中的协议数据是否已知,其中模式匹配方法针对的是协议流数据本身,而流统计行为特征针对的是网络流的统计特性,能够利用上下游的流量统计特征对未知协议分类,对网络协议的分类,无需针对协议本身的数据格式,能够利用承载了不同协议的流统计特征对未知协议进行分类,故而采用流统计特征来构造未知协议的特征属性并对未知协议进行分类。

因机器学习在众多领域中分类效果表现优异,故其在协议分类领域中的研究也越来越广泛,是目前未知协议分类领域的研究热点。机器学习中的主要方法可以分为监督学习、无监督学习和半监督学习。其中监督学习方法需要大量专家标记的样本,成本高昂,且在真实网络环境中难以实现;而基于无监督学习的协议识别方法的精确度相对较低;半监督学习采用小部分标记样本和大部分无标记样本实现未知协议的分类,增强实用性的同时提高了未知协议分类的精度。但对于传统的K均值聚类算法,其原理虽然简单,收敛速度快,但其对数据集聚类的结果只是局部最优,容易受噪声的干扰。可以通过赋予隶属度权重,计算样本点与类簇关系概率的方法来进行FCM聚类,有效减少噪声的影响。但是两者均需要设置初始聚类数量,对于实际的未知协议类型数量无法准确获得,因此本文采用了基于Canopy聚类的方法,结合FCM聚类算法构建未知协议分类模型,以提高未知协议分类的准确率。

本专利所公开的一种基于Canopy-FCM加权属性的未知协议分类方法,利用流统计特征构造流量数据的特征属性;通过离群值检测,删除异常值的样本流数据;根据平均精确度下降思想确定特征权重,并选择特征;然后利用Canopy-FCM改进的聚类算法构建模型,并采用最大似然估计法对未知协议分类,减少人为设置的参数数量,同时提高了未知协议分类的准确度。

发明内容

有鉴于此,本发明的目的在于提供一种基于Canopy-FCM加权属性的未知协议分类方法。在该方法中,根据流量特性进行流重组,通过对网络流量数据进行统计分析,利用网络流行为特性构造网络流量数据的特征属性;利用平均精确度下降思想实现对特征的选择,将特征重要性评分作为权重,用于计算样本间的加权距离,并将不同协议集合内样本间的最大距离和平均距离作为Canopy聚类的阈值参数,将得到的聚类数量k作为FCM聚类的初始参数。本发明利用半监督学习方法,根据协议样本数据的特征自动设置聚类数量,减少了手动参数的设置,在提升效率的同时,提高了在未知协议分类方面的准确性。

为达到上述目的,本发明提供如下技术方案:

一种基于Canopy-FCM加权属性的未知协议分类方法,该方法具体包括以下步骤:

S1:根据网络流量的行为特性构造网络中所捕获流量数据的统计特征;

S2:对特征构造后的数据进行预处理;

S3:采用平均精确度下降思想选择特征;

S4:利用离群值检测算法删除异常样本点;

S5:根据已标记数据多种协议样本间的加权距离,设置Canopy阈值参数;

S6:对删除了异常点后的混合数据进行Canopy初始聚类,确定初始聚类数目;

S7:对协议流数据进行FCM聚类,得到特征加权系数矩阵U和聚类中心矩阵Z;

S8:根据最大似然估计法对簇进行类别标记,实现未知协议分类。

进一步,在步骤S1中,采用基于流统计行为的方法构造网络流量数据的特征,对于捕获的网络流量数据进行重组,根据FIN结束标志对TCP协议数据进行重组,而UDP协议数据则以120s的限制时间来进行划分,然后使用流的统计信息来表示网络流量数据,包括利用从源地址到目的地址的正向总包数、正向数据包的总大小、正向数据包的标准偏差大小等正向流统计特征,以及从目的地址到源地址的反向总包数、反向数据包的总大小、反向数据包的标准偏差大小等反向流统计特征;还包括了由源地址、目的地址、协议号组成的标志信息等80多维统计信息来构造特征。

进一步,在步骤S2中,数据预处理包括的步骤有数据清洗、类型转换、协议类型编码等内容。删除原始特征中的标记信息、属性值唯一和网络流捕获时间等与协议分类无关的属性;把数据集中的源IP和目的IP地址按照IP协议格式转化为十进制整型数据,同时对特征数据归一化处理。归一化公式为:

其中,x表示原始数据集中的特征属性值;Min和Max分别为特征属性中的最小值和最大值。

进一步,在步骤S3中,利用平均精确度下降的思想(Mean Decrease Accuracy,MDA)对协议样本数据的特征属性进行加权,根据特征相应的权重对归一化后的已标记样本数据进行特征选择。MDA通过对所有协议样本流数据的特征进行扰动,计算各个维度特征扰动前后模型准确率下降的数值作为特征权重,特征权重越大说明该特征属性对协议分类准确率的影响越大。假设已标记协议数据集D

ω

特征扰动完成后,可获得所有的M维特征相应的权重集合为{ω

进一步,在步骤S4中,为了提高聚类精确度,减少噪声数据的影响,采用离群值检测(Local Outlier Factor,LOF)算法检测异常样本点并删除。由于在网络中的流量传输时,环境复杂,容易受多种因素影响,造成网络流异常,如长期客户端或服务端不响应,客户端突然关闭等情况,使得流终止,但是数据不终止,异常样本点的存在会影响聚类效果,故将其删除。LOF算法通过识别出一个考虑到邻近密度的异常值来识别数据集中存在的离群值,由于网络流量的协议样本数据密度不相同,故LOF算法表现良好,采用LOF分析离群值,并将异常值点删除。根据样本点x的k近邻距离和可达距离,得到样本点x的局部可达密度。局部可达密度的计算公式为:

式中,RD(x

将每个点的局部可达密度与k个相邻点的局部可达密度均值相比,得到局部异常因子LOF。LOF计算公式为:

根据LOF评分,将其评分大于1的异常协议流样本点数据删除。

进一步,在步骤S5中,传统的FCM聚类需要设定聚类数量的参数,若参数的初始化选取不合适,可能影响聚类结果的正确性,为了解决该问题,提高聚类准确度,利用Canopy进行初始聚类;但是Canopy也需要两个阈值参数T

根据集合内样本流之间的加权距离的平均值mean_d和最远距离max_d,将d个不同集合内样本间最远距离的最大值和d个集合内各样本间距离的均值的平均距离分别作为Canopy的阈值参数T

mean_d

max_d

T

T

根据协议流样本数据的特征属性和权重计算样本间的加权距离,利用样本数据自身的特性设置阈值参数,提高协议分类的准确度。

进一步,在步骤S6中,对预处理和删除了异常点后的混合协议流数据D={x

Canopy聚类完成后,获得FCM的初始聚类数量k,更加合理的设置初始聚类数量,更符合样本特性,从而提升聚类效果,利用加权距离有效地减少噪声的干扰。

进一步,在步骤S7中,由于FCM聚类算法通过维护特征属性的系数来对样本进行聚类,使得分类结果更符合客观的实际情况,其在处理特性复杂的数据时可以得到相对较优的分类结果,能够增强未知协议分类的实用性。但由于其需要设定参数,若参数的初始化选取不合理,极大程度地影响聚类结果的正确性,故提出Canopy-FCM加权属性聚类算法,减少参数的人为设置,提高聚类的准确度。FCM聚类的目标函数为:

式中N′表示混合的协议样本流数目,C为聚类中心的数目,μ

/>

c

其中,m为模糊超参数,控制加权系数的影响程度,当m过大时,加权系数的效果将减少,样本点与聚类中心的距离趋近于欧氏距离,故将其设置为2。

在目标函数收敛后,可以得到整个协议数据集的类簇划分H,类簇中心矩阵Z和特征加权系数矩阵U。

进一步,在步骤S8中,利用最大似然估计的方法建立聚类后的类簇与协议类型的映射。根据聚类结果将已标记协议数据集中协议类型表示为L={L

其中,

有益效果:

1.利用网络流量的行为特性进行特征构造,无需关注流量的有效载荷,对未知协议的特征提取优势显著,并提高协议分类效率。

2.利用平均精确度下降思想进行特征选择,对特征属性进行加权,并利用LOF删除异常样本点,有效避免噪声和无关特征的影响,提高未知协议分类的准确度。

3.提出的Canopy-FCM半监督聚类算法,利用样本间的加权距离自动设置阈值参数,Canopy粗聚类获得初始聚类数量,减少人为参数的设置,突出本发明的实用性。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明进行详细描述,其中:

图1为本发明所述基于Canopy-FCM加权属性的未知协议分类模型总体流程图。

具体实施方式

以下将结合附图,对本发明的优选实例进行详细的描述。

本发明提供一种基于Canopy-FCM加权属性的未知协议分类方法,如图所示为基于Canopy-FCM加权属性的未知协议分类模型总体流程图。该方法包含以下步骤:

步骤1:根据网络流量的行为特性构造所捕获网络流量的统计特征,提高未知协议分类的效率;并根据网络数据的传输特性,进行流重组;

步骤2:对数据集进行预处理,转换相应的数据类型,完成特征属性值的归一化处理,利用半监督学习的思想,提取出常见协议类型,并对部分协议样本数据进行标识,其余的作为未知协议,来训练未知协议分类模型;

步骤3:利用平均精确度下降思想进行特征选择,获取特征权重集合{ω

步骤4:利用离群值检测算法筛选数据集中的异常样本点,删除数据集中LOF评分大于1的异常样本点,提高协议分类的精确度;

步骤5:利用特征权重集合计算已标记样本中各集合内样本间的加权距离,根据样本的自身特性设置Canopy的阈值参数,并对数据进行Canopy初始聚类,得到初始聚类数量k,解决无法获取未知协议种类数的问题,合理设置FCM聚类算法的初始聚类数量;

步骤6:利用FCM聚类算法将协议流数据聚为k个类簇,得到特征加权系数矩阵U和聚类中心矩阵Z;

步骤7:根据最大似然估计方法建立各个类簇与协议类型的映射关系,准确地对未知协议进行分类。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于决策树的属性加权方法及文本分类方法
  • 基于属性值频率的实例加权方法及贝叶斯分类方法
技术分类

06120115922182