掌桥专利:专业的专利平台
掌桥专利
首页

一种数据重采样的处理方法

文献发布时间:2023-06-19 19:30:30


一种数据重采样的处理方法

技术领域

本发明涉及网络流量数据分析领域,特别涉及一种应用于网络入侵检测的数据重采样的处理方法。

背景技术

随着近些年计算机网络快速发展,网络安全问题也逐渐受到人们的重视,目前已经催生出一批具有代表性的入侵检测系统。网络入侵检测是一个实践性较强的研究领域,必须结合日下不断更新和变化的网络空间环境,目前广泛使用的网络入侵检测技术都是对网络流量数据进行分析,在巨大的网络流量数据中识别出异常流量行为,从而保护计算机免受攻击。

对于应用于网络入侵检测中的分类器而言,目前网络流量数据中的入侵流量样本往往远少于正常流量样本,这就使得数据集严重不平衡,导致分类器性能下降,造成分类器在巨大的网络流量数据中准确识别出入侵流量变得尤为困难,这也就给网络入侵检测引起了巨大的挑战。因此,解决样本分类不平衡问题就显得尤为重要。目前国内外学者大都从不平衡处理、分类决策两方面研究网络入侵检测,不平衡处理方面的研究分为欠采样、过采样、混合采样三个方面,可统称为重采样。在这里,我们把数据集中分布偏多的数据称为多数类,分布偏少的数据称为少数类。欠采样方法是针对数据集中的多数类,通过某些策略减少多数类样本,保证剩下的数据集保留尽可能多的信息,使得数据集中的多数类和少数类趋于平衡。过采样方法是针对数据集中的少数类,通过某些策略增加少数类样本,消除数据集中的偏斜分布。新合成的数据加入原始数据集中后,多数类和少数类的数量之比趋于1:1,从而使得数据集达到平衡。混合采样方法就是将欠采样方法与过采样方法结合,先对数据集进行过采样处理,再进行欠采样处理,使得到的数据集中既去除了不必要的多数类样本,又增加了合成的少数类样本,数据集总体趋于平衡。

在不平衡处理中,使用欠采样方法一般可以提高训练模型的泛化能力,但是在删除样本的过程中,有可能会丢失具有重要信息的样本,造成过拟合的风险。过采样方法通过合成新的少数类样本,弥补多数类与少数类之间的不平衡,但已有的过采样方法过于强调少数类样本,在合成过程中往往会合成一部分噪声,增加噪声对模型的负面影响。

发明内容

本发明的目的在于克服现有技术的不足,提供一种数据重采样的处理方法,采用混合采样的方式来解决现有技术中欠采样、过采样存在的样本数据处理的缺陷。

为了实现上述目的,本发明采用的技术方案为:一种数据重采样的处理方法,包括对不平衡数据集进行过采样得到平衡数据集;再对得到的平衡数据集进行数据清洗,删除平衡数据集中因采样增加噪声数据。其中不平衡样本集为网络入侵流量样本集。

采用过采样对不平衡数据集进行过采样得到平衡数据集。

采用MAHAKIL过采样方法对不平衡数据集进行过采样。

所述过采样包括:先根据不平衡数据集中多数类N

采用增强的最近邻规则的欠采样方法对得到的平衡数据集进行数据清洗。

采用的增强的最近邻规则的欠采样方法为Tomek Link欠采样方法。

所述欠采样方法将多数类样本与少数类样本之间的重叠部分进行删除进而去除边界上的噪声。

所述欠采样方法通过多数类和少数类两种不同类别的数据样本点之间的距离判断是否为噪声样本。

判断是否为噪声样本包括:样本点x

本发明的优点在于:数据集提供多样性的同时消除一部分的边界噪声,使得样本数据更多进而帮助提高模型的泛化能力,降低过拟合的风险,增强模型的健壮性,在网络入侵领域中数据不均衡的问题,为网络入侵分析提供了数据处理的基础支持。

附图说明

下面对本发明说明书各幅附图表达的内容及图中的标记作简要说明:

图1为本发明MAHAKIL算法生成新样本过程原理图;

图2为本发明Tomek Links对示意图;

图3为本发明新样本入侵噪声示意图;

图4为本发明未采用Tomek Link方法前的样本分布情况;

图5为本发明采用Tomek Link方法后的样本分布情况。

具体实施方式

下面对照附图,通过对最优实施例的描述,对本发明的具体实施方式作进一步详细的说明。

MAHAKIL是一种基于遗传学理论对少数类进行合成处理的过采样方法。该方法先根据多数类N

其中,D是每个样本到样本中心的马氏距离,N代表样本,N

Tomek Link是一种增强的最近邻规则的欠采样方法,该方法针对多数类样本与少数类样本边界模糊问题,减少不同类别样本之间的重叠部分,消除边界上的噪声,使多数类样本和少数类样本边界变得明显。该方法假设样本点x

本申请提出了一种基于MAHAKIL与Tomek Link的混合采样包括:针对网络入侵的不平衡数据集,传统过采样方法在生成新样本的时候会产生不同类别数据重叠问题,这种情况往往会扩大噪声对分类器的负面影响,增加网络入侵检测错误识别的风险。因此,本文采用MAHAKIL算法对少数类进行采样,结合Tomek Link方法对过采样后的数据集进行数据清洗,通过删除边界上的Tomek Links对,消除边界噪声,减小噪声对分类器的负面影响,提高模型的泛化能力以及网络入侵检测的正确率。MAHAKIL方法是依据遗传学原理,通过计算少数类样本之间的马氏距离,将少数类样本进行依据马氏距离降序排序后选取中心点划分为两部分,依次从两部分中取两个样本的均值作为新样本。虽然这种方法在平衡数据集的基础上有效增加了数据集中样本的多样性,但是也会造成新样本“入侵”到多数类样本中造成重叠问题如图3所示,导致噪声的增加,增加模型过拟合的风险。因此,采用Tomek Link方法消除Tomek Links对的方法可以有效消除样本重叠问题。图4显示了未采用Tomek Link方法时的样本分布情况,图5显示了采用Tomek Link方法消除Tomek Links对后的样本分布情况。由图4可以看到平衡后的数据集会出现少数类样本入侵到多数类样本中,从而增加样本的分类难度,降低分类性能。而图5展示了采用Tomek Link方法消除Tomek Links对后,减少了少数类样本对多数类样本的入侵,从而可以降低分类的难度,提高分类的性能。

本申请的混合采样算法的流程可以采用如下方法步骤来实现:

输入:不平衡数据集S={S

S

S

K:数据类别的总数数量。

输出:平衡数据集S′。

算法开始,步骤如下:

1.Sum

2.for i=1to K:

3.S

4.S

5.Sum

6.Sum

7.计算马氏距离D:

/>

N

8.依据马氏距离的降序序列对S

9.将S

10.为N

11.for j=1to mid:

12.分别从N

13.N′=(N

14.将新样本N′添加到S

15.S

16.end for

17.如果S

18.如果S

19.for i=0to K

20.for j=i+1to K:

21.设x是S

22.令d(x,y)为x和y之间的距离

23.如果对于任何实例z,都有

d(x,y)

23.(x,y)是一对Tomek Links,并删除这对Tomek Links

24.end for

25.end for

算法结束

为了验证这种不平衡数据集的处理方法的优点,本申请做如下试验验证:

采用样本数据集进行试验,网络入侵样本数据集如下:

CICIDS2017数据集由加拿大网络安全研究所于2017年底收集。该数据集包含2830473个网络流量样本,包括一个良性类别以及14个攻击类别,良性类别数目占80.30%,攻击类别数目占19.70%。攻击类别包括最常见的攻击类型,例如DoS Hulk、PortScan、WebAttack、Bot等。数据集从生成的网络流量中提取84个特征,其中最后一列是类别标签。此外,与1998年至2016年的公开数据集相比,该数据集完全符合11项绩效评估标准。

UNSW-NB15数据集由澳大利亚网络安全中心(ACCS)的安全研究小组收集。该数据集包含总共254万个网络流量样本,涉及九个攻击类别。每个样本有49个特征,其中两个是类别标签特征,分别对应二分类与多分类。该数据集具有严重的类不平衡,其中正常流量占整个数据集的87.35%,所有攻击流量仅占数据集的12.65%。

CIDDS-001数据集是由4名研究人员于2017年收集的,其中包括2名博士生和2名教授。该数据集的目的是用作基于异常的入侵的评估数据集检测系统。数据集被标记为基于流的,其中是一个小型商业环境在OpenStack上进行了模拟。对于这些基础设施而言,在互联网上,有三个攻击者和外部服务器,存在防火墙将其与服务器分隔开来,分为三层:开发商、办公室和管理层。OpenStack环境下有4台服务器包含三个子网层。生成DoS、BruteForce和Port Scanning发生在网络上。第一个标签属性是流量类别,第二个标签属性是攻击类型,第三个属性是攻击ID。因为外部服务器模拟真实的网络环境,CIDDS-001数据集主要用于基准模型。只有三种类型的攻击,这暴露了在不同的攻击中缺乏多样性的数据。分类如下:非攻击89.8%,暴力攻击0.023%,9.26% DoS,0.019%ping扫描,0.89%

端口扫描。熵在攻击和非攻击性是0.475。跨攻击类型,熵值为0.235,说明存在更大的攻击类型攻击类型之间的不平衡比攻击和非攻击类型之间的不平衡要好。

KDDTest+.txt数据集是从NSL-KDD数据集中划分出的测试集。该数据集包括了22543条数据记录,其中类别为Normal(正常)的数据记录是9711条、Probe攻击2421条、Dos攻击7457条、U2R攻击200条、R2L攻击2754条。KDDTest+.txt数据集中Normal(正常)类别的数据多于其他四种攻击数据,适用于本文在多分类问题的研究,因此本文选用KDDTest+.txt数据集具有一定的合理性。

CSE-CIC-IDS2018数据集是通信安全局的一个合作项目建立(CSE)和加拿大网络安全研究所(CIC)。概要文件的一个概念是用于系统地生成数据。首先是B配置文件,它捕获用户使用中的行为机器和统计学习技术。M-profiles是人类用户或自动化代理可以检查网络场景。有了AWS支持的环境,网络拓扑包括一个由50台机器组成的攻击网络,5个部门各有100台机器和一台服务器30的机器。分类如下:Brute Force Attack(0.01%),Bot(6.32%),DoS(28.50%),SQL注入(0.001%),渗透(2.06%),良性(63.11%)。之间的熵良性和恶意流量为0.95。跨攻击类型,熵值为0.413,由于DoS攻击比其他攻击类型多,所以比攻击类型和非攻击类型不平衡。

对数据进行预处理:

针对本文所采用的数据集,数据预处理流程包括:

(一)处理异常数据。查看上述五种数据集,发现数据集中存在全为零的列,这些列的存在不影响模型的训练和分类,因此将全为零的列全部删除。在CSE-CIC-IDS-2018数据集中,删除了Timestamp(时间戳)特征。观察数据集中存在某些特征值为inf和nan,nan值采用数字“0”填充,inf值采用该列特征最大值加一进行填充。这样保证了数据处理的合理性。

(二)独热编码。对于UNSW-NB15入侵数据集中“proto”、“state”、“service”(原型、状态、服务)分别有135、16、13个不同值,我们采取独热编码的方式代替着三个特征,独热编码是使用一个不同位二进制数字代替特征中的值,N个特征值独热编码后即有N位二进制数。

(三)数据标准化。为了提高模型的收敛速度和精度,我们将数据标准化为均值为0,方差为1的正态分布,如式(2)所示:

其中μ表示均值,σ表示方差。根据已有研究,标准化之后的数据与原数据保持一致的线性关系组合[13]。

(四)数据降维。数据降维主要是为了将噪声以及不必要或者不重要的特征去掉,提高数据处理的效率,降低了时间和空间成本。PCA最初由

Pearson[15]于1901年提出,之后广泛使用。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。

(五)在采用了PCA降维后CICIDS2017与UNSW-NB15的特征维数分别变成为17和129,通过数据预处理将两个数据集整理为所需要的有效的数据集。

分类指标

真阳性(TP):表示样本的真实类别是正例,并且模型预测的结果也是正例。真阴性(TN):表示样本的真实类别是负例,并且模型预测的结果也是负例。假阳性(FP):表示样本的真实类别是负例,但是模型将其预测为正例。假阴性(FN):样本的真实类别是正例,但是模型将其预测为负例。混淆矩阵如下:

本文采用Precision(精准度)、Recall(召回率)、F1-score、AUC分类指标评价模型分类的性能。

实验结果分析

本文选用了三种机器学习算法作为分类模型,分别是伯努利贝叶斯分类器、梯度提升分类器和K邻近分类器。

实验测试了六种过采样方法,分别为RandomUnderSampler算法、RandomOverSampler算法、SMOTE算法、SMOTEENN算法、SMOTETomek算法和本文提出的方法。RandomUnderSampler算法是随机选取多数类样本进行删除实现数据平衡的欠采样方法,RandomOverSampler算法随机选取少数类样本进行复制和重复以实现数据平衡的过采样方法,SMOTE算法是一种线性插值的采样方法,它利用小众样本在特征空间的相似性来人工合成新样本。SMOTETomek算法是SMOTE算法和TomekLinks方法结合的混合采样方法。NSL-20%Test dataset二分类结果如表4.3所示。

表4.3NSL-20%Test dataset二分类结果

表4.4NSL-20%Test dataset多分类结果

根据表4.3的实验结果,在三种分类器所展现的实验结果上,本文的方法明显优于随机欠采样和随机过采样方法。对比SMOTE、SMOTEENN、SMOTETomek三种方法可知,本文的方法在伯努利贝叶斯分类器上明显优于该三种重采样方法。在梯度提升分类器上,SMOTEENN重采样方法在召回率和AUC两种性能指标上具有明显的优势,而本文的方法在精准率和F1-measure两种性能指标上具有明显的优势。在K邻近分类器上,SMOTEENN重采样方法在召回率上具有明显优势,SMOTETomek重采样方法在AUC上具有明显优势,而本文的方法在精准率和F1-measure两种性能指标上具有明显的优势,综合考量,本文提出的方法在三种分类器上综合优于其他五种重采样方法。

显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,均在本发明的保护范围之内。

相关技术
  • 一种基于时间重采样和同步挤压变换的地震数据处理方法
  • 一种基于时间重采样和同步挤压变换的地震数据处理方法
技术分类

06120115930930