掌桥专利:专业的专利平台
掌桥专利
首页

一种用于优化网络入侵检测性能的特征选择方法和系统

文献发布时间:2023-06-19 11:54:11


一种用于优化网络入侵检测性能的特征选择方法和系统

技术领域

本发明属于网络安全技术领域,更具体地,涉及一种用于优化网络入侵检测性能的特征选择方法和系统。

背景技术

近年来网络环境复杂多变,随之产生的网络数据特征也越来越复杂,并呈现出高维度且类别不平衡的特点,这导致网络入侵检测系统的存储负担增加,同时入侵检测分类器的性能下降。

特征选择(Feature selection)作为一种常用的降维手段,其在不改变原始特征分布的前提下,从大量的特征中选择有用的特征。因此,将特征选择应用到网络入侵检测中也成为近年来的研究重点。

然而,现有的用于网络入侵检测的特征选择方法均存在一些不可忽略的缺陷:第一,其无法处理超高维且不平衡的数据,从而造成特征选择时间过长和入侵检测准确率下降;第二,其通常集中在选择重要的特征、以及剔除冗余或不相关特征上,而没有考虑特征之间的协同关系,这会导致错误删除一些原本具有协同关系的特征,进而导致入侵检测性能下降。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种用于优化网络入侵检测性能的特征选择方法和系统,其目的在于,解决现有特征选择方法由于无法处理超高维且不平衡的数据,从而造成特征选择时间过长和入侵检测准确率下降的技术问题,以及由于没有考虑特征之间的协同关系,导致错误删除一些原本具有协同关系的特征,进而导致入侵检测性能下降的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种用于优化网络入侵检测性能的特征选择方法,包括以下步骤:

(1)获取来自网络的流量数据及其类别标签集合{c

(2)将步骤(1)得到的原始特征集F划分为多个特征片段,其中每个特征片段中的网络数据特征数量n等于:

其中c表示特征片段总数;

(3)针对步骤(2)得到的每个特征片段i而言,初始化空的特征集S

(4)将步骤(3)得到的所有特征片段对应的、更新后的特征集汇总到特征集S中,将步骤(3)得到的所有特征片段对应的、更新后的冗余敏感特征集汇总到冗余敏感特征集S

优选地,步骤(1)中使用的网络分析工具可以是WireShark、tcpdump、或WireEdit。

优选地,步骤(3)包括以下子步骤:

(3-1)设置计数器cnt=每个特征片段中的网络数据特征数量n;

(3-2)判断计数器cnt是否大于0,如果是则过程结束,否则进入步骤(3-3);

(3-3)计算特征片段p

其中k∈[1,n],

(3-4)针对计算特征片段p

(3-5)针对计算特征片段p

(3-6)设置计数器cnt=当前特征片段中剩余的特征数量,并返回步骤(3-2);

优选地,加权冗余敏感值WREDU

按照本发明的另一方面,提供了一种用于优化网络入侵检测性能的特征选择系统,包括:

第一模块,用于获取来自网络的流量数据及其类别标签集合{c

第二模块,用于将第一模块得到的原始特征集F划分为多个特征片段,其中每个特征片段中的网络数据特征数量n等于:

其中c表示特征片段总数;

第三模块,用于针对第二模块得到的每个特征片段i而言,初始化空的特征集S

第四模块,用于将第三模块得到的所有特征片段对应的、更新后的特征集汇总到特征集S中,将第三模块得到的所有特征片段对应的、更新后的冗余敏感特征集汇总到冗余敏感特征集S

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

(1)本发明由于采用了步骤(2)到(4),其采用划分特征片段和并行处理特征片段的方法,因此能够解决现有特征选择方法中无法处理超高维度网络数据的技术问题;

(2)本发明由于采用了步骤(3-3),其将待选择的特征与已选的特征之间的相互增益,与添加待选特征后的最小化成本函数的变化相结合,来作为特征的重要性度量,因此能够解决现有特征选择方法由于没有考虑特征之间的协同关系,导致错误删除一些原本具有协同关系的特征,进而导致入侵检测性能下降的技术问题;

(3)本发明由于采用了步骤(3-4)到(3-5),其借助加权对称不确定性的概念,提出一种新的特征冗余度判断指标-加权冗余敏感值,因此能够解决现有特征选择方法的特征冗余度判断不充分和不能很好适应不平衡网络数据的技术问题。

附图说明

图1是本发明用于优化网络入侵检测性能的特征选择方法的整体示意图。

图2是本发明用于优化网络入侵检测性能的特征选择方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1和图2所示,本发明提供了一种用于优化网络入侵检测性能的特征选择方法,包括以下步骤:

(1)获取来自网络的流量数据及其类别标签集合{c

具体而言,本步骤中使用的网络分析工具包括但不局限于WireShark、tcpdump、WireEdit等。

(2)将步骤(1)得到的原始特征集F划分为多个特征片段;

具体而言,每个特征片段中的网络数据特征数量n等于:

其中c表示特征片段总数;

(3)针对步骤(2)得到的每个特征片段i而言,初始化空的特征集S

具体而言,本步骤包括以下子步骤:

(3-1)设置计数器cnt=每个特征片段中的网络数据特征数量n;

(3-2)判断计数器cnt是否大于0,如果是则过程结束,否则进入步骤(3-3);

(3-3)计算特征片段p

其中k∈[1,n],

上述步骤(3-3)的优点在于,其将待选择的特征与已选的特征之间的相互增益,与添加待选特征后的最小化成本函数的变化相结合,来作为特征的重要性度量,因此能够解决现有特征选择方法由于没有考虑特征之间的协同关系,导致错误删除一些原本具有协同关系的特征,进而导致入侵检测性能下降的技术问题;

(3-4)针对计算特征片段p

加权对称不确定性WSU(F

(3-5)针对计算特征片段p

其中加权冗余敏感值WREDU

上述步骤(3-4)-(3-5)的优点在于,其借助加权对称不确定性的概念,提出一种新的特征冗余度判断指标-加权冗余敏感值,因此能够解决现有特征选择方法的特征冗余度判断不充分和不能很好适应不平衡网络数据的技术问题。

(3-6)设置计数器cnt=当前特征片段中剩余的特征数量,并返回步骤(3-2);

(4)将步骤(3)得到的所有特征片段对应的、更新后的特征集汇总到特征集S中,将步骤(3)得到的所有特征片段对应的、更新后的冗余敏感特征集汇总到冗余敏感特征集S

上述步骤(2)至(4)的优点在于,其采用划分特征片段和并行处理特征片段的方法,因此能够解决现有特征选择方法中无法处理超高维度网络数据的技术问题。

实验环境及数据

本发明的模拟实验环境为Linux操作系统,硬件环境为具有Intel Xeon E5-2609CPU和64GB主内存的服务器。模拟实验使用Python来实现特征选择算法并使用Sklearn和NumPy创建模型,使用支持向量机SVM作为分类器。实验所使用的仿真数据集为ISCX 2012入侵检测数据集并在ISCX 2012数据集的基础上细分了4个包含不同实例数的数据集,实例数分别为:25、50、100和500。本发明的模拟实验以经典的基于相关性的快速特征选择算法(Fast Correlation-Based Filter Solution,简称FCBF)作为参照,在相同条件下分别划分4个特征片段,8个特征片段和12个特征片段,并与本发明的特征选择算法进行对比实验。

实验结果

从以上模拟实验的结果可以看出,在不同数据实例数目的特征集上以及在不同的特征片段划分和情况下,本发明提出的特征选择方法与已有的特征选择方法FCBF相比,分类的准确率明显提高,能够准确识别入侵检测数据中的异常。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种用于优化网络入侵检测性能的特征选择方法和系统
  • 一种用于优化网络入侵检测性能的特征选择方法和系统
技术分类

06120113096343