掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于网络攻击检测领域,特别涉及一种基于无监督特征选择的入侵检测方法及系统。

背景技术

随着计算机技术的不断发展和普及,网络攻击形式层出不穷,为了提高网络安全,需要对网络攻击进行检测。传统的网络攻击检测方法主要是构建入侵检测模型,利用入侵检测模型检测网络是否存在攻击。在建立入侵检测模型时,数据集的特征往往对分类器的结果具有至关重要的作用,一旦数据集的特征维度过高或者含有较多噪声特征,则分类器的效率往往会比较低,并且计算时间消耗较长。因此,众多学者提出特征选择方法对优质特征进行选择。但是这些方法依赖于数据集的类别标签,往往是通过计算每一维特征与类别标签之间的相关性来选择,留下与类别标签相关性大的特征,删除掉与类别标签相关性小的特征。但是结合实际网络环境,实时收集到的流量数据并不具有类别标签。因此,当前的这些特征选择方法并不能得到很好的应用,进而真正的网络安全问题也不会得到实质性的解决。2.目前存在较多带类别标签的开源数据集,基于这些开源数据集建立的入侵检测分类器在泛化能力方面不太适用于真实网络环境下的攻击检测。

发明内容

本发明提出一种基于无监督特征选择的入侵检测方法及系统。

为达到上述目的,本发明采用如下技术方案:

本发明其中一个技术方案提供一种基于无监督特征选择的入侵检测方法,所述方法包括:

对训练数据集进行特征选择,获得维度为k维的数据集;

利用k维的数据集对分类器进行训练,获得检测模型。

结合第一个技术方案,在第一个技术方案的第一种可能的实现方式中,所述对训练数据集进行特征选择,获得维度为k维的数据集具体为:根据数据特征矩阵X的投影矩阵A的k个非零列,对数据特征矩阵X中的特征进行选择,从X中选出与A的k个非零列对应的个k特征,留下k维,获得k维的数据集。

结合第一个技术方案,进一步改进的技术方案中,k的求解方法包括:

计算数据特征矩阵X与重构矩阵AX的重构损失项;

求取重构矩阵AX与数据特征矩阵X之间的误差最小且投影矩阵A只有k列不为0时的最优解,进而获得k。

结合第一个技术方案,进一步改进的技术方案中,所述数据特征矩阵X与重构矩阵AX的重构损失项表示为:

结合第一个技术方案,进一步改进的技术方案中,重构损失项的约束优化问题可以表示为以下形式:

结合第一个技术方案,进一步改进的技术方案中,引入正则化项及维度为M的方阵r,将重构损失项的约束优化问题变换为以下形式:

结合第一个技术方案,进一步改进的技术方案中,利用交错方向乘子法将优化问题变换为拉格朗日函数,并利用迭代优化求解变量的方法进行求解,得到k。

本发明第二个技术方案提供一种基于无监督特征选择的入侵检测系统,所述系统包括:

特征选择模块,所述特征选择模块被配置为对训练数据集进行特征选择,获得维度为k维的数据集;

检测模型获取模块,所述检测模型获取模块被配置为利用k维的数据集对分类器进行训练,获得检测模型。

本发明提供的一种基于无监督特征选择的入侵检测方法及系统,该方法及系统克服了从真实的网络环境中实时获取的网络流量没有足够标签的缺陷,对采集到的真实网络流量进行特征选择;同时也考虑到正常流量短期内不会经常发生变化,相对来说比较固定,用相对固定的正常流量数据去训练模型,不用考虑样本分布不均衡影响检测模型效率的问题。基于此,本发明只利用正常流量去训练one-class SVM检测模型,获得一个高检测率的入侵检测模型,解决了目前大多数入侵检测模型由于依赖异常标签而引发泛化能力不足的问题;基于特征选择后构建的检测模型同时提高了入侵检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明其中一个实施例提供的一种基于无监督特征选择的入侵检测方法的流程示意图;

图2是本发明另一个实施例提供的一种基于无监督特征选择的入侵检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明其中一实施例提供一种基于无监督特征选择的入侵检测方法,如图1所示,所述方法包括:

S1、对训练数据集进行特征选择,获得维度为k维的数据集;

其中对训练数据集进行特征选择,获得维度为k维的数据集具体为:根据数据特征矩阵X的投影矩阵A的k个非零列,对数据特征矩阵X中的特征进行选择,从X中选出与A的k个非零列对应的k个特征,留下k维,进而获得k维数据集。

其中,x

a

其中,k求解方法包括:

计算重构损失项;表示如下:

该重构损失项的含义是数据的每个特征由其他特征表示,a

求取重构矩阵AX与数据特征矩阵X之间的误差最小且投影矩阵A只有k列不为0时的最优解,进而获得k。

为了同时满足重构矩阵AX与特征矩阵X之间的误差最小,且投影矩阵A只有k列不为0,则重构损失项的约束优化问题可以表示为以下形式:

考虑上述||A||

当数据的第j维特征被选择时,r

将上述优化问题进行转换,然后利用交错方向乘子法将优化问题变换为拉格朗日函数,并利用迭代优化求解变量的方法进行求解,得到k值,矩阵r以及矩阵A。

将上述优化问题进行转换,然后,根据矩阵A的k个非零列,对矩阵X中的特征进行选择,选出与A的k个非零列对应的k个特征,整个特征选择的过程与特征对应的列别标签没有关系,实现了无监督的特征选择。

S2:利用k维的数据集对分类器进行训练,获得检测模型;

训练数据集经过特征选择之后,维度留下k维,将k维的数据集作为训练集输入分类器训练获得检测模型。本发明提出的检测模型是基于one-class SVM(训练数据为单类数据即可)提出来的。利用检测模型对待检测数据进行检测。

本发明提供的一种基于无监督特征选择的入侵检测方法,克服了从真实的网络环境中实时获取的网络流量没有足够标签的缺陷,对采集到的真实网络流量进行特征选择;同时也考虑到正常流量短期内不会经常发生变化,相对来说比较固定,用相对固定的正常流量数据去训练模型,不用考虑样本分布不均衡影响检测模型效率的问题。基于此,本发明只利用正常流量去训练one-class SVM检测模型,获得一个高检测率的入侵检测模型,解决了目前大多数入侵检测模型由于依赖异常标签而引发泛化能力不足的问题;基于特征选择后构建的检测模型同时提高了入侵检测的准确性。

本发明其中一实施例提供一种基于无监督特征选择的入侵检测系统,如图2所示,所述系统包括:

特征选择模块10,所述特征选择模块被配置为对训练数据集进行特征选择,获得维度为k维的数据集;

其中对训练数据集进行特征选择,获得维度为k维的数据集具体为:根据数据特征矩阵X的投影矩阵A的k个非零列,对数据特征矩阵X中的特征进行选择,从X选出与A的k个非零列对应的k个特征,留下k维,进而获得k维数据集。

其中,x

a

k求解方法包括:

计算重构损失项;表示如下:

该重构损失项的含义是数据的每个特征由其他特征表示,a

求取重构矩阵AX与数据特征矩阵X之间的误差最小且投影矩阵A只有k列不为0时的最优解,进而获得k。

为了同时满足重构矩阵AX与特征矩阵X之间的误差最小,且投影矩阵A只有k列不为0,则重构损失项的约束优化问题可以表示为以下形式:

考虑上述||A||

当数据的第j维特征被选择时,r

将上述优化问题进行转换,然后利用交错方向乘子法将优化问题变换为拉格朗日函数,并利用迭代优化求解变量的方法进行求解,得到k值,矩阵r以及矩阵A。

将上述优化问题进行转换,然后,根据矩阵A的k个非零列,对矩阵X中的特征进行选择,选出与A的k个非零列对应的k个特征,整个特征选择的过程与特征对应的列别标签没有关系,实现了无监督的特征选择。

检测模型获取模块20,所述检测模型获取模块被配置为利用k维的数据集对分类器进行训练,获得检测模型;

训练数据集经过特征选择之后,维度留下k维,将k维的数据集作为训练集输入分类器训练获得检测模型。本发明提出的检测模型是基于one-class SVM(训练数据为单类数据即可)提出来的。利用检测模型对待检测数据进行检测。

本发明提供的一种基于无监督特征选择的入侵检测系统,克服了从真实的网络环境中实时获取的网络流量没有足够标签的缺陷,对采集到的真实网络流量进行特征选择;同时也考虑到正常流量短期内不会经常发生变化,相对来说比较固定,用相对固定的正常流量数据去训练模型,不用考虑样本分布不均衡影响检测模型效率的问题。基于此,本发明只利用正常流量去训练one-class SVM检测模型,获得一个高检测率的入侵检测模型,解决了目前大多数入侵检测模型由于依赖异常标签而引发泛化能力不足的问题;基于特征选择后构建的检测模型同时提高了入侵检测的准确性。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

技术分类

06120116332887