掌桥专利:专业的专利平台
掌桥专利
首页

基于数据块集成分类的网络流量异常检测方法、设备及存储介质

文献发布时间:2023-06-19 16:12:48



技术领域

本发明涉及一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。

背景技术

随着互联网的飞快发展,全球的信息化建设不断扩充,网络安全事件频发发生,因此网络安全也越来越受重视。因此,必须采用有效的措施及时发现网络流量的异常现象,从而维护网络的安全性。通过分析网络流量,能够及时发现网络中存在的问题,从而提高网络的安全性。

网络流量数据实时高速产生,且数据量庞大,其中的数据分布是动态变化的,因此可将网络流量数据看作流数据。首先,网络流量数据是时序型数据,每个数据项都具有一个时间戳。其次,网络流量数据的数据量十分大,无法采用传统批处理的方式训练模型,需要使用增量学习或在线学习的方式来训练网络流量异常检测模型。最后,网络流量数据的数据分布是不稳定的,这种现象被称为概念漂移。使用过去时刻的网络流量数据项训练得到的模型通常不适合处理最新的网络流量数据。因此,模型需要实时更新以适应新的网络流量数据环境。

统计学、信息论、分类、聚类等技术已经用于网络流量异常检测中。使用分类技术可以有效地识别异常类网络数据,通常地,属于异常类的网络流量数据量是远远少于正常类的网络流量数据量,其中异常类网络流量数据被称为小样本,正常类网络流量数据被称为大样本。若使用传统的分类模型对网络流量数据进行分类,则模型的性能会偏向于正常类网络流量数据,因此提高分类模型对异常类网络流量样本的识别率是网络流量异常检测中的亟需解决的任务。在分类模型训练时需要增加类别不平衡处理机制,可使用滑动窗口机制保留最新的异常类网络流量数据,该部分数据可用以平衡最新的类别分布。由于网络流量数据的数据分布是动态的,因此滑动窗口中的异常类网络流量数据可能不符合当前的数据分布。需要评估滑动窗口中的数据与当前小类集网络流量数据的相似度,从而避免在候选数据块中引入不符合当前数据分布的异常类网络流量样本。

相比于单分类器模型,流数据集成分类模型通常使用多个基础分类器进行样本分类,具有更好的泛化性能。基于每次处理的网络流量数据项的数量,流数据集成分类模型分为在线集成分类模型与数据块集成分类模型。相比于在线集成分类模型,数据块集成分类模型每次使用一个数据块的网络流量数据进行基础分类器的训练,因此性能更加稳定。

发明内容

本发明针对现有技术的不足,提供了一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。

本发明的一方面提供了一种基于数据块集成分类的网络流量异常检测方法,包括以下步骤:

步骤1)输入网络流量数据,形成数据块D

步骤2)使用滑动窗口机制,得到反馈网络流量数据集M

步骤3)依据基础分类器个数C

步骤4)对于划分得到的每个网络流量数据子块D

步骤5)基于步骤4)得到的类别分布平衡数据子块D’

步骤6)更新数据块大小为S+△,重复步骤1)-5),得到数据块大小为S+△时构建得到的基础分类器方差的均值V’,若|V-V’|<ε,则使用C

步骤7)使用步骤6)得到的网络流量数据集成分类模型C对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。

进一步说,所述的类别不平衡率IR

进一步说,步骤3)中若IR

进一步说,在IR

进一步说,在IR

进一步说,步骤4)中基于M

进一步说,被选择的设定量样本数为|N

进一步说,步骤5)中每个基础分类器采用了快速决策树VFDT模型。模型的训练采用了交叉验证的方式,使用V

本发明的另一方面,提供了基于数据块集成分类的网络流量异常检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述的基于数据块集成分类的网络流量异常检测方法。

本发明的再一方面,提供了所述存储介质存储有计算机程序,所述计算机程序用于执行上述的一种基于数据块集成分类的网络流量异常检测方法。

本发明与现有技术相比,本发明产生的有益效果是:

本发明同时解决了网络流量数据中概念漂移和类别不平衡问题。首先,等大小划分数据块,每个网络流量数据块的大小是相同的。但是,每个数据块中的网络流量数据的类别分布是不平衡的。因此,使用基于数据块划分的混合重采样机制获得数据子块,混合重采样技术可以有效地缓解过采样中的过拟合问题以及欠采样中的信息丢失问题。然后,使用基于马氏距离的相似度评估方法进行选择性重采样,可以得到一系列类别分布平衡的数据子块。该选择性重采样机制可以避免在候选数据块中引入概念漂移问题。数据块的大小是适应性调整的,通过逐步增加数据块的大小,对比每个数据块上训练出来模型性能均值,从而得到合适的数据块大小。最后,使用每个类别分布平衡的网络流量数据训练得到一个基础分类器,从而得到用于网络流量异常检测的集成分类模型,该模型对异常类网络流量数据具有较高的识别率。

附图说明

图1为本发明一种基于数据块集成分类的网络流量异常检测方法。

图2为本发明的设备结构图。

具体实施方式

本实施例的方法执行以下步骤:

步骤1)输入网络流量数据,形成数据块D

步骤2)使用滑动窗口机制,得到反馈网络流量数据集M

步骤3)若IR

步骤4)若IR

步骤5)对于划分得到的每个网络流量数据子块D

步骤6)基于步骤5得到的类别分布平衡数据子块D’

步骤7)更新数据块大小为S+△(△>0),重复步骤1-6,得到数据块大小为S+△时构建得到的基础分类器方差的均值V’,若|V-V’|<ε,则使用C

步骤8)使用步骤7得到的网络流量数据集成分类模型C对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。

一些实施例中,步骤1)中,网络流量数据块Dt中保留了当前t时刻获取的一定量的网络流量数据,每个数据块的大小是相等的,且其中的类别分布通常是不平衡的,即每个数据块中异常类的网络数据量少于正常类的网络数据量。

一些实施例中,步骤2)中,滑动窗口的大小是固定的,其中保留了W个最新获得的异常类网络流量数据项。窗口中的数据通常不符合同一个数据分布。

一些实施例中,步骤3)中,若正常类网络流量样本的数量足够多,即IR

一些实施例中,步骤4)中,若IR

一些实施例中,步骤5)中,对于每个数据子块,使用选择性重采样技术,得到类别分布平衡的数据子类D’

一些实施实例中,步骤6)中,基于D’

一些实施实例中,步骤7)中,通过逐步扩大数据块的大小,评估不同数据块大小上的基础分类器方差值,从而得到合适的数据块大小。因此,用于网络流量异常检测的集成分类器模型中数据块的大小无需实现设置,是适应性地调整的。

一些实施实例中,步骤8)中,基于数据块划分的集成分类模型综合了所有基础分类器的预测结果。从而可以有效地实现网络流量的异常检测。

实施例:

针对网络流量数据中存在的概念漂移和类别不平衡的联合问题,本发明提出了一种基于数据块集成分类的网络流量异常检测方法。参照图1,该模型中主要包含了网络流量数据块划分机制、网络流量滑动窗口划分机制、混合重采样机制、选择性重采样机制和基于集成学习的网络流量异常检测机制。

首先,等大小划分网络流量数据块,每个数据块中含有的网络流量数据量是相同的,且通常异常类网络流量数据量是少于正常类网络数据量的,即每个网络流量数据块中的类别分布通常是不平衡的。同时,使用滑动窗口保留一定量的最新获得的异常类网络流量数据。然后,为了解决训练数据集中存在的类别不平衡问题。使用混合重采样技术获得若干网络流量数据子块。一方面,使用欠采样技术等大小随机划分网络流量候选数据块中的大类集,数据子块的个数取决于类别不平衡率。若IR

本发明的实施例可以应用在网络设备上。实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述步骤1)-步骤8)所确定的方法。从硬件层面而言,如图2所示,为本发明的基于数据块集成分类的网络流量异常检测的硬件结构图,除了图2所示的处理器、网络接口、内存以及非易失性存储器之外,所述设备通常还可以包括其他硬件,以便在硬件层面进行的扩展。另一方面,本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述步骤1)-步骤8)所确定的方法。

对于实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。

以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

技术分类

06120114739871