掌桥专利:专业的专利平台
掌桥专利
首页

实时数据流异常检测方法及系统

文献发布时间:2023-06-19 12:13:22


实时数据流异常检测方法及系统

技术领域

本发明涉及一种实时数据流异常检测方法及系统。

背景技术

计算机和互联网技术的发展为越来越多的用户提供了便利,与此同时用户计算机系统上的安全问题也日益受到关注。为解决该类问题,越来越多有关于异常数据流攻击检测方法的方案被提出。专利[1]预先训练异常检测模型,根据该异常检测模型中包含的各节点对应的数据区间,对业务数据进行分类,以确定业务数据所落入的数据区间对应的节点,作为目标节点。而后,确定目标节点在该异常检测模型对应的树结构中的位置信息,作为业务数据在该异常检测模型中所对应的位置信息。最后,根据业务数据在每个异常检测模型中所对应的位置信息,对业务数据进行异常检测。专利[2]通过对窗口中的数据空间进行网格单元划分,得到非空网格单元,通过非空网格单元中局部异常异常因子的上下界实现非空网格单元和数据点两个层级的异常检测,即首先识别出包含有前n个异常值的非空网格单元,再检索出前n个异常数据点。专利[3] 对多元时间序列数据通过离线训练建立异常检测模型,通过离线训练的异常检测模型对在线监测的数据进行异常检测。

机器学习的发展,为数据流的异常检测提供了更多可能,专利[4]训练图神经网络遥测时序数据预测模型;利用小波方差计算待测遥测时序数据的周期;得到预测遥测时序数据;确定预测周期数据;计算当前时刻的待测遥测数据和其预测数据之间的第一马氏距离;计算之前时刻的待测遥测数据和其预测周期数据之间的第二马氏距离;计算第二马氏距离的平均值和方差;将平均值和方差进行放大设置阈值;根据第一马氏距离和阈值判断当前时刻的待测遥测数据是否异常。专利[5] 基于对时间序列流数据进行聚类,将数据分为不同的模式构建了基于马尔可夫的异常检测模型,在该模型中,将不同模式间的正常转换认定为概念漂移,只有不可能发生的模式转换才被认定为发生异常。专利[6] 获取时序数据序列并处理得到训练数据集;构建基于LSTM的无监督模型并训练得到时序数据异常检测模型;采用时序数据异常检测模型对待分析的水处理时序数据序列进行检测并完成时序数据的异常检测。

传统数据流异常检测基于批处理数据的方式,不再适用于如今需要快速响应的系统,并且传统的方案很难做到自适应,因此一旦异常数据流特征发生改变,就可能绕过异常检测系统。很多基于机器学习的方案,未考虑流式数据具有概念转移的内在秉性—即数据流中的潜在数据分布随时间发生不可预测的变化,使原有的分类器分类不准确或决策系统无法正确决策,因此异常数据的检测率有待提高,且还存在无法自动化的缺点。

【1】王喜,张振华. 一种异常检测的方法以及装置[P]. 北京市:CN202110144471.X.

【2】浙江大学,港珠澳大桥管理局. 一种跳过平稳区域的流数据异常检测方法[P]. 杭州市:CN202110137315.0.

【3】陈宁江,段小燕,刘康康. 面向云环境下大规模多元时间序列数据异常检测方法[P].广西省:CN202110114470.0.

【4】皮德常,谢凌强,喻文. 一种基于图神经网络的遥测时序数据异常检测方法及系统[P]. 南京市:CN202011488702.0.

【5】赵伟,王雪妹,张辉,李琦,王佳. 基于马尔可夫过程的时间序列流数据异常检测方法[P].济南市:CN202110073422.1.

【6】李智勇,丁伶利,李学斌. 一种基于LSTM的水处理时序数据异常检测方法[P].湖南省:CN202110121981.5.。

发明内容

本发明的目的在于提供一种实时数据流异常检测方法及系统,基于分层时间记忆的在线序列记忆算法对数据流进行实时异常检测,,以解决现有的数据流异常检测存在的不可自动化、异常数据检测精确率不高的问题。

为实现上述目的,本发明的技术方案是:一种实时数据流异常检测方法,包括如下步骤:

首先,对实时的数据流,通过HTM网络构造数据流的上下文关系,并基于此分析数据的异常情况,给出初步的评估结果;

其次,对于初步的评估结果给出误差统计,并对相关的误差统计结果进行误差概率模型建模;

最后,结合初步的评估结果以及误差统计结果评估数据流正常与否,构建异常概率检测模型。

在本发明一实施例中,所述HTM网络由编码器、稀疏矩阵空间处理器、序列记忆组件组成,设输入为X-t0,其被发送到编码器,然后在稀疏矩阵空间处理器中被处理后,输出代表当前输入数据流的稀疏二进制向量a(X-t0),同时a(X-t0)在序列记忆组件通过对时间模式进行建模,以另一个稀疏向量b(X-t0)的形式输出,即得到初步的评估结果a(X-t0)、b(X-t0)。

在本发明一实施例中,对于初步的评估结果给出误差统计,并对相关的误差统计结果进行误差概率模型建模是通过预测误差评估器实现的。

在本发明一实施例中,预测误差评估器将a(X-t0)、b(X-t0)作为输入量,通过误差概率模型来计算当前数据流初步的评估结果的误差数值,并将误差数值作为误差概率模型建模的一部分保存下来同时输出S-t0。

在本发明一实施例中,结合初步的评估结果以及误差统计结果评估数据流正常与否,构建异常概率检测模型是通过异常概率模型构造模块实现。

在本发明一实施例中,异常概率模型构造模块基于S-t0,并结合环境的影响因素,构建异常概率检测模型,给出异常数据的类型概率以及相关的偏移,输出结果L-t0。

本发明还提供了一种实时数据流异常检测系统,包括:

HTM网络模块,用于初步检测异常数据流,且加上时间戳,给出初步的评估结果;

预测误差评估器,用于对HTM网络标记的异常数据统计,即误差统计,建立前后时间戳数据流的误差概率模型,进一步筛选可信数据;

异常概率模型构造模块,结合初步的评估结果以及误差统计结果评估数据流正常与否,构建异常概率检测模型;

接口服务模块,用于实现不同模块之间的数据传输,不同参与方之间的交互。

在本发明一实施例中,所述HTM网络模块由编码器、稀疏矩阵空间处理器、序列记忆组件组成。

相较于现有技术,本发明具有以下有益效果:基于分层时间记忆的在线序列记忆算法对数据流进行实时异常检测,,以解决现有的数据流异常检测存在的不可自动化、异常数据检测精确率不高的问题,且本发明通过引入在线序列记忆算法,具有以下特点:

1.数据实时检测:数据应用前,由检测系统实时验证数据是否异常,验证后的数据才可以继续流向之后的系统。

2.模型自动调整:用于检测异常数据的模型可以进行自动调整,不必依赖人工调整的方式动态更新检测系统,从而达到高效的目的。

3.数据异常检测灵敏:通过实时检测数据是否异常,能够对异常数据快速响应,从而达到防御入侵,保护目标系统的目标。

4.无监督的学习方式:通过无监督的学习方式,可以使检测异常的系统不用依赖于以往的数据集,有利于发现不常见的异常行为模式。

附图说明

图1为本发明BS_HTM结构图。

图2为本发明HTM网络核心算法组件。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

本发明一种实时数据流异常检测方法,包括如下步骤:

首先,对实时的数据流,通过HTM网络构造数据流的上下文关系,并基于此分析数据的异常情况,给出初步的评估结果;

其次,对于初步的评估结果给出误差统计,并对相关的误差统计结果进行误差概率模型建模;

最后,结合初步的评估结果以及误差统计结果评估数据流正常与否,构建异常概率检测模型。

本发明还提供了一种实时数据流异常检测系统,包括:

HTM网络模块,用于初步检测异常数据流,且加上时间戳,给出初步的评估结果;

预测误差评估器,用于对HTM网络标记的异常数据统计,即误差统计,建立前后时间戳数据流的误差概率模型,进一步筛选可信数据;

异常概率模型构造模块,结合初步的评估结果以及误差统计结果评估数据流正常与否,构建异常概率检测模型;

接口服务模块,用于实现不同模块之间的数据传输,不同参与方之间的交互。

以下为本发明具体实现过程。

本发明提供一种基于分层时间记忆的在线序列记忆算法对数据流进行实时异常检测,以解决现有的数据流异常检测存在的不可自动化、异常数据检测精确率不高的问题,具体的本发明提出了BS_HTM,系统的简要结构如图1所示。

BS_HTM由HTM网络,预测误差评估器以及异常概率检测模型组成。HTM网络由一层HTM神经元组成,网络接受编码为稀疏向量的输入流,它使用两个独立稀疏表示的组合来建模高阶序列(具有长期相关性的序列); 预测误差评估器将根据当前输入的稀疏编码以及HTM网络对此稀疏编码的内部预测的稀疏向量来求解预测值的误差,从而构造下一步异常概率的输入;异常概率检测模型不仅考虑当前输入流的异常与否,也要考虑系统本身产生的噪音以及不可度量的误差。因此,异常概率是基于HTM模型的预测历史来定义当前状态异常程度的概率度量。

如图1所示,BS_HTM包含三个核心的组件:HTM网络、预测误差评估器和异常概率评估模型。每组实时数据流都将经过上述系统每一个组件的过滤筛选,检测数据是否异常,让正常的数据流能够正常作用,截获异常的数据流。

HTM网络是标记时序数据的有效手段,其通过多个算法组件构造数据流的上下文关系,并基于此分析数据的异常情况,给出初步的评估结果并启发下一时间段数据流的检测。

预测误差评估器将检验上一步骤HTM网络中给出的检测结果,给出误差统计,并对相关的统计结果进行建模,用于下一阶段的评估。

异常概率检测模型将进一步检测HTM网络中给出的预测结果以及误差预测的检验结果,综合两者来评估数据流正常与否,构建相关的异常模型以及相关的权重。

值得注意的是,相关的异常模型并不是一个确定值,而是在综合了多方面的结果后给出的相关概率模型。在实时数据流的检测过程中,概率是动态调整的,所以相关的模型也会动态变化。

具体流程如下:

首先,实时的数据流将流向HTM网络,图2显示了HTM网络的核心算法组件以及数据流经过此处的处理过程。当前输入X-t0被发送到编码器,然后在稀疏矩阵空间处理器中被处理后,输出a(X-t0)是代表当前输入数据流的稀疏二进制向量。系统的核心是序列记忆组件,该组件在a(X-t0)中对时间模式进行建模,并以另一个稀疏向量b(X-t0)的形式输出预测。

实时数据流在HTM网络处理后,得到两个输出量a(X-t0)和b(X-t0)。预测误差评估器将这两个量作为输入量,通过相关的误差概率模型以及算法来计算当前数据流异常检测结果的数值,并将数值作为建模的一部分保存下来并输出S-t0。

预测误差仅仅是基于实时数据流来评估结果的,并未考虑系统本身的影响以及不可变量的掺入。基于以上事实,我们不将上述输出结果S-t0作为评估异常数据的直接阈值,而是通过建模的方法纳入其他可能影响结果的因素,构建异常概率检测模型,给出异常数据的类型概率以及相关的偏移,输出结果L-t0。

本发明的方案BS_HTM与另外几个专利的方案做了比较。针对于本发明前面提到的几个问题,本发明的方法在如下几个方面具有更好地效果,参见表1。

首先,在实时检测异常数据方面,传统的检测方案不支持实时的功能,基于BS_HTM的方案支持实时流式数据的检测,很好的适应了当今异常检测的要求。

在模型自动化更新方面,本发明的方案着眼于更高效的模型自我更新与迭代的方法,极大地减轻了人为调整的不便利,为实现高效的自动化实时数据流异常检测提供了范本。

在异常检测学习模型方面,本发明提出了无监督的自我学习方式,不依赖于过往的庞大数据集来更新模型,能更高效地检测出不常见的异常数据流。

在拓展方面,专利[1]受限制于过往的异常数据集,不利于检测出不常见的异常数据流;专利[2] [3] 针对具体的场景,提出更为具体的方案,方案本身难以拓展到其他应用领域;专利[4] [5] [6]不能做到实时检测,检测出的异常数据流具有时滞性,不利于系统的快速防御。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

相关技术
  • 实时数据流异常检测方法及系统
  • 一种基于最大信息熵的化工数据流实时异常检测方法
技术分类

06120113212644