掌桥专利:专业的专利平台
掌桥专利
首页

一种低复杂度的面向未知连续信源的两阶段异常检测方法

文献发布时间:2024-04-18 19:57:31


一种低复杂度的面向未知连续信源的两阶段异常检测方法

技术领域

本发明属于电通信技术领域,具体涉及一种低复杂度的面向未知连续信源的两阶段异常检测方法。

背景技术

随着现实中数据量级的提升,数据中总会出现一些罕见的离群数据点,这些数据被称为异常数据。异常数据为系统带来了安全隐患,可能导致结构缺陷、文本错误、银行欺诈、医疗问题等。识别数据中的异常点,即异常检测问题,对工业、金融、医疗、网络安全等领域的问题都有着重要意义。目前,广泛应用的异常检测算法包括广义似然比检验、基于聚类的检验、基于MMD(Maximum Mean Discrepancy,最大均值差异)方法的检验等,其中广义似然比检验、基于聚类的检验等算法都只适用于离散信源,而基于MMD方法的检验同时适用于离散信源和连续信源,是为优选。

然而,基于MMD方法的检验复杂度在有限码长时随码长指数增加,算法的性能和复杂度难以平衡,在码长较长时需要较高的复杂度才能保障异常检测的性能。

发明内容

有鉴于此,本发明的目的在于提出了一种低复杂度的面向未知连续信源的两阶段异常检测方法,能够对未知连续信源以低复杂度实现高性能的异常检测。

为达到上述目的,本发明提供如下技术方案:

本发明所提供的一种低复杂度的面向未知连续信源的两阶段异常检测方法,包括:

确定所观测到的多个连续信源序列;

对于每一个序列计算其MMD值,基于预设的判断规则确定停止时间并判断是否需要进入第二阶段;

若不需要,则根据预设的第一决策函数筛选出异常序列;

若需要,则进入第二阶段设定新的码长重新计算MMD值,并基于预设的第二决策函数筛选出异常序列。

具体的,确定所观测到的多个连续信源序列包括:

确定所观测到的

假设

具体的,对于每一个序列计算其MMD值,基于预设的判断规则确定停止时间并判断是否需要进入第二阶段包括:

对于任意一个序列

基于预设的判断规则确定停止时间

其中,

具体的,根据预设的第一决策函数筛选出异常序列包括:

当选择码长为n时,通过第一决策函数确定其中的异常序列,其中,第一决策函数的规则为:对于每一个序列,当序列的MMD值大于预设的阈值

其中,

具体的,进入第二阶段设定新的码长重新计算MMD值,并基于预设的第二决策函数筛选出异常序列包括:

当选择码长为

然后通过第二决策函数确定异常序列,决策函数如下:

式中,

本发明至少取得了以下有益效果:

1. 通过两阶段的MMD检测方法,能够对未知连续信源以低复杂度实现高性能的异常检测。

本发明的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明实施例中一种低复杂度的面向未知连续信源的两阶段异常检测方法的步骤流程图;

图2为本发明实施例中基于MMD方法的两阶段检验算法伪代码实现图;

图3为本发明实施例中连续信源下三种异常检测算法的性能对比仿真结果图;

图4为本发明实施例中连续信源下三种异常检测算法的复杂度对比仿真结果图;

图5为本发明实施例中连续信源下两阶段检验与定长检验的性能对比仿真结果图;

图6为本发明实施例中连续信源下两阶段检验与定长检验的复杂度对比仿真结果图;

图7为本发明实施例中混合信源下两阶段检验与定长检验的性能对比仿真结果图;

图8为本发明实施例中混合信源下两阶段检验与定长检验的复杂度对比仿真结果图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

通过量化方法将广义似然比检验与基于聚类的检验拓展到连续信源中应用,并在连续信源下对广义似然比检验、基于聚类的检验、基于MMD方法检验进行仿真测试,结果表明基于聚类的检验性能较差,此外,相同码长下基于MMD方法检验与广义似然比检验相比错误概率更低,复杂度更低,因此得出连续信源下基于MMD方法的异常检测仿真表现最优。

关于MMD算法,对于所观测的

MMD异常检测方法包括定长检验和序贯检验两种设置,定长检验的样本长度固定设计简单,但是性能较差;序贯检验每收集一个样本后就做出一次决策,设计复杂但是性能最优。定长检验和序贯检验都无法在同时兼顾性能和复杂度的权衡。基于MMD方法的检验复杂度在有限码长时随码长的增长呈指数增长,错误概率则随码长增长指数下降,这导致检验无法保障算法同时具有良好的性能和较低的复杂度,在码长较长时需要承担较高的复杂度以保证良好的性能。

为了平衡MMD方法的性能与复杂度,本发明提出了基于MMD方法的两阶段检测。两阶段检测的核心思想就是将检测划分为两个阶段,第一个阶段在较短的码长时设定条件对观测序列进行决策,若条件满足则在较短的码长时完成异常序列的检测,否则进入第二阶段,使用更多的码长进行决策。

本发明所提供的一种低复杂度的面向未知连续信源的两阶段异常检测方法,参照图1,包括:

确定所观测到的多个连续信源序列;

对于每一个序列计算其MMD值,基于预设的判断规则确定停止时间并判断是否需要进入第二阶段;

若不需要,则根据预设的第一决策函数筛选出异常序列;

若需要,则进入第二阶段设定新的码长重新计算MMD值,并基于预设的第二决策函数筛选出异常序列。

上述技术方案的工作原理和有益效果为:通过第一阶段的条件判断观测到的序列之间是否容易区分,如果满足条件则表明第一阶段能够以高可信度完成决策,否则表明以当前的观测量无法以高可信度完成决策,需要进入第二阶段引入更多的码长从而保证决策的可信度。本发明提出的基于MMD的两阶段检测方法根据计算的MMD值确定随机停止时间,判断是否需要进入第二阶段,从而在大多数情况下以较短的码长进行检测,在必要时则引入更多的码长完成检测。具体地,进入第二阶段的概率随码长增大呈指数衰减,因此两阶段检验的渐进样本数量与定长检验一致,能够保持较低的样本复杂度,并且两阶段检验能够实现序贯检验的高性能,即两阶段检验能够以较低的复杂度达到较好的性能,实现算法复杂度和性能的平衡。本发明在保证基于MMD方法异常检测的性能基础上,极大降低了算法的复杂度,能够对未知连续信源以低复杂度实现高性能的异常检测。

在一个具体实施例中,参照图2,确定所观测到的多个连续信源序列包括:

确定所观测到的

假设

上述技术方案的有益效果为:实现对多个连续信源序列的数学模型建立,方便后续的计算。

在一个具体实施例中,参照图2,对于每一个序列计算其MMD值,基于预设的判断规则确定停止时间并判断是否需要进入第二阶段包括:

对于任意一个序列

基于预设的判断规则确定停止时间

其中,

上述技术方案的工作原理和有益效果为:通过设定判断规则,通过第一阶段的条件判断观测到的序列之间是否容易区分,如果满足条件则表明不需要进入第二阶段,意味着检验在第一阶段能够以高可信度完成决策,可以直接使用码长为n时的决策规则。若进入第二阶段,则意味着检验在第一阶段无法以高可信度做出决策,因此需要更多的样本从而保证决策的可信度。

在一个具体实施例中,参照图2,根据预设的第一决策函数筛选出异常序列包括:

当选择码长为n时,通过第一决策函数确定其中的异常序列,其中,第一决策函数的规则为:对于每一个序列,当序列的MMD值大于预设的阈值

其中,

上述技术方案的工作原理和有益效果为:通过第一决策函数,实现对异常序列的高效检测。

在一个具体实施例中,参照图2,进入第二阶段设定新的码长重新计算MMD值,并基于预设的第二决策函数筛选出异常序列包括:

当选择码长为

然后通过第二决策函数确定异常序列,决策函数如下:

式中,

上述技术方案的工作原理和有益效果为:通过第一决策函数,实现对异常序列的准确检测。

在一个具体的实施例中,预设的阈值

为了验证本发明的性能,进行了仿真实验,仿真实验结果参照图3至图8,仿真实验的性能指标为错误概率,复杂度指标为程序运行时间,当检验结果为异常序列的全集时,检验正确,当结果遗漏异常序列或包含正常序列时,检验错误,出现检验错误的概率就是异常检测的错误概率,仿真过程如下:

1)设定典型分布为

2)设定典型分布为N(0,1),异常分布为N(0,4),每次观测40个序列,异常序列个数为5。两阶段检验期望码长下的错误概率和复杂度与基于MMD方法的对比如图5、图6所示,两阶段检验实现了性能与复杂度的平衡。

3)混合信源下典型序列采用N(0,1)的正态分布,异常序列采用

通过分析和仿真可以看出,在连续信源和混合信源下,与一般的基于MMD方法的异常检测相比,本发明所提算法的复杂度低,与定长检验的复杂度相当,同时性能优越,与序贯检验的性能相当。基于MMD方法的两阶段检验相比基于MMD方法检测在性能和复杂度上都有较大的优势。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

相关技术
  • 一种两阶段低复杂度Massive MIMO信道估计方法、装置及设备
  • 一种两阶段低复杂度Massive MIMO信道估计方法、装置及设备
技术分类

06120116458880