掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及关键性能指标的监控技术领域,尤其涉及一种指标异常检测与标签生成方法和装置。

背景技术

为了保证业务系统能够稳定且可靠地提供服务,在业务系统运行过程中,需要及时发现业务系统的运行异常,并及早处理业务系统中的异常。

为了能够较为及时的发现业务系统的运行异常,可以对业务系统涉及到的一些关键性能指标进行监测。基于此,在获得业务系统的关键性能指标的数据之后,如何确定关键性能指标的数据是否存在异常并标注出存在异常的关键性能指标是本领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种指标异常检测与标签生成方法和装置,以能够较为准确地检测出业务系统中关键性能指标的异常,并为存在异常的关键性能指标生成异常标签。

一方面,本申请提供了一种指标异常检测与标签生成方法,包括:

获得业务系统中待检测的关键性能指标的指标序列数据,所述指标序列数据包括:所述关键性能指标在多个时间点的指标数据;

将所述指标序列数据输入到经过训练的变分自编码器,获得所述变分自编码器中的编码器输出的编码特征分布;

确定所述编码特征分布与用于作为先验分布的多元高斯分布的第一相对熵;

如果所述第一相对熵大于设定的异常阈值,确定所述关键性能指标存在异常,为所述关键性能指标生成异常标签;

其中,所述变分自编码器是利用所述关键性能指标对应的多个标注有类别的指标序列数据样本,且以最小化第二相对熵和样本误差,并最大化非正常样本与所述多元高斯分布的第三相对熵为目标训练得到的,所述指标序列数据样本的类别属于正常和异常中的一种;

所述第二相对熵为正常指标序列数据样本与所述多元高斯分布的相对熵,所述正常指标序列数据样本为类别为正常的指标数据序列样本;

所述样本误差为所述正常指标序列数据样本与所述变分自编码器对所述正常指标序列数据样本重构出的重构序列数据样本之间的误差;

所述非正常样本包括:类别为异常的指标序列数据样本;所述重构序列数据样本;以及,从所述变分自编码器的编码器对所述指标序列数据样本编码得到的编码特征分布样本中,随机抽取出的随机序列数据样本。

优选的,如果所述第一相对熵大于设定的异常阈值,确定所述关键性能指标存在异常,为所述关键性能指标生成异常标签,包括:

确定所述第一相对熵与所述异常阈值的差值;

确定所述差值的绝对值与所述异常阈值的百分比;

基于所述百分比以及设定的多个百分比阈值区间,确定所述关键性能指标存在异常的异常等级;

为所述关键性能指标生成与所述异常等级相对应的异常标签。

优选的,所述异常阈值的数值通过如下方式得到:

针对每个标注有类别的指标序列数据样本,将所述指标序列数据样本输入到经过训练的变分自编码器,得到所述变分自编码编码器输出的编码特征分布样本;

针对每个指标序列数据样本,确定所述指标序列数据样本对应的编码特征分布样本与所述多元高斯分布的第四相对熵;

设置异常阈值的初始值;

以所述第四相对熵大于所述异常阈值作为确定所述指标序列数据样本存在异常的异常检测标准,确定所述指标序列数据样本的异常检测结果;

结合各指标序列数据样本标注的类别,确定多个指标数据序列样本的异常检测结果对应的召回率或者精准率;

如果所述召回率或者精准率不满足条件,调整所述异常阈值的取值,基于调整取值后的异常阈值执行所述确定所述指标序列数据样本的异常检测结果的操作;

如果所述召回率或者精准率满足条件,将所述异常阈值当前的取值确定为设定为所述异常阈值的数值。

优选的,所述变分自编码器为利用所述关键性能指标对应的多个标注有类别的指标序列数据样本,并基于目标函数训练得到的;

其中,所述目标函数包括:

所述变分自编码器中的编码器对应的如下第一目标函数J

以及,所述变分自编码器中解码器对应的如下第二目标损失函数J

其中,y表示类别为正常的指标序列数据样本,y

Enc(y)表示y经过所述变分自编码器中的编码器得到的编码特征分布样本;

Enc(y

KL(Enc(y))表示Enc(y)与所述多元高斯分布的相对熵;

KL(Enc(y

α和β为设定的不同加权系数,m为设定的参数值;

Enc(ng(y

KL(Enc(ng(y

优选的,所述指标序列数据样本通过如下方式得到:

获得所述关键指标数据的候选指标序列数据,所述候选指标序列数据包括多个不同历史时间点上的候选指标数据;

分别确定所述候选指标序列数据中各候选指标数据的标准分数,将所述候选指标序列数据中所述候选指标数据替换为所述候选指标数据的标准分数,得到重构后的候选指标序列数据;

采用设定长度的滑动窗对所述候选指标序列数据进行采样,得到采样出的多个指标序列数据样本。

又一方面,本申请还提供了一种指标异常检测装置,包括:

数据获得单元,用于获得业务系统中待检测的关键性能指标的指标序列数据,所述指标序列数据包括:所述关键性能指标在多个时间点的指标数据;

模型处理单元,用于将所述指标序列数据输入到经过训练的变分自编码器,获得所述变分自编码器中的编码器输出的编码特征分布,其中,所述变分自编码器是利用所述关键性能指标对应的多个标注有类别的指标序列数据样本,且以最小化第二相对熵和样本误差,并最大化非正常样本与所述多元高斯分布的第三相对熵为目标训练得到的,所述指标序列数据的类别属于正常和异常中的一种;所述第二相对熵为正常指标序列数据样本与所述多元高斯分布的相对熵,所述正常指标序列数据样本为类别为正常的指标数据序列样本;所述样本误差为所述正常指标序列数据样本与所述变分自编码器对所述正常指标序列数据样本重构出的重构序列数据样本之间的误差;所述非正常样本包括:类别为异常的指标序列数据样本;所述重构序列数据样本;以及,从所述变分自编码器的编码器对所述指标序列数据样本编码得到的编码特征分布样本中,随机抽取出的随机序列数据样本;

熵确定单元,用于确定所述编码特征分布与用于作为先验分布的多元高斯分布的第一相对熵;

异常检测单元,用于如果所述第一相对熵大于设定的异常阈值,确定所述关键性能指标存在异常,为所述关键性能指标生成异常标签。

优选的,所述异常检测单元,包括:

差值确定单元,用于如果如果所述第一相对熵大于设定的异常阈值,确定所述第一相对熵与所述异常阈值的差值;

百分比确定单元,用于确定所述差值的绝对值与所述异常阈值的百分比;

异常程度确定单元,用于基于所述百分比以及设定的多个百分比阈值区间,确定所述关键性能指标存在异常的异常等级;

标签生成单元,用于为所述关键性能指标生成与所述异常等级相对应的异常标签。

优选的,该装置还包括:异常阈值确定单元,用于通过如下方式得到所述异常阈值的数值:

针对每个标注有类别的指标序列数据样本,将所述指标序列数据样本输入到经过训练的变分自编码器,得到所述变分自编码编码器输出的编码特征分布样本;

针对每个指标序列数据样本,确定所述指标序列数据样本对应的编码特征分布样本与所述多元高斯分布的第四相对熵;

设置异常阈值的初始值;

以所述第四相对熵大于所述异常阈值作为确定所述指标序列数据样本存在异常的异常检测标准,确定所述指标序列数据样本的异常检测结果;

结合各指标序列数据样本标注的类别,确定多个指标数据序列样本的异常检测结果对应的召回率或者精准率;

如果所述召回率或者精准率不满足条件,调整所述异常阈值的取值,基于调整取值后的异常阈值执行所述确定所述指标序列数据样本的异常检测结果的操作;

如果所述召回率或者精准率满足条件,将所述异常阈值当前的取值确定为设定为所述异常阈值的数值。

由以上可知,在本申请实施例中,在获得业务系统中待检测的关键性能指标的指标序列数据之后,可以利用训练出的变分自编码器中的编码器得到所述指标序列数据经过编码后的编码特征分布。由于变分自编码器是利用关键性能指标对应的标注有类别的多个指标序列数据样本,且以最大化非正常样本与多元高斯分布的相对熵为目标训练得到的,因此,在利用该变分自编码器中的编码器对关键性能坐标的指标序列数据进行编码得到的编码特征分布之后,该编码特征分布与多元高斯分布的相对熵便可以较为准确地反映出该指标序列数据是否为异常数据。在此基础上,基于关键性能坐标的指标序列数据对应的编码特征分布与多元高斯分布的相对熵以及设定的异常阈值,便可以较为准确地确定出该关键性能指标是否存在异常,也就可以较为准确地检测出关键性能指标的异常,并为存在异常的关键性能指标标注出异常标签。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例提供的一种指标异常检测方法的一种流程示意图;

图2示出了本申请实施例中获得指标序列数据样本的一种流程示意图;

图3示出了本申请实施例中确定异常阈值的一种实现流程示意图;

图4示出了本申请实施例提供的指标异常检测装置的一种组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1,其示出了本申请实施例提供的指标异常检测方法的一种流程示意图,本实施例的方法可以应用于计算机设备,如服务器或者是其他具备数据处理能力的计算节点等。

本实施例的方法可以包括:

S101,获得业务系统中待检测的关键性能指标的指标序列数据。

可以理解的是,业务系统可以是提供各种应用服务的业务应用系统,在不同应用场景下,业务系统也会有所不同。

该业务系统的类型可以有多种可能,如业务系统基于微服务架构的云业务系统,其中,微服务是一种软件架构风格,微服务专注于单一责任与功能的小型功能区块为基础,这种小型功能区块也被称为服务。每个服务围绕着具体的业务进行构建,并且能够被独立部署。服务之间采用轻量化的通信机制,且有明确的接口定义。进而可以互相协调、互相配合,为用户提供最终价值。当然,业务系统也可以为其他形式的业务系统,对此不加限制。

业务系统的关键性能指标(Key Performance Indicator,KPI)是指能够反映对业务系统的运行状况以及故障状况的指标。通过监测业务系统的关键性能指标可以有助于及时发现业务系统的运行状态,因此,依据关键性能指标是否存在异常的检测结果,可辅助运维人员对业务系统的健康状态、业务指标异常度、检修风险等进行智能评估或诊断,更合理的规划编制运维方案和计划。

可以理解的是,业务系统的关键性能指标可以有多种,但是对于每一种关键性能指标均可以采用本申请的方案进行异常检测。

关键性能指标的指标序列数据包括:关键性能指标在多个时间点的指标数据。具体的,该关键性能指标部可以包括:采集该关键性能指标的多个时间点以及每个时间点上采集到的指标数据。

S102,将指标序列数据输入到经过训练的变分自编码器,获得该变分自编码器中的编码器输出的编码特征分布。

其中,变分自编码器(Variational Auto Encoder,VAE),是采用变分思想的一种自编码器网络模型,VAE包括编码器和解码器,其中,编码器也称为推断模型,解码器也称为生成模型。

在本申请中,变分自编码器是利用关键性能指标对应的多个标注有类别的指标序列数据样本,且以最小化正常指标序列数据样本与用于作为先验分布的多元高斯分布的相对熵,最小化样本误差,并最大化非正常样本与用于作为先验分布的多元高斯分布的相对熵为目标训练得到的。

其中,相对熵也称为KL散度,是用来衡量两个分布的相似度的一个度量指标。在训练VAE中相对熵为指标序列数据样本的分布与先验分布之间的KL散度,且假设先验分布为多元高斯分布N(0,I)。

其中,指标序列数据样本是用于属于该关键性能指标,且作为训练VEA的训练样本的指标序列数据。与指标数据序列相似,每个指标序列数据样本可以包括关键性能指标在多个历史时间点上的指标数据样本。为了便于区分,将用于训练VEA的指标序列数据称为指标序列数据样本,将指标序列数据样本中涉及到的时间点称为历史时间点,将历史时间点对应的指标数据称为指标数据样本。

指标序列数据样本的类别用于表示该指标序列数据样本是否属于异常数据样本。如,类别可以分为异常和正常两种,因此,对于一个指标序列数据样本而言,其标注的类别可以为正常和异常中的一种。如果指标序列数据样本的类别为正常,表示该指标序列数据样本属于关键性能指标正常情况下的正常数据;反之,如果指标序列数据样本的类别为异常,表示该指标序列数据样本属于关键性能指标异常情况下的异常数据。

相应的,指标序列数据样本可以分为正常指标数据序列样本和异常指标序列数据样本,其中,正常指标序列数据样本为类别为正常的指标数据序列样本。异常指标数据序列样本为类别为异常的指标数据序列样本。

其中,样本误差为正常指标序列数据样本与变分自编码器对该正常指标序列数据样本重构出的重构序列数据样本之间的误差。

在本申请中,指标序列数据样本可以通过大数据或者业务系统历史上采集到的指标序列数据进行采样等得到,对于具体获得指标序列数据的过程不加限制。

非正常样本是指类别为正常的指标序列数据样本之外,训练用的指标序列数据样本以及变分编码器训练过程中生成的其他指标序列数据样本。具体的,非正常样本可以包括:类别为异常的指标序列数据样本;正常指标序列数据样本对应的重构序列数据样本;以及,从变分自编码器的编码器对该指标序列数据样本编码得到的编码特征分布样本中,随机抽取出的随机序列数据样本。

其中,随机序列数据样本可以是VAE的编码器基于随机噪声得到的。

可以理解的是,VAE的编码器基于指标序列数据本质输出的指标序列数据对应的一系列的均值和方差,对于指标序列数据样本也类似。基于此,随机序列数据样本也是从VAE的编码器输出的均值和方差中提取数据,构建出的数据样本。

基于本申请中训练VAE的训练目标可知,在本申请中要求VAE能够使得正常指标序列数据样本与其对应的编码特征分布样本之间的相对熵最小,并使得正常指标序列数据样本与其对应的重构序列数据样本的误差最小。基于此,在应用训练出的VAE时,能够使得关键性能指标正常下采集到的指标序列数据与通过VAE得到的编码分布特征的相对熵较小,而使得异常的指标序列数据与其对应的编码分布特征的相对熵较大,从而有助于准确筛选出存在异常的指标序列数据。

进一步的,为了能够基于VAE更准确的检测出关键性能指标的异常数据,本申请在训练VAE时,还考虑到VAE生成样本质量的评估,即考虑到非正常样本对应的KL散度的惩罚,从而使得基于训练出的VAE能够更为显著增大异常的指标序列数据与其编码分布特征的相对熵,进一步提高关键性能指标的异常检测的准确度。

S103,确定该编码特征分布与用于作为先验分布的多元高斯分布的第一相对熵。

如前面所述,相对熵也称为KL散度。在本申请中,为了便于区分,将基于VAE得到的指标数据序列对应的编码特征分布与多元高斯分布的相对熵称为第一相对熵。

其中,计算相对熵的具体方式可以不加限制。

S104,如果该第一相对熵大于设定的异常阈值,确定该关键性能指标存在异常,为该关键性能指标生成异常标签。

当然,如果该第一相对熵不大于设定的异常阈值,确定关键性能指标不存在异常,可以为该关键性能指标生成正常标签。

可以理解的是,在实际应用中,在关键性能指标存在异常的情况下,由于关键性能指标的指标序列数据的具体异常情况等不同,该关键性能指标的异常程度也会有所不同,基于此,本申请可以确定关键性能指标存在异常的异常等级,并生成与该异常等级对应的异常标签。后续会以一种实现方式为例说明,在此不再赘述。

由以上可知,在本申请实施例中,在获得业务系统中待检测的关键性能指标的指标序列数据之后,可以利用训练出的变分自编码器中的编码器得到所述指标序列数据经过编码后的编码特征分布。由于变分自编码器是利用关键性能指标对应的标注有类别的多个指标序列数据样本,且以最大化非正常样本与多元高斯分布的相对熵为目标训练得到的,因此,在利用该变分自编码器中的编码器对关键性能坐标的指标序列数据进行编码得到的编码特征分布之后,该编码特征分布与多元高斯分布的相对熵便可以较为准确地反映出该指标序列数据是否为异常数据。在此基础上,基于关键性能坐标的指标序列数据对应的编码特征分布与多元高斯分布的相对熵以及设定的异常阈值,便可以较为准确地确定出该关键性能指标是否存在异常异常情况,也就可以较为准确地检测出关键性能指标的异常,并为存在异常的关键性能指标标注出异常标签。

可以理解的是,在本申请中,训练VAE采用的指标序列数据样本可以通过多种方式得到,对此不加限制。

为了便于理解,下面以获得指标序列数据样本的一种实现方式为例进行说明。如图2所示,其示出了本申请中获得用于训练VAE的指标序列数据样本的一种流程示意图,本实施例可以包括:

S201,获得关键指标数据的候选指标序列数据。

其中,候选指标序列数据包括多个不同历史时间点上的候选指标数据。

候选指标数据适用于生成训练用的指标序列数据样本的指标数据的序列。

可以理解的是,为了降低对VAE训练的异常影响,在获得候选指标序列数据之后,还可以先对候选指标数据进行预处理,如剔除候选指标序列数据中存在明显错误的候选指标数据。

S202,分别确定该候选指标序列数据中各候选指标数据的标准分数,将候选指标序列数据中候选指标数据替换为该候选指标数据的标准分数,得到重构后的候选指标序列数据。

其中,候选指标数据的标准分数也称为Z分数(Z-score)。

如,候选指标序列数据中各候选指标数据组成的时间序列可以表示:X=(x'

在此基础上,对于任意一个候选指标数据x′

其中,μ

通过候选指标序列数据中的候选指标数据替换为候选指标数据的标准分数,有利于提高后续训练VAE的训练效果。

S203,采用设定长度的滑动窗对候选指标序列数据进行采样,得到采样出的多个指标序列数据样本。

在本申请中候选指标序列数据可以嵌入有采集候选指标数据的历史时间点。历史时间点可以根据需要细化为时、分、秒等,对此不加限制。

为了便于计算机识别,每个历史时间点可以采用编码形式表示,如将历史时间点表示转换为one-hot编码。基于此,历史时间点的编码信息可以表示为t

在此基础上,可以设定滑动窗长度为L,每次从候选指标序列数据中选取L长度的一个指标数据序列样本,那么指标数据序列样本Y

可以理解的是,候选指标序列数据可以有一个或者多个,但是对于从每个候选指标序列数据中提取指标序列数据样本的过程都相似,对此不再赘述。

在得到多个指标序列数据样本之后,本申请可以基于指标序列数据样本对应的候选指标序列数据的正常或者异常,为指标序列数据样本标注类别。当然,也可以由人工根据实际情况来标注指标序列数据样本的类别,对此不加限制。

在本申请中,基于多个指标序列数据样本训练VAE的过程可以采用目前任意训练VAE的方式,对此不加限制。只不过本申请中训练VAE需要满足前面提到的训练目标。

在一种可能的实现方式中,变分自编码器为利用关键性能指标对应的多个标注有类别的指标序列数据样本,并基于目标函数训练得到的。

其中,该目标函数包括:

变分自编码器中的编码器对应的如下第一目标函数J

以及,所述变分自编码器中解码器对应的如下第二目标损失函数J

其中,y表示类别为正常的指标序列数据样本,即正常指标序列数据样本,y

Enc(y)表示类别为正常的指标序列数据样本经过所述变分自编码器中的编码器得到的编码特征分布样本;

Enc(y

KL(Enc(y))表示Enc(y)与多元高斯分布的相对熵;

KL(Enc(y

α和β为设定的不同加权系数,具体取值可以根据需要设定。

m为设定的参数值,参数值的具体值可以预先设定。

Enc(ng(y

KL(Enc(ng(y

[m-KL(Enc(y

其中,相对熵或者说KL散度的计算可以不加限制。为了便于理解,以一种方式为例说明,假设任意一个指标序列数据样本y

其中,M为μ

在以上基础上,本申请训练得到VAE之后,为了能够更准确的识别出关键指标数据的异常数据,还可以利用VAE对多个指标序列数据样本进行测试,并结合召回率或者精准率来合理设定前面提到的异常阈值。

如图3所示,其示出了本申请中确定异常阈值的取值的一种实现流程示意图,本实施例可以包括:

S301,针对每个标注有类别的指标序列数据样本,将该指标序列数据样本输入到经过训练的变分自编码器,得到变分自编码编码器输出的编码特征分布样本。

S302,针对每个指标序列数据样本,确定指标序列数据样本对应的编码特征分布样本与多元高斯分布的第四相对熵。

为了便于区分,将本实施例中指标序列数据样本对应的编码特征分布与多元高斯分布的KL散度称为第四相对熵。计算第四相对熵的过程可以参见前面相关介绍,在此不再赘述。

S303,设置异常阈值的初始值。

初始值可以根据实际情况设定。

S304,以第四相对熵大于异常阈值作为确定指标序列数据样本存在异常的异常检测标准,确定指标序列数据样本的异常检测结果。

指标序列数据样本的异常检测结果为基于VAE中的编码器得到的编码特征分布以及该设定的异常阈值,预测出的该指标序列数据样本是否正常的检测结果。相应的,异常检测结果可以表征该指标序列数据样本是否被检测为异常的指标序列数据样本。

如,以指标序列数据样本y

S305,结合各指标序列数据样本标注的类别,确定多个指标数据序列样本的异常检测结果对应的召回率或者精准率。

可以理解的是,指标序列数据样本标注的类别可以表征出该指标序列数据样本实际上是否为异常的指标序列数据样本,在此基础上,结合指标序列数据样本标注的类别,可以确定出该指标序列数据样本的异常检测结果是否正确。在此基础上,结合多个指标序列数据样本的类别以及异常检测结果是否正确的信息,最终可以得到多个指标序列数据样本对应的召回率和精准率。

其中,召回率是指:类别为正常的指标序列数据样本被预测为正常的指标序列数据样本的数量与正常的指标序列数据样本的总数量的比值。

精准率是指,被预测为正常的指标序列数据样本实际上也属于正常的指标序列数据样本的比例。

S306,判断召回率或者精准率是否满足条件,如果是,将异常阈值当前的取值设定为该异常阈值的数值;如果否,则执行步骤S307;

其中,召回率以及精准率各自所需满足的条件可以根据需要设定。如,召回率大于第一阈值,类似的,精准率满足条件可以为精准率大于第二阈值等。对此不加限制。

可以理解的是,如果召回率或者精准率满足条件,可以认为当前异常阈值设定的比较合理,无需再调整异常阈值的取值;反之,如果召回率或者精准率不满足条件,则可以调整异常阈值的取值,并继续检测召回率和精准率是否满足条件。

S307,调整异常阈值的取值,基于调整取值后的异常阈值返回执行S304。

在本申请中,基于关键性能指标的指标序列数据,确定出关键性能是否存在异常后,为了能够更准确的分析关键性能指标的异常程度,本申请还可以确定该关键性能指标存在异常的异常等级。

具体的:可以确定指标序列数据与指标序列数据的编码特征分布之间的第一相对熵与该异常阈值的差值;在此基础上,可以确定该差值的绝对值与异常阈值的百分比dp。相应的,可以基于百分比dp以及设定的多个百分比阈值区间,确定关键性能指标存在异常的异常等级。相应的,可以为关键性能指标生成与确定出的异常等级相对应的异常标签。

其中,在本申请中异常等级的数量以及划分方式均可以根据需要设定。相应的,百分比阈值区间可以根据需要设定,对此不加限制。

例如,可以预先设定三个阈值:a1、a2和a3,这三个阈值中a1最小、a3最大。利用这三个阈值可以划分出三个百分比阈值区间,相应的,对于关键性能指标的指标序列数据,如果通过如上方式确定出的百分比dp大于a1但是小于或者等于a2,则确定该关键性能指标处于一般异常;如果百分比dp大于a2但是小于或者等于a3,则说明该关键性能指标存在重要异常,其处于重要异常这一等级;类似的,如果百分比dp大于a3,则说明该关键性能指标处于严重异常这一异常等级。

对应本申请实施例提供的指标异常检测方法,本申请还提供了一种指标异常检测装置。如图4所示,其示出了本申请实施例提供的指标异常检测装置的一种组成结构示意图,本实施例的装置可以包括:

数据获得单元401,用于获得业务系统中待检测的关键性能指标的指标序列数据,所述指标序列数据包括:所述关键性能指标在多个时间点的指标数据;

模型处理单元402,用于将所述指标序列数据输入到经过训练的变分自编码器,获得所述变分自编码器中的编码器输出的编码特征分布,其中,所述变分自编码器是利用所述关键性能指标对应的多个标注有类别的指标序列数据样本,且以最小化第二相对熵和样本误差,并最大化非正常样本与所述多元高斯分布的第三相对熵为目标训练得到的,所述指标序列数据样本的类别属于正常和异常中的一种;所述第二相对熵为正常指标序列数据样本与所述多元高斯分布的相对熵,所述正常指标序列数据样本为类别为正常的指标数据序列样本;所述样本误差为所述正常指标序列数据样本与所述变分自编码器对所述正常指标序列数据样本重构出的重构序列数据样本之间的误差;所述非正常样本包括:类别为异常的指标序列数据样本;所述重构序列数据样本;以及,从所述变分自编码器的编码器对所述指标序列数据样本编码得到的编码特征分布样本中,随机抽取出的随机序列数据样本;

熵确定单元403,用于确定所述编码特征分布与用于作为先验分布的多元高斯分布的第一相对熵;

异常检测单元404,用于如果所述第一相对熵大于设定的异常阈值,确定所述关键性能指标存在异常,为所述关键性能指标生成异常标签。

在一种可能的实现方式中,异常检测单元,包括:

差值确定单元,用于如果如果所述第一相对熵大于设定的异常阈值,确定所述第一相对熵与所述异常阈值的差值;

百分比确定单元,用于确定所述差值的绝对值与所述异常阈值的百分比;

异常程度确定单元,用于基于所述百分比以及设定的多个百分比阈值区间,确定所述关键性能指标存在异常的异常等级;

标签生成单元,用于为所述关键性能指标生成与所述异常等级相对应的异常标签。

在又一种可能的实现方式中,还包括:异常阈值确定单元,用于通过如下方式得到所述异常阈值的数值:

针对每个标注有类别的指标序列数据样本,将所述指标序列数据样本输入到经过训练的变分自编码器,得到所述变分自编码编码器输出的编码特征分布样本;

针对每个指标序列数据样本,确定所述指标序列数据样本对应的编码特征分布样本与所述多元高斯分布的第四相对熵;

设置异常阈值的初始值;

以所述第四相对熵大于所述异常阈值作为确定所述指标序列数据样本存在异常的异常检测标准,确定所述指标序列数据样本的异常检测结果;

结合各指标序列数据样本标注的类别,确定多个指标数据序列样本的异常检测结果对应的召回率或者精准率;

如果所述召回率或者精准率不满足条件,调整所述异常阈值的取值,基于调整取值后的异常阈值执行所述确定所述指标序列数据样本的异常检测结果的操作;

如果所述召回率或者精准率满足条件,将所述异常阈值当前的取值确定为设定为所述异常阈值的数值。

在又一种可能的实现方式中,本申请中的所述变分自编码器为利用所述关键性能指标对应的多个标注有类别的指标序列数据样本,并基于目标函数训练得到的;

其中,所述目标函数包括:

所述变分自编码器中的编码器对应的如下第一目标函数J

以及,所述变分自编码器中解码器对应的如下第二目标损失函数J

其中,y表示类别为正常的指标序列数据样本,y

Enc(y)表示y经过所述变分自编码器中的编码器得到的编码特征分布样本;

Enc(y

KL(Enc(y))表示Enc(y)与所述多元高斯分布的相对熵;

KL(Enc(y

α和β为设定的不同加权系数,m为设定的参数值;

Enc(ng(y

KL(Enc(ng(y

在又一种可能的实现方式中,该装置还包括样本获得单元,用于通过如下方式得到所述指标序列数据样本:

获得所述关键指标数据的候选指标序列数据,所述候选指标序列数据包括多个不同历史时间点上的候选指标数据;

分别确定所述候选指标序列数据中各候选指标数据的标准分数,将所述候选指标序列数据中所述候选指标数据替换为所述候选指标数据的标准分数,得到重构后的候选指标序列数据;

采用设定长度的滑动窗对所述候选指标序列数据进行采样,得到采样出的多个指标序列数据样本。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

技术分类

06120115928907