掌桥专利:专业的专利平台
掌桥专利
首页

基于并联图注意力网络的云平台系统异常检测方法及装置

文献发布时间:2023-06-19 18:46:07


基于并联图注意力网络的云平台系统异常检测方法及装置

技术领域

本发明涉及计算机技术领域,尤其涉及一种基于并联图注意力网络的云平台系统异常检测方法及装置。

背景技术

云计算是分布式计算技术的一种,是继互联网,计算机后在信息时代又一种新的革新。云计算通过互联网按需提供IT资源,并且采用按使用量付费的定价方式。云服务一般可以分为三个层面[1],分别为:IaaS(基础设施即服务):通常提供对网络功能、计算机(虚拟或专用硬件)和数据存储空间的访问;PaaS(平台即服务):为软件研发提供一个平台(服务接口),能够快速将一些服务集成到自己的应用中(为SaaS提供服务);SaaS(软件即服务):它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于web的软件,来管理企业经营活动。我们可以根据需要从诸如Amazon Web Services(AWS)之类的云提供商那里获得技术服务,例如计算能力、存储和数据库,而无需购买、拥有和维护物理数据中心及服务器。因此,云计算系统的可靠性对满足用户的要求并保证服务水平协议(SLA)至关重要。然而,由于底层基础设施的复杂性,云计算的环境受到了大量的挑战,例如内存滥用、磁盘访问次数异常、网络数据包丢失、网络延迟增加和由于程序遇到不可能的终止条件导致的CPU消耗高等,这些都表现为异常。这些挑战明显降低了云的整体可靠性和可用性。这引起了人们对维护云服务的可信赖度的巨大关注[2]。

我们通常使用多元时间序列来监控云计算系统。多变量时间序列通过收集每个时间戳的服务器信息去反映一个系统是否运行正常[3]。系统异常检测是从实时序列中识别异常行为或事件,并报告服务器异常行为的发生。由于云计算系统中拥有丰富的时间序列数据,所以在云计算中,我们利用系统异常检测来报告系统是否健康的运行。因此,系统异常检测对提高云计算系统的可靠性具有重要意义。

近年来,研究人员在系统检测方面提出了许多方法,并取得了重要进展。然而,由于云环境下的复杂性和高动态性,对其的异常检测也变得越来越有挑战性。特别是随着云系统的传感器和设备的增加,数据的波动性也不断增加,对数据异常检测准确推断也越来越难,传统的异常检测方法已经不能满足云计算中异常检测高精度的需求。需要引入深度学习方法来分析时间序列数据,旨在提高系统异常检测的精度和鲁棒性。深度学习已经成功应用到系统异常检测中,其通过构造神经网络,从非结构化的数据中提取信息,学习正常数据的特征及分布,通过重构误差或预测误差识别测试数据中的异常值。深度学习比传统的异常检测方法有更好的性能。

目前,研究人员已经提出了一些时间序列异常检测算法,基于深度学习的无监督异常检测方法和推断时间序列之间的相关性的能力受到了大量的关注:

1.对于高维和无标签数据,研究人员通常使用深度学习方法开发无监督系统异常检测方法。OmniAnomaly[4]提出了系统异常检测的随机模型。它通过学习具有随机变量连接和平面正规化流程的多变量时间序列的鲁棒表示来捕捉数据的正常模式。USAD[5]通过结合自编码器和对抗网络来对数据进行正常和异常分类。TranAD[6]是一种基于深度transformer网络的异常检测和诊断模型,它使用基于注意力的序列编码器能够对时间趋势的知识快速进行推断。

LSTM-VAE[8]简单的结合了LSTM和VAE,通过简单的将VAE中的前馈网络替换成LSTM来组合LSTM和VAE对系统进行异常检测。DAGMM[9]方法使用深度自编码高斯混合模型在特征空间中进行降维,并使用递归网络进行时间建模。这项工作使用高斯的混合物预测输出,其中每个高斯的参数由深度神经模型给出。自动编码器将输入数据点压缩到潜在空间,然后由递归估计网络使用该空间来预测下一个数据点。

2.推断时间序列之间的相关性的能力对系统异常检测至关重要。MSCRED[10]利用向量之间的内积生成签名矩阵来提取不同时间序列之间的相关性.然后将其通过ConvLSTM层,该方法能够捕获更复杂的模态间相关性和时间信息。CCG-EDGAN[11]通过将多元时间序列转换为互相关图,将互相关图放入编码器-解码器GAN的结构中提取相关图的特征以此增加异常检测的精确度。GDN[7]利用图神经网络学习序列之间的关系,并使用基于注意的预测和偏差评分输出异常评分。MTAD-GAT[12]将每个单变量时间序列视为单个特征,利用两个图注意层同时学习多变量时间序列在时间和特征维度上的复杂依赖性。

由于云系统中数据库规模庞大,多元时间序列的不同特征和不同时间相互影响,可能会导致假阳率的增加且异常的多样性和标签的缺乏使系统异常难以检测。因此,现有异常检测方法仍然存在下列不足:①由于云环境中的复杂性和高动态性,数据的不规则波动使得不同的时间序列之间的相关性信息提取难度增加,导致系统异常检测的假阳率增加。②面对高维、海量的数据,现有的基于深度学习的检测方法主要针对特定场景提高检测精度,这不能满足复杂云计算系统的要求。

参考文献

[1]王雄.云计算的历史和优势[J].计算机与网络,2019,45(2):44.

[2]Chengqiang Huang,Geyong Min,Yulei Wu,Yiming Ying,Ke Pei,Zuoch angXiag:Time Series Anomaly Detection for Trustworthy Services in Cloud Computing Systems.IEEE Trans.Big Data8(1):60-72(2022)

[3]Kyle Hundman,Valentino Constantinou,Christopher Laporte,IanColwell,and Tom Soderstrom,"Detecting spacecraft anomalies using lstms and nonparametridynamic thresholding,”in Proceedings of the 24th ACMSIGKDIlnternational Conference on Knowledge Discovery&Data Mining2018,pp.387-395.

[4]Ya Su,Youjian Zhao,Chenhao Niu,Rong Liu,Wei Sun,Dan Pei:Rob ustAnomaly Detection for Multivariate Time Series through Stochastic RecurrentNeural Network.KDD2019:2828-2837

[5]Julien Audibert,Pietro Michiardi,Frédéric Guyard,Sébastien Marti,and Maria A Zuluaga.2020.USAD:UnSupervised Anomaly Detection on MultivariateTime Series.In Proceedings of the 26th ACM SIGKDD International Conference onKnowledge Discovery&Data Mining.3395–3404

[6]Shreshth Tuli,Giuliano Casale,Nicholas R.Jennings:TranAD:DeepTransformer Networks for Anomaly Detection in Multivariate Time SeriesData.Proc.VLDB Endow.15(6):1201-1214(2022)

[7]Ailin Deng,Bryan Hooi:Graph Neural Network-Based Anomaly Detection in Multivariate Time Series.AAAI2021:4027-4035

[8]Daehyung Park,Yuuna Hoshi,and Charles C.Kemp.2018.A MultimodalAnomaly Detector for Robot-Assisted Feeding Using an LSTM-Based VariationalAutoencoder.IEEE Robotics and Automation Letters3(2018),1544–1551.

[9]Bo Zong,Qi Song,Martin Renqiang Min,Wei Cheng,Cristian Lumezanu,Daeki Cho,and Haifeng Chen.2018.Deep autoencoding Gaussian mixture model forunsupervised anomaly detection.In 6th International Conference on LearningRepresentations,ICLR 2018.Toulon,France,1–19.

[10]Chuxu Zhang,Dongjin Song,Yuncong Chen,Xinyang Feng,CristianLumezanu,Wei Cheng,Jingchao Ni,Bo Zong,Haifeng Chen,NiteshV.Chawla:A DeepNeural Network for Unsupervised Anomaly Detection and Diagnosis inMultivariate Time Series Data.AAAI 2019:1409-1416

[11]Haoran Liang,Lei Song,Jianxing Wang,et al.Robustunsupervisedanomaly detection via multi-time scale DCGANs with forgettingmechanism forindustrial multivariate time series[J].Neurocomputing,2021,423:444-462.

[12]Hang Zhao,Yujing Wang,Juanyong Duan,Congrui Huang,Defu Cao,Yunhai Tong,Bixiong Xu,Jing Bai,Jie Tong,Qi Zhang:Multivariate Time-seriesAnomaly Detection via Graph Attention Network.CoRR abs/2009.02040(2020)

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于并联图注意力网络的云平台系统异常检测方法及装置。

本发明通过以下技术方案来实现上述目的:

基于并联图注意力网络的云平台系统异常检测方法,包括:

S1、构建异常检测模型,异常检测模型包括输入层、一维卷积层、两个图神经网络层、多头自注意层、自回归层和输出层,输入层用于输入待预测数据,两个图神经网络层分别用于提取待预测数据的特征相关性矩阵和时间相关性矩阵,输出层用于集成多头自注意层和自回归层的输出并得到预测结果,输入层的输出分别与一维卷积层和自回归层连接,一维卷积层的输出分别与两个图神经网络层和多头自注意层连接,两个图神经网络层的输出均与多头自注意层连接,多头自注意层的输出和自回归层的输出均与输出层连接;

S2、获取数据集,并导入到异常检测模型;

S3、根据数据集对异常检测模型进行训练优化,获得优化后的异常检测模型;

S4、获取待分析数据并导入到优化后的异常检测模型,获得预测结果;

S5、根据预测结果得到异常检测结果。

基于并联图注意力网络的云平台系统异常检测,包括:

储存器;储存器用于储存程序;

执行器;执行器用于执行程序,执行器执行储存器中的程序时,实现如上所述的基于并联图注意力网络的云平台系统异常检测方法。

本发明的有益效果在于:利用图注意力网络分别挖掘多变量时间序列中面向特征维度和面向时间维度的相互依赖性,减少了因为云平台系统性能不规则波动导致的假阳性检测;利用多头自注意力机制和自回归模型学习数据特征,提高了异常检测的鲁棒性。

附图说明

图1是本发明异常检测模型的结构示意图;

图2为本模型与所有基线方法的F1-Score对比图;

图3为本模型与所有基线方法的recall对比图;

图4为本模型与所有基线方法的precision对比图;

图5为模型与所有基线方法在precision,recall,F1值上的综合排名图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要理解的是,术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图,对本发明的具体实施方式进行详细说明。

下面结合附图对本发明作进一步说明:

基于并联图注意力网络的云平台系统异常检测方法,包括:

S1、构建异常检测模型,异常检测模型包括输入层、一维卷积层、两个图神经网络层、多头自注意层、自回归层和输出层,输入层用于输入待预测数据,两个图神经网络层分别用于提取待预测数据的特征相关性矩阵和时间相关性矩阵,输出层用于集成多头自注意层和自回归层的输出并得到预测结果,输入层的输出分别与一维卷积层和自回归层连接,一维卷积层的输出分别与两个图神经网络层和多头自注意层连接,两个图神经网络层的输出均与多头自注意层连接,多头自注意层的输出和自回归层的输出均与输出层连接。

S2、获取数据集,并导入到异常检测模型;具体包括:

S21、获取多个云平台服务器运行的实时数据作为数据集,实时数据为云平台服务器的多变量时间序列x={x

S22、为了提高模型的精度,采用min-max标准化对数据集进行数据标准化处理,获得标准化的数据集,将不同规格的数据转换到统一的规格中,以减少规模、特征、分布差异对异常检测模型的影响;

S23、利用傅里叶变化去除标准化的数据集中的噪音,获得待预测数据,具体为:将滑动窗口中的多变量时间数据的每一列特征数据当做一个单维时间序列进行时间序列去噪,使用快速傅里叶变换将时间序列从时域变换到频域,将傅里叶变换后的序列中所有大于该序列平均值的数据点视为噪音,将其过滤掉用0代替。

S3、根据数据集对异常检测模型进行训练优化,获得优化后的异常检测模型;训练异常检测模型包括:

a、将待预测数据通过一层核大小为7的一维卷积层提取每个时间序列的高维特征,并通过自回归层得到第一预测值,高维特征包括时间维度x

b、提取的高维特征输入到两个图神经网络层分别得到特征相关性矩阵和时间相关性矩阵;具体为:利用向量之间的内积来计算面向特征维度和面向时间维度的相关性,特征表示为

c、将特征相关性矩阵、时间相关性矩阵与提取的高维特征进行拼接融合,得到融合矩阵;具体为:为了融合不同的信息,我们将基于特征相关性和时间相关性的输出表示与只经过卷积处理的数据拼接到一起,形成具有n×3m形状的矩阵,其中每行表示每个时间戳的3m维特征向量;

d、融合矩阵输入到多头自注意层,利用多头自注意机制,设置M个头来学习数据中的上下文信息,其中M是多元时间序列中的特征数,然后对时间序列中t时刻的x值进行预测得到第二预测值

e、第一预测值和第二预测值输入到输出层进行集成,并的到预测结果

f、利用均方根误差作为异常检测模型的损失函数,对异常检测模型进行训练优化,损失函数表示为

S4、获取待分析数据并导入到优化后的异常检测模型,获得预测结果。

S5、根据预测结果得到异常检测结果,异常检测结果的分数计算公式为

基于并联图注意力网络的云平台系统异常检测,包括:

储存器;储存器用于储存程序;

执行器;执行器用于执行程序,执行器执行储存器中的程序时,实现如上所述的基于并联图注意力网络的云平台系统异常检测方法。

模型性能指标

模型的性能比较采用分类的几个基于混淆矩阵的主要性能指标:精确率、召回率、F1-Score。

精确率指模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例,计算公式为

召回率指实际为正的样本中被预测为正的样本所占实际为正的样本的比例,计算公式为:

F1score是精确率和召回率的调和平均值,计算公式为:

此外我们还使用F1Average Rank来验证模型的鲁棒性。F1 Average Rank表示七个数据集中每个模型的F1-score得分的平均排名

模型比较结果从图2、图3、图4、图5和表1可以看出,与已有模型相比,本模型在真实数据集实验结果如下:

表1本技术与5种异常检测方法在5个数据集上的检测性能对比

从表1可以看出,本模型优于machine-3-5,SMD,SMAP上的所有方法。平均而言,本模型的F1评分为86%,与基线方法相比是最高的。对于MSL和machine-2-6这两个数据集,本模型的F1得分略低于最佳基线方法。本模型在除MSL数据集以外的4个数据集上的表现效果都优于最先进的方法(MTAD-CAT),其F1值相对增强了9.8%,26.4%,14.9%,21.7%。本模型的稳健性优于基线模型,因为在5个数据集上,本模型的F1值均在0.8以上,召回率均在0.86以上。这是其他基线方法都无法实现的。在F1值的平均排名来看,本模型排名也在第一位。

图2,3,4分别展示了best-f1,recall和precision在本模型和MTAD-GAT,GDN和pyod常用方法上的表现,从图中可以看出,本模型在三个评估指标上表现都较好,且在5个数据集上的评估指标的波动幅度都较小,证明了本模型的稳健性。

如图5所示,本模型在所有数据集上评估指标表现的综合排名为第一。

本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

技术分类

06120115685961