掌桥专利:专业的专利平台
掌桥专利
首页

故障根因分析方法、装置、设备和可读存储介质

文献发布时间:2024-04-18 19:58:26


故障根因分析方法、装置、设备和可读存储介质

技术领域

本发明涉及无线网络与人工智能领域,尤其是指一种故障根因分析方法、装置、设备和可读存储介质。

背景技术

现有资源池服务器硬盘、存储设备、网络端口或交换机故障主要通过监控CPU、内存、网络等性能指标监控,当性能指标超过预配置阈值时发送告警通知,由人工核查指标,以及服务器系统日志、网络日志等方式查找根原因。

但是对于网络闪断即时断时续的故障场景,难以准确定位故障原因,具有效率低且不准确的缺点。并且由于服务器与存储节点间网络不稳定、抖动等原因造成存储设备在集群中不断地离线上线,易于造成资源池集群性能不稳定。

发明内容

本发明的目的是提供一种故障根因分析方法、装置、设备和可读存储介质,用于解决在资源池发生故障时,故障定位效率低且不准确的问题。

为了解决上述技术问题,本发明实施例提供一种故障根因分析方法,包括:

采集故障训练数据,所述故障训练数据包括故障文本数据和至少一第一监测构件的性能数据;

根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第一监测组件对应一个性能图像,每一所述第一监测组件包括至少一所述第一监测构件;

根据所述性能图像、所述故障文本数据和预设损失函数,对多模态学习模型进行训练,获得用于故障根因分析的故障识别模型。

可选地,所述方法还包括:

在获取待识别故障数据后,提取所述待识别故障数据中的故障文本数据和至少一第二监测构件的性能数据;

根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第二监测组件对应一个性能图像,每一所述第二监测组件包括至少一所述第二监测构件;

将所述待识别故障数据中的故障文本数据和每一第二监测组件分别对应的性能图像,输入至所述故障识别模型,获得所述待识别故障数据的故障识别结果。

可选地,根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像,包括:

按照性能指标类型分别对所述性能数据进行预处理;

利用色彩模式RGB三通道特性将预处理后的所述性能数据转化为多个性能曲线;其中,每一所述性能指标类型的所述性能数据对应一种颜色的性能曲线;

根据多个所述性能曲线,构建性能图像。

可选地,所述性能数据的性能指标类型包括中央处理器CPU利用率、内存利用率、网络流量和网络时延中的一项或多项;

所述按照性能指标类型分别对所述性能数据进行预处理,包括以下的一项或多项:

通过线性变换方法分别将所述CPU利用率和所述内存利用率映射到相应的数据区间;

通过对数换算方法将所述网络流量的原始数值映射到相应的数据区间;

通过线性变换方法和/或对数换算方法将所述网络时延的原始数值映射到相应的数据区间,其中,在所述网络时延的原始数值小于或者等于第一阈值的情况下,通过线性变换方法将所述原始数值映射到相应的数据区间,在所述网络时延的原始数值大于第一阈值的情况下,通过对数换算方法将所述原始数值映射到相应的数据区间。

可选地,所述根据多个所述性能曲线,构建性能图像,包括:

根据面积分布图方法将每一所述性能曲线分别转化为对应的第一性能图像;

将多个所述第一性能图像进行合成,构建性能图像。

可选地,所述方法还包括:

通过滑动时间窗口采集待识别故障数据中的至少一第二监测构件的性能数据;

其中,所述滑动时间窗口每滑动第一预设时间采集一次所述性能数据,所述滑动时间窗口的长度为第二预设时间,所述第一预设时间小于所述第二预设时间。

可选地,所述预设损失函数包括:

加权系数

本发明实施例还提供一种故障根因分析装置,包括:

采集模块,用于采集故障训练数据,所述故障训练数据包括故障文本数据和至少一第一监测构件的性能数据;

图像构建模块,用于根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第一监测组件对应一个性能图像,每一所述第一监测组件包括至少一所述第一监测构件;

模型训练模块,用于根据所述性能图像、所述故障文本数据和预设损失函数,对多模态学习模型进行训练,获得用于故障根因分析的故障识别模型。

本发明实施例还提供一种故障根因分析设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的故障根因分析方法。

本发明实施例还提供一种可读存储介质,包括:所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的故障根因分析方法的步骤。

本发明的上述技术方案的有益效果如下:

上述方案中,获取故障训练数据,并将故障训练数据中的性能数据转化为性能图像,根据性能图像、故障文本数据和预设损失函数对多模态学习模型进行训练,获得用于故障根因分析的故障识别模型,通过故障识别模型可以实现故障快速定位,减少人工经验依赖,提高运维效率。

附图说明

图1为本发明实施例提供的故障根因分析方法的流程示意图;

图2为本发明实施例提供的故障识别模型处理性能图像的流程示意图;

图3a至图3e为本发明实施例提供的性能数据对应的RGB示意图;

图4为本发明实施例提供的故障识别模型处理故障数据的流程示意图;

图5为本发明实施例提供的故障根因分析装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供一种故障根因分析方法,包括:

步骤S101,采集故障训练数据,所述故障训练数据包括故障文本数据和至少一第一监测构件的性能数据;

步骤S102,根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第一监测组件对应一个性能图像,每一所述第一监测组件包括至少一所述第一监测构件;

步骤S103,根据所述性能图像、所述故障文本数据和预设损失函数,对多模态学习模型进行训练,获得用于故障根因分析的故障识别模型。

本发明实施例中,步骤S101中,采集用于模型训练的故障训练数据,故障训练数据包括故障文本数据和至少一第一监测构件的性能数据;故障文本数据包括但不限于故障类别数据和日志数据,故障类别数据包括但不限于存储故障,交换机故障,链路故障,物理机故障和虚拟机故障,日志数据包括但不限于存储日志,交换机日志,物理机日志和虚拟机日志,第一监测构件包括但不限于物理机中央处理器(Central Processing Unit,CPU)、物理机网卡、虚拟机CPU和虚拟机网卡。

步骤S102中,将性能数据转化为性能图像,一组第一监测组件对应一个性能图像,一般情况下,每一第一监测组件至少包括一个物理机CPU和一个物理机网卡,或者一个虚拟机CPU和一个虚拟机网卡。

下面进行举例说明,例如一个物理机有4个CPU和2个网卡,进行排列组合,一共有8种CPU+网卡的组合,也就是说一个物理机对应8组第一监测组件,对应8个性能图像。

步骤S103中,由于故障文本数据需要通过转换器(Transformer)模型处理,性能图像需要通过视觉转换器(Vision Transformer,ViT)模型处理,所以选取包括Transformer和ViT模型的多模态学习模型进行训练,在训练过程中,通过预设损失函数不断地对多模态学习模型进行优化,最终获得用于故障根因分析的故障识别模型。

多模态学习是一个机器学习子领域,旨在训练人工智能模型来处理和发现不同类型数据之间的关系,通常是图像、视频、音频和文本。通过结合不同的模态,深度学习模型可以更普遍地理解其环境,本发明实施例通过训练多模态学习模型,获得用于故障根因分析的故障识别模型,通过故障识别模型可以实现故障快速定位,减少人工经验依赖,提高运维效率。

可选地,所述方法还包括:

在获取待识别故障数据后,提取所述待识别故障数据中的故障文本数据和至少一第二监测构件的性能数据;

根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第二监测组件对应一个性能图像,每一所述第二监测组件包括至少一所述第二监测构件;

将所述待识别故障数据中的故障文本数据和每一第二监测组件分别对应的性能图像,输入至所述故障识别模型,获得所述待识别故障数据的故障识别结果。

本发明实施例中,在步骤S103获得故障识别模型后,通过故障识别模型进行故障更新分析,在发生故障时,获取待识别故障数据并提取故障文本数据和至少一第二监测构件的性能数据,其中,故障文本数据包括但不限于故障类别数据和日志数据,故障类别数据包括但不限于存储故障,交换机故障,链路故障,物理机故障和虚拟机故障,日志数据包括但不限于存储日志,交换机日志,物理机日志和虚拟机日志,第二监测构件包括但不限于物理机中央处理器(Central Processing Unit,CPU)、物理机网卡、虚拟机CPU和虚拟机网卡。

利用色彩模式RGB三通道特性,将上述性能数据转化为性能图像,一组第二监测组件对应一个性能图像,一般情况下,每一第二监测组件至少包括一个物理机CPU和一个物理机网卡,或者一个虚拟机CPU和一个虚拟机网卡。下面进行举例说明,例如一个物理机有4个CPU和2个网卡,进行排列组合,一共有8种CPU+网卡的组合,也就是说一个物理机对应8组第二监测组件,对应8个性能图像。

将故障文本数据和性能图像输入至故障识别模型进行处理,并获取故障识别结果,其中,故障文本数据采用Transformer模型进行处理(处理方法为常规方法,本发明不在此赘述)。性能图像采用ViT模型进行处理(每一张性能图像的大小为224X224),处理方法如图2所示,将图片分为固定大小的补丁(patch),其中,每一个patch的大小为16x16,则每张图像会生成

可选地,根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像,包括:

按照性能指标类型分别对所述性能数据进行预处理;

利用色彩模式RGB三通道特性将预处理后的所述性能数据转化为多个性能曲线;其中,每一所述性能指标类型的所述性能数据对应一种颜色的性能曲线;

根据多个所述性能曲线,构建性能图像。

本发明实施例中,对性能数据转化为性能图像的方法进行说明,首先对性能数据进行预处理,按照性能指标类型将原始性能数据映射到对应的数据区间,有利于后续图像转化处理,所述性能指标类型包括但不限于中央处理器CPU利用率、内存利用率、网络流量和网络时延中;然后,利用色彩模式RGB三通道特性将预处理后的所述性能数据转化为多个性能曲线,每一所述性能指标类型的所述性能数据对应一种颜色的性能曲线,例如,CPU利用率用R=255(红色)的曲线表示,内存利用率用G=255(绿色)的曲线表示,网络时延用G=255(绿色)的曲线表示,网络流量用B=255(蓝色)的曲线表示,以上颜色仅用于举例说明,本发明不在此设限。最后根据多个所述性能曲线,构建性能图像。需要说明的是,构建的性能图像大小为224x224,如果性能图像大小不满足条件,通过调整大小(resize)将性能图像调整为224x224。

可选地,所述根据多个所述性能曲线,构建性能图像,包括:

根据面积分布图方法将每一所述性能曲线分别转化为对应的第一性能图像;

将多个所述第一性能图像进行合成,构建性能图像。

本发明实施例中,对根据多个所述性能曲线,构建性能图像的具体方法进行说明,根据面积分布图方法将上述每一性能曲线分别转化为对应的第一性能图像,例如,将CPU利用率的曲线转化为图像(例如图3a,红色,图中未示出),内存利用率的曲线转化为图像(例如图3b,绿色,图中未示出),网络时延的曲线转化为图像(例如图3c,绿色,图中未示出),网络流量的曲线转化为图像(例如图3d,蓝色,图中未示出),再将上述图像进行合成,生成性能图像(例如图3e,彩色,图中未示出),需要说明的是,每一第一监测组件或者每一第二监测组件均对应一个性能图像。

可选地,所述性能数据的性能指标类型包括中央处理器CPU利用率、内存利用率、网络流量和网络时延中的一项或多项;

所述按照性能指标类型分别对所述性能数据进行预处理,包括以下的一项或多项:

通过线性变换方法分别将所述CPU利用率和所述内存利用率映射到相应的数据区间;

通过对数换算方法将所述网络流量的原始数值映射到相应的数据区间;

通过线性变换方法和/或对数换算方法将所述网络时延的原始数值映射到相应的数据区间,其中,在所述网络时延的原始数值小于或者等于第一阈值的情况下,通过线性变换方法将所述原始数值映射到相应的数据区间,在所述网络时延的原始数值大于第一阈值的情况下,通过对数换算方法将所述原始数值映射到相应的数据区间。

本发明实施例中,由于中央处理器CPU利用率、内存利用率、网络流量和网络时延的原始性能数据值较小或者不稳定,不方便进行转化图像处理,所以需要将上述原始性能数据映射到对应的数据区间,便于后续处理,下面对于各个性能指标类型对应的性能数据映射方法分别进行具体说明:

CPU利用率和所述内存利用率的取值范围为0~1,利用线性变换方法W=100·w,将其映射到0~100,其中w为原始利用率,W为目标利用率。

网卡的网络流量变化幅度剧烈,空闲时会出现网络流量为0的情况,忙时会出现网络流量为每秒几百兆字节的情况,为了防止差值过大,通过对数换算方法Thr=δ+α*log

对于网络时延性能数据,通常重点关注X秒及以下的数据信息,对于0到X秒的数据通过线性变换

可选地,所述方法还包括:

通过滑动时间窗口采集待识别故障数据中的至少一第二监测构件的性能数据;

其中,所述滑动时间窗口每滑动第一预设时间采集一次所述性能数据,所述滑动时间窗口的长度为第二预设时间,所述第一预设时间小于所述第二预设时间。

本发明实施例中,对获取待识别故障数据中的性能数据方法进行说明,为了考虑性能图像和文本对应的准确性,采集的性能数据允许时间重叠,于是第一预设时间小于所述第二预设时间,在设置时间窗口时,可以设置为L秒(例如L=224),每T秒(例如T=60)滑动一次窗口进行采集。

可选地,所述预设损失函数包括:

加权系数

本发明实施例中,损失函数为:

其中,I_e=L2_normalize(dot(I_f,W_i),axis=1),L2_normalize表示L2范数归一化,I_f=image_encoder(I)表示图像编码,I表示图像原始信息,W_i表示图像线性映射矩阵,dot表示矩阵点积;

T_e=L2_normalize(np.dot(T_f,W_t),axis=1),L2_normalize表示L2范数归一化,T_f=text_encoder(T)表示文本编码,T表示文本原始信息,W_t表示文本线性映射矩阵,dot表示矩阵点积。

其中,加权系数

采用本发明实施例提供的预设损失函数训练模型,可以控制模型迭代速度和准确度,训练计算方法如图4所示,输入性能图像和故障文本数据,性能图像通过图像编码器进行计算,故障文本数据中的故障类别数据和日志数据均通过文本编码器进行计算,将性能图像、故障类别数据和日志数据进行对应,提高准确度。

综上所述,根据本发明提供的故障根因分析方法,可以对多模态学习模型进行训练得到故障识别模型,利用故障识别模型可以实现故障快速定位,提高运维效率,下面对通过故障识别模型获取故障的结果进行举例说明:

模型输入数据:

故障类别数据=[“硬盘故障”,“网卡故障”,“存储故障”]

性能图像=[图像1.jpg,图像2.jpg,图像3.jpg]

日志数据=[日志1.txt,日志2.txt,日志3.txt]

经过故障识别模型推理,即计算:

Torch.softmax(embeddings[故障类别数据]@embeddings[性能图像].T)

Torch.softmax(embeddings[故障类别数据]@embeddings[日志数据].T)

其中.T表示取转置。

得到如下输出结果:

张量(Tensor)([[9.12e

[4.2e

[4.31e

不妨假设结果大于1e

张量(Tensor)([[3.7e

[5.3e

[4.2e

不妨假设结果大于1e

如图5所示,本发明实施例还提供一种故障根因分析装置,包括:

采集模块501,用于采集故障训练数据,所述故障训练数据包括故障文本数据和至少一第一监测构件的性能数据;

图像构建模块502,用于根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第一监测组件对应一个性能图像,每一所述第一监测组件包括至少一所述第一监测构件;

模型训练模块503,用于根据所述性能图像、所述故障文本数据和预设损失函数,对多模态学习模型进行训练,获得用于故障根因分析的故障识别模型。

可选地,所述装置还包括:

提取模块,用于在获取待识别故障数据后,提取所述待识别故障数据中的故障文本数据和至少一第二监测构件的性能数据;

第二图像构建模块,用于根据所述性能数据,利用色彩模式RGB三通道特性,构建性能图像;其中,每一第二监测组件对应一个性能图像,每一所述第二监测组件包括至少一所述第二监测构件;

故障识别模块,用于将所述待识别故障数据中的故障文本数据和每一第二监测组件分别对应的性能图像,输入至所述故障识别模型,获得所述待识别故障数据的故障识别结果。

可选地,所述图像构建模块502,包括:

第一预处理单元,用于按照性能指标类型分别对所述性能数据进行预处理;

第一转化单元,用于利用色彩模式RGB三通道特性将预处理后的所述性能数据转化为多个性能曲线;其中,每一所述性能指标类型的所述性能数据对应一种颜色的性能曲线;

第一构建单元,用于根据多个所述性能曲线,构建性能图像。

可选地,所述第一预处理单元,包括:

第一利用率转化单元,用于通过线性变换方法分别将所述CPU利用率和所述内存利用率映射到相应的数据区间;

第一流量转化单元,用于通过对数换算方法将所述网络流量的原始数值映射到相应的数据区间;

第一时延转化单元,用于通过线性变换方法和/或对数换算方法将所述网络时延的原始数值映射到相应的数据区间,其中,在所述网络时延的原始数值小于或者等于第一阈值的情况下,通过线性变换方法将所述原始数值映射到相应的数据区间,在所述网络时延的原始数值大于第一阈值的情况下,通过对数换算方法将所述原始数值映射到相应的数据区间。

可选地,所述第一构建单元,包括:

第一图像转化单元,用于根据面积分布图方法将每一所述性能曲线分别转化为对应的第一性能图像;

第一合成单元,用于将多个所述第一性能图像进行合成,构建性能图像。

可选地,所述第二图像构建模块,包括:

第二预处理单元,用于按照性能指标类型分别对所述性能数据进行预处理;

第二转化单元,用于利用色彩模式RGB三通道特性将预处理后的所述性能数据转化为多个性能曲线;其中,每一所述性能指标类型的所述性能数据对应一种颜色的性能曲线;

第二构建单元,用于根据多个所述性能曲线,构建性能图像。

第一构建单元,用于根据多个所述性能曲线,构建性能图像。

可选地,所述第二预处理单元,包括:

第二利用率转化单元,用于通过线性变换方法分别将所述CPU利用率和所述内存利用率映射到相应的数据区间;

第二流量转化单元,用于通过对数换算方法将所述网络流量的原始数值映射到相应的数据区间;

第二时延转化单元,用于通过线性变换方法和/或对数换算方法将所述网络时延的原始数值映射到相应的数据区间,其中,在所述网络时延的原始数值小于或者等于第一阈值的情况下,通过线性变换方法将所述原始数值映射到相应的数据区间,在所述网络时延的原始数值大于第一阈值的情况下,通过对数换算方法将所述原始数值映射到相应的数据区间。

可选地,所述第二构建单元,包括:

第二图像转化单元,用于根据面积分布图方法将每一所述性能曲线分别转化为对应的第一性能图像;

第二合成单元,用于将多个所述第一性能图像进行合成,构建性能图像。

可选地,所述装置还包括:

第二采集模块,用于通过滑动时间窗口采集待识别故障数据中的至少一第二监测构件的性能数据;其中,所述滑动时间窗口每滑动第一预设时间采集一次所述性能数据,所述滑动时间窗口的长度为第二预设时间,所述第一预设时间小于所述第二预设时间。

需要说明的是,该装置的实施例是与上述方法的实施例相对应的装置,上述方法的实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。

本发明实施例还提供一种故障根因分析设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的故障根因分析方法。

本发明实施例还提供一种可读存储介质,包括:所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的故障根因分析方法的步骤。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种软件故障定位方法、装置、设备及可读存储介质
  • 文本分析方法、装置、电子设备及可读存储介质
  • 特征分析方法、装置、设备、计算机可读存储介质
  • 数据分析方法、装置、电子设备及计算机可读存储介质
  • 文本分析方法、装置、电子设备及可读存储介质
  • 存储网络故障根因分析方法及计算机可读存储介质
  • 存储网络故障根因分析方法及计算机可读存储介质
技术分类

06120116486384