智能运维系统的故障检测方法、相关装置及存储介质

文献发布时间：2023-06-19 11:22:42

技术领域

本申请涉及计算机技术领域，特别涉及一种智能运维系统的故障检测方法、相关装置及存储介质。

背景技术

随着信息化时代的迅猛发展，越来越多的企业采用了智能运维(ArtificialIntelligence for IT Operations，AIOPS)系统。

目前，对AIOPS系统进行故障判断的方案为通过预先存储的故障案例中的告警数据进行判断。但是，由于在AIOPS系统在日常的运行过程中，故障发生的频率较低，从而导致故障案例较少，进而导致缺乏大量故障场景下的告警数据，最终，导致根据现有通过预先存储的故障案例中的告警数据对AIOPS系统的故障进行判断，得到的判断结果不准确。

发明内容

有鉴于此，本申请提供了一种智能运维系统的故障检测方法、相关装置及存储介质，用于精确的对智能运维系统当前产生的故障进行判断。

本申请第一方面提供了一种智能运维系统的故障检测方法，包括：

实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为所述周期的指标集合；

在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合；其中，所述目标指标为所述周期的指标集合中的任一指标；所述故障分析表包含至少一个预设指标集合以及所述预设指标集合对应的故障；所述故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到；

针对每一个所述预设指标集合，判断所述周期的指标集合指标集合是否为所述预设指标集合的子集；

若判断出所述周期的指标集合是所述预设指标集合的子集，则确定所述预设的指标集合对应的故障为当前发生的故障；

若判断出所述周期的指标集合不是所述预设指标集合的子集，则将所述周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对所述新的目标指标，返回执行所述在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合。

可选的，所述故障分析表的构建方法，包括：

在所述预设的周期内，针对每一种故障类型，模拟所述故障类型的故障发生；

记录发生所述故障类型的故障时，出现的至少一个第一指标；其中，所述第一指标为模拟发生所述故障类型的故障时，改变状态的指标；

根据每一种故障类型的故障，以及所述故障对应的第一指标生成第一指标序列；

在所述预设的周期内，针对所述第一指标序列中的每一个所述第一指标，模拟生成所述第一指标；

记录每一次生成所述第一指标时，出现的至少一个第二指标；其中，所述第二指标为模拟生成所述第一指标时，改变状态的指标；

将每一个第一指标，以及一次模拟生成所述第一指标时，出现的所有第二指标的集合，作为预设指标集合；

根据每一个所述预设指标集合以及与所述预设指标集合对应的故障，生成所述故障分析表。

可选的，所述记录发生所述故障类型的故障时，出现至少一个第一指标之后，还包括：

分别统计每一个所述第一指标出现的次数；

针对每一个所述第一指标，根据所述第一指标出现的次数，确定所述第一指标的置信度；

其中，所述根据每一种故障类型的故障，以及所述故障对应的第一指标生成第一指标序列，包括：

将每一种故障类型的故障对应的第一指标，按照所述第一指标的置信度从大至小排序，生成所述第一指标序列。

可选的，所述针对每一个所述第一指标，根据所述第一指标出现的次数，确定所述第一指标的置信度，包括：

针对每一个所述第一指标，将所述第一指标出现的次数与所有第一指标出现的总次数的商，作为所述第一指标出现的概率；

将所述第一指标出现的概率与所述第一指标的加权值的乘积，作为所述第一指标的置信度。

可选的，所述将每一个第一指标，以及一次模拟生成所述第一指标时，出现的所有第二指标的集合，作为预设指标集合之后，还包括：

分别统计每一个预设指标集合出现的次数，以及所有所述第二指标出现的总次数；

针对每一个所述预设指标集合，根据所述预设指标集合出现的次数以及所有所述第二指标出现的次数的总和，确定所述预设指标集合的置信度；

其中，所述根据每一个所述预设指标集合以及与所述预设指标集合对应的故障，生成所述故障分析表，包括：

将每一种故障类型的故障对应的预设指标集合，按照所述预设指标集合的置信度从大至小排序，生成所述故障分析表。

可选的，所述针对每一个所述预设指标集合，根据所述预设指标集合出现的次数以及所有所述第二指标出现的总次数，确定所述预设指标集合的置信度，包括：

针对每一个所述预设指标集合，将所述预设指标集合出现的次数与所有所述第二指标出现的总次数的商，作为所述预设指标集合出现的概率；

将所述预设指标集合出现的概率与预设的加权值的乘积，作为所述预设指标集合的置信度。

本申请第二方面提供了一种智能运维系统的故障检测装置，包括：

第一统计单元，用于实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为所述周期的指标集合；

筛选单元，用于在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合；其中，所述目标指标为所述周期的指标集合中的任一指标；所述故障分析表包含至少一个预设指标集合以及所述预设指标集合对应的故障；所述故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到；

判断单元，用于针对每一个所述预设指标集合，判断所述周期的指标集合指标集合是否为所述预设指标集合的子集；

第一确定单元，用于若所述判断单元判断出，所述周期的指标集合是所述预设指标集合的子集，则确定所述预设的指标集合对应的故障为当前发生的故障；

执行单元，用于若所述判断单元判断出，所述周期的指标集合不是所述预设指标集合的子集，则将所述周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对所述新的目标指标，返回执行所述在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合。

可选的，所述故障分析表的构建单元，包括：

模拟单元，用于在所述预设的周期内，针对每一种故障类型，模拟所述故障类型的故障发生；

记录单元，用于记录发生所述故障类型的故障时，出现的至少一个第一指标；其中，所述第一指标为模拟发生所述故障类型的故障时，改变状态的指标；

第一生成单元，用于根据每一种故障类型的故障，以及所述故障对应的第一指标生成第一指标序列；

所述模拟单元，还用于在所述预设的周期内，针对所述第一指标序列中的每一个所述第一指标，模拟生成所述第一指标；

所述记录单元，还用于记录每一次生成所述第一指标时，出现的至少一个第二指标；其中，所述第二指标为模拟生成所述第一指标时，改变状态的指标；

确认单元，用于将每一个第一指标，以及一次模拟生成所述第一指标时，出现的所有第二指标的集合，作为预设指标集合；

第二生成单元，用于根据每一个所述预设指标集合以及与所述预设指标集合对应的故障，生成所述故障分析表。

可选的，所述智能运维系统的故障检测装置，还包括：

第二统计单元，用于分别统计每一个所述第一指标出现的次数；

第二确定单元，用于针对每一个所述第一指标，根据所述第一指标出现的次数，确定所述第一指标的置信度；

其中，所述第一生成单元，用于：

将每一种故障类型的故障对应的第一指标，按照所述第一指标的置信度从大至小排序，生成所述第一指标序列。

可选的，所述第二确定单元，包括：

第一计算单元，用于针对每一个所述第一指标，将所述第一指标出现的次数与所有第一指标出现的总次数的商，作为所述第一指标出现的概率；

所述第一计算单元，还用于将所述第一指标出现的概率与所述第一指标的加权值的乘积，作为所述第一指标的置信度。

可选的，所述智能运维系统的故障检测装置，还包括：

第三统计单元，用于分别统计每一个预设指标集合出现的次数，以及所有所述第二指标出现的总次数；

第三确定单元，用于针对每一个所述预设指标集合，根据所述预设指标集合出现的次数以及所有所述第二指标出现的次数的总和，确定所述预设指标集合的置信度；

其中，所述第二生成单元，用于：

将每一种故障类型的故障对应的预设指标集合，按照所述预设指标集合的置信度从大至小排序，生成所述故障分析表。

可选的，所述第三确定单元，包括：

第二计算单元，用于针对每一个所述预设指标集合，将所述预设指标集合出现的次数与所有所述第二指标出现的总次数的商，作为所述预设指标集合出现的概率；

所述第二计算单元，还用于将所述预设指标集合出现的概率与预设的加权值的乘积，作为所述预设指标集合的置信度。

本申请第三方面提供了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面任意一项所述的智能运维系统的故障检测方法。

本申请第四方面提供了一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面任意一项所述的智能运维系统的故障检测方法。

由以上方案可知，本申请提供的一种智能运维系统的故障检测方法、相关装置及存储介质中，该故障检测方法包括：通过实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为所述周期的指标集合；然后，在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合；其中，所述目标指标为所述周期的指标集合中的任一指标；所述故障分析表包含至少一个预设指标集合以及所述预设指标集合对应的故障；所述故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到；之后，针对每一个所述预设指标集合，判断所述周期的指标集合指标集合是否为所述预设指标集合的子集；若判断出所述周期的指标集合是所述预设指标集合的子集，则确定所述预设的指标集合对应的故障为当前发生的故障；若判断出所述周期的指标集合不是所述预设指标集合的子集，则将所述周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对所述新的目标指标，返回执行所述在预设的故障分析表中，筛选出至少一个含有所述周期的指标集合中的目标指标的预设指标集合。从而达到精确的对智能运维系统当前产生的故障进行判断的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种智能运维系统的故障检测方法的流程图；

图2为本申请另一实施例提供的一种故障分析表的构建方法的流程图；

图3为本申请另一实施例提供的一种智能运维系统的故障检测装置的示意图；

图4为本申请另一实施例提供的一种故障分析表的构建单元的示意图；

图5为本申请另一实施例提供的一种实现智能运维系统的故障检测方法的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系，而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，智能运维(Artificial Intelligence forIT Operations，AIOPS)系统通常至少包含：基础环境层、硬件设备层、虚拟化及基础软件层、应用业务层等。

其中，基础软件层主要是指AIOPS系统的数据中心机房以及建筑物布线等设施，包括但不限于电力、制冷、消防、门禁、监控等。

硬件设备层主要包括核心网络设备、安全设备、服务器、存储设备、机柜及配套设施。网络设备包括但不限于路由器、二三层网络交换机、多层交换机、负载均衡、域名系统(DomainName System，DNS)设备等；安全设备包括但不限于防火墙、入侵检测、防病毒、加密机等；服务器包括但不限于大中小型机、X86服务器等；存储设备包括但不限于磁盘阵列、虚拟带库、物理磁带库、存储区域网络(Storage AreaNetwork，SAN)、网络附属存储(NetworkAttached Storage，NAS)等。

虚拟化及基础软件层至少包括虚拟化服务管理软件、服务器操作系统软件、数据库软件、中间件软件、防病毒软件等；虚拟化服务管理软件包括但不限于VMWARE、OPENSTACK、云平台等；使用的操作系统包括但不限于AIX、LINUX、WINDOWS等；使用的数据库的类型包括但不限于ORACLE、DB2、SQL SERVER、MYSQL等；使用的中间件包括但不限于：WEBSPHERE、WEBLOGIC、TUXEDO、MQ、TOMCAT、REDIS等；其它系统软件可以是但不限于备份软件。

应用业务层至少包括服务可用性、应用营业状态、应用性能、应用交易量分析等。服务可用性包括但不限于服务状态、日志刷新、端口监听、网络连通性等。应用性能包括但不限于交易量、平均处理时间、平均响应时间、业务成功率等。应用交易包括但不限于交易整体情况、应用性能(重要交易或整个节点的交易量、耗时、成功率、响应率)、开业情况、批量交易状态等。

需要说明的是，在实际运行智能运维系统之前，会针对智能运维系统的数据中心可能发生的故障进行分类和编码。故障分类和编码的规则可以是但不限于按照时间戳+实例名+故障编号，此处不做限定。

其中，实例名是指能够定位数据中心中的对象的唯一名称，实例名的组成可以是按照但不限于系统名_主机名，系统名_应用名，设备类型_设备名等；实例名的组成所采用的名词可以是数据中心已定义的名称。系统名即数据中心的名称或字母简称，可以但不限于采用英文字大写3位表示。主机名和设备名即数据中心的主机对象或设备对象的名字，可以但不限于采用小写英文字母开头5位+3位数字的方式。应用名即数据中心中应用的名称，可以但不限于采用小写英文字母开头5位+3位数字的方式。设备类别即数据中心中的设备分类，例如：网络(NET)、服务器(SER)、存储(STG)、电力(POW)、制冷(REF)、消防(FCT)、门禁(ACS)等设备。产品类别即数据中心中的软件分类，例如：操作系统(OPS)、数据库(DWS)、中间件(MWS)、应用软件(APS)等可按大写3位英文名称显示。

因此，在实际的应用过程中的实例名可以是：NETbjysw001，OPSbjydb001，POWunder003等。

其中，故障编号可以但不限于由3位小写英文字母开头+3位数字组成，例如：交易无响应trs001，交易成功率低trs002，响应时间长trs003，应用进程hang aps001，应用进程被杀aps002。服务器宕机ser001，服务器hang ser002。存储磁盘响应慢stg001，存储不可写stg002，网络抖动net001，网络丢包net002，网络负载均衡失效nlb001,数据库同步延迟dws005，操作系统cpu上下文切换ops012等。时间戳是指故障或告警发生的时刻，可以用T来表示。

如表1所示，为故障编码以及故障示例：

表1

还可以用特定的字母表示实例名以及故障编号，如A-G来表示实例名，F标识故障编号，那么表1中的内容就可以简化为如表2中所示的内容：

表2

如表3所示，为告警指标的示意，告警指标由由实例名_告警指标名称_时间戳组成。告警指标名称为可识别、可读或约定的告警项代号，可以是监控软件或是网管软件已定义的告警指标名称，通常是8-10位的英文字母，也可以是自开发的告警指标，要求能够唯一标识此类产品或设备的确定性提示信息名称。

表3

同样也可以采用特定的字母来表示告警指标名称，例如M，时间戳以及实例名同表2，以T来表示时间戳，A-G表示实例名，那么表3中的内容就可以简化为如图4中所示内容。

表4

基于上述智能运维系统，本申请实施例提供了一种智能运维系统的故障检测方法，如图1所示，具体包括以下步骤：

S101、实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为周期的指标集合。

其中，指标为告警指标。预设的周期可以是不限于2分钟、5分钟等，此处不做限定。

需要说明的是，还可以将预设的周期，根据预设的步长截取时间分成多个时间片段，将每一个时间片段分别作为新的预设的周期，以此解决在预设的周期的范围内的观测时间边缘的问题。

S102、在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合。

其中，目标指标为周期的指标集合中的任一指标；故障分析表包含至少一个预设指标集合以及预设指标集合对应的故障；故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到。

可以理解的是，若步骤S101中的预设的周期为根据预设的步长截取时间分成多个时间片段，将每一个时间片段分别作为新的预设的周期，那么通过模拟故障发生，确定指标集合与故障的对应关系后构建得到故障分析表的时候，也应该将模拟故障发生的间隔，即预设的周期，根据预设的步长截取时间分为多个时间片段，并将每一个时间片段分别作为新的预设的周期。

可选的，在本申请的另一实施例中，故障分析表的构建方法的一种实施方式，如图2所示，包括：

S201、在预设的周期内，针对每一种故障类型，模拟故障类型的故障发生。

其中，预设的周期与步骤S101中预设的周期一致。

S202、记录发生故障类型的故障时，出现的至少一个第一指标。

其中，第一指标为模拟发生故障类型的故障时，改变状态的指标。

以告警指标的扫描频率为1分钟为例，记录在发生故障A_F1前后m分钟，改变状态的告警指标。其中，m可以但不限于设置为2分钟，是可以根据实际的告警需求以及特点进行设置的，此处不做限定。参见表5为模拟发生故障A_F1时，出现的第一指标。在模拟故障A_F1时，T1为故障A_F1发生的时刻，T1-2为故障A_F1发生的前2分钟，T1-1为故障发生的前1分钟，T1+1为故障发生后的1分钟，T1+2为故障发生后的两分钟，在模拟故障A_F1发生的前2分钟，记录得到了改变状态的指标A_M1、A_M2、A_M5、B_M1和C_M5；在模拟故障A_F1发生的前1分钟，记录得到了改变状态的指标A_M1、A_M2、A_M8、B_M1和D_M1；以此类推，统计所有改变状态的指标，将每一个改变状态的指标分别作为一个第一指标，即在模拟故障A_F1发生的过程中，指标A_M1、A_M2、A_M5、B_M1、C_M5、A_M8、D_M1、A_M6、B_M2、A_M4均为第一指标。

表5

S203、根据每一种故障类型的故障，以及故障对应的第一指标生成第一指标序列。

可选的，在本申请的另一实施例中，步骤S202之后的一种实施方式，还包括：

分别统计每一个第一指标出现的次数。

针对每一个第一指标，根据第一指标出现的次数，确定第一指标的置信度。

基于上述内容，步骤S203的一种实施方式，包括：

将每一种故障类型的故障对应的第一指标，按照第一指标的置信度从大至小排序，生成第一指标序列。

为了减少后续在实际应用过程中的计算量，提高判断速度，可以将无关紧要的第一指标剔除，即可以增加一个阈值，筛除置信度小于阈值的第一指标。需要说明的是，可以是在生成第一指标序列之前筛除置信度小于阈值的第一指标，也可以是在生成第一指标序列之后筛除置信度小于阈值的第一指标，此处不做限定。

可选的，在本申请的另一实施例中，步骤针对每一个第一指标，根据第一指标出现的次数，确定第一指标的置信度的一种实施方式，包括：

针对每一个第一指标，将第一指标出现的次数与所有第一指标出现的总次数的商，作为第一指标出现的概率。

将第一指标出现的概率与第一指标的加权值的乘积，作为第一指标的置信度。

需要说明的是，可以为每一个第一指标设置加权值，且加权值的大小可以根据实际的应用情况进行设定，此处不做限定。

S204、在预设的周期内，针对第一指标序列中的每一个第一指标，模拟生成第一指标。

S205、记录每一次生成第一指标时，出现的至少一个第二指标。

其中，第二指标为模拟生成第一指标时，改变状态的指标。

同样以以告警指标的扫描频率为1分钟为例，记录在发生故障A_F1前后m分钟，改变状态的告警指标。其中，m可以但不限于设置为2分钟，是可以根据实际的告警需求以及特点进行设置的，此处不做限定。如表6中，模拟生成的第一指标为A_M1_T1、A_M2_T1、B_M1_T1以及C_M5_T1，第在模拟生成第一指标A_M1_T1的前2分钟，记录得到得了A_M2、A_M3、A_M8、A_M10以及B_M1，即A_M2、A_M3、A_M8、A_M10以及B_M1均为第二指标。

表6

S206、将每一个第一指标，以及一次模拟生成第一指标时，出现的所有第二指标的集合，作为预设指标集合。

续接上述实例，以表6中第一行的示例为例，预设指标集合包括：A_M1、A_M2、A_M3、A_M8、A_M10以及B_M1。

S207、根据每一个预设指标集合以及与预设指标集合对应的故障，生成故障分析表。

其中，可以采用但不限于建立键值映射函数的方式，来建立预设指标集合以及故障之间的对应关系；如：value(M

可选的，在本申请的另一实施例中，步骤S206之后的一种实施方式，还包括：

分别统计每一个预设指标集合出现的次数，以及所有第二指标出现的总次数。

针对每一个预设指标集合，根据预设指标集合出现的次数以及所有第二指标出现的次数的总和，确定预设指标集合的置信度。

基于上述内容，步骤S207的一种实施方式，包括：

将每一种故障类型的故障对应的预设指标集合，按照预设指标集合的置信度从大至小排序，生成故障分析表。

为了减少后续在实际应用过程中的计算量，提高判断速度，可以将无关紧要的预设指标集合剔除，即可以增加一个阈值，筛除置信度小于阈值的预设指标集合。需要说明的是，可以是在生成故障分析表之前筛除置信度小于阈值的预设指标集合，也可以是在生成故障分析表之后筛除置信度小于阈值的预设指标集合，此处不做限定。还需要说明的是，生成故障分析表的过程中所采用的阈值与生成第一指标序列的过程中所采用阈值，可以相同也可以不同，是根据实际的应用情况进行设定的，此处不做限定。

可选的，在本申请的另一实施例中，步骤针对每一个预设指标集合，根据预设指标集合出现的次数以及所有第二指标出现的次数的总和，确定预设指标集合的置信度的一种实施方式，包括：

针对每一个预设指标集合，将预设指标集合出现的次数与所有第二指标出现的总次数的商，作为预设指标集合出现的概率。

将预设指标集合出现的概率与预设的加权值的乘积，作为预设指标集合的置信度。

需要说明的是，预设的加权值是可以根据实际的应用情况由技术人员进行设置，变更的，此处不做限定。

S103、针对每一个预设指标集合，判断周期的指标集合指标集合是否为预设指标集合的子集。

具体的，若判断出周期的指标集合是预设指标集合的子集，则执行步骤S104；若判断出周期的指标集合不是预设指标集合的子集，则执行步骤S105。

S104、确定预设的指标集合对应的故障为当前发生的故障。

S105、将周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标。

由以上方案可知，本申请提供的一种智能运维系统的故障检测方法中，通过实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为周期的指标集合；然后，在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合；其中，目标指标为周期的指标集合中的任一指标；故障分析表包含至少一个预设指标集合以及预设指标集合对应的故障；故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到；之后，针对每一个预设指标集合，判断周期的指标集合指标集合是否为预设指标集合的子集；若判断出周期的指标集合是预设指标集合的子集，则确定预设的指标集合对应的故障为当前发生的故障；若判断出周期的指标集合不是预设指标集合的子集，则将周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对新的目标指标，返回执行在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合。从而达到精确的对智能运维系统当前产生的故障进行判断的目的。

本申请另一实施例提供了一种智能运维系统的故障检测装置，如图3所示，包括：

第一统计单元301，用于实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为周期的指标集合。

筛选单元302，用于在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合。

其中，目标指标为周期的指标集合中的任一指标；故障分析表包含至少一个预设指标集合以及所述预设指标集合对应的故障；故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到。

可选的，在本申请的另一实施例中，故障分析表的构建单元的一种实施方式，如图4所示，包括：

模拟单元401，用于在预设的周期内，针对每一种故障类型，模拟故障类型的故障发生。

记录单元402，用于记录发生故障类型的故障时，出现的至少一个第一指标。

其中，第一指标为模拟发生故障类型的故障时，改变状态的指标。

第一生成单元403，用于根据每一种故障类型的故障，以及故障对应的第一指标生成第一指标序列。

模拟单元401，还用于在预设的周期内，针对第一指标序列中的每一个第一指标，模拟生成第一指标。

记录单元402，还用于记录每一次生成第一指标时，出现的至少一个第二指标。

其中，第二指标为模拟生成第一指标时，改变状态的指标。

确认单元404，用于将每一个第一指标，以及一次模拟生成第一指标时，出现的所有第二指标的集合，作为预设指标集合。

第二生成单元405，用于根据每一个预设指标集合以及与预设指标集合对应的故障，生成故障分析表。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图2所示，此处不再赘述。

判断单元303，用于针对每一个预设指标集合，判断周期的指标集合指标集合是否为预设指标集合的子集。

第一确定单元304，用于若判断单元303判断出，周期的指标集合是预设指标集合的子集，则确定预设的指标集合对应的故障为当前发生的故障。

执行单元305，用于若判断单元303判断出，周期的指标集合不是预设指标集合的子集，则将周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对新的目标指标，返回执行在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图1所示，此处不再赘述。

可选的，在本申请的另一实施例中，智能运维系统的故障检测装置的一种实施方式，还包括：

第二统计单元，用于分别统计每一个第一指标出现的次数。

第二确定单元，用于针对每一个第一指标，根据第一指标出现的次数，确定第一指标的置信度。

其中，所述第一生成单元403，用于：

将每一种故障类型的故障对应的第一指标，按照第一指标的置信度从大至小排序，生成第一指标序列。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，所述第二确定单元的一种实施方式，包括：

第一计算单元，用于针对每一个第一指标，将第一指标出现的次数与所有第一指标出现的总次数的商，作为第一指标出现的概率。

第一计算单元，还用于将第一指标出现的概率与第一指标的加权值的乘积，作为第一指标的置信度。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，智能运维系统的故障检测装置的一种实施方式，还包括：

第三统计单元，用于分别统计每一个预设指标集合出现的次数，以及所有第二指标出现的总次数。

第三确定单元，用于针对每一个预设指标集合，根据预设指标集合出现的次数以及所有第二指标出现的次数的总和，确定预设指标集合的置信度。

其中，第二生成单元405，用于：

将每一种故障类型的故障对应的预设指标集合，按照预设指标集合的置信度从大至小排序，生成故障分析表。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，第三确定单元的一种实施方式，包括：

第二计算单元，用于针对每一个预设指标集合，将预设指标集合出现的次数与所有第二指标出现的总次数的商，作为预设指标集合出现的概率。

第二计算单元，还用于将预设指标集合出现的概率与预设的加权值的乘积，作为预设指标集合的置信度。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，此处不再赘述。

由以上方案可知，本申请提供的一种智能运维系统的故障检测装置中，通过第一统计单元301实时统计改变状态的指标，并将每一个预设的周期内统计得到的指标作为周期的指标集合；然后，筛选单元302在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合；其中，目标指标为周期的指标集合中的任一指标；故障分析表包含至少一个预设指标集合以及预设指标集合对应的故障；故障分析表为通过模拟故障发生，确定指标集合与故障的对应关系后构建得到；之后，判断单元303针对每一个预设指标集合，判断周期的指标集合指标集合是否为预设指标集合的子集；若判断单元303判断出周期的指标集合是预设指标集合的子集，则第一确定单元304确定预设的指标集合对应的故障为当前发生的故障；若判断单元303判断出周期的指标集合不是预设指标集合的子集，则执行单元305将周期的指标集合中，未曾作为目标指标的任一指标，作为新的目标指标，并针对新的目标指标，返回执行在预设的故障分析表中，筛选出至少一个含有周期的指标集合中的目标指标的预设指标集合。从而达到精确的对智能运维系统当前产生的故障进行判断的目的。

本申请另一实施例提供了一种电子设备，如图5所示，包括：

一个或多个处理器501。

存储装置502，其上存储有一个或多个程序。

当所述一个或多个程序被所述一个或多个处理器501执行时，使得所述一个或多个处理器501实现如上述实施例中任意一项所述智能运维系统的故障检测的方法。

本申请另一实施例提供了一种存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项所述智能运维系统的故障检测的方法。

在本申请公开的上述实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，直播设备，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：吴炎冰;王晓波;王琦;简志峰;郭柄男;
专利申请人：中国建设银行股份有限公司;