掌桥专利:专业的专利平台
掌桥专利
首页

一种业务系统故障分析方法及装置

文献发布时间:2023-06-19 09:41:38


一种业务系统故障分析方法及装置

技术领域

本发明涉及计算机应用技术领域,具体涉及一种业务系统故障分析方法及装置。另外,还涉及一种电子设备及非暂态计算机可读存储介质。

背景技术

随着计算机技术的快速发展,互联网业务系统的技术架构越来越复杂,主流业务系统架构都采用分布式的存储架构,没有统一的标准,业务系统涉及的环节和属性不确定。关系型数据库难以表达这种复杂多变的网络资源关系,当业务系统故障时,往往需要人工排查其故障原因。

然而,由于影响故障发生的节点众多,运维管理工作量较大,很难快速、准确的定位引起故障的具体原因。因此如何在复杂的业务系统中实现快速定位业务系统运行故障及其原因成为目前业界亟待解决的需要课题。

发明内容

为此,本发明提供一种业务系统故障分析方法及装置,用以解决现有技术中存在的面对不同业务系统故障分析的操作流程繁琐,运维效率低的缺陷。

本发明提供一种业务系统故障分析方法,包括:

确定待监控的业务系统;

获取所述业务系统对应的网络资源配置信息及性能指标信息;

将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库;

当所述性能指标信息达到或超过预设的指标告警阈值时,生成指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

进一步的,所述的业务系统故障分析方法,还包括:

对所述业务系统的结构进行分析,得到所述业务系统的架构特征;

根据所述业务系统的架构特征以及网络资源关系,构建所述图形数据库。

进一步的,所述根据所述业务系统的架构特征以及网络资源关系,构建所述图形数据库,具体包括:

根据所述业务系统的架构特征以及网络资源关系,确定相应的节点,并创建所述节点对应的节点标签以及所述节点之间的对应关系;

基于所述节点、所述节点标签以及所述节点之间的对应关系,构建所述图形数据库模块。

进一步的,所述的业务系统故障分析方法,还包括:

获取所述业务系统中的网络资源类型对应的身份标识信息;

构建所述身份标识信息与所述图形数据库中节点标签之间的关联关系;其中,所述节点标签用于标识所述节点;

基于所述关联关系,将所述网络资源类型对应的网络资源配置信息存入到所述图形数据库中相应的节点中,同时根据所述性能指标信息确定所述节点对应的属性信息。

进一步的,所述的业务系统故障分析方法,还包括:监测所述图形数据库相应的节点中存储的所述性能指标信息,并将对应所述性能指标信息的指标告警信息同步存储到所述图形数据库中相应的节点中。

进一步的,所述指标告警信息包括:告警资源地址信息、告警类别信息、告警时间信息、告警级别信息、告警状态信息中的至少一种。

进一步的,所述网络资源配置信息包括构成所述业务系统的硬件配置信息和/或软件配置信息。

本发明还提供一种业务系统故障分析方法,包括:

系统确定单元,用于确定待监控的业务系统;

信息采集单元,用于获取所述业务系统对应的网络资源配置信息及性能指标信息;

信息分析单元,用于将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库;

信息监控单元,用于当所述性能指标信息达到或超过预设的指标告警阈值时,得到指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

进一步的,所述的业务系统故障分析装置,还包括:

特征分析单元,用于对所述业务系统的结构进行分析,得到所述业务系统的架构特征;

模型构建单元,用于根据所述业务系统的架构特征以及网络资源关系,构建所述图形数据库。

进一步的,所述模型构建单元,具体用于:

根据所述业务系统的架构特征以及网络资源关系,确定相应的节点,并创建所述节点对应的节点标签以及所述节点之间的对应关系;

基于所述节点、所述节点标签以及所述节点之间的对应关系,构建所述图形数据库模块。

进一步的,所述的业务系统故障分析装置,还包括:

标识获取单元,用于获取所述业务系统中的网络资源类型对应的身份标识信息;

关联关系构建单元,用于构建所述身份标识信息与所述图形数据库中节点标签之间的关联关系;其中,所述节点标签用于标识所述节点;

属性信息确定单元,用于基于所述关联关系,将所述网络资源类型对应的网络资源配置信息存入到所述图形数据库中相应的节点中,同时根据所述性能指标信息确定所述节点对应的属性信息。

进一步的,所述的业务系统故障分析装置,还包括:监控及存储单元,监测所述图形数据库相应的节点中存储的所述性能指标信息,并将对应所述性能指标信息的指标告警信息同步存储到所述图形数据库中相应的节点中。

进一步的,所述指标告警信息包括:告警资源地址信息、告警类别信息、告警时间信息、告警级别信息、告警状态信息中的至少一种。

进一步的,所述网络资源配置信息包括构成所述业务系统的硬件配置信息和/或软件配置信息。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上任一项所述的业务系统故障分析方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上任一项所述的业务系统故障分析方法的步骤。

本发明提供的所述的业务系统故障分析方法,扩展性更好,能够将监控系统中单一指标告警信息与图形数据库进行关联,便于对故障关联指标进行分析,从而快速找到故障原因并及时处理,保障业务系统的持续运行。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的业务系统故障分析方法的流程示意图;

图2为本发明提供的业务系统故障分析装置的结构示意图;

图3为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面基于本发明所述的业务系统故障分析方法,对其实施例进行详细描述。如图1所示,其为本发明提供的业务系统故障分析方法的流程图,具体实现过程包括以下步骤:

步骤101:确定待监控的业务系统。

在本发明实施例中,所述的业务系统可以是指企业管理业务系统,具体包括ERP(Enterprise Resource Planning;企业资源计划系统)、CRM(Customer RelationshipManagement;客户关系管理系统)、OA(Office Automation;办公自动化系统)、生产管理系统,进销存管理系统,项目管理系统等。各业务系统中包含有多种网络资源,比如中央处理器(central processing unit;CPU)、硬盘、内存、显卡等。因此,在具体实施过程中,需要预先确定待监控的相应业务系统,该业务系统可以是指一个,也可以是指多个不同类型的业务系统组合,在此不做具体限定。

步骤102:获取所述业务系统对应的网络资源配置信息及性能指标信息。

具体的,所述网络资源配置信息可以包括构成所述业务系统的硬件配置信息和/或软件配置信息等。其中所述硬件配置信息包含中央处理器的配置信息、硬盘的配置参数、内存配置参数、显卡配置参数等,比如中央处理器主频、硬盘大小、内存大小等。所述性能指标信息CPU的使用率或者运算速度、硬盘和内存的存储容量和存取速度等,在此不再一一列举。

步骤103:将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库。

其中,所述图形数据库可以是指Neo4j图形数据库。Neo4j图形数据库中可创建相应的属性图模型,该属性图模型用于具体存储所述网络资源配置信息和所述性能指标信息等。该属性图模型由顶点(Vertex)、边(Edge)、标签(Lable)、关系类型和属性(Property)组成。顶点也称作节点(Node),边也称作关系(Relationship)。在图形模型中,所有的节点是独立存在的。具体的,可为节点设置相应的标签进行标识,拥有相同标签的节点属于同一个分组或者同一个集合;关系类型通过箭头的方向来标识,关系可基于关系类型进行分组,类型相同的关系属于同一个组或者同一个集合。每个节点可设置零个,一个或多个标签,但是关系只能设置一个关系类型。通过构建业务系统对应的Neo4j图形数据库能够很好的描述节点与节点之间的关系,支持Cypher查询语言可以很方便的对节点、关系、属性创建和遍历查找,从而帮助故障排查和影响分析。该图形数据库不需要预先建立scheme,能够与主流的开发框架能很好的集成。

在本发明实施例中,将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库之前,需要预先构建相应的图形数据库,并基于图形数据库构建业务系统的网络资源对应的属性图模型。具体的,首先对所述业务系统的结构进行分析,得到所述业务系统中网络资源的架构特征;根据所述业务系统的架构特征以及网络资源关系,确定相应的节点,并创建所述节点对应的节点标签以及所述节点之间的对应关系;并基于所述节点、所述节点标签以及所述节点之间的对应关系,构建所述图形数据库模块。除此之外,还包括获取所述业务系统中的网络资源类型对应的身份标识信息;构建所述身份标识信息与所述图形数据库中节点标签之间的关联关系,所述节点标签用于标识所述节点;基于所述关联关系,将所述网络资源类型对应的网络资源配置信息存入到所述图形数据库中相应的节点中,同时根据所述性能指标信息确定所述节点对应的属性信息。进一步的,监测所述图形数据库相应的节点中存储的所述性能指标信息,并将对应所述性能指标信息的指标告警信息同步存储到所述图形数据库中相应的节点中。

在具体实施过程中,基于图形数据库构建业务系统的网络资源对应的属性图模型,根据业务系统网络资源架构特征及运维人员对资源维护的分工,构建包含人、应用、设备、网络资源关系的属性图模型,并将种类繁多的网络资源类型映射到属性图模型相应标签所对应的节点中,抽取每个网络资源节点的配置指标和告警信息到属性图模型中,便于不同维度的关联查询。构建包含人、应用、设备、网络资源关系的属性图模型进一步包括:根据业务系统的网络资源架构特征,对图形节点和节点之间的关系进行设计,不同的运维角色管理着不同的网络资源,比如基础运维、网络运维、应用运维等角色。

其中,应用运维角色管理着业务应用系统,应用与应用存在关联关系,比如一个分布式应用,应用与应用之间存在包含关系,业务系统依赖微服务器模块,微服务器依赖软件组件并监听端口,主机运行微服务器程序和软件组件,主机存储空间挂载在存储设备上,主机通过交换机接口与存储设备建立连接,抽取连接关系中的网络资源节点分类作为标签。具体的,创建运维人节点标签(Person),运维角色节点标签(Role),业务系统节点标签(App),业务系统组件节点标签(Module),服务模块节点标签(Service),主机节点标签(Host),数据目录节点标签(Data Catalog),应用端口节点标签(Port),存储设备节点标签(Storage),交换机节点标签(Switch),网络接口节点标签(Interface),告警信息节点标签(AlarmInfo)等。

根据业务系统中网络资源架构特征创建属性图模型节点标签具体实现过程包括:抽取网络资源架构实体及建立关联关系到图模型节点,将监控系统中的网络资源类型根据图模型标签映射导入到相应的属性图模型中,以IP(Internet Protocol;网际互连协议)地址作为唯一标识同步监控系统中的网络资源导入到属性图模型的节点中,根据监控系统采集网络资源的配置指标确定节点对应的属性信息,并同步监控系统中网络资源的指标告警信息,根据业务系统中网络资源架构,创建节点与节点之间的关系形成网络资源关系图谱。具体的,包括创建拥有关系(OWN);管理关系(MANAGER);包含关系(CONTAINS),使用代理关系(USE_PROXY);依赖关系(DEPEND_ON);数据存储关系(DATA_ON);空间挂载关系(MOUNT);运行关系(RUNS),服务监听端口关系(LISTEN);持有关系(HAS);路由关系(ROUTE),告警状态关系(ALARM_STATE)。

进一步的,可抽取业务系统运行的关联节点并监控各个节点的告警指标信息,并提取监控节点告警指标信息并更新到属性图模型中便于后续进行故障关联分析。

步骤104:当所述性能指标信息达到或超过预设的指标告警阈值时,生成指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

其中,所述指标告警信息包括告警资源地址信息、告警类别信息、告警时间信息、告警级别信息、告警状态信息等中的至少一种。

在本发明实施例中,可通过分析模块采集上报的业务系统运行状态实时数据,抽取网络资源配置信息及监控的配置信息、告警信息导入属性图数据库中;并提供关联查询接口。通过监控模块采集网路资源配置信息及相应的性能指标信息,并设置指标告警阈值;以及采集监控日志、故障提示、结果数据导入图形数据库查看、比对等。当出现故障时,检索相应节点到指标告警信息的关系,找出相关节点及相关节点的指标告警信息,从而将监控系统中单一的指标监控告警通过图像数据库中属性图模型关系进行关联分析,避免人工去一个一个检查告警指标查找故障原因。

采用本发明所述的业务系统故障分析方法,扩展性更好,能够将监控系统中单一指标告警信息与图形数据库进行关联,便于对故障关联指标进行分析,从而快速找到故障原因并及时处理,保障业务系统的持续运行,极大减少了管理人员的工作量,提高了系故障排除及维护的便捷性和用户体验。

与上述提供的一种业务系统故障分析方法相对应,本发明还提供一种业务系统故障分析装置。由于该装置的实施例相似于上述方法实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的业务系统故障分析装置的实施例仅是示意性的。请参考图2所示,其为本发明提供的一种业务系统故障分析装置的结构示意图。

本发明所述的一种业务系统故障分析装置具体包括如下部分:

系统确定单元201,用于确定待监控的业务系统。

信息采集单元202,用于获取所述业务系统对应的网络资源配置信息及性能指标信息。

信息分析单元203,用于将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库。

信息监控单元204,用于当所述性能指标信息达到或超过预设的指标告警阈值时,得到指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

采用本发明所述的业务系统故障分析装置,扩展性更好,能够将监控系统中单一指标告警信息与图形数据库进行关联,便于对故障关联指标进行分析,从而快速找到故障原因并及时处理,保障业务系统的持续运行,极大减少了管理人员的工作量,提高了系故障排除及维护的便捷性和用户体验。

与上述提供的业务系统故障分析方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图3所示,其为本发明公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)301、存储器(memory)302、通信总线303以及通信接口304,其中,处理器301,存储器302通过通信总线303完成相互间的通信,通过通信接口304与外部设备实现通信。处理器301可以调用存储器302中的逻辑指令,以执行业务系统故障分析方法,该方法包括:确定待监控的业务系统;获取所述业务系统对应的网络资源配置信息及性能指标信息;将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库;当所述性能指标信息达到或超过预设的指标告警阈值时,生成指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的业务系统故障分析方法,该方法包括:确定待监控的业务系统;获取所述业务系统对应的网络资源配置信息及性能指标信息;将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库;当所述性能指标信息达到或超过预设的指标告警阈值时,生成指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的业务系统故障分析方法,该方法包括:确定待监控的业务系统;获取所述业务系统对应的网络资源配置信息及性能指标信息;将所述网络资源配置信息和所述性能指标信息存入到预设的图形数据库;当所述性能指标信息达到或超过预设的指标告警阈值时,生成指标告警信息,并基于所述图形数据库对所述网络资源配置信息和所述指标告警信息进行关联分析,确定目标故障信息。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种业务系统故障分析方法及装置
  • 一种用于智能配电系统故障预测的音频谱分析方法及装置
技术分类

06120112262067