导航：首页> 基本上无切削的金属机械加工；金属冲压>故障定位方法、装置、终端设备以及存储介质

故障定位方法、装置、终端设备以及存储介质

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及大数据分析领域，尤其涉及一种故障定位方法、装置、终端设备以及存储介质。

背景技术

随着互联网行业的持续发展，对社会的影响逐步增大。金融行业也在一轮又一轮的互联网浪潮下不断增加对软件研发的重视和资金投入。现如今，很多银行、证券机构的系统都在逐步上云，因此云应用也面临着越来越大的机遇和挑战。由于金融类软件对系统的稳定性、可用性、一致性要求极高，所以这些系统的开发人员必须尽最大可能来保障应用运行过程中不出差错。但软硬件都无法保证百分百可靠，再优秀的开发人员随着业务复杂度和应用场景的复杂化，也可能编写出在某些特殊场景下未考虑的情况，进而引发故障。此时，如何快速、准确地定位到故障就成了亟须考虑的问题。

然而，在目前的故障定位技术中，当系统出现问题时，大多数时候都依赖于开发运维人员的手工排障。该方式对开发运维人员的能力要求比较高，且入手时很容易偏离故障方向，此外，传统的分析方式只会根据生产报错信息，排查对应实例的代码、网络、数据库、机器等，对于某些不明显的报错信息，很难准确定位到出故障的环节，给排障工作带来额外的负担。综上所述，现有技术中故障定位方法定位精度不高，导致故障定位效率低下。

发明内容

本发明的主要目的在于提供一种故障定位方法、装置、终端设备以及存储介质，旨在提高故障定位精度，提高故障定位效率。

为实现上述目的，本发明提供一种故障定位方法，所述故障定位方法包括如下步骤：

获取业务监控数据和预设的聚合配置数据；

基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围。

可选地，所述获取业务监控数据的步骤包括：

响应于故障定位指令，通过卡夫卡Kafka分区对预先获取的目标业务数据进行消费，得到消费数据；

通过Kafka消费线程从所述Kafka分区中拉取所述消费数据，得到所述业务监控数据。

可选地，所述基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围的步骤包括：

基于所述聚合配置数据确定聚合类型，其中，所述聚合类型包括应用聚合、机器聚合和网段聚合；

若所述聚合类型为应用聚合，则基于所述应用聚合对应的第一类聚合维度对所述业务监控数据进行聚合分析，得到第一聚合分析结果；

若所述聚合类型为机器聚合，则基于所述机器聚合对应的第二类聚合维度对所述业务监控数据进行聚合分析，得到第二聚合分析结果；

若所述聚合类型为网段聚合，则基于所述网段聚合对应的网段数据进行聚合分析，得到第三聚合分析结果。

可选地，所述若所述聚合类型为应用聚合，则基于所述应用聚合对应的第一类聚合维度对所述业务监控数据进行聚合分析，得到第一聚合分析结果的步骤包括：

若所述聚合类型为应用聚合，则基于所述应用聚合确定所述第一类聚合维度，其中，所述第一类聚合维度包括实例级、分库级、应用级和全局级中的一种或多种；

基于所述实例级、所述分库级、所述应用级和所述全局级中的一种或多种确定对应的优先级排列顺序，得到第一优先级序列；

基于所述第一优先级序列对所述业务监控数据进行聚合分析，得到所述第一聚合分析结果。

可选地，所述基于所述实例级、所述分库级、所述应用级和所述全局级中的一种或多种确定对应的优先级排列顺序，得到第一优先级序列的步骤包括：

基于所述实例级、所述分库级、所述应用级和所述全局级，确定对应的优先级排列顺序，得到所述第一优先级序列，其中，所述第一优先级序列中优先级由高到低依次为所述全局级、所述应用级、所述分库级、所述实例级。

可选地，所述若所述聚合类型为机器聚合，则基于所述机器聚合对应的第二类聚合维度对所述业务监控数据进行聚合分析，得到第二聚合分析结果的步骤包括：

若所述聚合类型为机器聚合，则基于所述机器聚合确定所述第二类聚合维度，其中，所述第二类聚合维度包括物理机端口PM、虚拟存储区域网络VSAN以及可用区AZ；

基于所述PM、所述VSAN和所述AZ确定对应的优先级排列顺序，得到第二优先级序列；

基于所述第二优先级序列对所述业务监控数据进行聚合分析，得到所述第二聚合分析结果。

可选地，所述若所述聚合类型为网段聚合，则基于所述网段聚合对应的网段数据进行聚合分析，得到第三聚合分析结果的步骤包括：

若所述聚合类型为网段聚合，则基于所述网段聚合对应的网段数据进行数据解析，得到目标网段数据；

基于预设参数确定所述目标网段数据的聚合位数；

基于所述聚合位数对所述目标网段数据进行网段截取与聚合分析，得到所述第三聚合分析结果。

可选地，所述响应于故障定位指令，控制卡夫卡Kafka消费线程对预先获取的目标业务数据进行消费，得到消费数据的步骤之前包括：

将业务监控软件开发工具包SDK集成到添加到目标应用的依赖项中，并引入预设的轻量级开发框架，得到第一组合插件；

基于预设的业务逻辑对所述目标组合插件进行参数配置，得到第二组合插件；

基于所述第二组合插件控制所述目标应用将目标路径上的数据发送给业务监控集群，得到所述目标业务数据。

此外，为实现上述目的，本发明还提供一种故障定位装置，所述装置包括：

数据获取模块，用于获取业务监控数据和预设的聚合配置数据；

聚合分析模块，用于基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围。

可选地，所述数据获取模块还用于：

响应于故障定位指令，通过卡夫卡Kafka分区对预先获取的目标业务数据进行消费，得到消费数据；

通过Kafka消费线程从所述Kafka分区中拉取所述消费数据，得到所述业务监控数据。

可选地，所述聚合分析模块还用于：

基于所述聚合配置数据确定聚合类型，其中，所述聚合类型包括应用聚合、机器聚合和网段聚合；

若所述聚合类型为应用聚合，则基于所述应用聚合对应的第一类聚合维度对所述业务监控数据进行聚合分析，得到第一聚合分析结果；

若所述聚合类型为机器聚合，则基于所述机器聚合对应的第二类聚合维度对所述业务监控数据进行聚合分析，得到第二聚合分析结果；

若所述聚合类型为网段聚合，则基于所述网段聚合对应的网段数据进行聚合分析，得到第三聚合分析结果。

可选地，所述聚合分析模块还用于：

基于所述实例级、所述分库级、所述应用级和所述全局级中的一种或多种确定对应的优先级排列顺序，得到第一优先级序列；

基于所述第一优先级序列对所述业务监控数据进行聚合分析，得到所述第一聚合分析结果。

可选地，所述聚合分析模块还用于：

基于所述PM、所述VSAN和所述AZ确定对应的优先级排列顺序，得到第二优先级序列；

基于所述第二优先级序列对所述业务监控数据进行聚合分析，得到所述第二聚合分析结果。

可选地，所述聚合分析模块还用于：

若所述聚合类型为网段聚合，则基于所述网段聚合对应的网段数据进行数据解析，得到目标网段数据；

基于预设参数确定所述目标网段数据的聚合位数；

基于所述聚合位数对所述目标网段数据进行网段截取与聚合分析，得到所述第三聚合分析结果。

可选地，所述聚合分析模块还用于：

将业务监控软件开发工具包SDK集成到添加到目标应用的依赖项中，并引入预设的轻量级开发框架，得到第一组合插件；

基于预设的业务逻辑对所述目标组合插件进行参数配置，得到第二组合插件；

基于所述第二组合插件控制所述目标应用将目标路径上的数据发送给业务监控集群，得到所述目标业务数据。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的故障定位程序，所述故障定位程序被所述处理器执行时实现如上所述的故障定位方法。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有故障定位程序，所述故障定位程序被处理器执行时实现如上所述的故障定位方法。

本发明实施例提出的一种故障定位方法、装置、终端设备以及存储介质，通过获取业务监控数据和预设的聚合配置数据；基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围。本发明实施例通过对所述聚合配置数据进行预先设置，并基于所述聚合配置数据确定所述聚合类型以对所述业务监控数据进行对应的聚合分析，从而得到所述聚合分析结果以确定故障范围，提高了故障定位精度，从而提高故障定位效率。

附图说明

图1为本发明故障定位装置所属终端设备的功能模块示意图；

图2为本发明故障定位方法第一示例性实施例的流程示意图；

图3为本发明故障定位方法第一实例性聚合分析过程中的系统交互示意图；

图4为本发明故障定位方法第二示例性实施例的流程示意图；

图5为本发明故障定位方法第三示例性实施例的流程示意图；

图6为本发明故障定位方法第四示例性实施例的流程示意图；

图7为本发明故障定位方法第四示例性实施例中不同聚合类型对应的细分类型示意图；

图8为本发明故障定位方法第五示例性实施例的流程示意图；

图9为本发明故障定位方法第六示例性实施例的流程示意图；

图10为本发明故障定位方法第七示例性实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取业务监控数据和预设的聚合配置数据；基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围。

本申请实施例考虑到，当前业界传统的分析方式只会根据生产报错信息，排查对应实例的代码、网络、数据库、机器等，对于某些不明显的报错信息，很难准确定位到出故障的环节，给排障工作带来额外的负担。综上所述，现有技术中故障定位方法定位精度不高，导致故障定位效率低下。

基于此，本申请实施例提供一种解决方案，通过对所述聚合配置数据进行预先设置，并基于所述聚合配置数据确定所述聚合类型以对所述业务监控数据进行对应的聚合分析，从而得到所述聚合分析结果以确定故障范围，提高了故障定位精度，从而提高故障定位效率。

具体地，参照图1，图1为本申请故障定位装置所属终端设备的功能模块示意图。该故障定位装置可以为独立于终端设备的、能够进行故障定位的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等，此外，该故障定位装置还可以承载于故障定位系统中。

在本实施例中，该故障定位装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及故障定位程序；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的故障定位程序被处理器执行时实现以下步骤：

获取业务监控数据和预设的聚合配置数据；

基于所述聚合配置数据确定聚合类型，并基于所述聚合类型对所述业务监控数据进行聚合分析，得到聚合分析结果以确定故障范围。