掌桥专利:专业的专利平台
掌桥专利
首页

基于大数据集群服务监控方法及系统

文献发布时间:2023-06-19 09:24:30


基于大数据集群服务监控方法及系统

技术领域

本发明涉及大数据监控领域,特别涉及一种基于大数据集群服务监控方法及系统。

背景技术

随着大数据集群数量的不断扩充,集群没有监控页面、或者自带监控页面暴露出管理分散问题,导致各类集群状态信息不能进行统一管理。集群服务出现挂起的情况也随着集群数量增大而增大,挂起后不能及时发出告警、不能在一个集中页面查看到信息且不能自动重启。

发明内容

为了克服现有技术的不足,本发明提供一种基于大数据集群服务监控方法。

本发明解决其技术问题所采用的技术方案是:

一种基于大数据集群服务监控方法,包括以下步骤:

步骤一:登录统一管理页面,填写监控目标的信息,将所述信息保存到规则存储库,并将每一条配置的信息作为一条监控规则;

步骤二:心跳检测服务器部署的心跳检测程序模块,定时到规则存储库中读取规则,并返回给心跳检测程序模块然后对规则进行下一步处理;

步骤三:心跳检测程序模块接收到需要检测的规则,按照规则配置的信息,发送心跳检测指令到远程的被检测端服务,采集该服务是否正常返回连接信息;

步骤四:未得到被检测端的答复时心跳检测程序告警并重启;

步骤五:若自动重启失败则通知手动重启操作。

进一步地,所述在统一管理页面中填写的监控目标的信息包括监控目标的IP信息、端口信息、远程登录的用户信息以及启动所需要的命令信息。

进一步地,所述将每一条配置的信息作为一条监控规则中的配置方式包括实例监听以及端口监听。

进一步地,步骤四包括:在比较模块预设时间内,若发送的心跳检测指令没有得到被检测端的答复,则心跳检测程序认为该服务处于挂起状态,心跳检测程序将调用告警模块发送企业微信告警信息以及时通知相关负责人,同时,发送启动指令到被检查的服务端,进行远程自动重启,调用写入模块保存告警信息到心跳检测信息存储库;若在规定时间收到被检测端的答复,则保存正常心跳检测信息到心跳检测信息存储库。

进一步地,步骤五包括:若自动重启服务失败,则将再次发送企业微信通知自动重启失败,告知负责人登录统一管理页面进行手动重启操作,待服务重启正常后,更新心跳检测信息存储库的信息。

进一步地,待服务重启正常后,还包括将原来挂起状态修改为正常状态。

本发明还公开了一种基于大数据集群服务监控系统,包括:

心跳检测程序模块,用于接收需要检测的规则,按照规则配置的信息,发送心跳检测指令到远程的被检测端服务,采集该服务是否正常返回连接信息;

判断模块,用于判断发送的心跳检测指令在预设时间内是否得到被检测端的答复;

告警模块,用于发送企业微信告警信息以及时通知相关负责人;

写入模块,用于保存告警信息到心跳检测信息存储库;

比较模块,用于判断比较是否达到预设时间。

进一步地,所述按照规则配置的信息中的配置方式包括实例监听以及端口监听。

进一步地,在比较模块预设时间内,若发送的心跳检测指令没有得到被检测端的答复,心跳检测程序将调用告警模块发送企业微信告警信息以及时通知相关负责人。

进一步地,还包括发送启动指令到被检查的服务端,进行远程自动重启,调用写入模块保存告警信息到心跳检测信息存储库。

本发明的有益效果是:本发明一种基于大数据集群服务监控方法及系统提出将各类集群管理集中化,当集群服务挂起的时候能够及时发送企业微信告警并进行自动启动服务和提供有远程启动服务的页面,以保证能够在最短的时间恢复相应服务,将影响最小化。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明一种基于大数据集群服务监控方法及系统的结构流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。

参考图1,本发明解决其技术问题所采用的技术方案是:

一种基于大数据集群服务监控方法,包括以下步骤:

步骤一:登录统一管理页面,填写监控目标的信息,将所述信息保存到规则存储库,并将每一条配置的信息作为一条监控规则;

步骤二:心跳检测服务器部署的心跳检测程序模块,定时到规则存储库中读取规则,并返回给心跳检测程序模块然后对规则进行下一步处理;

步骤三:心跳检测程序模块接收到需要检测的规则,按照规则配置的信息,发送心跳检测指令到远程的被检测端服务,采集该服务是否正常返回连接信息;

步骤四:未得到被检测端的答复时心跳检测程序告警并重启;

步骤五:若自动重启失败则通知手动重启操作。

进一步地,所述在统一管理页面中填写的监控目标的信息包括监控目标的IP信息、端口信息、远程登录的用户信息以及启动所需要的命令信息。

进一步地,所述将每一条配置的信息作为一条监控规则中的配置方式包括实例监听以及端口监听。

进一步地,步骤四包括:在比较模块预设时间内,若发送的心跳检测指令没有得到被检测端的答复,则心跳检测程序认为该服务处于挂起状态,心跳检测程序将调用告警模块发送企业微信告警信息以及时通知相关负责人,同时,发送启动指令到被检查的服务端,进行远程自动重启,调用写入模块保存告警信息到心跳检测信息存储库;若在规定时间收到被检测端的答复,则保存正常心跳检测信息到心跳检测信息存储库。

进一步地,步骤五包括:若自动重启服务失败,则将再次发送企业微信通知自动重启失败,告知负责人登录统一管理页面进行手动重启操作,待服务重启正常后,更新心跳检测信息存储库的信息。

进一步地,待服务重启正常后,还包括将原来挂起状态修改为正常状态。

本发明还公开了一种基于大数据集群服务监控系统,包括:

心跳检测程序模块,用于接收需要检测的规则,按照规则配置的信息,发送心跳检测指令到远程的被检测端服务,采集该服务是否正常返回连接信息;

判断模块,用于判断发送的心跳检测指令在预设时间内是否得到被检测端的答复;

告警模块,用于发送企业微信告警信息以及时通知相关负责人;

写入模块,用于保存告警信息到心跳检测信息存储库;

比较模块,用于判断比较是否达到预设时间。

进一步地,所述按照规则配置的信息中的配置方式包括实例监听以及端口监听。

进一步地,在比较模块预设时间内,若发送的心跳检测指令没有得到被检测端的答复,心跳检测程序将调用告警模块发送企业微信告警信息以及时通知相关负责人。

进一步地,还包括发送启动指令到被检查的服务端,进行远程自动重启,调用写入模块保存告警信息到心跳检测信息存储库。

本发明的有益效果是:

a、能够集中化及时获取各类集群节点当前运行状态以及重启次数;

b、监控服务规则可配置、可视化,通过管理页面统一管理各个规则、集群状况;

c、将触发规则的服务发送企业微信通知,减少响应时长;

d、能够自动重启挂起的服务,将集群挂起造成的后果最小化并发送恢复通知。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

相关技术
  • 基于大数据集群服务监控方法及系统
  • 一种服务器集群系统的监控方法和一种服务器集群系统
技术分类

06120112149335