掌桥专利:专业的专利平台
掌桥专利
首页

一种机房网络智能监管方法及系统

文献发布时间:2023-06-19 10:58:46



技术领域

本发明属于计算机软件程序技术领域,具体涉及一种机房网络智能监管方法及系统。

背景技术

21世纪是数字化系统、信息化系统,互联网、物联网系统的爆发式增长时代,这些系统的运行一般依托于集中式的机房环境,新系统的爆发式增长,机房环境也同样是规模越来越大,越来越复杂,那么机房的运维工作也同样面临着诸多挑战。现有开源监控工具已经不能满足大规模机房复杂的运维需求,列出如下一些现有开源工具不好解决的问题:

1.监控节点数量多,人工添加工作量大、且易出错,节点出现属性变动时,人工难以及时发现并跟进维护。

2.网络拓扑关系复杂,作为监控系统需要直观的进行拓扑图形化展示。

3.监控点及监控类型多变,开源平台不便于监控需求特殊定制。

4.告警规则机制比较简单,容易计算出不必要的告警。

5.缺乏一些预警机制,协助运维工作人员,发现一些问题隐患。

6.缺乏网络环境安全分析机制,协助运维人员发现一些网络攻击行为。

7.缺乏故障自动处置机制,协助运维工作人员,及时快速的处置节点故障。

发明内容

本发明的目的在于提供一种机房网络智能监管方法及系统,该技术方案能够在一定程度上协助保障机房环境的安全。

本发明提供的一种机房网络智能监管方法包括以下步骤:

步骤S1:添加环境节点必要数据;

步骤S2:读取所述步骤S1存储的环境节点必要数据后开始扫描发现环境范围内各个软硬件节点,形成发现结果进行存储;

步骤S3:判断所述步骤S2存储的发现结果中是否存在需处理的目标节点,如存在,执行步骤S4;反之则执行步骤S2;

步骤S4:对所述目标节点进行数据采集,并对采集结果进行入侵行为特征进行判断,如符合入侵行为特征,则将所述采集结果中数据的所属对象、入侵事件及入侵所属种类进行存储,以便读取展示;反之则存储所述采集结果,供读取展示。

本发明提供的一种机房网络智能监管系统包括:

人机交互界面,用于节点维护、基础配置、数据查看、及监控看板;

自动发现模块,用于根据所述人机交互界面配置的节点数据扫描发现环境内各个软硬件节点,并形成发现结果;

采集引擎,用于对所述自动发现模块形成的发现结果进行读取,发现是否存在目标节点,当存在目标节点时对目标节点数据进行采集,并将采集到的各类不同格式数据数据加工为可用的数据格式,形成采集结果;

入侵检测模块,用于对所述采集结果进行入侵行为特征判断;

储存模块,用于数据存储,以供读取。

进一步的,在上述监管方法的基础上,对所述步骤S4形成的采集结果还进行以下处理之一或全部:

1)存储所述采集结果,供读取展示;

2)对所述采集结果进行告警条件判断,如符合告警条件,则将该采集结果中数据的所属对象及告警信息进行存储,以便读取展示。

进一步的,在上述监管方法的基础上,当所述采集结果符合告警条件时,根据所述采集结果中数据的所属对象及告警信息判断是否存在对应所述采集结果的故障处理策略,如有,则执行处置策略中的处置脚本对所述采集结果中的故障进行修复或者恢复,反之则不执行处置任务。

进一步的,在上述监管方法的基础上,当执行处置策略中的处置脚本对所述采集结果中的故障进行修复或者恢复后,处置信息和处置结果发送通知。

进一步的,在上述监管方法的基础上,当所述采集结果符合告警条件时,判断是否需要发送通知,如需要,则发送通知;反之则不发送。

进一步的,在上述监管方法的基础上,还包括环境内网络拓扑图生成步骤,该步骤具体是根据所述步骤S2扫描发现的环境范围内各个软硬件节点生成环境内网络拓扑图并存储所述环境内网络拓扑图,便于网络节点信息编辑维护。

进一步的,在上述监管方法的基础上,当所述采集结果如符合入侵行为特征时,将所述采集结果中的数据所属对象、入侵事件及入侵所属种类发送通知。

进一步的,在上述监管方法的基础上,在发送通知之前,对数据进行过滤、去重、同源合并、同类合并、以及同业务合并处理,减少了告警通知次数,避免了告警风暴。

进一步的,在上述监管系统的基础上,还包括告警判定模块,用于根据预定的规则对所述采集结果进行告警条件判断。

进一步的,在上述监管系统的基础上,还包括:

知识库,用于存储故障处置策略、处置脚本;

故障处理模块,用于接收所述告警判定模块判定为符合告警条件的采集结果,读取所述知识库中存储的故障处置策略、处置脚本,判断所述知识库是否存在与符合告警条件的采集结果中告警设置的处置策略,如果有则执行处置策略,以完成故障自动修复或者恢复功能

进一步的,在上述监管系统的基础上,还包括用于根据预设的通知发送方式发送需要发送通知的事件通知模块。

进一步的,在上述监管系统的基础上,还包括告警压缩模块,所述告警压缩模块用于对需要发送通知的数据进行过滤、去重、合并处理,形成待发送事件数据,并将所述待发送事件数据发送至所述事件通知模块。

本发明提供的技术方案包括以下有益效果:

1.入侵监测的增加,能够对外部网络攻击行为发现,实现了在一定程度上协助保障机房环境的安全;

2.能够进行环境节点及节点信息的自动发现;

3.能够自由配置告警规则;

4.能够根据告警问题设置一些处置策略,以便及时快速的处理一般软硬件故障;

5.通知步骤能够将相关数据发送通知给相关人员,协助了运维人员维护;

6.能够快速的配置新监控需求,以适应复杂机房环境的多变监控需求;

7.具有告警条件判断、入侵行为特征判断步骤且结果进行存储,以便读取展示,在一定程度上实现了协助运维工作人员发现一些问题隐患以及发现一些网络攻击行为的目的;具有故障处理步骤,能够根据告警规则设置一些处置策略,协助运维工作人员,实现了及时快速地处理一般软硬件故障;

8.本文提供的技术方案可适用于更大规模机房,减少了人力成本,维护和修复工作可自动完成,或集中的手动完成;

9.高效灵活的采集引擎,可以适配各种监控任务。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明提供的机房网络智能监管系统的逻辑关系图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

参照图1所示,本发明提供的系统包含如下几个子模块:人机交互界面、自动发现模块、采集引擎、告警判定模块、入侵检测模块、知识库、故障处置模块、存储模块、告警压缩模块、事件通知模块,以上各功能模块主要功能如下:

人机交互界面:提供系统管理、节点维护、数据查看、监控看板功能,可以采用web模块,即web服务层,实现维护、读取和展示功能。

自动发现模块,用于根据人机交互界面配置的节点数据扫描、探测发现环境内各个软硬件节点,并形成发现结果;本实施例中自动发现模块可以采用任何一种扫描技术,如利用snmp、ping、tcp、arp等技术手段扫描发现环境内各个节点(包括软、硬件),探知节点类型、IP、配置、属性、链路关系等信息,并可根据扫描结果,生成网络拓扑图;并将扫描结果和生成的网络拓扑图存储到存储模块中,以便人机交互界面(web模块)读取显示。

采集引擎,负责执行环境数据采集任务,用于对目标节点数据进行采集,并将采集到的各类不同格式数据数据加工为系统内部可用的数据格式,形成采集结果,然后将采集结果发送到存储模块、告警判定模块、入侵检测模块;

告警判定模块,利用阈值判断、基线判断、同比计算手段,根据预定规则,对采集引擎发来的采集结果进行告警判定,达到告警条件的数据,发送到告警压缩模块和故障处置模块。

入侵检测模块,用于接收采集引擎发来的采集结果,利用主持分析算法、聚类算法、贝叶斯算法等入侵检测算法,对采集结果中的数据进行分析计算,符合入侵特征的一个或一组数据,将发送到告警压缩模块,并发送到存储模块进行存储以便人机交互界面读取显示。

知识库,用于存储故障处置策略、处置脚本,可以添加故障处置经验,提供问题分析和处置方法,另外还可以为故障添加处置脚本,提供给处置模块,辅助处置模块进行故障自动恢复,

故障处理模块,用于接收告警判定模块判定为符合告警条件的采集结果,读取知识库中存储的故障处置策略、处置脚本,判断知识库是否存在与符合告警条件的采集结果中告警设置的处置策略,如果有则执行处置策略,以完成故障自动修复或者恢复功能;执行处置策略后,将执行过程加工成处置事件,发送到事件通知模块;如果没有设置对应的处置策略,就不执行此条告警的处置任务。

储存模块,用于数据存储,以供读取,可以采用中间件和数据库。

告警压缩模块,用于对需要发送通知的数据进行过滤、去重、合并处理,形成待发送事件数据,并将所述待发送事件数据发送至所述事件通知模块;具体接收告警判定模块发来的告警数据,根据同源合并、同类合并、同业务合并、优先级过滤手段,进行告警压缩,减少告警通知次数,避免告警风暴;压缩后的告警信息加工成待发送事件数据,并发送到事件通知模块。

事件通知模块,用于根据预设的通知发送方式发送需要发送通知的数据的事件通知模块;具体是该模块接收告警判定模块和故障处置模块事件数据,根据预设的通知方式(例如短信、邮件、微信)及联系方式(例如手机号、邮箱、微信号),发送通知给相关人员。

结合图1所示,上述系统的工作流程如下:

1.使用者首先在人机交互界面(web模块)登录,对系统进行基础设置,添加环境节点必要数据(关键交换机、网络内节点SNMP协议共同体名),配置告警规则,配置事件通知人、通知方式,配置故障处置策略、处置脚本,以上操作写入数据库中;

2.自动发现模块从数据库读取环境节点必要数据后,开始扫描发现环境范围内各个软硬件节点,发现完成后,形成发现结果,根据发现结果自动生成环境内网络拓扑图;自动发现模块将发现结果和生成的拓扑图写到数据库进行存储;

3.采集引擎模块实时关注数据库内是否有目标节点(新的节点)出现,读取到该目标网络节点后,自动启动对目标节点(新节点)的数据采集工作,形成采集结果;本实施例中采集引擎过SNMP、PING、TCP、HTTP、IPMI等方式方位节点对象,采集数据;当然也可以采用其它采集方式;

4.采集引擎将采集结果加工后,进行以下三路处理:

1)写入到中间件进行存储,供人机交互界面(web模块)读取展示;

2)发送到告警判定模块,以鉴定节点数据是否异常;

3)发送到入侵检测模块,以检测网络内入侵事件;

5.告警判定模块收到采集引擎发来的最新收据,经过告警条件判断,如果符合告警条件,那么,将此数据所属对象,及告警信息,发送到中间件进行存储,以便人机交互模块(web模块)及时展示告警信息;

6.入侵检测模块收到采集引擎发来的最新数据,经过入侵检测算法计算,如果数据符合入侵行为特征,那么将此数据所属对象,及入侵事件,入侵所属种类,发送到中间件进行存储,以便人机交互模块(web模块)及时展示入侵事件;

7.告警判定模块产生的告警信息除了写入中间件进行存储,还会发送到告警压缩模块和故障处置模块;

8.告警压缩模块收到告警信息后,对告警信息进行过滤、去重、合并后,如果仍需要发送通知,那么将告警通知发送到事件通知模块;

9.故障处置模块收到告警信息后,检索知识库,是否有对应告警的处置策略,如果有,则执行处置策略中的处置脚本,以便对节点故障进行修复或者恢复;如果没有设置对应的处置策略,就不执行此条告警的处置任务;

10.故障处置模块如果有处置动作,那么会将处置信息和处置结果,发送到告警压缩模块,以便将处置情况通知给干系人;

11.入侵检测模块如果发现了入侵事件,也会将事件信息发送到告警压缩模块,以便将入侵信息发送给干系人;

12.人机交互界面(web模块)会实时读取数据库、中间件的各种数据、事件,并在页面展示。

本实施例提供的监管系统具有自动发现、自动拓扑、入侵检测、智能告警、以及故障恢复等功能,功能完整。

本实施例中的中间件是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用,能够达到资源共享、功能共享的目的。目前,它并没有很严格的定义,但是普遍接受IDC的定义:中间件是一种独立的系统软件服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。从这个意义上可以用一个等式来表示中间件:中间件=平台+通信,这也就限定了只有用于分布式系统中才能叫中间件,同时也把它与支撑软件和实用软件区分开来。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

相关技术
  • 一种机房网络智能监管方法及系统
  • 光纤网络智能维护系统及光纤网络智能维护APP
技术分类

06120112754438