掌桥专利:专业的专利平台
掌桥专利
首页

一种通用的企业级信息技术监控系统

文献发布时间:2023-06-19 11:44:10


一种通用的企业级信息技术监控系统

技术领域

本发明涉及一种信息技术监控系统,具体涉及具备通用性的企业级信息技术监控系统。

背景技术

市场上存在类似于NETCOOL、PROGNOSIS等企业级解决方案,分别与IBM、HP和BMC三家厂商进行了沟通和部分技术测试。由于企业级监控平台都隶属于一整套解决方案,不只包括监控,还包括流程平台、CMDB等,功能庞大,价格昂贵,如果单纯部署监控功能,与现有功能相比没有明显优势,且需要将现有监控系统推倒重来,造成资源浪费严重。

此外,市场也存在zabbix、zenoss等开源监控平台,开源平台共同的特点是官方开放的源代码版本只有基本功能,需要大量的客户化工作。社区资源丰富,但同时也很杂乱,直接拿来用可能会出现各种各样的问题。如果完全从源码级对开源平台进行研发,需要投入大量学习成本,工作量可能反而会比纯自主研发更大。如果只是用开源平台架构,不涉及源码,由于没有企业级服务,一旦出现问题很难得到及时和有效的解决。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题,提供了一种通用的企业级信息技术监控系统,充分利用现有系统的资源,不对整体架构进行颠覆式改变,以实际需求为导向,采用一个功能一个模块的升级改造策略。

本发明的技术方案为:本发明揭示了一种通用的企业级信息技术监控系统,系统包括操作员模块、管理员模块、综合报警平台、事件分析系统、运维报表平台、事件数据库模块、归档数据库模块、性能数据采集与事件汇总处理总线,其中:

性能数据采集与事件汇总处理总线配置为将采集到的被监控设备的性能数据和事件数据上传到事件数据库模块和归档数据库模块;

操作员模块配置为监视综合报警平台,接收事件告警并进行事件分配,通过事件分析系统对告警事件进行分析,通过运维报表平台完成报表发布,通过事件数据库模块和归档数据库模块进行数据查询、分析;

管理员模块配置为针对性能数据采集与事件汇总处理总线对被监控设备的数据采集和处理进行配置和管理,收集监控需求并通过日常变更实现,收集业务监控需求和技术需求;

综合报警平台配置为通过多种报警手段在告警事件触发后通知对应人员;

事件分析系统配置为分析事件数据库模块中的事件新增和变化情况,对实时事件进行分析,从业务角度对不同服务器、不同网络设备上发生的事件进行智能关联分析,发掘出事件根源原因,为业务影响分析提供数据支撑;

运维报表平台配置为自动生成各技术运维报表,基于系统采集到的数据进行多种形式的分析与展示,为业务负载分析、基础设施扩容提供数据支持,同时承担一部分归总类业务报表的需求实现;

事件数据库模块配置为汇总并处理所有的实时告警事件,并实时同步事件数据到归档数据库模块;

归档数据库模块配置为存储全量的告警事件和性能数据,定期对性能类数据进行归档和整理,为事件分析系统提供历史事件数据,为运维报表平台提供历史性能数据。

根据本发明的通用的企业级信息技术监控系统的一实施例,综合报警平台配置的报警手段包括:网页报警、声音报警、即时消息报警、邮件报警、短信报警灯。

根据本发明的通用的企业级信息技术监控系统的一实施例,事件分析系统中的分析流程设计为信息截取、事件过滤、事件重定义、确定事件的唯一标识、信息发送的阶段。

根据本发明的通用的企业级信息技术监控系统的一实施例,事件分析系统还配置为对事件进行压缩,包括依据节点、部件、规则、事件类型压缩重复发生事件,以及自动压缩关闭的事件。

根据本发明的通用的企业级信息技术监控系统的一实施例,事件分析系统中的事件关联分析包括:关联分析平台和事件平台采用松耦合架构,实现关注事件的根源分析,实现多维度的可用性分析及树状展示功能,实现多维度的健康度分析及树状展示功能,采用动态时间切片进行分析,支持动态计算公式插件技术,支持规则自动导入功能。

根据本发明的通用的企业级信息技术监控系统的一实施例,系统实现的技术架构包括展示层、服务层和采集层,其中展示层提供统一事件平台、性能状态展示平台和趋势分析平台,服务层提供数据处理与分析,采集层提供性能数据采集与事件汇总。

根据本发明的通用的企业级信息技术监控系统的一实施例,系统实现的技术架构包括报警模块、Web服务器模块、报表模块、服务器模块、日志管理探针模块、数据管理模块、监控模块、代理模块,其中:

报警模块配置为从事件数据库模块中读取事件,并根据配置的规则执行以下工作:将事件信息发送到Maximo流程平台,通过短信/声音/邮件/即时消息将告警事件通知指定运维人员;

Web服务器模块配置为提供前台入口,用户登录后通过Web服务器模块查看各类视图,管理各种配置;

报表模块配置为根据配置读取历史数据库并生成各种报表;

服务器模块配置为接收所有的事件和数据并处理分析归档;

日志管理探针模块配置为接收各类事件告警并进行分类和定级;

数据管理模块配置为接收获取各类性能数据并进行分析和归档;

监控模块配置为根据配置实现各类监控功能;

代理模块配置为通过部署在被监控节点上的代理程序进行通讯与数据传输。

根据本发明的通用的企业级信息技术监控系统的一实施例,监控模块配置的监控功能包括:主机基本监控、主机扩展监控、网络连通性监控、网络基本监控、网络链路监控、数据库监控、业务监控、机房监控、配置文件监控、定制化监控。

根据本发明的通用的企业级信息技术监控系统的一实施例,被监控设备包括网络设备、安全设备、服务器、基础设施、数据库、中间件、业务系统以及平台组件。

本发明对比现有技术有如下的有益效果:本发明通过模块化设计,充分利用现有系统的资源,以实际需求为导向,按功能逐步更新,最终实现新一代监控系统的全部功能。因此,系统升级过程平滑稳定,不影响当前监控系统使用。本发明还通过跨平台分布式部署,可实现系统的分布式部署,并可通过网页方式进行管理和操作。此外,本发明的系统具备快速数据采集的能力,对系统和网络资源占用小。本发明还采用可扩展的平台式架构设计,平台架构体系中的后台数据采集、核心数据处理、客户化展现定制、第三方数据访问等都采用开放式接口。此外,本发明的系统具有一体化的数据展现功能,采用可视化的图形、列表等页面展现方式,集成各子模块数据内容,通过可定制的展示界面,描绘出系统和应用运行的各项指标和内容。本发明的系统的配置标准化,因而能够保证版本统一、配置统一。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的通用的企业级信息技术监控系统的一实施例的功能模块的原理图。

图2示出了本发明的通用的企业级信息技术监控系统的一实施例的技术实现的架构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的通用的企业级信息技术监控系统的一实施例的功能模块的原理。请参见图1,本实施例的系统包括:操作员模块、管理员模块、综合报警平台、事件分析系统、运维报表平台、事件数据库模块、归档数据库模块、性能数据采集与事件汇总处理总线。

被监控的设备将性能数据和事件数据通过性能数据采集与事件汇总处理总线上传到事件数据库模块和归档数据库模块,其中事件数据上传到事件数据库模块,性能数据上传到归档数据库模块。事件数据库模块将事件数据传输至归档数据库模块。被监控的设备例如包括网络设备(网络设备例如包括路由器、交换机、防火墙、负载均衡设备、光纤设备等)、安全设备(例如包块安全分析设备、行为管理设备等)、服务器(例如AIX小机、HPUX、X86服务器、存储设备、SAN交换机等)、基础设施(例如UPS电源、空调、配电柜、防漏系统、机房环境、机柜等)、数据库(例如Oracle、MySQL、SqlServer等)、中间件(例如Weblogic、WebPhere等)、业务系统(例如交易系统、结算系统、风控系统、出入金系统、客户管理系统、会员服务系统、数据报送系统、国债交割系统、行情系统、网站系统、报表系统)以及平台组件(例如BIP平台、SES平台)。

事件数据库模块将事件数据上传到综合报警平台,归档数据库模块将事件数据上传到事件分析系统,并将所有数据(包括性能数据和事件数据)上传到运维报表平台。事件分析系统将根源事件下发到事件数据库模块。

操作员模块配置为实时监视综合报警平台,接收事件告警并进行事件分配,通过事件分析系统对告警事件进行分析,通过运维报表平台完成报表(例如日报、周报)的发布工作,通过事件数据库模块和归档数据库模块进行数据的查询、分析工作。

管理员模块配置为用于配置和管理性能数据采集与事件汇总处理总线对被监控设备的数据采集和处理,收集监控需求并通过日常变更实现,收集业务监控需求和技术需求。

综合报警平台配置为通过多种报警手段在告警事件触发后通知对应人员,多种报警手段包括网页报警、声音报警、即时消息报警、邮件报警、短信报警等。

综合报警平台进一步配置为通过展示界面进行报警、通过声音图像进行报警、通过短信平台进行报警,优先发送优先程度高的报警信息,且综合报警平台具备事件升级功能,系统自动发送未及时确认的事件到其他相关人员或主管单位,同时提供开放、简洁的标准接口。

事件分析系统配置为实时分析事件数据库模块中的事件新增和变化情况,通过预定义信息表、业务逻辑和历史事件对实时事件进行分析,从业务角度对不同服务器、不同网络设备上发生的事件进行智能关联,发掘出事件根源原因,为业务影响分析提供数据支撑。

在事件分析系统中对分析流程设计为分别通过信息截取(将信息中的内容字段分割,确定事件的分类和分组)、事件过滤(将不需要的事件信息在探针采集层进行过滤)、事件重定义(根据设备对原始报告的信息进行重新设置)、确定事件的唯一标识(确定事件是否为重复事件)、信息发送(经过探针预处理格式化事件,发送给指定中心进行统一处理)这几个阶段。

事件分析系统配置为对事件进行压缩,包括依据节点、部件、规则、事件类型压缩重复发生事件,以及自动压缩关闭的事件。

事件分析系统的事件关联分析包括:关联分析平台和事件平台采用“松耦合”架构,实现关注事件的根源分析,实现多维度的可用性分析及树状展示功能,实现多维度的健康度分析及树状展示功能,采用动态时间切片进行分析,支持动态计算公式插件技术,支持规则自动导入功能。

运维报表平台配置为自动生成各技术运维报表,基于系统采集到的数据进行当日、本周、月度、季度、年度、同比、环比等分析与展示,为业务负载分析、基础设施扩容等提供数据支持,同时也承担一部分归总类业务报表的需求实现。

事件数据库模块配置为汇总并处理所有的实时告警事件,并实时同步事件数据到归档数据库模块。

归档数据库模块配置为存储全量的告警事件和性能数据,定期(例如每日)对性能类数据进行归档和整理,为事件分析系统提供历史事件数据,为运维报表平台提供历史性能数据。

图2示出了本发明的通用的企业级信息技术监控系统的一实施例的技术实现架构。

请参见图2,本实施例的系统在技术架构上采用图2所示的架构设计,通过展示层、服务层、采集层实现三层技术架构。

展示层提供统一事件平台、性能状态展示平台和趋势分析平台。统一事件平台用于建立统一的综合报警平台进行集中报警,根据监控内容的重要性对事件进行分级过滤,建立事件分析平台对事件进行压缩和指标分析。性能状态展示平台用于准实时记录和展示系统的关键状态数据,对关键状态数据设置数据阈值进行报警。趋势分析平台用于分级保存所有的运维数据,对历史数据进行趋势分析。

服务层提供高性能数据处理与分析。

采集层提供性能数据采集与事件汇总,采集对象包括机房(包括机房环境设备异常、环境采集指标超阈值)、网络(包括网络设备Syslog异常,网络设备端口、电源、风扇状态变化,网络性能超阈值,网络设备配置变化)、存储(包括存储设备硬件故障,存储设备容量、性能超阈值,光纤交换机端口状态、性能超阈值)、主机(主机系统各项日志异常、系统可用性状态异常、系统性能超阈值、主机配置变化)、数据库(数据库可用性状态异常、数据库性能超阈值、数据库Dataguard异常、远程复制DSG系统异常、数据库配置变化)、中间件(中间件日志异常、中间件可用性状态异常、中间件性能超阈值)和应用系统(应用日志异常、应用可用性状态异常、应用配置变化、应用性能超阈值)。

继续参见图2,在本发明系统的技术架构中,主要包括了报警(alert)模块、Web服务器(WebServer)模块、报表(report)模块、服务器(server)模块、日志管理探针(SyslogProbe)模块、数据管理(DataManager)模块、监控(monitor)模块、代理(agent)模块。

报警模块配置为从事件数据库模块中读取事件,并根据配置的规则执行以下工作:将事件信息发送到Maximo流程平台(IBM的企业资产管理系统),通过短信/声音/邮件/即时消息等将告警事件通知指定运维人员。

Web服务器模块配置为提供前台入口,用户登录后通过该模块查看各类视图,管理各种配置。

报表模块配置为根据配置读取历史数据库并生成各种报表。

服务器模块配置为接收所有的事件和数据并处理分析归档。

日志管理探针模块配置为接收各类事件告警并进行分类和定级。

数据管理模块配置为接收获取各类性能数据并进行分析和归档。

监控模块配置为根据配置实现各类监控功能。业务监控的内容一般包括:应用数据库是否运行正常,数据库各指标状态是否正常;应用进程是否存在,数量是否正确,资源占用是否合理;应用端口是否存在,数量是否正确,连接IP是否符合预期;应用日志是否正常输出,日志内容是否包含错误关键字;应用系统的配置文件属性是否正常,内容是否符合预期;应用的服务状态是否正常,是否可正常响应请求,响应内容是否符合预期。监控功能包括:主机基本监控(实时监控主机CPU利用率、MEM利用率、文件系统利用率、进程CPU占用、进程MEM占用、系统发生重启等)、主机扩展监控(包括非法用户登录、主机日志出现错误信息、主机日志过大或过多、文件打开数超限制、僵尸进程数过多等)、网络连通性监控(基于ping进行封装实现高性能IP连通性监控)、网络基本监控(包括网络设备的CPU利用率、MEM利用率、风扇状态、电源状态、板卡状态、模块温度、设备发生重启等)、网络链路监控(包括链路UP/DOWN状态,链路流量利用率,丢包率、错包率等)、数据库监控(包括可用性、表空间使用率、数据文件状态、控制文件状态、用户修改等)、业务监控(包括进程数量、端口侦听状态、业务日志关键字、业务日志文件大小等)、机房监控(包括机房温度、湿度、电压、漏水、烟雾、空调状态等)、配置文件监控(包括服务器配置、网络设备配置、存储配置等)、以及其他各类定制化监控。

代理模块配置为通过部署在被监控节点上的代理程序进行通讯与数据传输。通过Manager/Agent的TCP-CS模式,实现Agent通讯功能,支持命令执行、批量文件下发、批量文件收集等。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

相关技术
  • 一种通用的企业级信息技术监控系统
  • 通用配置管理系统以及包含该系统的企业级信息系统
技术分类

06120113034516