掌桥专利:专业的专利平台
掌桥专利
首页

一种数据中心系统智能监控方法

文献发布时间:2023-06-19 10:54:12


一种数据中心系统智能监控方法

技术领域

本发明涉及系统运维技术领域,尤其是涉及一种数据中心系统智能监控方法。

背景技术

企业的IT中心通常是一个是巨大的数据中心,大量设备被采购用以支持业务系统。数据中心作为各项服务的基石,不仅需要管理大范围业务系统,并负责所有设备的运维工作,还负责每年有着千亿级业务的运营监控,系统平台多、设备多,上万台设备的体量对于监控机制提出了更高的挑战。

在智能运维研究工作中,为保证用户能够及时获知异常情况,监控异常告警的时效性(通常需要满足分钟级告警需求)显得尤为重要,目前的监控方法大多利用单个轻量的算法或模型(比如时间序列模型),以预测运行性能指标的数据曲线,并根据预测的数据曲线,以获得异常数据存在的位置,从而实现监控预告警的目的。

但上述这种方式在复杂场景的工程化实现过程中,则极可能在时效性上发生改变,达不到预期的告警效果。这是由于数据中心监控的服务器多达上万台,其中约有上千台是需要重点关注的,当使用时间序列模型对系统性能指标进行预测时,随着IP数量的增加,测试服务器所承受的压力也越来越大,最终会导致程序耗时长,并且会伴随阻塞现象的发生,因此,如何在满足分钟级告警需求的同时,尽可能使得资源的利用达到最大化、尽可能提高运算效率,以此来释放更多的人力资源成本,是目前亟需解决的一道难题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种数据中心系统智能监控方法,以在满足告警需求的同时,能够提高监控运算效率、减少人力资源成本。

本发明的目的可以通过以下技术方案来实现:一种数据中心系统智能监控方法,包括以下步骤:

S1、获取待监控的应用集群信息,并初始化待监控应用集群关联表;

S2、构建多进程池;

S3、根据多进程池中建立的多个子进程,以获取待监控设备历史信息数据;

S4、对获取的待监控设备历史信息数据进行预处理;

S5、构建时序预测模型,并结合预处理后的待监控设备历史信息数据,对系统基础信息进行实时预测,得到系统基础信息预测曲线;

S6、建立系统基础信息的动态安全基线带,并结合系统基础信息预测曲线,得到异常数据;

S7、将异常数据返回给用户。

进一步地,所述步骤S1中待监控应用集群关联表具体包含待监控设备的IP及对应的接口URL信息。

进一步地,所述步骤S2中多进程池通过自动建立子进程,以读取相应的待监控设备历史信息数据,通过设定多个子进程,使得程序能够多进程并发的执行,实现合理分散资源、调配资源的目的,从而保证程序的运算效率。

进一步地,所述步骤S3具体是调用标准API接口,通过回溯方式以分别获取多个子进程的待监控设备历史信息数据。

进一步地,所述待监控设备历史信息数据包括设备的CPU和内存信息。

进一步地,所述待监控设备历史信息数据的时间周期为一个月、数据粒度为6分钟快照。

进一步地,所述步骤S4具体是对待监控设备历史信息数据进行缺失值填充和异常值剔除预处理。

进一步地,所述步骤S5中对系统基础信息进行实时预测的具体过程为:对预处理后的待监控设备历史信息数据进行平稳性检验,若检验为不稳定,则对该不稳定的数据进行差分处理,以得到对应的平稳序列,之后利用时序预测模型对整个待监控设备历史信息数据进行学习,以预测下一时刻的数据,得到系统基础信息预测曲线;

若检验为稳定,则直接利用时序预测模型对整个待监控设备历史信息数据进行学习,以预测下一时刻的数据,得到系统基础信息预测曲线。

进一步地,所述步骤S6具体包括以下步骤:

S61、根据对应时刻点,计算得到待监控设备历史信息数据中每天相同时刻点的均值和方差,之后引入3西格玛法,以建立系统基础信息的动态安全基线带;

S62、若数据预测曲线中的预测值在动态安全基线带内部,则判断该预测数据处于合理范围,否则判断该预测数据为异常数据。

进一步地,所述步骤S61具体包括以下步骤:

S611、将待监控设备历史信息数据对应的时刻点进行排序;

S612、将每一时刻点对应的数据值相加后取平均值,进而计算得到每一时刻点对应的数据方差;

S613、引入3西格玛法,建立系统基础信息的动态安全基线带:

其中,x

与现有技术相比,本发明具有以下优点:

一、本发明通过构建多进程池,针对待监控设备,能够同时自动建立子进程以读取相关设备历史信息数据,利用这种多进程并发的方式,能够合理分散资源、调配资源,有效避免发生阻塞现象,由此可实现提高运算效率、最大化利用资源、减少人力资源成本的目的。

二、本发明基于待监控设备的历史信息数据,通过时间序列模型对历史信息数据轨迹进行学习,从而预测下一时刻点的系统性能指标,并利用每天相同时刻点对应数据的平均值和方差,以3西格玛法建立动态安全基线带,能够准确快速地对预测曲线进行异常数据判断,从而满足告警及时性的需求。

附图说明

图1为本发明的方法流程示意图;

图2为实施例中应用本发明方法的过程示意图;

图3为N-西格玛法的原理示意图;

图4为实施例中预测曲线和动态安全基线带的示意图;

图5为实施例中监控页面示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示,一种数据中心系统智能监控方法,包括以下步骤:

S1、获取待监控的应用集群信息,并初始化待监控应用集群关联表,其中,待监控应用集群关联表具体包含待监控设备的IP及对应的接口URL信息;

S2、构建多进程池,其中,多进程池通过自动建立子进程,以读取相应的待监控设备历史信息数据,通过设定多个子进程,使得程序能够多进程并发的执行,实现合理分散资源、调配资源的目的,从而保证程序的运算效率;

S3、根据多进程池中建立的多个子进程,以获取待监控设备历史信息数据,具体是调用标准API接口,通过回溯方式以分别获取多个子进程的待监控设备历史信息数据,其中,待监控设备历史信息数据包括设备的CPU和内存信息,待监控设备历史信息数据的时间周期为一个月、数据粒度为6分钟快照;

S4、对获取的待监控设备历史信息数据进行缺失值填充和异常值剔除预处理;

S5、构建时序预测模型,并结合预处理后的待监控设备历史信息数据,对系统基础信息进行实时预测,得到系统基础信息预测曲线,具体的:

首先对预处理后的待监控设备历史信息数据进行平稳性检验,若检验为不稳定,则对该不稳定的数据进行差分处理,以得到对应的平稳序列,之后利用时序预测模型对整个待监控设备历史信息数据进行学习,以预测下一时刻的数据,得到系统基础信息预测曲线;

若检验为稳定,则直接利用时序预测模型对整个待监控设备历史信息数据进行学习,以预测下一时刻的数据,得到系统基础信息预测曲线;

S6、建立系统基础信息的动态安全基线带,并结合系统基础信息预测曲线,得到异常数据,具体的:

首先根据对应时刻点,计算得到待监控设备历史信息数据中每天相同时刻点的均值和方差,之后引入3西格玛法,以建立系统基础信息的动态安全基线带:

其中,x

若数据预测曲线中的预测值在动态安全基线带内部,则判断该预测数据处于合理范围,否则判断该预测数据为异常数据;

S7、将异常数据返回给用户。

将上述方法应用于实际中,如图2所示,主要包括以下过程:

1、建立URL和IP的关联表;

2、开辟进程池,自动建立子进程读取相关设备信息;

3、通过回溯形式从接口动态获取子进程设备历史信息并进行数据预处理;

4、建立时序预测模型对系统基础信息进行实时预测;

5、建立系统基础信息的动态安全基线带,判断预测信息,抛出异常数据;

6、WEB页面展示结果。

对应的具体过程为:

一、初始化待监控的应用集群关联表,包括设备IP及对应的接口URL信息。

二、开辟进程池的方法,设定多个子进程,使得程序能够多进程并发的执行,通过合理分散资源调配资源,保证程序的运算效率。

三、调用标准API接口,通过回溯方式获取设备的CPU和内存等系统基础信息,数据为一个月历史数据,数据粒度为6分钟快照,并对数据进行缺失值填充、异常值剔除等预处理。

四、数据预测和异常抛出,包括:

1)对数据进行平稳性检验,若数据不稳定则进行差分使之成为平稳序列,利用时间序列模型对数据历史曲线进行学习,并预测下一时刻的数据(若有插值化处理进行还原),此为预测的系统基础信息;

2)由于数据为切片化后数据,因此根据对应时刻点计算历史数据中每天相同时点的均值、方差,并引入3西格玛法建立动态安全基线带,其中,3西格玛法作为N西格玛法的一种,属于正态分布原则(如图3所示,sigma原则:数值分布在(μ-σ,μ+σ)中的概率为0.6526;2sigma原则:数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;3sigma原则:数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;

在正态分布中,σ代表标准差,μ代表均值x=μ即为图像的对称轴。由于“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则),

本发明通过判断预测值与动态安全基线带的位置关系,以获得异常数据,如图4所示,若预测值在基线带内部,则认为数据在合理范围,反之抛出异常数据并预警提示。

构建动态安全基线带的具体过程为:

①获取时间切片:按照时刻点进行排序,本实施例中时刻点为[00:00 00:05 00:10……23:50 23:55];

②根据上述时刻点进行数据统计:在每一时刻点数据相加取平均值

③计算

④若当前值x∈[x

五、前端动态展示数据预测情况与基线带(如图5所示),用户可选择查看设备运行状况,异常数据以异常点的形式显示。

综上所述,本发明提出一种数据中心系统智能监控方法,能够解决数据中心长期由于分配不合理导致资源池的利用不足的问题,该方法在人工维护方面更便捷高效的前提下,不仅能实现告警的及时性,而且能更好的最大化的利用资源:

从数据中心角度来看,本方法的通用性较为广泛,整体实施框架适用于基础环境、操作系统、数据库、中间件和前端应用等场合,具有较强的通用性和可复制性;

本方法针对历史数据,通过时间序列模型对其历史轨迹进行学习,预测下一时刻点的系统性能指标,为运维人员提前决策提供有力指导;

本方法设计程序多进程并发的执行,通过合理分散资源调配资源,能够保证程序的运算效率;

基于本方法进行智能化的资源池管理系统运维,便于运维人员对重点关注的系统的把控和维护,减少人工投入和不必要的系统开销。

相关技术
  • 一种数据中心系统智能监控方法
  • 一种基于软件定义的智能化区域移动医疗元数据集成数据中心系统原型
技术分类

06120112722926