掌桥专利:专业的专利平台
掌桥专利
首页

利用异构数据源进行IT运维排查的方法及装置

文献发布时间:2023-06-19 18:37:28


利用异构数据源进行IT运维排查的方法及装置

技术领域

本发明涉及信息技术领域。

背景技术

IT运维的一般模式是数据采集单元将被监控的指标数据采集到运维监控系统中;数据传输单元将数据采集单元采集的指标数据传输到数据存储单元;数据存储单元将收集到的指标数据按照时间维度存放在时序数据库中;数据分析单元对时序数据库中的时间数列数据的季节特征、趋势进行预测;告警触发单元在指标超过设定的阈值或者依赖服务状态变为不可达时,及时发出报警通知服务管理员排查;应用单元,基于数据采集单元和数据分析单元实现IT运维系统的可视化监控和全链路监控。这种阈值驱动型的IT运维无法从主机监控数据,服务器监控数据,网络监控数据,环境监控数据中快速定义故障范围和故障来源,需要人为参与监控,基于人的经验来排查故障原因,有限的效率使得IT运维管理系统所能管理的设备网段区域和设备数量受到限制。

现有技术中有申请号为CN202111288447X,名称为一种IT运维优化方法的专利申请,具有如下步骤:S1、获取系统历史运维数据,对数据进行预处理;S2、生成决策树,获取步骤S1中预处理的数据,对数据进行处理,利用归纳算法生成可读的规则和决策树;S3、决策树生成以后由运维平台为决策树的每个节点绑定自动化功能。与现有技术相比,通过对IT运维的历史数据进行分类处理,生成决策树,并将系统中提供的各种监听、告警、自动化配置等功能,与决策树节点进行绑定,提高IT服务效率和质量,后期通过新数据不断优化迭代决策树,使其无需人工参与,实现智能化运维。该专利没有对决策树生成进行详细论述,进行决策树节点跟处理规则的绑定需要决策树的节点和处理规则都是经常性发生的故障,适用范围为常规性故障及其特定解决方案。

IT运维的故障来源有主机故障、网络故障、机房环境故障几个方面,其中主机故障又分为操作系统故障、应用程序故障、硬件故障。已知的现有技术主要依靠各分类的阈值产生的告警来分别对各种故障进行反馈,当出现真实故障时,同时会有多个故障来源进行告警,需要进行逐一排查。针对现有技术的不足本发明的利用异构数据源进行IT运维排查的方法及装置提出一种针对各种故障来源产生的故障信息进行异构数据源的人工智能分析方法和装置,通过对异构数据的极度梯度提升树运算,自动分析出告警产生时的多源异构故障数据的最优特征和最优切分点,并计算出多个梯度的最优特征和最优切分点。每个最优特征在事先对应一种解决方案的前提下,本发明可以提供梯度化的最优故障解决方案集。

发明内容

针对现有技术的不足,本发明的利用异构数据源进行IT运维故障排查的方法及装置由历史数据采集器、实时数据采集器、数据分类器、数据整合器、特征提取器、梯度决策树生成器和多梯度决策树应用模块组成;

历史数据采集器通过IT运维监控设备获取IT运维的历史数据,IT运维的历史数据包括:主机操作系统故障时采集的数据、主机硬件故障时采集的数据、主机应用软件故障时采集的数据、网络设备故障时采集的数据和机房环境故障时采集的数据以及无任何故障时采集的数据;采集的数据包括:主机操作系统监控数据、主机硬件监控数据、主机应用监控数据、网络设备监控数据和机房环境监控数据,采集的数据为通过异构数据源采集的多源异构数据;历史数据采集器将IT运维的历史数据发送给数据分类器;

数据分类器将IT运维的历史数据分类为:主机操作系统故障时采集的数据并加主机操作系统故障标识,主机硬件故障时采集的数据并加主机硬件故障标识,主机应用软件故障时采集的数据并加主机应用软件故障标识,网络设备故障时采集的数据并加网络设备故障标识,机房环境故障时采集的数据并加机房环境故障标识,无任何故障时采集的数据并加无故障标识,生成分类的IT运维历史数据;数据分类器将分类的IT运维历史数据发送给数据整合器;标识由设备编号和故障类别组成,故障类别包括故障和无故障;

数据整合器将处于同一时刻的分类的IT运维历史数据整合成一个数组,生成整合的IT运维历史数据,整合的IT运维历史数据包括了同一时刻采集的主机操作系统数据、同一时刻采集的主机硬件数据、同一时刻采集的主机应用软件数据、同一时刻采集的网络设备数据和同一时刻采集的机房环境数据,生成分类的IT运维历史数据数组集合;数据整合器将分类的IT运维历史数据数组集合发送梯度决策树生成器;

梯度决策树生成器选择m条IT运维历史数据数组进行梯度决策树生成运算,其中二分之一m条为标识中包括故障类别为故障的IT运维历史数据数组,二分之一m条为标识中包括故障类别为无故障的IT运维历史数据数组;在二分之一m条的标识中包括故障类别为故障的IT运维历史数据数组中使主机操作系统故障标识的数组和主机硬件故障标识的数组和主机应用软件故障标识的数组和网络设备故障标识的数组及机房环境故障标识的数组分布均匀;

梯度决策树生成器使用m条IT运维历史数据数组作为样本数据训练XGBOOST极度梯度提升树,当样本数据为标识中包括故障类别为无故障的IT运维历史数据数组时该样本目标值为0 ,当样本数据为标识中包括故障类别为故障的IT运维历史数据数组时该样本目标值为1;有m个样本,每个样本各n各特征,特征指数组中的具体数值,表示为

由模型训练器计算叶子节点的权值,根据XGBOOST模型中定义的损失函数公式:

定义

模型训练器经过不断迭代,直到达到预先设定的目标停止继续迭代;预先设定的目标即当样本数据为标识中包括故障类别为无故障的IT运维历史数据数组时该样本目标值为0 ,当样本数据为标识中包括故障类别为故障的IT运维历史数据数组时该样本目标值为1;模型训练器经过不断迭代完成了XGBOOST模型的过程,即完成计算流量度量模型步骤,得到了流量度量模型中多个决策树,包括各个决策树的结构以及各叶子节点的判定特征及判定切分点,以及各叶子节点的权值;

梯度决策树生成器根据第一节点特征所带的标识,将得到的多个多梯度决策树分为:主机操作系统监控数据决策树、主机硬件监控数据决策树、主机应用监控数据决策树、网络设备监控数据决策树和机房环境监控数据决策树;梯度决策树生成器将多个多梯度决策树发送给多梯度决策树应用模块;

实时数据采集器通过IT运维监控设备获取IT运维的实时数据,IT运维的实时数据包括:同一时刻采集的主机操作系统数据、同一时刻采集的主机硬件数据、同一时刻采集的主机应用软件数据、同一时刻采集的网络设备数据和同一时刻采集的机房环境数据;实时数据采集器将IT运维的实时数据发送给数据整合器;

数据整合器将IT运维的实时数据整合成一个数组,生成整合的IT运维实时数据;数据整合器将整合的IT运维实时数据发送给多梯度决策树应用模块;

多梯度决策树应用模块将整合的IT运维实时数据分别带入所存储的多个多梯度决策树计算预测值,当整合的IT运维实时数据在所有的多个多梯度决策树的预测值均为0时,整合的IT运维实时数据为无故障状态的数据;当整合的IT运维实时数据在任意的多梯度决策树的预测值为1时,整合的IT运维实时数据为故障状态的数据,发生故障的设备编号由该多梯度决策树的第一节点特征所带的标识中的设备编号决定。

有益效果

通过整合异构数据源的数据,进行多梯度决策树计算,通过历史数据得出各种故障对应的决策树,从而当实时数据输入各决策树进行预测时,可以很快速的确定故障位置,无需人工参与判断,提高了自动化IT运维的效率。

附图说明

图1是本发明的系统结构图及流程示意图。

具体实施方式

参看图1,实现本发明提供的利用异构数据源进行IT运维故障排查的方法及装置由历史数据采集器1、实时数据采集器2、数据分类器3、数据整合器4、特征提取器5、梯度决策树生成器6和多梯度决策树应用模块7组成;

历史数据采集器1通过IT运维监控设备获取IT运维的历史数据,IT运维的历史数据包括:主机操作系统故障时采集的数据、主机硬件故障时采集的数据、主机应用软件故障时采集的数据、网络设备故障时采集的数据和机房环境故障时采集的数据以及无任何故障时采集的数据;采集的数据包括:主机操作系统监控数据、主机硬件监控数据、主机应用监控数据、网络设备监控数据和机房环境监控数据,采集的数据为通过异构数据源采集的多源异构数据;历史数据采集器1将IT运维的历史数据发送给数据分类器3;

数据分类器3将IT运维的历史数据分类为:主机操作系统故障时采集的数据并加主机操作系统故障标识,主机硬件故障时采集的数据并加主机硬件故障标识,主机应用软件故障时采集的数据并加主机应用软件故障标识,网络设备故障时采集的数据并加网络设备故障标识,机房环境故障时采集的数据并加机房环境故障标识,无任何故障时采集的数据并加无故障标识,生成分类的IT运维历史数据;数据分类器3将分类的IT运维历史数据发送给数据整合器4;标识由设备编号和故障类别组成,故障类别包括故障和无故障;

数据整合器4将处于同一时刻的分类的IT运维历史数据整合成一个数组,生成整合的IT运维历史数据,整合的IT运维历史数据包括了同一时刻采集的主机操作系统数据、同一时刻采集的主机硬件数据、同一时刻采集的主机应用软件数据、同一时刻采集的网络设备数据和同一时刻采集的机房环境数据,生成分类的IT运维历史数据数组集合;数据整合器4将分类的IT运维历史数据数组集合发送梯度决策树生成器6;

梯度决策树生成器6选择m条IT运维历史数据数组进行梯度决策树生成运算,其中二分之一m条为标识中包括故障类别为故障的IT运维历史数据数组,二分之一m条为标识中包括故障类别为无故障的IT运维历史数据数组;在二分之一m条的标识中包括故障类别为故障的IT运维历史数据数组中使主机操作系统故障标识的数组和主机硬件故障标识的数组和主机应用软件故障标识的数组和网络设备故障标识的数组及机房环境故障标识的数组分布均匀;

梯度决策树生成器6使用m条IT运维历史数据数组作为样本数据,通过内置的模型训练器训练XGBOOST极度梯度提升树,当样本数据为标识中包括故障类别为无故障的IT运维历史数据数组时该样本目标值为0 ,当样本数据为标识中包括故障类别为故障的IT运维历史数据数组时该样本目标值为1;有m个样本,每个样本各n各特征,特征指数组中的具体数值,表示为

由模型训练器计算叶子节点的权值,根据XGBOOST模型中定义的损失函数公式:

定义

模型训练器经过不断迭代,直到达到预先设定的目标停止继续迭代;预先设定的目标即当样本数据为标识中包括故障类别为无故障的IT运维历史数据数组时该样本目标值为0 ,当样本数据为标识中包括故障类别为故障的IT运维历史数据数组时该样本目标值为1;模型训练器经过不断迭代完成了XGBOOST模型的过程,即完成计算流量度量模型步骤,得到了流量度量模型中多个决策树,包括各个决策树的结构以及各叶子节点的判定特征及判定切分点,以及各叶子节点的权值;

梯度决策树生成器6根据第一节点特征所带的标识,将得到的多个多梯度决策树分为:主机操作系统监控数据决策树、主机硬件监控数据决策树、主机应用监控数据决策树、网络设备监控数据决策树和机房环境监控数据决策树;梯度决策树生成器6将多个多梯度决策树发送给多梯度决策树应用模块7;

实时数据采集器2通过IT运维监控设备获取IT运维的实时数据,IT运维的实时数据包括:同一时刻采集的主机操作系统数据、同一时刻采集的主机硬件数据、同一时刻采集的主机应用软件数据、同一时刻采集的网络设备数据和同一时刻采集的机房环境数据;实时数据采集器2将IT运维的实时数据发送给数据整合器4;

数据整合器4将IT运维的实时数据整合成一个数组,生成整合的IT运维实时数据;数据整合器4将整合的IT运维实时数据发送给多梯度决策树应用模块7;

多梯度决策树应用模块7将整合的IT运维实时数据分别带入所存储的多个多梯度决策树计算预测值,当整合的IT运维实时数据在所有的多个多梯度决策树的预测值均为0时,整合的IT运维实时数据为无故障状态的数据;当整合的IT运维实时数据在任意的多梯度决策树的预测值为1时,整合的IT运维实时数据为故障状态的数据,发生故障的设备编号由该多梯度决策树的第一节点特征所带的标识中的设备编号决定。

技术分类

06120115636402