掌桥专利:专业的专利平台
掌桥专利
首页

一种云环境下设备上下电模拟演练方法和装置

文献发布时间:2024-04-18 20:02:40


一种云环境下设备上下电模拟演练方法和装置

技术领域

本发明涉及云环境容灾模拟演练技术领域,具体涉及一种云环境下设备上下电模拟演练方法和装置。

背景技术

随着云环境的蓬勃发展,现有的国网云平台承载了新一代电力交易、营销2.0等71套业务系统,内部组件数量多且集成度高、设备规模大,机房一旦发生区域电力中断的情况,无法保证系统的恢复状况,以及业务所受影响,易造成不可预估的严重后果。随着业务上云步伐越来越快,云平台自身安全稳定运行的重要性愈发凸显。

现有的云环境设备上下电演练方法中,演练场景仅针对部分设备,未覆盖到多种复杂情况的演练;对许多关键环节的操作没有采集记录,导致演练报告不规范;演练周期较长,出现故障不能快速响应和处理,演练结束后缺乏全面的监控与评估,大部分情况下存在没有被及时发现的漏洞和问题。

发明内容

本发明的目的是为了提出一种云环境下设备上下电模拟演练方法和装置,结合全局网络拓扑可视化监测设计,实现多层级统一监控、跨层级溯源的全局拓扑结构可视化展示,支持随机或指定多设备多节点上下电模拟;另外,本发明自动监测跟踪演练全过程,采集上下电全过程运行及操作记录,异常信息及时通知到相应人员,并自动生成演练报告,为演练结束后复盘提供全面的数据支持。

为实现上述技术目的,本发明采取的技术方案为:

本发明公开了一种云环境下设备上下电模拟演练方法,所述设备上下电模拟演练方法包括以下步骤:

步骤A,按设备上下电过程中日志来源将日志分为五层:设备层日志、虚拟层日志、系统层日志、中间件日志和应用日志;

步骤B,基于分层结果,对于每个层次的日志信息,根据各自的重要性和优先级设置每个层次的父类层次权重以及每个层次所包含的日志子类的子类层次权重;根据业务实际需求,对各个层次的日志事件设计级别划分并打分,得到日志的级别层次和级别权重;综合计算得到不同日志事件的权重;

步骤C,采集历史日志中出现的异常,确定历史日志中包含的事件类型,对每个事件类型,分层统计其在日志中出现的频率,基于加权熵增设置不同日志事件的告警阈值;

步骤D,对全局拓扑节点进行分组和关联管理,按层级分为4个大组:设备层、虚拟层、中间件、应用层,各层级内再按各自设施或集群建立小分组;在每个小组内针对关键设备、组件和实例创建节点,按业务需求创建关联指标或功能的节点,同时节点间设计映射关系进行关联,关联节点之间设置监控触发条件并且配置业务语义,利用不同颜色标识节点当前的启停状态,生成全局拓扑图;

步骤E,基于全局拓扑图,创建并执行上下电演练任务,根据全部拓扑图的逻辑关联,采集各个节点在上下电演练过程中的状态变化,自动生成上下电演练任务的模拟演练报告。

进一步地,步骤A中,所述设备层日志用于记录物理服务器、网络设备、存储设备的运行日志,包括开关机日志、网络连接日志、存储读写日志,日志内容包含设备编号、型号、位置、实时运行状态、操作内容、操作时间、操作人员、故障内容、CPU/内存使用率、吞吐量、延迟数据、电压、电流、信号强度和信噪比;

所述虚拟层日志用于记录虚拟机、容器的生命周期、配置变更、资源利用情况以及虚拟硬件的状态信息;

所述系统层日志用于对操作系统、集群管理系统、数据库的运行日志、访问日志、错误日志进行收集;

所述中间件日志用于对web服务器、缓存、消息队列的运行指标和日志进行收集;

所述应用日志用于对程序的运行日志、错误日志进行采集。

进一步地,步骤B中,综合计算得到不同日志事件的权重的过程包括以下步骤:

步骤B1,基于分层结果,对于每个层次的日志信息,根据各自的重要性和优先级设置每个层次的父类层次权重以及每个层次所包含的日志子类的子类层次权重;

步骤B2,根据业务实际需求,将各个层次的日志事件划分为三个级别:高级别日志、中级别日志和低级别日志,并且针对不同级别设置级别层次分值,再为不同级别内的日志事件设置级别权重;其中,将设备层日志中的硬件介质的连接和断开事件、以及虚拟层日志、系统层日志、中间件日志和应用日志这四个层级日志下的组件的启停变更设置为高级别日志;将电压电流、配置变更、运行指标设置为中级别日志;将信号强度和信噪比的变化以及其他参数设置为低级别日志;

步骤B3,采用下述公式综合计算得到不同日志事件的权重:

w

其中,w

进一步地,步骤C中,采集历史日志中出现的异常,确定历史日志中包含的事件类型,对每个事件类型,分层统计其在日志中出现的频率,基于加权熵增设置不同日志事件的告警阈值的过程包括以下步骤:

采集历史日志中出现的异常,确定日志中包含的事件类型,对确定的每个异常对应的事件类型,分层统计其在日志中出现的频率,采用加权熵增公式结合日志事件的权重进行加权计算处理,得到日志事件i对应的加权熵增H

H

其中,P

基于日志分层,基于日志事件i的加权熵增H

进一步地,步骤D中,生成全局拓扑图的过程包括以下步骤:

对全局拓扑节点进行分组和关联管理,按层级分为4个大组:设备层、虚拟层、中间件和应用层,各层级内按各自设施或集群建立小分组,其中,设备层按照资产划分,虚拟层按虚拟机集群划分,中间件层按中间件集群划分,应用层按应用系统划分;

在每个小组内针对关键设备、组件、实例创建节点,按业务需求创建关联指标或功能的节点,同时节点间设计映射关系进行关联,对每一个节点配置包括启停指令在内的关键属性,设置关键属性标签;

在关联节点之间设置监控触发条件、配置业务语义,利用不同颜色标识节点当前的启停状态,用于监控节点状态和关联展示;针对节点间监控触发条件的设置,分为包括启动、连接、停止在内的状态监控和异常事件监控;

其中,状态监控是指,在关联节点间设置连接状态监测指令,同时为节点之间建立依赖关系,当节点启动或停止时,发送事件通知给关联节点,根据监测的关联节点间的连接情况,更新节点间关联标识展示为连接或者断开状态;异常事件监控是指,对节点设置触发条件,当节点出现故障时,触发对其关联节点的监控,自动展开故障影响范围的监测。

进一步地,步骤E中,基于全局拓扑图,创建并执行上下电演练任务的过程包括以下步骤:

基于全局拓扑图,创建上下电演练任务,演练任务内配置有节点定时下电时间、选择多个节点、定时上电时间、是否开启任务日志自动采集设定;

任务开启后,在停止时间前5min,自动创建日志监测任务,日志监测自动启动;

到达下电时间时,自动执行各个节点的停止运行指令,日志以及拓扑图监控自动记录各个设备状态及异常;

到达上电时间后,自动执行各个节点配置的启动运行指令,确认各节点正常启用,且日志在2min内无异常后自动停止采集,或手动停止采集。

进一步地,步骤E中,基于全局拓扑图,创建并执行上下电演练任务的过程还包括以下步骤:

创建随机任务,配置上下电定时时间,选择多个随机下电的分组,生成随机节点上下电演练任务。

进一步地,在全局拓扑图监测到上游节点出现节点停止状态时,将关联节点间的连接变更为断开状态,若30min内该异常上游节点未正常启动并成功连接,则自动切换关联下游节点的配置,切换配置至异常上游节点的同组内其他可正常连接的节点,将异常信息生成告警通知到相应负责人进行排查处理。

进一步地,步骤E中,根据全部拓扑图的逻辑关联,采集各个节点在上下电演练过程中的状态变化,自动生成上下电演练任务的模拟演练报告的过程包括以下步骤:

在模拟上下电演练开始前,对演练任务进行解析,确认模拟设备编号和关键节点编号,开启关键节点的状态监控和日志采集;在演练过程中,通过全局拓扑图实时监测节点状态变化,同时采集关键节点日志;演练结束后,解析关键节点日志,自动提取关键节点的状态变化及时间戳,以及其关联节点的异常日志;

对关联节点产生的异常日志进行分析统计,生成异常日志报表;

根据拓扑图的逻辑关联,采集各个关键节点在上下电演练过程中的状态变化,包含节点名称、状态项、初始状态、每个状态变化时间、变化后的新状态和描述,生成各阶段状态记录表和各节点状态变化的过程描述表;其中,描述用于反映上游节点状态变化导致的下游节点状态变化;

结合状态变化时间戳、模拟设备编号、关键节点编号、各阶段操作记录、各阶段状态记录表、异常日志报表和过程描述表,自动为演练任务生成模拟演练报告。

本发明还公开了一种云环境下设备上下电模拟演练装置,所述设备上下电模拟演练装置包括:

日志分层模块,用于按设备上下电过程中日志来源将日志分为五层:设备层日志、虚拟层日志、系统层日志、中间件日志和应用日志;

日志事件权重计算模块,用于基于分层结果,对于每个层次的日志信息,根据各自的重要性和优先级设置每个层次的父类层次权重以及每个层次所包含的日志子类的子类层次权重;根据业务实际需求,对各个层次的日志事件设计级别划分并打分,得到日志的级别层次和级别权重;综合计算得到不同日志事件的权重;

告警阈值设置模块,用于采集历史日志中出现的异常,确定历史日志中包含的事件类型,对每个事件类型,分层统计其在日志中出现的频率P,基于加权熵增设置不同日志事件的告警阈值;

拓扑图生成模块,用于对全局拓扑节点进行分组和关联管理,按层级分为4个大组:设备层、虚拟层、中间件、应用层,各层级内再按各自设施或集群建立小分组;在每个小组内针对关键设备、组件和实例创建节点,按业务需求创建关联指标或功能的节点,同时节点间设计映射关系进行关联,关联节点之间设置监控触发条件并且配置业务语义,利用不同颜色标识节点当前的启停状态,生成全局拓扑图;

报告生成模块,用于基于全局拓扑图,创建并执行上下电演练任务,根据全部拓扑图的逻辑关联,采集各个节点在上下电演练过程中的状态变化,自动生成上下电演练任务的模拟演练报告。

与现有技术相比,本发明的有益效果如下:

第一,本发明的云环境下设备上下电模拟演练方法和装置,结合全局网络拓扑可视化监测设计,实现多层级统一监控、跨层级溯源的全局拓扑结构可视化展示,支持随机或指定多设备多节点上下电模拟,提高设备管理的效率和可靠性,减少了模拟演练过程中人为的错误操作,提升了模拟演练的效率。

第二,本发明的云环境下设备上下电模拟演练方法和装置,自动监测跟踪演练全过程,采集上下电全过程运行及操作记录,异常信息及时通知到相应人员,并自动生成演练报告,帮助用户更加清晰地了解设备启停过程中不同阶段的状况,为演练结束后复盘提供全面的数据支持。

附图说明

图1为本发明实施例的日志分层结构示意图;

图2为本发明实施例的拓扑结构示意图;

图3为本发明实施例的云环境下设备上下电模拟演练方法流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图3,本发明实施例公开了一种云环境下设备上下电模拟演练方法,所述设备上下电模拟演练方法包括以下步骤:

步骤A,按设备上下电过程中日志来源将日志分为五层:设备层日志、虚拟层日志、系统层日志、中间件日志和应用日志。

步骤B,基于分层结果,对于每个层次的日志信息,根据各自的重要性和优先级设置每个层次的父类层次权重以及每个层次所包含的日志子类的子类层次权重;根据业务实际需求,对各个层次的日志事件设计级别划分并打分,得到日志的级别层次和级别权重;综合计算得到不同日志事件的权重。

步骤C,采集历史日志中出现的异常,确定历史日志中包含的事件类型,对每个事件类型,分层统计其在日志中出现的频率,基于加权熵增设置不同日志事件的告警阈值。

步骤D,对全局拓扑节点进行分组和关联管理,按层级分为4个大组:设备层、虚拟层、中间件、应用层,各层级内再按各自设施或集群建立小分组;在每个小组内针对关键设备、组件和实例创建节点,按业务需求创建关联指标或功能的节点,同时节点间设计映射关系进行关联,关联节点之间设置监控触发条件并且配置业务语义,利用不同颜色标识节点当前的启停状态,生成全局拓扑图。

步骤E,基于全局拓扑图,创建并执行上下电演练任务,根据全部拓扑图的逻辑关联,采集各个节点在上下电演练过程中的状态变化,自动生成上下电演练任务的模拟演练报告。

本发明实施例为确保云环境基础设施在上下电时的正确性和可靠性,监测服务器、网络设备、存储设备、中间件、应用程序在上下电过程中出现的故障和错误,及时反馈并自动处理,涉及了一种云环境设备上下电模拟演练方法,主要包含上下电模拟演练过程中的日志分层监测分析、多层次拓扑可视化、自动化管理三部分技术内容。

一、日志分层监测分析

为了更清晰地检测设备上下电各个阶段的情况,本方法主要对于设备上下电过程中的日志进行分层分类采集并统一管理。

首先按日志来源将其分为五层:设备层日志、虚拟层日志、系统层日志、中间件日志、应用日志。

对于设备层日志(P0),主要记录物理服务器、网络设备、存储设备的运行日志,即开关机日志、网络连接日志、存储读写日志,日志内容包含设备编号、型号、位置、实时运行状态、操作内容、操作时间、操作人员、故障内容,同时需要记录CPU/内存使用率、吞吐量、延迟数据、电压、电流、信号强度、信噪比;

对于虚拟层日志(P1),主要记录虚拟机、容器的生命周期、配置变更、资源利用情况以及虚拟硬件的状态信息。

对于系统层日志(P2),主要对操作系统、集群管理系统、数据库的运行日志、访问日志、错误日志进行收集;

对于中间件日志(P3),主要对web服务器、缓存、消息队列的运行指标和日志进行收集;

对于应用日志(P4),主要对程序的运行日志、错误日志进行采集。

为了帮助用户更加清晰地了解设备启停过程中不同阶段的日志信息,避免信息过载和冗余,提高设备管理的效率和可靠性。基于分层结果,进一步对日志进行加权处理。对于每个层次的日志信息,根据其重要性和优先级进行加权。

对上述5个层次的日志设置基础权重:设备层日志>虚拟层日志>系统层日志>中间件日志>应用日志,各个层次日志再根据其子类进行进一步权重划分。进一步的,根据业务实际需求,对各个层次的日志内容设计级别划分并打分。日志级别设计可以按需求配置设置,此处举例主要分为高(7-10分)、中(4-7分)、低(1-3分)3个级别:将硬件介质的连接和断开事件、以及另外四个层级下组件的启停变更设置为高级别日志;将电压电流、配置变更、运行指标等记录为中级别日志;将信号强度和信噪比的变化以及其他参数记录为低级别日志。采用下述公式计算志事件i的权重:

w

其中,w

采集历史日志中出现的异常,确定日志中包含的事件类型(即Error、Warning消息),对每个事件类型,统计上述分层统计其在日志中出现的频率,使用熵增公式评估日志中的信息量大小。为了更准确的确定日志的优先级和重要性,本发明进一步对熵增公式结合日志分层权重进行加权计算处理,采用的加权熵增公式为:

H

其中P

基于日志分层,针对H

二、多层次拓扑可视化

为实现上下电过程中的状态监控和快速故障定位,设计一种多层次拓扑可视化方法,支持多层级统一监控、跨层级溯源的全局拓扑结构可视化展示。

步骤2.1,跨层级溯源

为建立多层次全局监控拓扑图,首先对全局拓扑节点进行分组和关联管理,按层级分为4个大组(即设备层、虚拟层、中间件、应用层),各层级内按各自设施或集群建立小分组,设备层按照资产划分,虚拟层按虚拟机集群划分,中间件层按中间件集群划分,应用层按应用系统划分;

每个小组内可以针对关键设备、组件、实例创建节点,或者按业务需求创建关联某指标或功能的节点,同时节点间可设计映射关系进行关联,例如网络设备节点与虚拟机节点的关联,同时对每一个节点配置其关键属性(包含启停指令),设置标签,便于筛选与关联,使点击高层级拓扑节点时,可以溯源追踪到底层基础设施,实现全局拓扑的联动浏览。

步骤2.2,多层级统一监控

关联节点之间可设置监控触发条件、配置业务语义,利用不同颜色标识节点当前的启停状态,用于监控节点状态和关联展示。针对节点间监控触发条件的设置,分为状态监控(启动、连接、停止)和异常事件监控:

状态监控,除关联节点间设置的连接状态监测指令外,还需要为节点间建立依赖关系,当节点启动(Completed)或停止(Stopped)时,发送事件通知给关联节点,同时根据监测的关联节点间的连接情况,更新节点间关联标识展示为连接(Connected)或者断开状态(Disconnected)。

异常事件监控,需要接入4.1所述日志监测分析模块,对节点设置触发条件,例如资源利用率>X%,或n分钟内连接数增加>m,结合日志分层权重H_i触发节点异常事件,当节点出现故障时,触发对其关联节点的监控,自动展开故障影响范围的监测,即在触发条件满足时,为报告预先启动关联节点的指标采集以及日志记录。

三、自动化管理

步骤3.1,节点上下电模拟:

基于前述得到的多层次全局监控拓扑图,本发明还提供一种模拟异常事件的自动化方法。支持指定拓扑图内节点上下电,以及随机节点上下电模拟。

对于已维护完整的全局拓扑图,可以创建任务,任务内配置节点定时下电时间、选择多个节点、定时上电时间、是否开启任务日志自动采集;

任务开启后,在停止时间前5min,自动创建日志监测任务,日志监测自动启动;

到达下电时间,自动执行各个节点的停止运行指令,日志以及拓扑图监控自动记录各个设备状态及异常;

到达上电时间后,自动执行各个节点配置的启动运行指令,确认各节点正常启用,且日志在2min内无异常后自动停止采集,或手动停止采集;

除指定节点外,也可以创建随机任务,即配置上下电定时时间,选择多个需要随机下电的分组,即可进行随机节点上下电模拟。

为了保障对在模拟指定节点或随机节点下电时业务的完整性和平台的稳定性,本发明同样支持异常节点自动切换。在上述全局拓扑图监测到上游节点出现节点停止状态时,关联节点间的连接会变更为断开状态,若30min内该异常上游节点未正常启动并成功连接,则自动切换关联下游节点的配置,切换配置至异常上游节点的同组内其他可正常连接的节点,确保其余下游节点的正常运行,此外,将异常信息生成告警通知到相应负责人进行排查处理。

步骤3.2,模拟演练报告自动生成:

为了更好地反映演练过程,方便相关人员快速定位根因,利用拓扑状况感知和日志分析,在步骤3.1的基础上,自动生成模拟演练的报告。

在模拟上下电演练开始前,对于演练任务,先确认关键节点,开启节点的状态监控和日志采集,在演练过程中,通过拓扑图实时监测节点状态变化,同时采集节点日志;演练结束后,解析日志,自动提取上下电节点的状态变化及时间戳,以及其关联节点的异常日志;其次,对关联节点产生的异常日志进行分析统计,生成报表;再根据拓扑图的逻辑关联,采集各个节点在上下电演练过程中的状态变化,包含节点名称、状态项、初始状态、每个状态变化时间、新状态、描述,描述主要体现于上游节点状态变化导致的下游节点状态变化,最后生成个节点状态变化的过程描述表;最后,结合任务时间、模拟设备及节点、各阶段操作记录、各阶段状态记录、出现的异常以及上述生成的报表,自动为该次演练任务生成一份模拟演练报告,便于后续复盘改进。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种云环境下时空索引的构建方法、装置及电子设备
  • 一种复杂用汽设备入口外特性模拟装置及模拟方法
  • 一种确定模拟充电过程中电芯实时温度的方法和装置
  • 一种模拟干湿交替模式下污染物迁移规律的装置及其模拟方法
  • 一种LNG接收站事故应急演练模拟系统及模拟方法
  • 云环境下的存储故障模拟方法、装置、设备及存储介质
  • 云环境下的存储故障模拟方法、装置、设备及存储介质
技术分类

06120116586222