一种光纤存储网络大数据智慧监控和预警方法及系统

文献发布时间：2023-06-19 09:27:35

技术领域

本发明涉及存储区域网络领域，具体地涉及一种光纤存储网络大数据智慧监控和预警方法及系统。

背景技术

目前大型用户数据中心的集中数据存储都采用光纤存储交换机作为存储区域网络(Storage Area Network，SAN)连接的核心，而存储交换机和存储网络的问题将直接影响数据访问，进而影响数据库和核心交易系统，出现类似业务中断、交易失败、数据库缓慢/宕机、容灾失效，甚至交易数据丢失的潜在风险。这些事件出现的原因很多都不是传统的设备部件故障，但发生后导致的业务影响比部件故障影响更大，这其中包括：(1)端口模块老化问题，模块老化是设备出现的必然现象，在老化过程中其所有指标并未达到故障的级别，也不会出现故障报警，但老化导致的堵塞、校验错、误码所带来的主机端路径超时乃至数据库超时现象却依然可能存在，一旦出现难以通过传统监控报警，对业务连续产生重大影响；(2)慢速设备问题，在一个复杂SAN网络中，如果有慢速设备可能在影响局部的同时，进而将问题蔓延到整个交换机和级联类端口，使得整体SAN网络出现影响全网、全业务的事件。

而现有SAN监控报警的产品和方法都无法做到故障的及时发现和快速预警，并存在众多缺陷。有些产品是通过SNMP的故障告警，仅有电源风扇、板卡类故障告警，缺少固件老化、慢速设备影响等的预防性手段；有些产品和方法即使考虑到监控收发光、误码、堵塞情况的指标监控，但受到单一指标准确率低和无法确定准确阀值的限制，其监控告警大部分与实际情况不符，误报和漏报情况严重，无法作为用户维护行动的依据。

发明内容

本发明提供一种光纤存储网络大数据智慧监控和预警方法及系统，从而解决现有技术的上述问题。

第一方面，本发明提供了一种光纤存储网络大数据智慧监控和预警方法，包括如下步骤：

S1)设置收集间隔时长，每隔收集间隔时长对SAN光纤交换机的底层指标信息进行采集；

S2)将采集到的SAN光纤交换机的底层指标信息加入Redis消息队列，建立信息数据库，Redis消息队列将所述底层指标信息保存至所述信息数据库中；

S3)建立人工智能引擎组件，Redis消息队列将所述底层指标信息发送至所述人工智能引擎组件中，利用人工智能引擎组件识别出底层指标信息异常值，并将底层指标信息异常值输出至信息展示组件；

S4)信息展示组件实时运行信息数据库、并根据人工智能引擎组件输出的底层指标信息异常值进行信息展示。

进一步的，步骤S1)中，SAN光纤交换机的底层指标信息包括若干个不同类型的指标信息，底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP(SmallForm-factor Pluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。

ENC编码错误：ENC英文全称encoding errorcounts，编码错误计数，一旦出现这个错误计数，即表示端口出现链路上的传输编码错误。CRC校验错误：CRC英文全称Cyclicredundancy check，循环冗余校验错误。一旦出现这个错误计数，即表示端口传输数据出现校验错误问题。C3D数据包丢弃：C3D英文全称Class 3 framediscard，即Class 3类的传输数据帧超时丢弃。一旦出现这个错误计数，即表示端口出现了丢弃传输数据包的现象。BBCredit Zero耗尽：英文全称Buffercredit Zero,即分配给端口的缓冲耗尽为0。一旦出现这个错误计数，即表示端口的缓冲被自身或其它占用耗尽。电源状态、板卡状态和风扇状态这些都是硬件部件运行状态，主要分为开、关、报错、未知四种状态，据此判断运行是否良好。

进一步的，步骤S3)中，建立人工智能引擎组件，Redis消息队列将所述底层指标信息发送至人工智能引擎组件中，利用人工智能引擎组件识别出底层指标信息异常值，包括以下步骤：

S31)获取样本数据集，样本数据集包括若干个样本，每一个样本为历史采集到的一个间隔时长内的SAN光纤交换机的底层指标信息；底层指标信息包括若干个不同类型的指标信息，每一个类型的指标信息对应一个维度；

S32)构建独异森林IForest，独异森林IForest包括w个孤立树iTree，每个孤立树iTree是一个二叉树结构，每个孤立树iTree包含若干个节点，第一个节点为根节点，除根节点外的其他节点依次为继承节点；

S33)从训练数据集中随机选择m个样本作为第i个孤立树iTree的子样本，将第i个孤立树iTree的子样本放入所述第i个孤立树iTree的根节点中；i＝1、2、…、w；

S34)在当前节点中随机指定一个维度、并随机产生一个切割点p，所述切割点p的取值范围为当前节点中与指定的维度相对应的指标信息的最大值和最小值之间；

S35)通过切割点p生成超平面，判断第i个孤立树iTree的子样本中的第j个样本中与指定维度相对应的指标信息的值是否小于切割点p，若是，则将第i个孤立树iTree的子样本中与指定维度相对应的指标信息的值小于切割点p的样本放入当前节点的左继承中；若否，则将第i个孤立树iTree的子样本中与指定维度相对应的指标信息的值大于或等于切割点p的样本放入当前节点放在当前节点的右继承中；

S36)设定第i个孤立树iTree的限定高度，在继承节点中不断递归步骤S34)和步骤S35),直到继承节点中所述第i个孤立树iTree的子样本不可再分或已到达第i个孤立树iTree的限定高度,停止递归；

S37)依次构造出w个孤立树iTree，组成独异森林IForest；

S38)人工智能引擎组件接收所述Redis消息队列中第t时刻的底层指标信息x

S39)设定异常阈值，判断第t时刻的底层指标信息x

进一步的，时异常检测模型为Holt线性趋势模型、指数趋势模型或阻尼趋势模型。

进一步的，利用时异常检测模型对第t时刻的底层指标信息x

S391)获取一段历史时间内的SAN光纤交换机的底层指标信息序列x

S392)将底层指标信息序列反向迭代到所述时异常检测模型中，利用所述时异常检测模型中依次反向迭代出底层指标信息预测值，获得底层指标信息预测序列，所述底层指标信息预测序列为x′

S393)计算第j时刻的底层指标信息预测值中的第f个指标信息预测值与第j时刻采集到的底层指标信息中的第f个指标信息值之间的差值，j取值为t-k、t-k+1、…、t-1，获得第f个指标信息的差值向量[Δf

本发明中每一个指标信息的方差阈值是通过多次随机采集一段历史时间内正常状态下的底层指标信息，并通过重复步骤S391)至S392)，进行反复校验，从而获得每一个指标信息的方差阈值。

第二方面，本发明提供了一种光纤存储网络大数据智慧监控和预警系统，包括信息采集模块、运行信息库、人工智能引擎组件和信息展示组件；信息采集模块与信息入库模块相连，运行信息库分别与人工智能引擎组件和信息展示组件相连，人工智能引擎组件与信息展示组件相连。

进一步的，信息采集模块，用于采集SAN光纤交换机的底层指标信息，底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP(Small Form-factorPluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态；

信息数据库，用于将信息采集模块中采集到的底层指标信息通过消息队列保存到信息数据库；采用分库分表技术保存所有SAN网络中SAN交换机设备和端口的各项指标信息、并供AI引擎和各项指标的历史信息查询使用；

人工智能引擎组件，用于接收信息数据库中的所有底层指标信息并采用线性回归、逻辑回归、异常检测的综合机器学习计算方法综合得出SAN整体系统中所有设备和端口的运行基线，识别出异常设备和端口，通过综合计算处理，对部件故障、指标阀值异常、综合分析异常的情况进行报警和预警通知；

信息展示组件，用于将人工智能引擎组件报警和预警通知通过界面集中展示、并提供总体报警展示和历史信息查询。

本发明的有益效果是：本发明通过结合人工智能和机器学习的大数据综合分析方法，能够在部件级故障告警基础上，进一步根据各个指标建立交换机健康运行的基线，将无法通过单一指标识别的问题综合定位，提前进行预警，并指导预防性维护工作。为所有使用集中光纤存储的数据中心用户提供全面的SAN监控和准确性预警，一方面消除现有产品和方法无法监控的复杂SAN网络故障，避免因此导致的大面积系统和业务瘫痪，另一方面为数据中心运维人员的主动性维护提供指导，大幅度减轻运维工作和运维压力。本发明通过建立人工智能引擎组件，通过大数据处理输出相应交换机和端口的状态和预警信息，预警准确率高，并且通过信息展示组件提供了客户端展示界面，便于方面监控分析交换机的问题和情况，用户可及时获得SAN网络交换机因模块不稳定、链路不稳定及链路阻塞蔓延可能出现问题的预警，本发明为预防性维护提供了及时的指导。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的光纤存储网络大数据智慧监控和预警方法的流程示意图。

图2是本发明实施例一提供的光纤存储网络大数据智慧监控和预警系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例一，一种光纤存储网络大数据智慧监控和预警方法，如图1所示，包括如下步骤：

S1)设置收集间隔时长，每隔收集间隔时长对SAN光纤交换机的底层指标信息进行采集。

步骤S1)中，SAN光纤交换机的底层指标信息包括若干个不同类型的指标信息，底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP(Small Form-factor Pluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。

S2)将采集到的SAN光纤交换机的底层指标信息加入Redis消息队列，建立信息数据库，Redis消息队列将所述底层指标信息保存至所述信息数据库中；

S4)信息展示组件实时运行信息数据库、并根据所述人工智能引擎组件输出的底层指标信息异常值进行信息展示。

步骤S3)中，建立人工智能引擎组件，所述Redis消息队列将所述底层指标信息发送至所述人工智能引擎组件中，利用所述人工智能引擎组件识别出底层指标信息异常值，包括以下步骤：

S31)获取样本数据集，所述样本数据集包括若干个样本，每一个样本为历史采集到的一个间隔时长内的SAN光纤交换机的底层指标信息；所述底层指标信息包括若干个不同类型的指标信息，每一个类型的指标信息对应一个维度；

S32)构建独异森林IForest，所述独异森林IForest包括w个孤立树iTree，每个孤立树iTree是一个二叉树结构，每个孤立树iTree包含若干个节点，第一个节点为根节点，除根节点外的其他节点依次为继承节点；

S33)从训练数据集中随机选择m个样本作为第i个孤立树iTree的子样本，将第i个孤立树iTree的子样本放入所述第i个孤立树iTree的根节点中；i＝1、2、…、w；

S37)依次构造出w个孤立树iTree，组成独异森林IForest；

S38)人工智能引擎组件接收所述Redis消息队列中第t时刻的底层指标信息x

S39)设定异常阈值，判断第t时刻的底层指标信息x

时异常检测模型为Holt线性趋势模型、指数趋势模型或阻尼趋势模型。

利用时异常检测模型对第t时刻的底层指标信息x

S391)获取一段历史时间内的SAN光纤交换机的底层指标信息序列x

S392)将底层指标信息序列反向迭代到时异常检测模型中，利用时异常检测模型中依次反向迭代出底层指标信息预测值，获得底层指标信息预测序列，底层指标信息预测序列为x′

第二方面，本发明提供了一种光纤存储网络大数据智慧监控和预警系统，如图2所示，包括信息采集模块、运行信息库、人工智能引擎组件和信息展示组件；信息采集模块与所述信息入库模块相连，运行信息库分别与人工智能引擎组件和信息展示组件相连，人工智能引擎组件与信息展示组件相连。

信息采集模块，用于采集SAN光纤交换机的底层指标信息，底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP(Small Form-factor Pluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。

本实施例中有n个SAN交换机，分别为SAN交换机1、SAN交换机2、…、SAN交换机n。信息采集模块通过IP网络连接所检测的SAN网络交换机设备，并通过snmp协议和自动化脚本按分钟级收集所有设备的底层指标信息，信息采集后送入Redis消息队列，Redis消息队列中的参数包括设备序号、端口号、时间、类别、指标值。采集后信息按照队列方式分别传送到信息数据库和人工智能引擎组件。

信息数据库，用于将信息采集模块中采集到的底层指标信息通过消息队列保存到信息数据库；采用分库分表技术保存所有SAN网络中SAN交换机设备和端口的各项指标信息、并供AI引擎和各项指标的历史信息查询使用。

信息数据库采用PG分布式数据库，并将接收的底层指标信息按照设备序号、端口号、时间、类别、指标值长期保存(历史数据可按月和年保存)，在信息展示时根据不同设备、端口、时间及指标要求，将数据传送到信息展示组件中。

人工智能引擎组件，用于接收信息数据库中的所有底层指标信息并采用线性回归、逻辑回归、异常检测的综合机器学习计算方法综合得出SAN整体系统中所有设备和端口的运行基线，识别出异常设备和端口，通过综合计算处理，对部件故障、指标阀值异常、综合分析异常的情况进行报警和预警通知，预警通知包括提供预警信息。

人工智能引擎组件在按照设备序号、端口号、时间、类别、指标值接收到底层指标信息后，通过机器学习结合异常检测的独异森林模型算法和时间序列的线性趋势模型算法，不断优化整体交换机和端口的运行基线，并同时计算预测出超出基线外的异常设备和端口，异常信息将按照设备序号、端口号、时间、类别、指标值提供到预警信息中。

信息展示组件，用于将人工智能引擎组件报警和预警通知通过界面集中展示、并提供总体报警展示和历史信息查询。

信息展示组件将实时运行信息数据库、并将人工智能引擎组件提供的预警进行展示，实时地展示交换机和端口状态，如果有人工智能引擎组件提交的预警信息，可支持根据预警信息中的设备序号、端口号、指标项等信息查询底层指标信息的具体趋势以及在一段时间的运行状态，从而进一步为预防维护提供依据。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明通过建立人工智能引擎组件，通过大数据处理输出相应交换机和端口的状态和预警信息，预警准确率高，并且通过信息展示组件提供了客户端展示界面，便于方面监控分析交换机的问题和情况，用户可及时获得SAN网络交换机因模块不稳定、链路不稳定及链路阻塞蔓延可能出现问题的预警，本发明为预防性维护提供了及时的指导。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李挚;李焰;
专利申请人：数创物联(北京)信息技术有限公司;