掌桥专利:专业的专利平台
掌桥专利
首页

一种基于人工智能的网络运维自动化方法

文献发布时间:2023-06-19 13:45:04


一种基于人工智能的网络运维自动化方法

技术领域

本发明涉及的是自动化运维领域,特别涉及一种基于人工智能的网络运维自动化方法。

背景技术

人工智能是一种将人类能力与科学技术相结合,实现机器与智能一体化的技术,它借助大数据、网络计算和深度学习,实现类人脑方式的任务处理。当前人工智能技术在生物识别、自然语言识别等领域已经获得了长足发展,比如在安防领域,人工智能可以通过超强的监测能力和精准的识别能力,准确地辨识入侵行为,提升系统保护等级;再比如,在通信运维领域,人工智能凭借其惊人的数据处理能力和类思考能力,对隐患故障进行反应,对网络优化方案进行决策。

目前运营商网络运维主要通过人工方式进行,这种传统的运维方式效率低下、灵活性差、成本高。随着5G时代的来临,ICT产业全面融合,物联网、SDN/NFV、人工智能、云计算等新技术的出现和发展,使得业务需求更加多样,网络运维更加繁杂,粗放的人工方式已经很难适应高质量高效率的维护要求。具体包括以下几点:

(1)网络更加繁杂。2G、3G、4G、5G多种制式将长期共存,PON、PTN、OTN、SDH及城域网、广域网将逐步向SDN/NFV演化。在这个过程中,虚拟化带来的分层解耦和云化带来的动态资源调度,使得故障排查和定位更加困难;同时,由此带来的网络与信息安全隐患也将长期存在,这将大大增加网络管理和优化难度,对运维人员能力要求也将大幅提高。

(2)业务需求多样。一方面,人与人通信的单一模式将逐渐演变为人与人、人与物、物与物的全场景通信模式,业务场景将会更加复杂,这将对服务等级协议(SLA)提出差异化需求,以及带来网络管理复杂性等问题。另一方面,依托5G、NFV等巨大的网络和业务发展能力,用户需求也将呈现出差异化、个性化的趋势,网络对于用户体验的支撑将颠覆传统模式,迎来全新挑战。

(3)网络能力要求高。和传统网络相比,5G、NFV等新一代网络在带宽、时延、可靠性、连接数等关键业务指标上都有量级的提升,并且需要同时满足不同业务的差异化需求。如何充分提升网络能力,快速适应业务需求变化,对网络规划、设备选型、业务部署等工作提出了更高要求。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于人工智能的网络运维自动化方法。

为了解决上述技术问题,本申请实施例公开了如下技术方案:

一种基于人工智能的网络运维自动化方法,包括:

S100.获取运维系统运行的运维数据,对运维数据进行预处理,得到训练数据;

S200.对训练数据进行处理,提取训练数据的特征值;

S300.通过提取训练数据的特征值,构建基于运维系统数据的随机森林模型和深度神经网络模型;

S400.基于生成的随机森林模型和深度神经网络模型,生成网络自动化运维模型,将线上实时的运维数据导入到网络自动化运维模型,对运维系统进行预警。

进一步地,对运维数据进行预处理,包括:将运维数据进行筛选,分为正常运行的正样本数据和异常运行的负样本数据,使正负样本数据的个数相等。

进一步地,特征值提取的方法为:首先通过滑动窗口,提取该窗口类数据的统计特征;然后通过序列前后值的对比,得到对比特征;最后合滑动窗口和对比特征,得到对比统计特征。

进一步地,采用不同的窗口宽度来提取该窗口类数据的统计特征。

进一步地,对于统计特征方面,至少使用的数学方法包括:均值、方差和分位数。

进一步地,对于对比特征方面,至少使用的对比方式包括:差分和变化比例,其中,差分代表了绝对变化,变化比例则是相对值。

进一步地,随机森林模型的关键参数包括:每棵决策树使用的特征数量、决策树的数量和最小叶子节点数目;其中,每棵决策树使用的特征数量为故障检测用到的特征总数;决策树的数量越多,故障检测的结果越精准;最小叶子节点数目,根据实际情况选取。

进一步地,深度神经网络模型采取两个全连接隐层和一个Sigmoid输出层,其中两个全连接隐层的隐藏神经元数量都是128个。

进一步地,网络自动化运维模型的检测指标包括静态阈值的检测指标和动态阈值的指标;其中,静态阈值的检测指标为应用于可用性、成功率和利用率的监控指标;动态阈值的检测指标为流量类,话务量和数据业务流量的监控指标。

本发明实施例提供的上述技术方案的有益效果至少包括:

本发明提出一种基于人工智能的网络运维自动化方法,该方法从监控信息、日志文件、客服信息/人工记录工单等获取源数据,把获得的数据离散取样得到时间序列的数据集。对原始数据进行预处理,然后使用训练数据集对人工智能模型进行训练训练,挖掘出预警信息产生的内在规律以及在故障出现之前一段时间的数据的综合特征变化,最终得到稳定的人工智能算法网络运维模型,进而用对网络问题进行预警。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例1中,一种基于人工智能的网络运维自动化方法的流程图;

图2为本发明实施例1中,随机森林模型的示意图;

图3为本发明实施例2中,深度神经网络模型的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的问题,本发明实施例提供一种基于人工智能的网络运维自动化方法。

实施例1

本实施例公开了一种基于人工智能的网络运维自动化方法,其特征在于,包括:

S100.获取运维系统运行的运维数据,对运维数据进行预处理,得到训练数据;具体的,本实施例中,从运维系统的监控信息、日志文件、客服信息/人工记录工单等获取源数据,把获得的数据离散取样得到时间序列的数据集。

具体的,本实施例中,在运维工作中,故障预警的检测指标分为两类:静态阈值的检测指标和动态阈值的指标。静态阈值的检测指标:应用于可用性、成功率和利用率等监控指标。比如判断是否存在某个告警(“是”就发出预警),判断设备是否处于某个异常的工作状态(“是”就发出预警),判断可用性指标是否小于95%(“小于”就发出预警)。动态阈值的检测指标:最典型监控指标是流量类的,话务量和数据业务流量等。流量是网络故障预警的最关注指标之一,它直观反映网络的健康状态。健康的网络流量通常平稳波动变化,当流量突然上涨或者下降时可能预示网络中存在故障。因此,流量异常检测对发现系统故障和维护系统的稳定性十分重要。流量类指标是随时间波动的,本身就有周期性。在故障预警的应用场景,话务量和业务量的周期是天。数据周期特征判断方法:先将临近的两天数据做差分,如果是周期数据,差分后就可以消除掉原有数据的全局波动,然后结合方差的阈值判断就可以确定数据是否有周期性。实验发现,不同天的数据有一定的上下浮动,因此差分之前可以先对数据做归一化。为了检测监控指标的状态变化,动态阈值的检测需要借助于机器学习和深度学习的算法模型。

S200.对训练数据进行处理,提取训练数据的特征值;具体的,在预处理过程中,面对的一个实际困难是正负样本极度不平衡,网络在绝大部分时间都是正常运行的,故障时的样本比例不到1%,远远低于正常的数量。如果直接将样本进行训练,模型会倾向于将所有样本预测为正常样本,那么将无法达到故障预警的目的。为了解决这个问题,有以下3种方案。

(1)对正常样本进行欠采样以达到正负样本1:1,实验发现这种方案因为丢失了大量的样本信息,模型会出现比较严重的过拟合,泛化性能不佳。

(2)欠采样加集成学习。这种方式虽然效果有所提升,但由于每个基本分类器的正确率很低,集成后的效果也不是很理想。

(3)将运维数据进行筛选,分为正常运行的正样本数据和异常运行的负样本数据,使正负样本数据的个数相等。,最后通过阈值进行决策调整。

实测下来,第三种方式的结果比较理想,本发明使用第三种方法平衡样本不均衡的问题。故障预警的应用场景对时效性要求非常高(否则预警就没有意义)。程序要当故障发生后的第一个采集间隔,就检测到问题。一段连续异常的时序样本,第一个异常的样本出现后,第二个样本出现前,程序就应该能够做出预警。显然,起始端的异常样本点价值是远远大于后续样本的,因此必须增强该类样本的权重以提升其价值。结合前面提到的样本均衡策略,样本权重增强也是通过采样来实现的。

在本实施例中,故障预警的检测指标是时序数据,目的是为了发现时序数据中状态的变化。因此,特征提取主要关注的是在样本时间维度上的相关性,即上下文信息。时序样本的突变往往包含了故障的信息。突变可能是原始值的突变,也可能是均值、方差等统计量的突变,通过前后对比能够很好的捕捉到这类变化。考虑到这些特点,通过3种方式来获取特征。

(1)通过滑动窗口,提取该窗口类数据的统计特征。

(2)通过序列前后值的对比,得到对比特征。

(3)结合滑动窗口和对比,得到对比统计特征。

统计特征方面,主要使用了均值、方差和分位数等。对比特征方面,使用了差分和变化比例这两种对比方式,差分代表了绝对变化,变化比例则是相对值。需要注意的是,变化比例在原始数据接近0时很容易出现畸变,所以某些场景下不是太好用。另外选择了不同的窗口宽度来进行特征提取,所以总的特征集是窗口宽度、统计特征和对比特征的交叉组合。将原始数据转换到方差差分特征空间后,异常样本的辨识度明显提升,这也利于后续模型训练。

S300.通过提取训练数据的特征值,构建基于运维系统数据的随机森林模型和深度神经网络模型。

具体的,本实施例中,运维部门已有海量已经标记的数据,包括正常的数据和少量的异常数据。因此训练模型时很适合采用监督学习的算法。决策树是一种常用于告警监控的分类算法(结果分成两类:正常和故障),生成的模型非常直观,与运维专家在故障检测时的思维方式很相似。但是,单独一棵决策树的泛化能力不足。随机森林是基于决策树的改进集成模型,解决了决策树泛化能力弱的问题。它引入双重随机性,生成多个互不相同的弱分类器,所有弱分类器一起投票决定最终结果,如附图2所示。随机森林模型的关键参数:每棵决策树使用的特征数量、决策树的数量和最小叶子节点数目。每棵决策树使用的特征数量:故障检测用到的特征总数只有几个,全部选用即可。决策树的数量越多,故障检测的结果越精准,在服务器计算资源允许的能力范围,应该设置的近可能大。如果不想优化,可以直接设置成10。最小叶子节点数目,叶是决策树的末端节点,建议小于50。较小的叶子使模型更容易捕捉训练数据中的噪声,应该根据实际情况,尝试不同的取值,选取效果较好的那个。根据业务需求还可以人工调整生成各个弱分类器的参数。

在本实施例中,深度神经网络(DNN)是一种深度学习的模型。DNN模型的表达能力强,泛化能力强,非常适用大数据的场景。它能够充分利用网络设备不断生成的海量样本,如附图3所示。训练的复杂度,采取两个全连接隐层和一个Sigmoid输出层,已经完全能够胜任。更多的层数,可能会过拟合导致泛化能力弱。通过增加隐层节点数来获得较低的误差,两个隐藏神经元数量都是128个。根据实际情况,训练样本数大于网络模型的连接权数。损失函数:均方差,它有较广泛的适用性。激活函数:ReLU,部分解决梯度消失的问题。梯度爆炸的问题,通过调整模型中的初始化参数得以解决。通过Dropout和正则化控制模型的过拟合,以增强泛化能力。DNN输出数据点的异常概率,再通过阈值进行二分类。

S400.基于生成的随机森林模型和深度神经网络模型,生成网络自动化运维模型,将线上实时的运维数据导入到网络自动化运维模型,对运维系统进行预警。

本实施例提出一种基于人工智能的网络运维自动化方法,该方法从监控信息、日志文件、客服信息/人工记录工单等获取源数据,把获得的数据离散取样得到时间序列的数据集。对原始数据进行预处理,然后使用训练数据集对人工智能模型进行训练训练,挖掘出预警信息产生的内在规律以及在故障出现之前一段时间的数据的综合特征变化,最终得到稳定的人工智能算法网络运维模型,进而用对网络问题进行预警。

应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。

在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

相关技术
  • 一种基于人工智能的网络运维自动化方法
  • 一种基于人工智能的自动化路障取放方法及其系统
技术分类

06120113791439