掌桥专利:专业的专利平台
掌桥专利
首页

网络故障监测方法、装置及电子设备

文献发布时间:2024-04-18 19:58:21


网络故障监测方法、装置及电子设备

技术领域

本申请涉及网络运维技术领域,具体涉及一种网络故障监测方法、装置及电子设备。

背景技术

随着5G、网络功能虚拟化(Network Functions Virtualization,NFV)等网络通信技术的发展,通信网元从依靠告警进行网络监控运维的通信技术(CommunicationsTechnology,CT)网络转变成了基于云化技术的信息技术(Information Technology,IT)网络。网络日志是记录网络运行状况的重要部分,基于云化技术的IT网络下的云化网络设备众多,产生的网络日志数量庞大,可以达到太字节(TB)数量级,从这些海量的网络日志中快速分析并定位出故障对网络运维发挥着重要的作用。

目前,对网络的故障监测和定位主要使用预设的人工智能算法对收集到的网络设备的应用日志信息进行处理得到。但这种方法仅考虑了应用日志信息,而没有考虑通信网络中其他可能导致网络故障的因素,因而无法实现网络故障的全方位监测。

发明内容

本申请实施例提供一种网络故障监测方法、装置及电子设备,用以解决现有技术中无法全方位监测网络故障的技术问题。

第一方面,本申请实施例提供一种网络故障监测方法,包括:

获取待分析网络日志;

对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图;

对所述待分析网络日志进行异常点分析,得到异常定位信息;

从所述待分析网络日志中提取关键语句;

基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息;

输出所述网络故障定位信息。

在一个实施例中,所述获取待分析网络日志包括:

从网关设备获取原始网络日志;

根据目标查询信息从所述原始网络日志中筛选出符合所述目标查询信息的网络日志,得到所述待分析网络日志,所述目标查询信息中包括目标时间点、目标网络节点和目标事件类型。

在一个实施例中,所述对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图包括:

对所述待分析网络日志中涉及网元的部分进行拓扑拍照,得到网元三层对应关系,所述网元三层对应关系包括物理主机、虚拟机和虚拟网络功能VNF的对应关系;

获取所述网元之间的物理资源数据;

将所述网元三层对应关系和所述物理资源数据进行关联,得到网络拓扑关系图。

在一个实施例中,所述对所述待分析网络日志进行异常点分析,得到异常定位信息包括:

按照时间粒度对所述待分析网络日志进行日志量统计,得到每个网元的网络日志量变化趋势;

对于每个网元,根据所述每个网元的网络日志量变化趋势获取网络日志量波动超过设定阈值的时间点及所述时间点对应的网元信息和网络日志波动量,得到异常定位信息。

在一个实施例中,所述从所述待分析网络日志中提取关键语句包括:

基于人工智能语义分析模型从所述待分析网络日志中提取关键语句;所述人工智能语义分析模型为基于样本网络日志和对所述样本网络日志进行关键语句标注得到的标注数据对基础语义模型进行训练得到的模型。

在一个实施例中,在所述基于人工智能语义分析模型从所述待分析网络日志中提取关键语句之前,所述网络故障监测方法还包括:

获取所述样本网络日志;

对所述样本网络日志进行清洗和关键语句标注,得到训练样本集;

建立所述样本网络日志的专属词库;

基于所述训练样本集和所述专属词库对所述基础语义模型进行训练,得到所述人工智能语义分析模型。

在一个实施例中,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练包括:

将所述训练样本集导入所述基础语义模型,获取所述训练样本集中的样本网络日志的文本长度,得到待处理文本长度;

响应于所述待处理文本长度大于文本长度阈值,基于文本长度置信度条件对所述训练样本集中的样本网络日志进行拆分处理,得到待训练样本网络日志;所述文本长度阈值为所述基础语义模型可识别的最大文本长度,所述文本长度置信度条件包括拆分后的样本网络日志的长度大于最小阈值且小于所述文本长度阈值的置信度等于设定置信度,所述最小阈值为0.5倍所述文本长度阈值减去交叉日志文本长度的值;

以所述待训练样本网络日志为所述基础语义模型的输入,以对所述样本网络日志进行关键语句标注得到的标注数据为所述基础语义模型的目标输出,利用训练参数集对所述基础语义模型进行训练并在训练过程中调用所述专属词库辅助识别关键语句。

在一个实施例中,在所述利用训练参数集对所述基础语义模型进行训练之后,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练还包括:

获取验证数据集;

将所述验证数据集输入关键语句提取模型进行关键语句提取,得到关键语句提取结果,所述关键语句提取模型为利用所述训练参数集对所述基础语义模型进行训练后得到的模型;

根据所述关键语句提取结果计算整体提取准确率和细分提取准确率;

响应于所述整体提取准确率小于第一设定准确率阈值,在所述训练样本集中新增第一样本网络日志,所述第一样本网络日志为对导致所述整体提取准确率小于所述第一设定准确率阈值的关键语句中非日志产生原因的关键语句进行标注的样本网络日志;

响应于所述细分提取准确率中目标日志类型对应的细分提取准确率小于第二设定准确率阈值,增加所述训练样本集中第二样本网络日志的数量,所述第二样本网络日志为所述目标日志类型对应的网络日志;

基于更新后的训练样本集对所述关键语句提取模型继续进行训练。

在一个实施例中,在所述基于更新后的训练样本集对所述关键语句提取模型继续进行训练之后,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练还包括:

对所述关键语句提取模型训练之后得到的模型进行轻量化处理。

在一个实施例中,所述基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息包括:

基于所述网络拓扑关系图查询网络告警信息和网络割接信息;

根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值;

根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值;

获取所述关键语句中各关键语句的占比,并根据所述占比和所述异常定位信息确定第三网络故障监测信息和第三监测阈值;

根据所述关键语句和关键语句与关键语句级别的对应关系确定第四网络故障监测信息和第四监测阈值;

基于所述第一网络故障监测信息、所述第一监测阈值、所述第二网络故障监测信息、所述第二监测阈值、所述第三网络故障监测信息、所述第三监测阈值、所述第四网络故障监测信息和所述第四监测阈值生成网络故障定位信息。

在一个实施例中,所述根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值包括:

响应于查询到网络告警信息,确定所述第一网络故障监测信息为网络存在部分异常,且确定所述第一监测阈值为第一阈值;

响应于未查询到网络告警信息,确定所述第一网络故障监测信息为网络正常,且确定所述第一监测阈值为第二阈值。

在一个实施例中,所述根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值包括:

响应于在第一设定时间段查询到网络割接报备,确定所述第二网络故障监测信息为夜间网络割接操作,且确定所述第二监测阈值为第一阈值;

响应于在第二设定时间段查询到网络割接报备,确定所述第二网络故障监测信息为日间网络割接操作,且确定所述第二监测阈值为第三阈值。

在一个实施例中,所述获取所述关键语句中每个关键语句的占比,并根据所述每个关键语句的占比和所述异常定位信息确定第三网络故障监测信息和第三监测阈值包括:

响应于第一目标网元的所述异常定位信息指示网络日志量波动超过设定阈值,将所述异常定位信息作为第一异常评估信息并生成第一评估阈值,所述第一目标网元为单网元;

响应于第二目标网元的第一目标关键语句的占比大于占比阈值,生成第二异常评估信息和第二评估阈值,所述第二目标网元为单网元,所述第一目标关键语句为所述关键语句中的一个关键语句,所述第二异常评估信息指示所述第二目标网元的包含所述第一目标关键语句的网络日志偏多;

响应于第三目标网元的网络日志量在目标时间点偏离目标日志量均值,生成第三异常评估信息和第三评估阈值,所述第三目标网元为多网元中的一个网元,所述目标日志量均值为所述多网元在所述目标时间点的网络日志量的平均值,所述第三异常评估信息指示所述第三目标网元在所述目标时间点的网络日志量较高;

响应于第四目标网元的第二目标关键语句的占比偏离占比阈值,生成第四异常评估信息和第四评估阈值,所述第四目标网元为多网元中的一个网元,所述第二目标关键语句为所述关键语句中的一个关键语句,所述第四异常评估信息指示所述第四目标网元的包含所述第二目标关键语句的网络日志占比存在异常;

响应于所述第一评估阈值、所述第二评估阈值、所述第三评估阈值和所述第四评估阈值中有至少两个评估阈值为第一阈值,确定所述第三监测阈值为第三阈值,且将所述至少两个评估阈值为第一阈值的评估阈值对应的异常评估信息生成为所述第三网络故障监测信息。

在一个实施例中,所述基于所述第一网络故障监测信息、所述第一监测阈值、所述第二网络故障监测信息、所述第二监测阈值、所述第三网络故障监测信息、所述第三监测阈值、所述第四网络故障监测信息和所述第四监测阈值生成网络故障定位信息包括:

获取所述第一监测阈值、所述第二监测阈值、所述第三监测阈值和所述第四监测阈值中的最大监测阈值;

获取与所述最大监测阈值匹配的网络故障监测信息;

基于所述最大监测阈值和所述与所述最大监测阈值匹配的网络故障监测信息生成网络故障定位信息。

第二方面,本申请实施例提供一种网络故障监测装置,包括:

第一获取模块,用于获取待分析网络日志;

第二获取模块,用于对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图;

分析模块,用于对所述待分析网络日志进行异常点分析,得到异常定位信息;

提取模块,用于从所述待分析网络日志中提取关键语句;

生成模块,用于基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息;

输出模块,用于输出所述网络故障定位信息。

第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的网络故障监测方法的步骤。

第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的网络故障监测方法的步骤。

本申请实施例提供的网络故障监测方法、装置及电子设备,可以对获取的待分析网络日志进行拓扑拍照和异常点分析,得到网络拓扑关系图和异常定位信息,通过网络拓扑关系图可以获得网络设备的多层组网关系和告警信息,同时从待分析网络日志中提取关键语句,基于关键语句可以定位异常网络日志,然后基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息,在网络故障监测过程中综合考虑了网络日志、网络拓扑及关键语句等多个维度中可能导致网络故障的因素,能够对网络故障进行多方位的监测。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的网络故障监测方法的流程示意图;

图2是本申请实施例提供的根据目标查询信息从原始网络日志中匹配出待分析网络日志的方法的流程示意图;

图3是本申请实施例提供的建立人工智能语义分析模型的方法的流程示意图;

图4是本申请实施例提供的基于训练样本集和专属词库对基础语义模型进行训练的方法的流程示意图;

图5是本申请实施例提供的验证并优化关键语句提取模型的方法的流程示意图;

图6是本申请实施例提供的人工智能语义分析模型经轻量化处理后的部署原理图;

图7是本申请实施例提供的基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息的方法的流程示意图;

图8是本申请实施例提供的网络故障监测装置的结构示意图;

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

5G和NFV等云化网络下的运营商云化网络设备众多,产生的网络日志数量巨大,从这些海量的网络日志中快速有效地分析并定位至有价值的网络故障,实现网络设备的实时故障发现与定位,对网络运维具有重要的意义。

相关技术中,对于网络设备的实时故障发现与定位可以包括如下的方案:(1)收集网络设备的应用日志,使用人工智能算法对这些应用日志进行处理,然后输出故障定位结果;(2)以工业大数据为基础,结合日志易数据、应用性能管理(Application PerformanceManagement,APM)数据以及其他相关数据,构建故障预测、故障快速定位和资源容量预测模型;(3)面向不同工况、故障诊断算法、样本数据进行故障诊断和预测。这些方法都是通过收集现有网络设备的应用日志,使用人工智能算法对这些应用日志进行处理,实现告警预测。

而云化网络设备的网络日志主要来自网络虚拟化系统的三层网络的不同网络设备日志,这些海量的网络日志依据组网的拓扑结构,存在一定的业务关系;而且,这些网络日志的日志数据并非故障预测算法模型的唯一输入变量,需要综合考虑告警及性能指标数据。这使得通过收集网络设备的应用日志并使用人工智能算法对这些应用日志进行处理以实现告警预测的网络故障监测方案存在以下缺陷:第一,故障预测未考虑网络设备的多层组网关系;第二,故障预测未考虑告警及网络的性能指标数据;第三,故障预测的应用计算量大,资源消耗大。

基于此,本申请提供了一种能从海量网络日志中快速提取网络监控的关键信息并将这些关键信息与告警、网络性能、网络拓扑等多维信息进行关联处理以输出故障定位结果的方案。本申请实施例提供的技术方案,将人工智能领域的语义分析模型与云化网络的日志监控运维相结合,利用网络拓扑关系图定位网络设备在某个时刻的拓扑关系,筛选出网络虚拟化系统的三层云化设备的海量原始网络日志,基于这些原始网络日志并结合人工智能语义分析模型进行关键语句的提取和网络日志的统计分析,比如进行网络日志的日志量对比分析、关键字聚类分析等,分析出网络日志的变化趋势并初步定位相关的网元及异常网络日志。定位的结果可以结合设备告警、性能指标等多维信息,综合研判出网络故障定位结论。

在本申请实施例中,可以对获取的待分析网络日志进行拓扑拍照和异常点分析,得到网络拓扑关系图和异常定位信息,并从待分析网络日志中提取关键语句,然后基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息并输出该网络故障定位信息。

下面对本申请的网络故障监测方法进行描述,该网络故障监测方法可以应用于服务器、手机、电脑等电子设备,也可以应用于设置在服务器、手机、电脑等电子设备中的网络故障监测装置中,该网络故障监测装置可以通过软件、硬件或两者的结合来实现。

图1为本申请实施例提供的网络故障监测方法的流程示意图,参照图1所示,该网络故障监测方法可以包括如下的步骤110~步骤160。

步骤110:获取待分析网络日志。

待分析网络日志可以通过对采集的原始网络日志进行处理得到。一种示例实施例中,获取待分析网络日志可以包括:从网关设备获取原始网络日志;根据目标查询信息从原始网络日志中筛选出符合目标查询信息的网络日志,得到待分析网络日志,其中的目标查询信息中可以包括目标时间点、目标网络节点和目标事件类型。通过目标查询信息可以从原始网络日志中快速匹配出待分析网络日志。其中的目标事件类型比如可以包括查询网络设备是否告警、查询是否存在性能告警或查询是否存在网络割接操作等。示例性的,获取的原始网络日志可以基于不同的日志类型构建为日志全集。

以目标查询信息中包括目标时间点t、目标网络节点Ne和目标事件类型E为例,图2示例性示出了根据目标查询信息从原始网络日志中匹配出待分析网络日志的方法的流程示意图,参照图2所示,该方法可以包括如下的步骤210~步骤240。

步骤210:将目标时间点t、目标网络节点Ne和目标事件类型E构建为目标查询信息。

例如,需要查询2021年7月30日网络节点A是否存在隐患,则构建目标查询信息的内容包括:目标时间点t是“2021年7月30日”,目标网络节点Ne是“A”,目标事件类型E是“查询是否存在隐患”。可以将“2021年7月30日”、“A”和“查询是否存在隐患”构建为目标查询信息。

步骤220:根据目标网络节点Ne对原始网络日志进行筛选,得到第一网络日志集。

原始网络日志是从网关设备采集的网络日志的集合,可以包括多个厂家的多种设备类型的多种类型日志信息,且该集合的数量可以周期性更新。采集的原始网络日志比如可以包括运行日志(isp.log)、安全日志(security.log)、操作日志(cli_log)、事件日志(event.log)和告警日志(alarm.log)多种日志类型的日志。

步骤230:根据目标事件类型E对第一网络日志集进行筛选,得到第二网络日志集。

根据目标网络节点Ne从原始网络日志中筛选出第一网络日志集之后,可以继续根据目标事件类型E从第一网络日志集中匹配1个主网络日志和n个辅网络日志,得到第二网络日志集。其中的n为整数。

示例性的,可以预先制定匹配规则,比如,对于虚拟网络功能(VirtualizationNetwork Functions,VNF),如果目标事件类型E是查询,可以选择将isp.log日志作为主网络日志,将security.log和cli.log日志作为辅网络日志,或者选择将诊断日志(diag.log)作为主网络日志,其他研发日志作为辅网络日志;如果目标事件类型E是单条告警,根据其归属的模块,可以选择相应的diag.log日志为主网络日志,研发日志为辅网络日志;如果目标事件类型E是链路相关故障,可以选择以链路记录诊断日志(linkom_logfile_diag.log)为主网络日志。再比如,对于虚拟化基础设施管理器(Virtualised infrastructuremanager,VIM),如果事件类型是查询,可以选择以nova-computer日志为主网络日志,其他主要组件日志为辅网络日志;如果目标事件类型E是故障,根据故障归属组件列表,可以选择相应组件日志为主网络日志,日志相关组件日志为辅网络日志。

步骤240:根据目标时间点t对第二网络日志集进行筛选,得到待分析网络日志。

筛选出第二网络日志集之后,基于目标时间点t确定查询时间段,比如确定的查询时间段可以是[t-30分钟,t],然后根据确定的查询时间段查询第二网络日志集中该查询时间段内的网络日志,得到待分析网络日志。基于该待分析网络日志可以进行后续的人工智能语义提取关键字、多维信息定位的日志量统计分析等。

步骤120:对待分析网络日志进行拓扑拍照,得到网络拓扑关系图。

通过网关设备上报的网络日志中可以携带业务拓扑关系,示例性的,网络日志上报时可以新增记录业务拓扑关系的字段,该字段比如可以命名为Ne_relationship,在该字段中可以保存物理主机、虚拟机和VNF三层对应关系。

一种示例实施例中,对待分析网络日志进行拓扑拍照,得到网络拓扑关系图可以包括:对待分析网络日志中涉及网元的部分进行拓扑拍照,得到网元三层对应关系,该网元三层对应关系包括物理主机、虚拟机和VNF三层对应关系;获取网元之间的物理资源数据;将网元三层对应关系和物理资源数据进行关联,得到网络拓扑关系图。其中的物理资源数据可以表征两台物理设备之间的连接关系,比如物理主机G1的接口1通过网线直连路由器G2的接口2。

通过对待分析网络日志进行拓扑拍照可以获取到任一时刻的网元三层对应关系,包括当前时刻和历史时刻,这样,通过拓扑拍照得到的同一网元的同一类型网络日志的网络拓扑关系图可以分析、绘制出网络拓扑的变化情况。基于拓扑拍照再结合物理资源数据,可以获取到物理主机(比如主服务器HOST)上连接的数通设备信息,实现网元三层对应关系与数通设备信息的动态关联。其中的数通设备信息可以包括网元名、端口号、告警信息、性能等监测信息。通过动态关联可以使用其他设备的告警信息和性能等辅助网络故障的定位判断,多方位考虑可能造成网络故障的因素。

示例性的,实现动态关联可以是通过右键关联相关设备的告警信息和性能信息等监测信息的方式。

示例性的,对待分析网络日志进行拓扑拍照,得到网络拓扑关系图之后,可以以可视化的方式将该网络拓扑关系图展示给用户,可视化地呈现网络拓扑关系的变化情况。

步骤130:对待分析网络日志进行异常点分析,得到异常定位信息。

获取到待分析网络日志之后,可以对待分析网络日志进行异常点分析,去除待分析网络日志中的异常网络日志,并进行初步的异常定位。

一种示例实施例中,对待分析网络日志进行异常点分析,得到异常定位信息可以包括:按照时间粒度对待分析网络日志进行日志量统计,得到每个网元的网络日志量变化趋势;对于每个网元,根据每个网元的网络日志量变化趋势获取网络日志量波动超过设定阈值的时间点及该时间点对应的网元信息和网络日志波动量,得到异常定位信息。

网络中的网元可能只涉及一个网元,即单网元,也可能涉及多个网元,即多网元,对于单网元和多网元,可以统计不同粒度的日志量,并对日志量进行横向比对分析。例如,对于单网元,可以采用分钟粒度统计每分钟的网络日志量,绘制出每个网元的网络日志量曲线,然后将每个时间点的网络日志量与其前一个时间点的网络日志量进行比对,若波动超过10%,则将该时间点作为该网元的异常点。再比如,对于多网元,可以采用分钟粒度统计每个网元每分钟的网络日志量,绘制出每个网元的网络日志量曲线,对于同一个网元,若不同时间点之间的网络日志量相差超过10%,则记录该网元和波动的时间点作为异常点。通过比对分析可以得到网元的异常定位信息,该异常定位信息可以包括异常点的时间、网元和异常类型等信息,后续可以对该异常定位信息做进一步深入分析。

步骤140:从待分析网络日志中提取关键语句。

示例性的,可以基于人工智能语义分析模型从待分析网络日志中提取关键语句,该人工智能语义分析模型为基于样本网络日志和对样本网络日志进行关键语句标注得到的标注数据对基础语义模型进行训练得到的模型。基础语义模型可以实现语义识别,比如可以选用谷歌的语义模型Bert-base-chinese。

一种示例实施例中,在基于人工智能语义分析模型从待分析网络日志中提取关键语句之前,该网络故障监测方法还可以包括建立人工智能语义分析模型的步骤。图3示例性示出了建立人工智能语义分析模型的方法流程示意图,参照图3所示,该方法可以包括如下的步骤310~步骤340。

步骤310:获取样本网络日志。

将已知种类和一定数量级的NFV三层网络日志数据作为样本网络日志,NFV三层网络日志数据可以是选自不同厂商的VNF层网元、VIM虚拟层和协议无关组播(ProtocolIndependent Multicast,PIM)物理层的网络日志数据。日志的种类比如可以包括运行日志、操作日志、告警日志、安全日志以及用户会话日志等。

步骤320:对样本网络日志进行清洗和关键语句标注,得到训练样本集。

样本网络日志可以包括运行日志、操作日志、告警日志、安全日志以及用户会话日志等不同类型的日志,可以根据不同日志类型的数据进行数据预处理,即进行清洗,可以包括缺失值处理、重复行处理、时间转换、数据移动、替换值等其中的至少一种清洗操作,保证样本网络日志数据正确且符合训练要求的数据结构。然后,可以结合样本网络日志清单和样本网络日志样例梳理虚拟机重启、服务器异常以及异常操作等标注清单,对清洗之后的样本网络日志进行关键语句标注,标注的特征信息可以包括时间戳、日志事件详情、触发者、日志产生原因和软件版本等其中的至少一种。通过清洗和关键语句标注后可以得到训练样本集。

步骤330:建立样本网络日志的专属词库。

在本申请实施例中,样本网络日志来源于NFV三层网络日志数据,可以建立NFV三层网络日志数据专属词库,通过该专属词库提供日志关键词参考,在对网络日志进行关键语句识别时可以参考该专属词库,若识别出的关键语句与该专属词库中的语句高度相似,比如相似度超过设定相似度阈值,则可以用该专属词库中的对应语句作为关键语句识别结果,提高网络日志关键词的识别准确率。

示例性的,可以梳理NFV三层网络设备的运行状态和事件关键词清单构建基础词库,将该基础词库作为专属词库,该基础词库可以包括基于自然语言处理的文本分词和切词。

示例性的,该专属词库可以根据不同级别、不同故障场景和不同厂家等多个维度的信息进行动态更新和配置,比如可以根据利用人工智能语义分析模型从待分析网络日志中进行关键语句识别的识别结果对该专属词库进行动态更新,通过动态更新可以进一步提高识别准确率。

示例性的,可以在该专属词库中添加针对不同故障场景设计的故障识别白名单词库,在模型训练学习中避免对这类故障识别进行干扰,可以列出、回退、校验或者激活相应白名单配置,可以减少因关键语句识别异常导致的错误关键语句干扰。例如,网络日志中可能会出现例如Aac_Bc_C这种格式的拼接词,其包含目标识别对象Aac,但该拼接词在识别中会作为一个词而使识别不通过,对于这种情况,可以将该拼接词作为故障识别白名单加入专属词库,在关键语句识别中使其识别通过

步骤340:基于训练样本集和专属词库对基础语义模型进行训练,得到人工智能语义分析模型。

得到训练样本集和专属词库之后,将训练样本集中的样本网络日志作为基础语义模型的输入,将对样本网络日志进行关键语句标注得到的标注数据作为基础语义模型的期望输出,结合专属词库对基础语义模型进行训练,得到人工智能语义分析模型。

基础语义模型有最大的输入日志文本长度要求,在利用训练样本集训练基础语义模型时,可以先对训练样本集中的样本网络日志的文本长度进行处理,使其满足基础语义模型的最大训练日志文本长度要求。相应的,在一种示例实施例中,图4示出了本申请提供的基于训练样本集和专属词库对基础语义模型进行训练的方法流程图,参照图4所示,可以包括如下的步骤410~步骤430。

步骤410:将训练样本集导入基础语义模型,获取训练样本集中的样本网络日志的文本长度,得到待处理文本长度。

步骤420:响应于待处理文本长度大于文本长度阈值,基于文本长度置信度条件对训练样本集中的样本网络日志进行拆分处理,得到待训练样本网络日志。

其中,文本长度阈值为基础语义模型可识别的最大文本长度。文本长度置信度条件包括拆分后的样本网络日志的长度大于最小阈值且小于文本长度阈值的置信度等于设定置信度,其中的最小阈值为0.5倍文本长度阈值减去交叉日志文本长度的值。示例性的,可以采用交叉日志长度构建文本长度置信度条件,在本示例实施例中,将网络日志文本语句进行拆分时可以不是完全的一分为二,可以存在交叉重叠部分,可以将该交叉重叠部分的长度定义为交叉日志文本长度。示例性的,该文本长度置信度条件可以表示为:

P[(max_l*0.5-cross_l)

其中,P代表置信度;Q代表设定置信度,比如可以取95%;max_l表示基础语义模型可识别的最大文本长度;length(logtext)表示输入基础语义模型进行学习的网络日志文本长度,也即拆分后的样本网络日志的长度;cross_l表示交叉日志文本长度。

这样,在对基础语义模型进行训练时,可以利用文本长度置信度条件约束输入至基础语义模型的训练样本的文本长度。

步骤430:以待训练样本网络日志为基础语义模型的输入,以对样本网络日志进行关键语句标注得到的标注数据为基础语义模型的目标输出,利用训练参数集对基础语义模型进行训练并在训练过程中调用专属词库辅助识别关键语句。

训练参数集是在学习率和训练批次集的基础上建立的结果纠正集,可以包括学习率、训练批次(batch)值、训练轮次等参数,控制模型训练的速度、时间和效果,可以在训练前进行初始化设置,后续可以通过调优器进行更新和纠正,提升模型的学习效果。

在训练过程中,可以将利用基础语义模型及训练后的基础语义模型识别的关键语句与专属词库进行参考比对,若识别出的关键语句与该专属词库中的语句高度相似,比如相似度超过设定相似度阈值,则可以用该专属词库中的对应语句作为关键语句识别结果,强化关键语句的识别准确率。

一种示例实施例中,在利用训练参数集对基础语义模型进行训练得到关键语句提取模型之后,基于训练样本集和专属词库对基础语义模型进行训练还包括验证并优化关键语句提取模型的步骤。图5示例性示出了验证并优化关键语句提取模型的方法的流程示意图,参照图5所示,可以包括如下的步骤510~步骤560。

步骤510:获取验证数据集。该验证数据集中包括验证网络日志和从验证网络日志中标记的时间戳、日志事件详情、触发者、日志产生原因和软件版本等信息的验证标记数据。

步骤520:将验证数据集输入关键语句提取模型进行关键语句提取,得到关键语句提取结果。其中的关键语句提取模型为利用训练参数集对基础语义模型进行训练后得到的模型。

步骤530:根据关键语句提取结果计算整体提取准确率和细分提取准确率。

整体提取准确率表征关键语句提取模型对任意网络日志进行关键语句提取时的关键语句提取准确率。细分提取准确率表征关键语句提取模型对每一种类型网络日志进行关键语句提取时的关键语句提取准确率,不同类型网络日志的细分提取准确率可以不同。

示例性的,在得到关键语句提取结果之后,可以将该关键语句提取结果与验证数据集中的验证标记数据进行比对,计算出整体提取准确率。可以按照日志类型进行分类,对于每一种日志类型,将该日志类型对应的关键语句提取结果与验证数据集中的该日志类型对应的验证标记数据进行比对,计算出细分提取准确率。

得到整体提取准确率和细分提取准确率之后,可以分别与第一设定准确率阈值和第二设定准确率阈值进行比对,实现关键语句提取模型的准确率评估,并根据评估结果优化关键语句提取模型,执行步骤540和/或步骤550。

步骤540:响应于整体提取准确率小于第一设定准确率阈值,在训练样本集中新增第一样本网络日志。

第一样本网络日志为对导致整体提取准确率小于第一设定准确率阈值的关键语句中非日志产生原因的关键语句进行标注的样本网络日志。示例性的,可以将整体提取准确率低的关键语句,按照时间戳、日志事件详情、触发者、日志产生原因和软件版本等类型进行分类,对非日志产生原因的错误关键语句进行重点标注,新增第一样本网络日志,通过新增第一样本网络日志的样本量来扩充训练样本集,增强特定类型网络日志的识别准确率。新增的第一样本网络日志的样本量N1可以通过样本量公式计算,该样本量公式可以为:

其中,k代表错误关键语句的类型,N为k类型关键语句的错误样本网络日志数量,M为k类型关键语句的标注样本网络日志总数,R是标注的训练样本集在每种类型关键语句下的样本网络日志数量中位数。

步骤550:响应于细分提取准确率中目标日志类型对应的细分提取准确率小于第二设定准确率阈值,增加训练样本集中第二样本网络日志的数量。

其中,第二样本网络日志为目标日志类型对应的网络日志,目标日志类型为划分的网络日志类型中的任一类型。

细分提取准确率小于第二设定准确率阈值时认为细分提取准确率低,视为模型泛化短板,可以将细分提取准确率低的日志类型的网络日志确定为重点关注的日志,包括但不限于记录NFV三层网络设备稳定的运行日志、操作日志、告警日志、安全日志和用户会话日志等,这些类型的网络日志出现识别准确率低时,增加样本网络日志的数据量,对导致细分提取准确率低的特定句式、特定语义结构关键语句等进行加强学习,包括但不限于针对NFV三层网络中的硬件错误、磁盘阵列(Redundant Arrays of Independent Disks,RAID)卡故障、内存故障、虚拟机重启、服务器异常等。

步骤560:基于更新后的训练样本集对关键语句提取模型继续进行训练。最终得到所需的人工智能语义分析模型。

示例性的,在对关键语句提取模型继续进行训练的过程中,可以基于创建的训练优化器对关键语句提取模型进行优化训练,可以在远离最优模型时使用较大的学习率,在靠近最优模型时使用较小的学习率,采用动态学习率优化关键语句提取模型的训练。

一种示例实施例中,在基于更新后的训练样本集对关键语句提取模型继续进行训练之后,还可以对关键语句提取模型训练之后得到的人工智能语义分析模型进行轻量化处理。人工智能语义分析模型经轻量化处理之后便可实施部署,实时提取关键语句。例如,图6示例性示出了人工智能语义分析模型经轻量化处理后的部署原理图,参照图6所示,网络日志监控应用可以接收网关设备上报的网络日志,为网络故障监控服务平台提供原始网络日志,网络故障监控服务平台可以采用异步调用方式从网络日志监控应用调用原始网络日志,响应时间比如可以在1分钟之内;计算资源实现人工智能语义分析模型的容器化部署任务,比如可以使用人工智能图形处理器(Graphics Processing Unit,GPU);轻量化后的人工智能语义分析模型可以通过网关应用程序编程接口(Application ProgrammingInterface,API)发布到网络故障监控服务平台,供网络故障监控服务平台调用。发布和部署的流程可以包括能力镜像上传、服务发布及验证、API网关配置、API网关接口验证以及人工智能语义分析模型的提取能力调用等。

示例性的,可以通过降低模型深度的方式对人工智能语义分析模型进行轻量化处理。比如,可以使用知识蒸馏技术对网络日志文本进行学习,降低人工智能语义分析模型的网络层数。

示例性的,降低模型深度之后,可以基于原始人工智能语义分析模型的训练参数集进行一对多加强学习。例如在训练参数集初始化设置时可以利用原始人工智能语义分析模型的1至4层的参数初始化轻量级模型的第1层,用原始人工智能语义分析模型的5至8层初始化轻量级模型的第2层等。

示例性的,在轻量化处理过程中,还可以调整作为网络日志来源的NFV三层网络设备的指向,比如减少网络日志文本中授权、审计、登录、注销等行为网络日志的数据信息,新增网络日志产生原因日志的数据量。

步骤150:基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息。

网络拓扑关系图可以提供告警、网络割接等信息,将网络拓扑关系图、异常定位信息和关键语句相关联,可以综合网络多方位的信息评判网络是否发生故障。

在一种示例实施例中,图7示出了本申请基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息的方法的流程示意图,参照图7所示,可以包括如下的步骤710~步骤760。

步骤710:基于网络拓扑关系图查询网络告警信息和网络割接信息。

网络拓扑关系图可以提供告警、网络割接等信息,可以在查询网络日志期间利用网络拓扑关系图监测网络告警信息和网络割接信息。

步骤720:根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值。

在利用网络拓扑关系图监测网络告警信息过程中,响应于查询到网络告警信息,确定第一网络故障监测信息为网络存在部分异常,且确定第一监测阈值为第一阈值;响应于未查询到网络告警信息,确定第一网络故障监测信息为网络正常,且确定第一监测阈值为第二阈值。在本申请实施例中,第一阈值比如可以设置为1,第二阈值比如可以设置为0。

例如,当查询网络日志期间接收到设备告警、性能告警和日志告警等其中至少一种告警信息时,可以确定出第一网络故障监测信息为网络存在部分异常,且将第一监测阈值赋值为1。当查询网络日志期间未收到任何告警信息时,可以确定出第一网络故障监测信息为网络正常,且将第一监测阈值赋值为0。

在一种示例实施例中,对于重点关注的告警信息可以设置成预设告警列表,当接收到的告警信息是该预设告警列表中的告警信息时,可以将第一网络故障监测信息确定为网络存在部分异常,且将第一监测阈值赋值为2。示例性的,该预设告警列表可以采用机器学习与动态调整相结合的方式获得。

步骤730:根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值。

在网络故障监测期间,可以根据是否监测到网络割接报备确定第二网络故障监测信息和第二监测阈值。响应于在第一设定时间段查询到网络割接报备,确定第二网络故障监测信息为夜间网络割接操作,且确定第二监测阈值为第一阈值;响应于在第二设定时间段查询到网络割接报备,确定第二网络故障监测信息为日间网络割接操作,且确定第二监测阈值为第三阈值。在本申请实施例中,第三阈值比如可以设置为2。

例如,第一设定时间段可以是晚上23点至次日早晨6点,第二设定时间段可以是早晨6点至当晚23点。若在晚上23点至次日早晨6点监测到网络割接报备,则可以确定出第二网络故障监测信息为夜间网络割接操作,且将第二监测阈值赋值为1。若在早晨6点至当晚23点监测到网络割接报备,则可以确定第二网络故障监测信息为日间网络割接操作,且将第二监测阈值赋值为2。

步骤740:获取关键语句中各关键语句的占比,并根据占比和异常定位信息确定第三网络故障监测信息和第三监测阈值。

在网络故障监测过程中,可以基于人工智能语义分析模型从待分析网络日志中提取关键语句,获取到关键语句之后,可以计算各关键语句的占比,然后根据占比和异常定位信息确定第三网络故障监测信息和第三监测阈值。

具体的,响应于第一目标网元的异常定位信息指示网络日志量波动超过设定阈值,将异常定位信息作为第一异常评估信息并生成第一评估阈值,其中的第一目标网元为单网元,异常定位信息中包括网络日志量波动超过设定阈值的时间点及时间点对应的网元信息和网络日志波动量;响应于第二目标网元的第一目标关键语句的占比大于占比阈值,生成第二异常评估信息和第二评估阈值,其中的第二目标网元为单网元,第一目标关键语句为关键语句中的一个关键语句,第二异常评估信息指示第二目标网元的包含第一目标关键语句的网络日志偏多;响应于第三目标网元的网络日志量在目标时间点偏离目标日志量均值,生成第三异常评估信息和第三评估阈值,其中的第三目标网元为多网元中的一个网元,目标日志量均值为多网元在目标时间点的网络日志量的平均值,第三异常评估信息指示第三目标网元在目标时间点的网络日志量较高;响应于第四目标网元的第二目标关键语句的占比偏离占比阈值,生成第四异常评估信息和第四评估阈值,其中的第四目标网元为多网元中的一个网元,第二目标关键语句为关键语句中的一个关键语句,第四异常评估信息指示第四目标网元的包含第二目标关键语句的网络日志占比存在异常;响应于第一评估阈值、第二评估阈值、第三评估阈值和第四评估阈值中有至少两个评估阈值为第一阈值,确定第三监测阈值为第三阈值,且将至少两个评估阈值为第一阈值的评估阈值对应的异常评估信息生成为第三网络故障监测信息。

例如,对于单网元W,可以进行如下①和②两项的日志量统计和评估,对于多网元,可以进行如下③和④两项的分析评估:

①按照分钟粒度统计分析待分析网络日志的日志量,如果日志量在某个时间点Tn发生突变,比如波动量大于50%,则可以将第一异常评估信息确定为“网元W在时间点Tn的网络日志量突增y%”,且将第一评估阈值赋值为1。

②对从待分析网络日志提取的关键语句进行分析,如果网元W的关键字聚类存在明显集中性,比如网络日志a中的关键字B占网络日志a中所有关键字的占比大于60%,则可以确定第二异常评估信息为“网元W包含关键字B的网络日志偏多”,且将第二评估阈值赋值为1。

③对每个网元的待分析网络日志进行日志量的统计,计算每个时间点的网元日志量平均值,若某个网元V1在时间点Tx的日志量明显偏离网元日志量平均值,比如偏移量超过50%,则可以确定第三异常评估信息为“网元V1在时间点Tx的日志量较高”,且将第三评估阈值赋值为1。

④对每个网元的待分析网络日志进行关键语句分析,计算所有网元中各关键语句的平均占比,若某个网元V2的关键字C在该网元中的占比明显偏离平均占比,比如偏离60%,则可以确定第四异常评估信息为“网元V2包含关键字C的网络日志占比存在异常”,且将第四评估阈值赋值为1。

根据上述①~④的分析评估结果,若评估结果中存在2个以上评估阈值为1的情况,则将第三监测阈值赋值为第三阈值2,并列出所有评估阈值为1的评估结果。

步骤750:根据关键语句和关键语句与关键语句级别的对应关系确定第四网络故障监测信息和第四监测阈值。

示例性的,可以预先建立关键语句与关键语句级别的对应关系,基于人工智能语义分析模型从待分析网络日志中提取出关键语句之后,可以根据提取出的关键语句从关键语句与关键语句级别的对应关系中匹配对应的关键语句级别,将关键语句级别减1作为第四监测阈值,并根据第四监测阈值输出对应的第四网络故障监测信息。

例如,第四监测阈值为0,对应第四网络故障监测信息为“网元X暂未发现需关注的网络日志”;第四监测阈值为1,对应第四网络故障监测信息为“网元X的网络日志Y需要关注”;第四监测阈值为2及以上,对应第四网络故障监测信息为“网元X的网络日志Y存在隐患,可能影响业务,请联合专业实验室核查”。

示例性的,可以按照第四监测阈值从大到小的顺序对评估结果进行排序,对于评估结果前三位的,可以提示需要借助专家经验及其他的优化算法进行优化提升。

步骤760:基于第一网络故障监测信息、第一监测阈值、第二网络故障监测信息、第二监测阈值、第三网络故障监测信息、第三监测阈值、第四网络故障监测信息和第四监测阈值生成网络故障定位信息。

利用步骤720~步骤750进行网络故障分析之后,可以根据分析结果综合生成网络故障定位信息。具体的,可以获取第一监测阈值、第二监测阈值、第三监测阈值和第四监测阈值中的最大监测阈值;获取与最大监测阈值匹配的网络故障监测信息;基于最大监测阈值和与最大监测阈值匹配的网络故障监测信息生成网络故障定位信息。示例性的,网络故障定位信息中还可以包括针对网络故障的处理建议。

例如,当最大监测阈值为0时,生成的网络故障定位信息可以包括“监测阈值为0:网元正常,无需关注”。

当最大监测阈值为1时,生成的网络故障定位信息可以包括“监测阈值为1:网元存在部分异常点,请重点分析;建议如下:

遍历所有监测阈值为1的评估结果,例如:

1)网元V2包含关键字C的网络日志占比存在异常;

2)网元X存在设备告警;

3)网元W的网络日志Y需要关注等。”

在最大监测阈值为1的情况下,如果对网络割接进行监测的监测阈值为1,则可以优化网络故障定位信息结论如下:网元存在部分异常点,工程操作影响,请核实。

当最大监测阈值为2时,生成的网络故障定位信息可以包括“监测阈值为2:网元存在隐患,建议联合专业实验室深入分析;建议如下:

遍历所有监测阈值为2的评估结果,例如:

1)网元W包含关键字C的网络日志占比存在异常,网元W在时间点12:10的网络日志量突增15%;

2)网元X存在重点关注的设备告警,D链路中断;

3)网元V1的网络日志存在隐患,可能影响业务,请联合专业实验室核查等。”

在最大监测阈值为2的情况下,如果对网络割接进行监测的监测阈值为2,则可以优化网络故障定位信息结论如下:网元存在隐患异常点,请联合专业实验室深入分析并确定具体的影响,请核实。

步骤160:输出网络故障定位信息。

本申请实施例提供的网络故障监测方法,可以对获取的待分析网络日志进行拓扑拍照和异常点分析,得到网络拓扑关系图和异常定位信息,通过网络拓扑关系图可以获得网络设备的多层组网关系和告警信息,同时从待分析网络日志中提取关键语句,基于关键语句可以定位异常网络日志,然后基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息,在网络故障监测过程中综合考虑了网络日志、网络拓扑及关键语句等多个维度中可能导致网络故障的因素,相比于仅利用应用日志信息预测网络故障的方法,本申请的方案能够对网络故障进行多方位的监测,提高网络故障监测的准确率。

下面对本申请实施例提供的网络故障监测装置进行描述,下文描述的网络故障监测装置与上文描述的网络故障监测方法可相互对应参照。

图8为本申请实施例提供的网络故障监测装置的结构示意图,参照图8所示,该网络故障监测装置800可以包括第一获取模块810、第二获取模块820、分析模块830、提取模块840、生成模块850和输出模块860。其中:第一获取模块810可以用于获取待分析网络日志;第二获取模块820可以用于对待分析网络日志进行拓扑拍照,得到网络拓扑关系图;分析模块830可以用于对待分析网络日志进行异常点分析,得到异常定位信息;提取模块840可以用于从待分析网络日志中提取关键语句;生成模块850可以用于基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息;输出模块860可以用于输出网络故障定位信息。

一种示例实施例中,第一获取模块810可以包括第一获取单元和筛选单元。其中:第一获取单元可以用于从网关设备获取原始网络日志;筛选单元可以用于根据目标查询信息从原始网络日志中筛选出符合目标查询信息的网络日志,得到待分析网络日志,目标查询信息中包括目标时间点、目标网络节点和目标事件类型。

一种示例实施例中,第二获取模块820可以包括拓扑拍照单元、第二获取单元和关联单元。其中,拓扑拍照单元可以用于对待分析网络日志中涉及网元的部分进行拓扑拍照,得到网元三层对应关系,网元三层对应关系包括物理主机、虚拟机和虚拟网络功能VNF的对应关系;第二获取单元可以用于获取网元之间的物理资源数据;关联单元可以用于将网元三层对应关系和物理资源数据进行关联,得到网络拓扑关系图。

一种示例实施例中,分析模块830可以包括统计单元和定位单元。其中:统计单元可以用于按照时间粒度对待分析网络日志进行日志量统计,得到每个网元的网络日志量变化趋势;定位单元可以用于对于每个网元,根据每个网元的网络日志量变化趋势获取网络日志量波动超过设定阈值的时间点及时间点对应的网元信息和网络日志波动量,得到异常定位信息。

一种示例实施例中,提取模块840可以具体用于基于人工智能语义分析模型从待分析网络日志中提取关键语句;其中的人工智能语义分析模型为基于样本网络日志和对样本网络日志进行关键语句标注得到的标注数据对基础语义模型进行训练得到的模型。

一种示例实施例中,网络故障监测装置800还可以包括第三获取模块、标注模块、创建模块和训练模块。其中:第三获取模块可以用于获取样本网络日志;标注模块可以用于对样本网络日志进行清洗和关键语句标注,得到训练样本集;创建模块可以用于建立样本网络日志的专属词库;训练模块可以用于基于训练样本集和专属词库对基础语义模型进行训练,得到人工智能语义分析模型。

一种示例实施例中,训练模块可以包括第三获取单元、拆分单元和训练单元。其中:第三获取单元可以用于将训练样本集导入基础语义模型,获取训练样本集中的样本网络日志的文本长度,得到待处理文本长度;拆分单元可以用于响应于待处理文本长度大于文本长度阈值,基于文本长度置信度条件对训练样本集中的样本网络日志进行拆分处理,得到待训练样本网络日志;文本长度阈值为基础语义模型可识别的最大文本长度,文本长度置信度条件包括拆分后的样本网络日志的长度大于最小阈值且小于文本长度阈值的置信度等于设定置信度,最小阈值为0.5倍文本长度阈值减去交叉日志文本长度的值;训练单元可以用于以待训练样本网络日志为基础语义模型的输入,以对样本网络日志进行关键语句标注得到的标注数据为基础语义模型的目标输出,利用训练参数集对基础语义模型进行训练并在训练过程中调用专属词库辅助识别关键语句。

一种示例实施例中,训练模块还可以包括第四获取单元、提取单元、计算单元、第一添加单元、第二添加单元和训练单元。其中:第四获取单元可以用于获取验证数据集;提取单元可以用于将验证数据集输入关键语句提取模型进行关键语句提取,得到关键语句提取结果,关键语句提取模型为利用训练参数集对基础语义模型进行训练后得到的模型;计算单元可以用于根据关键语句提取结果计算整体提取准确率和细分提取准确率;第一添加单元可以用于响应于整体提取准确率小于第一设定准确率阈值,在训练样本集中新增第一样本网络日志,第一样本网络日志为对导致整体提取准确率小于第一设定准确率阈值的关键语句中非日志产生原因的关键语句进行标注的样本网络日志;第二添加单元可以用于响应于细分提取准确率中目标日志类型对应的细分提取准确率小于第二设定准确率阈值,增加训练样本集中第二样本网络日志的数量,第二样本网络日志为目标日志类型对应的网络日志;训练单元还可以用于基于更新后的训练样本集对关键语句提取模型继续进行训练。

一种示例实施例中,训练模块还可以包括优化处理单元,该优化处理单元可以用于对关键语句提取模型训练之后得到的模型进行轻量化处理。

一种示例实施例中,生成模块850可以包括查询单元、第一确定单元、第二确定单元、第三确定单元、第四确定单元和生成单元。其中:查询单元可以用于基于网络拓扑关系图查询网络告警信息和网络割接信息;第一确定单元可以用于根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值;第二确定单元可以用于根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值;第三确定单元可以用于获取关键语句中各关键语句的占比,并根据占比和异常定位信息确定第三网络故障监测信息和第三监测阈值;第四确定单元可以用于根据关键语句和关键语句与关键语句级别的对应关系确定第四网络故障监测信息和第四监测阈值;生成单元可以用于基于第一网络故障监测信息、第一监测阈值、第二网络故障监测信息、第二监测阈值、第三网络故障监测信息、第三监测阈值、第四网络故障监测信息和第四监测阈值生成网络故障定位信息。

一种示例实施例中,第一确定单元可以包括第一确定子单元和第二确定子单元。其中:第一确定子单元可以用于响应于查询到网络告警信息,确定第一网络故障监测信息为网络存在部分异常,且确定第一监测阈值为第一阈值;第二确定子单元可以用于响应于未查询到网络告警信息,确定第一网络故障监测信息为网络正常,且确定第一监测阈值为第二阈值。

一种示例实施例中,第二确定单元可以包括第三确定子单元和第四确定子单元。其中:第三确定子单元可以用于响应于在第一设定时间段查询到网络割接报备,确定第二网络故障监测信息为夜间网络割接操作,且确定第二监测阈值为第一阈值;第四确定子单元可以用于响应于在第二设定时间段查询到网络割接报备,确定第二网络故障监测信息为日间网络割接操作,且确定第二监测阈值为第三阈值。

一种示例实施例中,第三确定单元可以包括第五确定子单元、第六确定子单元、第七确定子单元、第八确定子单元和第九确定子单元。其中:

第五确定子单元可以用于响应于第一目标网元的异常定位信息指示网络日志量波动超过设定阈值,将异常定位信息作为第一异常评估信息并生成第一评估阈值,其中的第一目标网元为单网元,异常定位信息中可以包括网络日志量波动超过设定阈值的时间点及时间点对应的网元信息和网络日志波动量;

第六确定子单元可以用于响应于第二目标网元的第一目标关键语句的占比大于占比阈值,生成第二异常评估信息和第二评估阈值,其中的第二目标网元为单网元,第一目标关键语句为关键语句中的一个关键语句,第二异常评估信息指示第二目标网元的包含第一目标关键语句的网络日志偏多;

第七确定子单元可以用于响应于第三目标网元的网络日志量在目标时间点偏离目标日志量均值,生成第三异常评估信息和第三评估阈值,其中的第三目标网元为多网元中的一个网元,目标日志量均值为多网元在目标时间点的网络日志量的平均值,第三异常评估信息指示第三目标网元在目标时间点的网络日志量较高;

第八确定子单元可以用于响应于第四目标网元的第二目标关键语句的占比偏离占比阈值,生成第四异常评估信息和第四评估阈值,其中的第四目标网元为多网元中的一个网元,第二目标关键语句为关键语句中的一个关键语句,第四异常评估信息指示第四目标网元的包含第二目标关键语句的网络日志占比存在异常;

第九确定子单元可以用于响应于第一评估阈值、第二评估阈值、第三评估阈值和第四评估阈值中有至少两个评估阈值为第一阈值,确定第三监测阈值为第三阈值,且将至少两个评估阈值为第一阈值的评估阈值对应的异常评估信息生成为第三网络故障监测信息。

一种示例实施例中,生成单元可以包括第一获取子单元、第二获取子单元和生成子单元。其中:第一获取子单元可以用于获取第一监测阈值、第二监测阈值、第三监测阈值和第四监测阈值中的最大监测阈值;第二获取子单元可以用于获取与最大监测阈值匹配的网络故障监测信息;生成子单元基于最大监测阈值和与最大监测阈值匹配的网络故障监测信息生成网络故障定位信息。

图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备900可以包括:处理器(processor)910、通信接口(Communication Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的计算机程序,以执行上述各实施例所提供的网络故障监测方法的步骤,例如可以包括:获取待分析网络日志;对待分析网络日志进行拓扑拍照,得到网络拓扑关系图;对待分析网络日志进行异常点分析,得到异常定位信息;从待分析网络日志中提取关键语句;基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息;输出网络故障定位信息。

此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的网络故障监测方法的步骤,例如可以包括:获取待分析网络日志;对待分析网络日志进行拓扑拍照,得到网络拓扑关系图;对待分析网络日志进行异常点分析,得到异常定位信息;从待分析网络日志中提取关键语句;基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息;输出网络故障定位信息。

另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的网络故障监测方法的步骤,例如可以包括:获取待分析网络日志;对待分析网络日志进行拓扑拍照,得到网络拓扑关系图;对待分析网络日志进行异常点分析,得到异常定位信息;从待分析网络日志中提取关键语句;基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息;输出网络故障定位信息。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 隧道环境监测方法、装置及电子设备
  • 运行监测方法、装置、电子设备及计算机可读存储介质
  • 一种故障监测方法、装置及电子设备
  • 可弯曲电子设备、可弯曲电子设备的控制方法、装置及电子设备
  • 电子设备显示屏驱动芯片驱动方法、装置及电子设备
  • 网络故障监测的方法、装置、存储介质及电子设备
  • 通信网络故障定位方法及故障监测装置
技术分类

06120116485443