掌桥专利:专业的专利平台
掌桥专利
首页

一种基于IPTV业务感知监测预警及故障定位的方法

文献发布时间:2024-04-18 19:58:26


一种基于IPTV业务感知监测预警及故障定位的方法

技术领域

本发明涉及物联网监测领域,具体涉及一种基于IPTV业务感知监测预警及故障定位的方法。

背景技术

在原有的网络设备运维保障中,对各个网络设备节点,进行业务感知监测,派发用户感知告警工单。这种方法在架构上耦合度低,架构简单,某种设备的告警模块出现运行问题时并不影响另一种设备的感知监控继续运行,在前期运维系统的初步运行阶段,在短时间内做到了一个“堪用”的程度。

现阶段,由于IPTV业务的大规模发展,各省的IPTV业务系统越发复杂,为了维持总体业务的健康发展,给用户提供稳定的产品体验,运营商在全国各省建立告警系统。而随着告警系统在各省的稳步部署和运行,收集到了一些省公司在系统运行过程中反馈的问题,原有的各个设备维度独立运行监控运维模块的架构暴露出了一些短板,其中,最大的问题就是缺乏告警的定位信息。在某些时候,一部分网络设备产生用户感知告警时,其本身并非真正产生故障的网络设备,而该告警是由于其上联或下联的网络设备产生的故障所生成,因各个网络设备在运行时的关联性较低,导致真实的故障网络设备难以确定;同时,因缺乏告警的定位信息,以致运维人员在接收网络设备告警工单进行排查时,并没有同时接收到辅助排障的相关指标表现信息,只能遍历相应网络设备的所有信息的大致情况再进行排障,运维效率较低。

发明内容

本发明针对现有技术中的不足,提供一种基于IPTV业务感知监测预警及故障定位的方法,以解决目前的告警系统缺乏告警的定位信息,以致真实的故障网络设备难以确定,且运维人员运维效率较低的问题。

为实现上述目的,本发明采用以下技术方案:

一种基于IPTV业务感知监测预警及故障定位的方法,其特征在于,包括如下步骤:

在IPTV业务运维中对节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备采集日志数据,并将采集得到的日志数据的集合上传至IPTV业务日志数据库中,并通过统一的数据标准从IPTV业务日志数据库中将日志数据上传并存储至全国IPTV数据库中;通过日志服务器对全国IPTV数据库中的日志数据进行建模及日志分析,预测5个网络设备的故障频次,并提取其中故障频次最高的网络设备的日志数据;根据提取的日志数据,对故障频次最高的网络设备进行监测预警;针对所监测的网络设备产生的信息进行根因定段分析,以进行网络设备的故障定位;根据所定位的网络设备生成告警工单。

为优化上述技术方案,采取的具体措施还包括:

进一步地,所述在IPTV业务运维中对节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备采集日志数据时,通过在节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备上部署日志采集数据Agent,进行日志数据的采集。

进一步地,所述从IPTV业务日志数据库中将日志数据上传并存储至全国IPTV数据库中,具体为:将IPTV业务日志数据库中的日志数据上传至中转FIP服务器进行数据汇聚,再将中转FIP服务器中的日志数据存储至全国IPTV数据库中。

进一步地,所述全国IPTV数据库中,在分钟、小时、天、周的不同时间粒度上,按照设备维度、区域维度、节目维度进行汇总并统计日志数据信息。

进一步地,所述通过日志服务器对全国IPTV数据库中的日志数据进行建模及日志分析,具体为:建立马尔可夫模型,马尔可夫模型用于计算出当前的5个网络设备的故障发生的频次,通过马尔可夫模型对当前的5个网络设备的日志数据进行日志分析,预测出5个网络设备对应的下一时刻的故障频次的信息,并提取其中故障频次最高的网络设备的日志数据。

进一步地,所述根因定段分析包括:根据全国IPTV数据库中的日志数据,将IPTV业务的架构中各层网络设备按照真实的链路连接关系进行关联,还原拓扑结构;所述拓扑结构中,节目源服务器的下层下联BRAS,BRAS的下层下联交换机,交换机的下层下联OLT,OLT的下层下联OUN;获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线;针对所监测的网络设备产生的信息进行分析,对比对应的网络设备的用户感知情况在平均感知趋势线上的分布情况,确定故障的网络设备。

进一步地,所述针对所监测的网络设备产生的信息进行分析时,如果所监测的网络设备的下层所下联的网络设备的用户感知情况的数值在平均感知趋势线上分布均匀,则判断为是本层网络设备或上层所上联的网络设备产生的故障,此时,如果上联的网络设备的用户感知情况的数值在平均感知趋势线上分布不均匀,则判断为是本层网络设备产生的故障,否则需要往上联的网络设备继续推理;若所监测的网络设备的下层所下联的网络设备的用户感知情况的数值在平均感知趋势线上分布不均匀,则判断为是下层所下联的网络设备产生的故障。

进一步地,所述获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线,具体为:通过分析各个网络设备的日志数据,获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线。

进一步地,所述获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线,具体为:通过端管云对质差用户和质差网元进行定位,并获取用户在使用IPTV业务过程中的感知情况的数值,并进行加权平均以获得平均感知趋势线。

进一步地,所述告警工单包括所定位的网络设备的告警信息、设备信息和根因定段分析信息。

本发明的有益效果是:

本发明通过在IPTV业务运维保障中对节目源服务器、BRAS、交换机、OLT和OUN这5个比较重要的网络设备节点,独立地进行数据采集、建模分析和业务感知预测,并对所预测的故障频次或概率最高的网络设备进行预警,再针对性的进行网络设备的定段定位分析,最后根据定位结果派发用户感知告警工单,以帮助运维人员在接收网络设备告警工单进行排查时,通过收到的相关辅助指标表现信息进行排障,从而提高运维效率。

通过采集户感知情况的数值获得平均感知趋势线,并对比对应的网络设备的用户感知情况在平均感知趋势线上的分布情况,以确定故障的网络设备,从而帮助运维人员确认故障网络设备,进一步提高运维效率。

附图说明

图1为本发明所提出的一种基于IPTV业务感知监测预警及故障定位的方法的步骤流程图;

图2为本发明所提出的一种基于IPTV业务感知监测预警及故障定位的方法的各层网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如附图1所示,在一实施例中,本发明提出了一种基于IPTV业务感知监测预警及故障定位的方法,包括如下步骤:

在IPTV业务运维中对节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备采集日志数据,并将采集得到的日志数据的集合上传至IPTV业务日志数据库中,并通过统一的数据标准从IPTV业务日志数据库中将日志数据上传并存储至全国IPTV数据库中;通过日志服务器对全国IPTV数据库中的日志数据进行建模及日志分析,预测5个网络设备的故障频次,并提取其中故障频次最高的网络设备的日志数据;根据提取的日志数据,对故障频次最高的网络设备进行监测预警;针对所监测的网络设备产生的信息进行根因定段分析,该信息包括告警信息,以进行网络设备的故障定位;根据所定位的网络设备生成告警工单。

其中,上述预测5个网络设备的故障频次,并提取其中故障频次最高的网络设备的日志数据;根据提取的日志数据,对故障频次最高的网络设备进行监测预警。也可采用另一种实施方式,具体为:预测5个网络设备的故障概率,并提取其中故障概率最高的网络设备的日志数据;根据提取的日志数据,对故障概率最高的网络设备进行监测预警。

本发明通过统一数据接口,建立了全省范围内适用的IPTV业务实时监测平台,该平台通过统一的数据标准从各省的子IPTV平台上传输数据,再存储至全国IPTV数据。通过在IPTV业务运维保障中对节目源服务器、BRAS、交换机、OLT和OUN这5个比较重要的网络设备节点,独立地进行数据采集、建模分析和业务感知预测,并对所预测的故障频次或概率最高的网络设备进行预警,再针对性的进行网络设备的定段定位分析,最后根据定位结果派发用户感知告警工单,以帮助运维人员在接收网络设备告警工单进行排查时,通过收到的相关辅助指标表现信息进行排障,从而提高运维效率。

在本实施例中,在IPTV业务运维中对节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备采集日志数据时,通过在节目源服务器、BRAS、交换机、OLT和OUN这5个网络设备上部署日志采集数据Agent,进行日志数据的采集。

在本实施例中,从IPTV业务日志数据库中将日志数据上传并存储至全国IPTV数据库中,具体为:将IPTV业务日志数据库中的日志数据上传至中转FIP服务器进行数据汇聚,再将中转FIP服务器中的日志数据存储至全国IPTV数据库中。为了保障全国IPTV数据库安全性和稳定性,通过往全国IPTV数据库数据传输链路中新增中转FIP服务器,隐藏其全国IPTV数据库信息,以及流量的削峰填谷,确保全国IPTV数据库可以稳定运行。

在本实施例中,在全国IPTV数据库中,在分钟、小时、天、周的不同时间粒度上,按照设备维度、区域维度、节目维度进行汇总并统计日志数据信息。

在本实施例中,通过日志服务器对全国IPTV数据库中的日志数据进行建模及日志分析,具体为:建立马尔可夫模型,马尔可夫模型用于计算出当前的5个网络设备的故障发生的频次或概率,通过马尔可夫模型对当前的5个网络设备的日志数据进行日志分析,预测出5个网络设备对应的下一时刻的故障频次或概率的信息,并提取其中故障频次或概率最高的网络设备的日志数据。

其中,马尔可夫预测模型公式为:X(k+1)=X(k)×P,式中:X(k)表示所进行分析的网络设备在t=k时刻的状态向量,P表示一步转移概率矩阵,X(k+1)表示该网络设备在t=k+1时刻的状态向量,即下一时刻的故障频次或概率的信息。

在本实施例中,根因定段分析包括:根据全国IPTV数据库中的日志数据,如附图2所示,将IPTV业务的架构中各层网络设备按照真实的链路连接关系进行关联,还原拓扑结构,即节目源服务器的下层下联BRAS,BRAS的下层下联交换机,交换机的下层下联OLT,OLT的下层下联OUN;分析并获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线;针对所监测的网络设备产生的告警信息进行分析,对比对应的网络设备的用户感知情况在平均感知趋势线上的分布情况,确定故障的网络设备。可以看出,附图2中各层网络设备节点呈现由上到下,分层级的拓扑结构,且除了IPTV业务转发链路上的BRAS、交换机和OLT三种层级的网络设备外,对于故障出现频次较高的OLT设备,又对OLT设备内的板卡和板卡包含的ONU下的用户感知体验指标进行了采集。

其中,在针对所监测的网络设备产生的告警信息进行分析时,如果所监测的网络设备的下层所下联的网络设备的用户感知情况的数值在平均感知趋势线上分布均匀,则判断为是本层网络设备或上层所上联的网络设备产生的故障,此时,如果上联的网络设备的用户感知情况的数值在平均感知趋势线上分布不均匀,则判断为是本层网络设备产生的故障,否则需要往上联的网络设备继续推理;若所监测的网络设备的下层所下联的网络设备的用户感知情况额数值在平均感知趋势线上分布不均匀,则判断为是下层所下联的网络设备产生的故障。

其中,上述获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线,可具体为:通过分析各个网络设备的日志数据,获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线。在实际使用过程中,OLT和ONU是经常出现故障告警的网络设备,也是会直接影响用户感知的网络设备。因此,可分析OLT和ONU的日志数据获得每次故障时用户感知情况的数值进行加权平均获得平均感知趋势线,用户感知情况包括工单主动派发时间或其他方式收到告警时间等信息。例如:历史平均用户感知故障趋势线时间为10秒。

其中,上述获得每次故障时的用户感知情况的数值,并进行加权平均以获得平均感知趋势线,也可采用另一种实施方式,具体为:通过端管云对质差用户和质差网元进行定位,并获取用户在使用IPTV业务过程中的感知情况的数值,并进行加权平均以获得平均感知趋势线。

其中,在对拓扑结构进行分层后,分层后的拓扑结构可包含物理层监控指标和应用层监控指标。从而大幅度优化各个网络设备在运行时的关联性较低的情况,对上层的网络设备故障定位可提供一定的辅助。

在本实施例中,告警工单包括所定位的网络设备的告警信息、设备信息和根因定段分析信息。

在另一组实施例中,日志服务器为了防止在一些提供全球服务的大型系统中,每日日志数据的量可能达到数十TB(TBs)的情况。可将收到的数据分为二层来分析:第一层,我们利用日志服务应用数据库中(数据库、中间件、服务器基础监控指标)的关联关系来挖掘核心应用服务拓扑,并与网络拓扑关联;核心应用服务拓扑记录了不同的服务器之间,(数据库、中间件、服务器CPU、内存、磁盘、进程)三类指标之间的关系。第二层,我们从每个服务的日志中挖掘一个基于第一层核心应用服务拓扑关系的数据集合,称为拓扑数据集合。这些数据记录了不同时间维度,服务器与数据库、中间件、服务器CPU、内存、磁盘、进程之间的监测数据及运行健康状况。最后将本日志所有告警中定段语义结果有重叠的部分余告警进行归并处理,可减少告警工单数。

在另一实施例中,本发明提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行如上述的一种基于IPTV业务感知监测预警及故障定位的方法。

在另一实施例中,本发明提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如上述的一种基于IPTV业务感知监测预警及故障定位的方法。

在本申请所公开的实施例中,计算机存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。计算机存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

相关技术
  • 一种IPTV业务直播链路的自动故障定位方法及其系统
  • 一种IPTV业务直播链路的自动故障定位方法及其系统
技术分类

06120116488997