掌桥专利:专业的专利平台
掌桥专利
首页

一种基于ZYNQ的O-RAN无线单元故障管理方法

文献发布时间:2023-06-19 19:30:30


一种基于ZYNQ的O-RAN无线单元故障管理方法

技术领域

本发明涉及故障管理技术领域,具体为一种基于ZYNQ的O-RAN无线单元故障管理方法。

背景技术

ZYNQ为Xilinx公司出品的异构多核处理器平台,是一种集成了CPU和FP GA功能的芯片。在传统解决方案下的性能管理中,CPU需要用传感器芯片来进行电压和温度采样进而对CPU的性能参数进行监控,而FPGA自带的SYSMON模块可以进行性能参数监控。由于集成为了同一颗芯片,原本仅FPGA中起到性能参数监控功能的SYSMON模块在ZYNQ平台下也可以同时对PS进行性能参数监控。

O-RU是一个致力于实现虚拟化、通用和智能的无线接入网体系结构。在现有技术中,获取到O-RU设备的性能参数超出阈值范围产生故障后,不会对引起性能故障的故障源具体位于设备内的哪个区域进行分析,而是统一视为设备整体的故障。处理方式是直接对整个O-RU设备主板的实时状态进行保存并且将故障数据进行上报,然后对整个O-RU进行直接断电或重启。但是实际设备运行时,相当多的情况下只有通过对部分区域断电一段时间再重启才能够解决问题,如果直接进行断电,问题只是被搁置,而如果直接重启,依然没法解决此类问题,最终结果会是设备检测到多次故障后直接进行断电。但是O-RU一旦整体断电就无法再进行启动,所以导致需要更频繁地去人为现场检测与维修性能故障。

发明内容

本发明的目的在于提供一种基于ZYNQ的O-RAN无线单元故障管理方法,以解决上述背景技术中提出的问题。

为了解决上述技术问题,本发明提供如下技术方案:

一种基于ZYNQ的O-RAN无线单元故障管理方法,该方法包括以下步骤:

S1、构建一个自适应系统监控模块;自适应系统监控模块从O-RU设备上电后开始运行,监控O-RU设备中O-RAN无线单元中各个Power Domain区域电压或者温度的故障情况;

S2、获取各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备中的O-RAN无线单元是否发生了故障;

S3、若O-RU设备中的O-RAN无线单元发生故障,则判断是否为电压超过阈值范围导致故障;若为电压故障,则判断电压故障重启次数是否超过界定次数;若不是电压故障即为温度故障,则判断温度故障重启次数是否超过界定次数;

S4、若电压或者温度故障重启次数超过界定次数,对电压故障或者温度故障进行标识且不再启动;若电压或者温度故障重启次数未超过界定次数,保存实时状态,对电压故障或者温度故障进行标识,上报故障数据至自适应系统监控模块管理端口,同时由自适应系统监控模块断开相应部分的电源以中止相应区域硬件的运行,经过一定时间周期后再重新给该区域供电。

O-RAN通过在eCPRI协议规范的基础之上,定义了应用层数据的格式、内容、协议交互等规范,使RRU不再依附于BBU,从而成为一个独立的网元O-RU。网管中心可直接对O-RU进行管理,不再需要借助与BBU对RRU进行管理。

eCPRI/CPRI协议在应用层提供了三个服务访问点:用户面(U-Plane)、同步面(S-Plane)、控制与管理面(C-Plane and M-Plane)。而eCPRI协议与CPRI协议类似,只是传输层协议,并没有定义其服务访问点之上的应用层协议规范,如IQ(U-Plane)数据格式,实时控制面(C-Plane)数据格式,因此需要新的规范约束这些应用接口。此外OAM管理面(M-Plane)和同步面(S-Plane)也都从eCPRI服务中剥离出去了,它们可以通过标准的TCP/IP协议栈进行传输,不一定需要eCPRI来承载,因此OAM管理面和同步面的协议规范也无法被eCPRI协议所规定。

在O-RAN中,规定了U-Plane、C-Plane的数据格式并且定义通过eCPRI协议来承载。S-Plane通过标准的IEEE1588协议来提供服务,而M-Plane所采用网络配置管理协议是Netconf协议,使用的数据建模语言是YANG。

Netconf协议是完全基于XML之上的,所有的配置数据和协议消息都用XML表示,YANG是一种数据建模语言,用于对配置数据、状态数据、远程过程调用和网络管理协议通知进行建模。

而本方法专利关注的是O-RU中M-Plane操作维护管理OAM的故障管理数据,它通过Netconf服务器中内容层的Alarm notifications上报给位于O-DU的所有Netconf客户端,从而完成O-RAN所要求的故障数据管理。

在步骤S1中,初始电压故障和温度故障的重启次数均为0。

在步骤S2中,自适应系统监控模块通过每隔一段时间获取SYSMON中每个PowerDomain的温度和电压的故障标志位来判断是否发生了故障。

设置时间周期阈值为a,若未发生故障,则判断运行时间是否超过a个时间周期,步骤如下:

S2-11、若运行时间超过a个时间周期,则将所有故障重启次数清零;

S2-12、若运行时间未超过a个时间周期,则继续采集各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障。

Power Domain为ZYNQ中故障管理的基本单位。

O-RAN中的故障有许多种,其中O-RAN已经定义的故障ID就有33个,而本方法所讨论的故障类型判断条件仅限于,电压故障或者温度故障,处理流程独立于其他故障的处理流程。

电压故障与温度故障阈值取决于设备所用芯片、器件特性以及产品需求、硬件工程师和结构工程师对产品的设计要求,需要综合考虑,不是固定的东西。

步骤如下:

在步骤S3中,若电压或者温度超出阈值范围引起了故障,则判断是否为电压超过阈值范围引起故障,步骤如下:

S3-11、若为电压或者温度超过阈值范围导致故障,首先对是否为电压引起故障进行判断;所述电压故障或者温度故障界定次数设置为b次;

S3-12-1、若是电压引起故障,则判断电压故障重启次数是否超过界定次数;若电压故障重启次数未超过b次,保存实时状态,上报故障数据至自适应系统监控模块管理端口,断电1个时间周期后重新给Power Domain供电,恢复至初始电压值,同时重启次数加一,将只重启过一次的电压故障的故障严重级别定义为MAJOR;此时,继续采集各个PowerDomain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障;

若电压故障重启次数超过b次,且在超过b次重启后仍发生故障,则将电压故障的故障严重级别定义为CRTICAL,不再启动此区域;

S3-12-2、若不是电压引起故障,对温度故障重启次数是否超过界定次数进行判断,步骤如下:

若温度故障重启次数未超过界定次数,保存实时状态,上报故障数据至自适应系统监控模块管理端口,断电c个时间周期后,待温度下降到合适范围内,重新给PowerDomain供电,恢复至初始温度值,同时重启次数加一,将只重启过一次的温度故障的故障严重级别定义为MAJOR;此时,继续采集各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障;

若温度故障重启次数超过b次数,且在超过b次重启后仍发生故障,则将温度故障的故障严重级别定义为CRTICAL,不再启动此区域。

MAJOR故障与CRITICAL故障的界定次数不是固定的,可以是经过论证后符合技术需求的灵活数值。一般来说,考虑到设备损坏是不可逆的,所以故障阈值会设置的比理论更加严格,电压或温度超出阈值范围所产生的故障,在一般情况下经过一次重启后都可以恢复正常,一般电压故障或者温度故障是由于意外引起的,但是由于软件中所设置的阈值比实际器件产生不可逆损坏的阈值相比要求更严格,所以有更多的试错机会,可设置界定次数为三次,几乎没有可能连续三次以上出现意外情况。如果超过三次,一般就是软件或者硬件运行过程产生了设计上的严重问题,再多重启几次也于事无补,只会影响系统正常的运行过程。

当自适应系统监控模块监测到O-RU设备中O-RAN无线单元出现电压故障或者温度故障时,自适应地断开相应部分的电源以中止相应区域硬件的运行。

传统解决方案中,在获取到O-RU设备的性能参数超出阈值范围产生故障后,不会对引起性能故障的故障源具体位于设备内的哪个区域进行分析,而是统一视为设备整体的故障。处理方式是直接对整个O-RU设备主板的实时状态进行保存并且将故障数据进行上报,然后对整个O-RU进行直接断电或重启。但是实际设备运行时,相当多的情况下只有通过对部分区域断电一段时间再重启才能够解决问题,如果直接进行断电,问题只是被搁置,而如果直接重启,依然没法解决此类问题,最终结果会是设备检测到多次故障后直接进行断电。但是O-RU一旦整体断电就无法再进行启动,所以导致需要更频繁地去人为现场检测与维修性能故障。

自适应系统监控模块包括采集单元、监控单元、判断单元、控制单元;

所述采集单元用于对各个Power Domain区域的温度与电压的故障标志位进行采集;所述监控单元用于对O-RU设备中O-RAN无线单元的电压故障或者温度故障进行监控;所述判断单元用于对电压或者温度是否超过阈值范围导致故障,是否为电压故障,电压故障或者温度故障重启次数是否超过界定次数;所述控制单元用于对监测到的O-RU设备中O-RAN无线单元故障情况进行上传,并且自适应地断开相应部分的电源以中止相应区域硬件的运行;

所述采集单元的输出端与所述监控单元的输入端相连接;所述监控单元的输出端与所述判断单元的输入端相连接;所述判断单元的输出端与所述控制单元的输入端相连接。

所述采集单元包括温度采集子单元、电压采集子单元;

所述温度采集子单元用于对各个Power Domain区域的温度的故障标志位进行采集;所述电压采集子单元用于对各个Power Domain区域的电压的故障标志位进行采集;

所述温度采集子单元的输出端与所述电压采集子单元的输入端相连接;所述电压采集子单元的输出端与所述监控单元的输入端相连接。

所述监控单元包括温度监控子单元、电压监控子单元;

所述温度监控子单元用于对O-RU设备中O-RAN无线单元的温度故障进行监控;所述电压采集子单元用于对O-RU设备中O-RAN无线单元的电压故障进行监控;

所述温度监控子单元的输出端与所述电压监控子单元的输入端相连接;所述电压监控子单元的输出端与所述判断单元的输入端相连接。

所述判断单元包括第一次判断单元、第二次判断单元、第三次判断单元;

所述第一次判断单元用于对电压或者温度是否超过阈值范围导致故障进行判断;所述第二次判断单元用于对是否为电压故障进行判断;所述第三次判断单元用于对电压故障或者温度故障重启次数是否超过界定次数进行判断;

所述第一次判断单元的输出端与所述第二次判断单元的输入端相连接;所述第二次判断单元的输出端与所述第三次判断单元的输入端相连接;所述第三次判断单元的输出端与所述控制单元的输入端相连接。

所述控制单元包括上传子单元、运行子单元;

所述上传子单元用于对监测到的O-RU设备中O-RAN无线单元故障情况进行上传;所述运行子单元用于将上传的电压故障或者温度故障信息进行自适应地断开相应部分的电源以中止相应区域硬件的运行;

所述上传子单元的输出端与所述运行子单元的输入端相连接;所述运行子单元的输出端与所述自适应系统监控模块管理端口相连接。

与现有技术相比,本发明所达到的有益效果是:构建一个自适应系统监控模块;自适应系统监控模块从O-RU设备上电后开始运行,监控O-RU设备中O-RAN无线单元的故障情况;获取各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备中的O-RAN无线单元是否发生故障;若O-RU设备中的O-RAN无线单元发生故障,则判断是否为电压超过阈值范围导致故障;若为电压故障,则判断电压故障重启次数是否超过界定次数;若不是电压故障,则为温度故障,判断温度故障重启次数是否超过界定次数;若电压或者温度故障重启次数超过界定次数,对电压故障或者温度故障进行标识且不再启动;若电压或者温度故障重启次数未超过界定次数,保存实时状态,对电压故障或者温度故障进行标识,上报故障数据至自适应系统监控模块管理端口,同时由自适应系统监控模块断开相应部分的电源以中止相应区域硬件的运行。

本发明能够让更多的常规故障能够让主板自我处理,提升了故障管理方案在更复杂的工作条件下的可拓展性,对于O-RU设备故障的处理更为高效。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明一种基于ZYNQ的O-RAN无线单元故障管理方法的结构示意图;

图2是本发明一种基于ZYNQ的O-RAN无线单元故障管理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-2,本发明提供技术方案:

一种基于ZYNQ的O-RAN无线单元故障管理方法,该方法包括以下步骤:

S1、构建一个自适应系统监控模块;自适应系统监控模块从O-RU设备上电后开始运行,监控O-RU设备中O-RAN无线单元中各个Power Domain区域电压或者温度的故障情况;初始电压故障和温度故障的重启次数均为0。

S2、自适应系统监控模块通过每隔一段时间获取SYSMON中获取各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备中的O-RAN无线单元是否发生了故障;

设置时间周期阈值为10000,若未发生故障,则判断运行时间是否超过10000个时间周期,对于判断是否正常运行的时间周期取决于系统对安全性的要求有多严格,不影响性能则没有明确的限制,但是传统上来说,要相对于故障掉电周期更长的时间间隔才有实际意义,如果系统对故障要求严格则可以设置的更短;此处采用温度故障掉电时间周期一个量级以上,也就是10000个时间周期,所以此处设置为10000个时间周期;

步骤如下:

S2-11、若运行时超过10000个时间周期,则将所有故障重启次数清零;

S2-12、若运行时未超过10000个时间周期,则继续采集各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障。

S3、若电压或者温度超过阈值范围导致故障,则判断是否为电压引起的故障;

S4、若电压或者温度故障重启次数超过界定次数,对电压故障或者温度故障进行标识且不再启动;若电压或者温度故障重启次数未超过界定次数,保存实时状态,对电压故障或者温度故障进行标识,上报故障数据至自适应系统监控模块管理端口,同时由自适应系统监控模块断开相应部分的电源以中止相应区域硬件的运行。

此处MAJOR故障与CRITICAL故障的界定次数不是固定的,可以是经过论证后符合技术需求的灵活数值。一般来说,考虑到设备损坏是不可逆的,所以故障阈值会设置的比实际更加严格,这里以温度或电压高于阈值范围引起的故障举例来说,电压或温度高于阈值所产生的故障,虽然在大多数情况下经过一次重启后都可以恢复正常(因为一般都是由于意外引起的),但是由于软件中所设置的阈值比实际器件产生不可逆损坏的阈值更低,所以可以设置界定次数为三次,几乎没有可能连续三次以上出现意外情况。

S4-11、若为电压或者温度超过阈值范围导致故障,首先对是否为电压引起故障进行判断;所述电压故障或者温度故障界定次数设置为b次;

S4-12-1、若是电压引起故障,则判断电压故障重启次数是否超过界定次数;若电压故障重启次数未超过b次,保存实时状态,上报故障数据至自适应系统监控模块管理端口,断电1个时间周期后重新给Power Domain供电,恢复至初始电压值,同时重启次数加一,将只重启过一次的电压故障的故障严重级别定义为MAJOR;此时,继续采集各个PowerDomain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障;

若电压故障重启次数超过b次,且在超过b次重启后仍发生故障,则将电压故障的故障严重级别定义为CRTICAL,不再启动此区域;

S4-12-2、若不是电压引起故障,对温度故障重启次数是否超过界定次数进行判断,步骤如下:

若温度故障重启次数未超过界定次数,保存实时状态,上报故障数据至自适应系统监控模块管理端口,断电c个时间周期后,待温度下降到合适范围内,重新给PowerDomain供电,恢复至初始温度值,同时重启次数加一,将只重启过一次的温度故障的故障严重级别定义为MAJOR;此时,继续采集各个Power Domain区域的温度与电压的故障标志位来判断O-RU设备是否发生了故障;

为方便计算,所述c个时间周期设置为1000个时间周期;

若温度故障重启次数超过b次数,且在超过b次重启后仍发生故障,则将温度故障的故障严重级别定义为CRTICAL,不再启动此区域。

S4-12-3、当自适应系统监控模块监测到O-RU设备中O-RAN无线单元出现电压故障或者温度故障时,自适应地断开相应部分的电源以中止相应区域硬件的运行。

对于O-RU的故障管理YANG模型中的故障ID,制定如表1的定义:

表1对于O-RU的故障管理YANG模型中的故障源,制定如表2的定义:

表2

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于无线通信的小区公用停车位智能管理方法
  • 一种基于国产单片机的多单元服务器故障管理方法
  • 一种基于Zynq的业务程序故障恢复方法
技术分类

06120115935699