掌桥专利:专业的专利平台
掌桥专利
首页

一种基于AI技术的大数据质量监控方法及装置

文献发布时间:2024-04-18 19:58:26


一种基于AI技术的大数据质量监控方法及装置

技术领域

本发明属于数据质量监控技术领域,特别涉及一种基于AI技术的大数据质量监控方法、装置、设备及存储介质。

背景技术

在安全运维领域中的数据,多以结构化和半结构化数据为主,在特定场景中也会涉及一些图片、语音、视频等非结构化数据。由于在进行人工智能分析前,基本都需要输入结构化数据,因此需要对半结构化和非结构化数据进行结构化转换,对结构化数据也需要进行一定的规范化处理。在数据分析和应用中,70%以上以结构化数据为主,且多是时序类数据,通常来源于多个客户端、服务端。由于这类数据在结构上常规范,且具有一定周期性,对此数据在挖掘和建模前,必须进行质量实时监控,否则将严重影响后期模型输出结果,即通常说的垃圾进垃圾出(GIGO)。为了控制后期模型输入的不是垃圾数据,结构化数据采集后主要通过质量监控和预处理两方面来达到目的。

传统数据质量监控和处理主要着眼于4个方面:完整性、准确性、一致性和及时性。完整性是指数据的记录和信息是否完整、是否缺失;准确性是指数据记录的信息是否准确、是否异常;一致性是指同一标在不同时间,不同位置的结果是否一致;及时性是指要求数据产出的时效性能符合计划要求。

电信运营商网络规模巨大,每天通过北向接口传输10TB以上的数据。由于采集设备的不稳定性、存储设备故障等问题,经常出现数据缺失。由于每天的数据表更新频次、更新文件数及数据量各异,数据缺失后无法快速进行问题定位,导致综合网管系统可用性下降。

目前,网络北向接口数据质量检测主要是对单一数据表完整性、有效性等进行检测,这种检测无法发现整个网元管理系统(OMC)中OMC文件或网元的数据缺失情况。资源数据存储当天计划上报的网元及OMC信息。通过两个数据表关联分析可以发现更准确、精细的数据缺失。此外,当前评估方式是人工抽查,存在检测效率差、不及时,缺乏完整的检测机制等问题。

传统的网数据质量评估停留在数据质量完整性、有效性、及时性等指标的评价上,缺乏对数据关联性的定义及分析。而性能数据与资源数据关联后的数据缺失对于安全运维分析及算法应用具有重要意义。并且传统的数据分析过程多采用SQL查询,效率较低、人力成本较高,无法及时发现数据缺失。

发明内容

本发明克服了现有技术的不足之一,提供了基于AI技术的大数据质量监控方法、装置、设备及存储介质,能够解决海量数据质量监控时缺乏多维数据之间的关联分析而无法发现更高维度数据、且人工抽查效率低且滞后和SQL查询和分析的效率低等问题。

根据本公开的一方面,提出了一种基于AI技术的大数据质量监控方法,所述方法包括:

定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括网元的资源数据和性能数据;

基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图;

基于AI的Spark算法对所述网元数据的缺失关系图进行查询计算,得到网元的缺失率。

在一种可能的实现方式中,所述定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,包括:

定时调度shell脚本采集LTE北向接口的网元数据,自动筛选网元最新日期的补采数据实现对所述网元数据的清洗。

在一种可能的实现方式中,所述网元的补采数据为采集LTE北向接口的网元数据时,设备中断或异常时进行补采的网元数据,并采用对小时粒度文件全量追加的方式更新所述补采数据。

在一种可能的实现方式中,基于日志分层大数据构建结构化数据质量监控系统,包括:

利用日志服务应用数据库的关联关系挖掘核心应用服务拓扑关系;

基于所述核心应用服务拓扑关系对所述日志服务应用数据库中的每条服务日志进行挖掘,得到所述核心应用服务拓扑关系的拓扑数据集合;

将所述核心应用服务拓扑关系和网络拓扑关系进行关联,基于所述拓扑数据集合定位网络设备,并对所述网络设备的板卡层向下钻取,得到网元数据的缺失位置;

利用虚拟网映射算法对所述板卡层的映射虚拟资源再次钻取,得到所述网元数据的缺失关系图。

在一种可能的实现方式中,所述虚拟网映射包括公共物理网络、虚拟网映射需求和虚拟网映射三部分。

在一种可能的实现方式中,所述网元的资源数据包括室内外类型、厂商、类;所述网元的性能数据包括:PDCP上下行流量、RRC连接用户数、CQI良比、同频切换成功率。

根据本公开的另一方面,提出了一种基于AI技术的大数据质量监控装置,所述装置包括:

采集模块,用于定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括网元的资源数据和性能数据;

质量监控模块,用于基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图;

计算模块,用于基于AI的Spark算法对所述网元数据的缺失关系图进行计算,得到网元的缺失率。

根据本公开的另一方面,提出了一种电子设备,所述设备包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。

根据本公开的另一方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。

本公开的基于AI技术的大数据质量监控方法,通过定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括资源数据和性能数据;基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图;基于AI的Spark算法对所述网元数据的缺失关系图进行查询计算,得到网元的缺失率。能够大大提升海量数据质量监控的效率。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。

图1示出了根据本公开一实施例的基于AI技术的大数据质量监控方法流程图;

图2示出了根据本公开另一实施例的基于AI技术的大数据质量监控方法流程图;

图3示出了根据本公开一实施例的基于AI技术的大数据质量监控结构示意图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。

另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1示出了根据本公开一实施例的基于AI技术的大数据质量监控方法流程图;如图1所示,该方法可以包括:

步骤S1:定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括网元的资源数据和性能数据。

图2示出了根据本公开另一实施例的基于AI技术的大数据质量监控方法流程图。

如图1和图2所示,可以定时调度shell脚本采集LTE北向接口的网元数据,即网元的资源数据与性能数据。其中,网元的资源数据分省以天粒度的方式更新网元的基本特性,网元的资源数据包括:室内外类型、厂商、类。网元的性能数据分省以小时粒度的方式更新网元的性能特征,网元的性能数据包括:PDCP上下行流量、RRC连接用户数、CQI良比、同频切换成功率等。

定期采集LTE北向接口的网元数据时,由于采集设备中断或异常经常对网元数据进行补采,补采方式是对小时粒度文件全量追加的方式更新补采数据。由于该部分网元数据存在重复数据,需要对补采的网元数据进行清洗,即自动筛选最新日期的补采数据,并将该部分不补采数据文件更新到网元数据集群中,实现对采集的网元数据进行清洗,并存储清洗后的网元数据。

步骤S2:基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图。

网元数据孤岛的应用意义不大,通过网元数据关联性分析提高网元数据资产价值及可利用性。由于日志服务器为了避免在提供全球服务的大型系统中每日服务日志数据量可能达到数十TB(TBs)的情况,可以将收到的服务日志数据分为四层进行关联分析。

在一示例中,基于日志分层大数据构建结构化数据质量监控系统可以包括:

利用日志服务应用数据库的关联关系挖掘核心应用服务拓扑关系。

其中,日志服务应用数据库包括:数据库、中间件、服务器基础监控指标等数据。核心应用服务拓扑关系记录不同的日志服务器之间的日志服务应用数据之间的关系,例如数据库、中间件、服务器CPU、内存、磁盘、进程三类指标之间的关系。

基于所述核心应用服务拓扑关系对所述日志服务应用数据库中的每条服务日志进行挖掘,得到所述核心应用服务拓扑关系的拓扑数据集合。其中,拓扑数据集合用于记录不同时间维度下的服务器与数据库、中间件、服务器CPU、内存、磁盘、进程之间的监测数据及运行健康状况。

将所述核心应用服务拓扑关系和网络拓扑关系进行关联,基于所述拓扑数据集合定位网络设备,并对所述网络设备的板卡层向下钻取,得到网元数据的缺失位置。其中,网络设备由多块板卡组成,每块板卡包括独立的数据库、中间件、服务器CPU、内存、磁盘等。

利用虚拟网映射算法对所述板卡层的映射虚拟资源再次钻取,得到所述网元数据的缺失关系图。

其中,虚拟网映射包括公共物理网络、虚拟网映射需求和虚拟网映射三部分。

公共物理网络即为板卡基础资源的拓扑关系网络,可以用带权无向图进行表示。一个公共物理网络(Substrate Network,SN)上可以由多个虚拟网络(也称为底层网络)

虚拟网映射需求即板卡和虚拟资源钻取的需求。虚拟网络(底层网络)的评测指标主要由虚拟网映射请求接收率决定。接收率越高,表示虚拟网络(底层网络)的资源利用率越好,否则,表示虚拟网络(底层网络)的资源利用率越不好。

虚拟网映射请求可以包括虚拟网拓扑G

虚拟网映射可以分解为虚拟节点映射和虚拟链路映射。由于同属于一个虚拟网的多个虚拟节点不能被重复映射至一个底层节点上,但多条虚拟链路可以被重复映射至一条底层路径上。因此,虚拟网映射可以描述为虚拟网请求拓扑G

M:G

其中,

通过利用虚拟网映射算法对板卡层的板卡基础资源基于板卡虚拟资源的钻取需求,对板卡的虚拟网络和虚拟网络映射请求之间进行节点和链路的映射,可以得到日志分层大数据构建结构化数据质量监控系统,通过该日志分层大数据构建结构化数据质量监控系统对网元数据进行质量监控可以得到并最大化完善网元数据的缺失关系图。

通过日志数据四层分析拓扑可以实现网元的性能数据和资源数据的二维关联重新定义了OMC文件缺失率、网元缺失率,能够更加全面评估数据质量。由于网元数据以OMC文件的方式存储数据,基于OMC维度的数据质量评估可以发现较大维度的文件缺失快速定位问题,可精准发现网元数据缺失,大大提升了网元数据缺失的效率。

步骤S3:基于AI的Spark算法对所述网元数据的缺失关系图进行查询计算,得到网元的缺失率

其中,基于AI的Spark算法可以为基于AI芯片或量子芯片的Spark算法,以提高Spark算法进行大数据查询及再计算的效率。其中,AI芯片主要包括硅胶为材料制作的芯片、神经网络模型、编译器、进化算法(Spark算法)和可重构AI架构电路。

AI芯片的神经网络模型包括输入层、输出层和隐含层,其中进化算法(Spark算法)应用于隐含层。在隐含层创建储备池,令N为储备池的大小、时间相关的输入表示为矢量u(t)、时间相关的输出表示为矢量y(t),输入连通性表示为W

当有多个输入和输出时,储备池的时间演变公式为:

x(t+1)=f(W

式中,f是储备池节点的传递函数,可以为双曲正切函数、S形函数或线性函数。

时间相关的输出矢量y(t)=W

可以使用量子技术对隐含层回归训练输出权重矩阵W

其中,比特量子进行翻转预测具体过程:获取服务日志历史比特翻转情况数据并加权平均获得历史比特翻转趋势线。在获取最近10次比特翻转值,分别记录趋势线上下次数作为比特量子翻转预测值。例如:趋势线上由2次则,比特量子翻转预测值20%,不翻转80%。

通过上述步骤可以得到基于AI芯片的Spark算法的训练模型,然后,将网元数据的缺失关系图输入到基于AI芯片的Spark算法的训练模型中,能够对网元的性能数据及资源数据关联分析,分省市对网数据质量进行质量评估,计算OMC文件缺失率、网元数据(小区)缺失率,并将计算得到网元的缺失率进行存储及可视化展示。

网元的缺失率的计算方式如下:

P

其中,P

将性能数据、资源数据缺失率的关联性引入网元数据质量监督评估体系,能够解决当整个网元数据缺失时通过单维度的性能数据将无法判断的问题。通过网元资源数据和性能数据中网元数量关联后可以得到全部网元缺失数量,既可以提升网元数据缺失率也能够提高Spark算法大数据查询网元数据缺失拓扑图和再计算网元缺失率的效率。

本发明的基于AI技术的大数据质量监控方法,通过定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括网元的资源数据和性能数据;基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图;基于AI的Spark算法对所述网元数据的缺失关系图进行查询计算,得到网元的缺失率。能够解决海量数据质量监控时缺乏多维数据之间的关联分析而无法发现更高维度数据、且人工抽查效率低且滞后和SQL查询和分析的效率低等问题。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

图3示出了根据本公开一实施例的基于AI技术的大数据质量监控装置结构示意图;如图3所示,该评估装置可以包括:

采集模块301,用于定时采集LTE北向接口的网元数据,并对所述网元数据进行清洗,其中,所述网元数据包括网元的资源数据和性能数据;

质量监控模块302,用于基于日志分层大数据构建结构化数据质量监控系统,利用所述结构化数据质量监控系统对所述网元数据进行质量监控,得到所述网元数据的缺失关系图;

计算模块303,用于基于AI的Spark算法对所述网元数据的缺失关系图进行计算,得到网元的缺失率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

图4是本申请实施例提供的电子设备3的结构示意图。如图4所示,该实施例的电子设备3包括:处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者,处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。

示例性地,计算机程序303可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器302中,并由处理器301执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序303在电子设备3中的执行过程。

电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解,图4仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器301可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器302可以是电子设备3的内部存储单元,例如,电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备,例如,电子设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所申请的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 一种基于AI云的GPU资源调度方法和装置
  • 一种基于大数据技术的特钢棒材质量监控与诊断方法
  • 一种基于大数据技术的图形化的数据质量评测的装置及方法
技术分类

06120116493980