掌桥专利:专业的专利平台
掌桥专利
首页

时序数据的异常检测和参数填补的方法及装置

文献发布时间:2023-06-19 16:11:11



技术领域

本公开总体上涉及人工智能领域,更具体地涉及一种时序数据的异常检测和参数填补的方法及装置。

背景技术

现有技术中,MR(Measurement Report,测量报告)数据的TA(Time Advanced,时间提前量)、RSRP(Reference Signal Receiving Power,参考信号接收功率)等参数在网络定位等应用中非常关键。由于MR数据在上报过程中易受设备、环境等因素影响,往往存在许多异常值和缺失值,严重影响依赖MR数据应用的效果。因此,有必要实现精准且鲁棒的MR关键参数的异常检测与缺失填补。

因为上报MR时用户是按定时连续上报的,所以在处理MR数据的异常值和缺少值时,可以考虑利用用户上报数据的这种时空连续关系来构造时序数据并进行进一步的处理。

目前,在针对时序数据的异常检测和缺失填补方法中,由于LSTM(Long ShortTerm Memory,长短期记忆网络)的时序记忆能力和GAN(Generative AdversarialNetworks,生成式对抗网络)的对抗式学习机制,两者相结合的方法具有天然的优势。现有技术中,这类方法在进行异常检测和缺失填补时往往相互独立进行:对于缺失填补,先将时序缺失值填充为预设值,再将填充预设值的时序及对应缺失掩膜序列输入生成器来预测缺失值;对于异常检测,首先将随机噪声输入生成器生成非正常样本,训练判别器尽量区分真实样本和生成样本,然后在异常检测时,先将判别器隐含层提取的时序特征,输入给生成器重构,求得重构误差,同时结合判别器输出的判别误差,求得最终整个时序的异常得分。

采用现有的时序异常检测与缺失填补方法处理MR关键参数时序时存在以下一些问题:

1)数据同时存在缺失值和异常值时,忽视异常值进行缺失填补会引入噪声,而从缺失处截断时序分别进行异常检测会损失时序结构信息,目前方法没有结合两者联合处理;

2)MR不同参数受许多不确定因素影响,数据时空分布不一致,潜在异常完全随机出现,目前方法无法按区域调整,且无法精准判断时序异常具体位置;

3)用户连续上报的MR时序存在不定长、非平稳、以及大都不完整问题,目前方法无法自适应性处理。

目前,现网MR数据丰富,根据MR上报的会话ID、基站ID、小区ID、时间戳等能够有效识别不同用户连续上报的MR时序,从而转化为对各用户不定长多变量时序数据进行处理,为根据数据时空分布和时序结构信息联合进行MR关键参数异常检测和缺失填补奠定基础。

发明内容

在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。

根据本公开的第一方面,提供了一种训练用于时序数据的异常检测和缺失填补的模型的方法,包括:获取用户的时序数据,其中,所述时序数据包括异常的参数和缺失的参数;对时序数据进行预处理,以得到经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,其中,所述第一标记矩阵被配置为标记时序数据中的异常的参数和缺失的参数的位置,所述第二标记矩阵被配置为标记经预处理的时序数据的中的异常的参数和缺失的参数的位置,所述区域标签被配置为标记用户所位于的区域;以及基于经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,对模型进行训练。

根据本公开的第二方面,提供了一种用于时序数据的异常检测和缺失填补的方法,包括:利用根据第一方面所述的方法来训练模型;利用经训练的模型生成所述待检测时序数据中的参数为异常参数的概率;基于概率和概率阈值判断所述待检测时序数据中的参数是否为异常参数;以及将所述待检测时序数据中被判断为异常的参数和缺失的参数填补为利用经训练的模型生成的正常值。

根据本公开的第三方面,提供了一种训练用于时序数据的异常检测和缺失填补的模型的装置,包括:构造模块,被配置为获取用户的时序数据,其中,所述时序数据包括异常的参数和缺失的参数;预处理模块,被配置为对时序数据进行预处理,以得到经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,其中,所述第一标记矩阵被配置为标记时序数据中的异常的参数和缺失的参数的位置,所述第二标记矩阵被配置为标记经预处理的时序数据的中的异常的参数和缺失的参数的位置,所述区域标签被配置为标记用户所位于的区域;训练模块,被配置为基于经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,对模型进行训练。

根据本公开的第四方面,提供了一种用于时序数据的异常检测和缺失填补的装置,包括:根据第三方面所述的构造模块、预处理模块和训练模块;以及检测与填补模块,所述检测与填补模块被配置为:利用经训练的模型生成所述待检测时序数据中的参数为异常参数的概率;基于概率和概率阈值判断所述待检测时序数据中的参数是否为异常参数;以及将所述待检测时序数据中的判断出的异常的参数和缺失的参数填补为利用经训练的模型生成的正常值。

根据本公开的第五方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据第一方面所述的方法。

根据本公开的第六方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据第二方面所述的方法。

根据本公开的第七方面,提供了一种训练用于时序数据的异常检测和缺失填补的模型装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据第一方面所述的方法。

根据本公开的第八方面,提供了一种用于时序数据的异常检测和缺失填补的装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据第二方面所述的方法。

根据本公开的第九方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。

根据本公开的第十方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现根据第二方面所述的方法。

利用本公开提出的方法和装置能够实现对多变量时序数据联合进行异常检测和缺失填补,并实现精准判定时序数据具体异常位置、自适应不定长输入、引入空间条件约束改善时序存在时空分布不一致问题、无需获取正常完整时序样本训练,有效改善MR关键参数这类时序异常检测和缺失填补的模型训练难度、准确性、鲁棒性及粒度,从而实现数据质量优化,为包括MR定位精度和预测占比的同步提升等应用场景提供有力支撑。

通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得更为清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:

图1示出了根据本公开的实施例的用于时序数据的异常检测和缺失填补的系统的示意图;

图2示出了根据本公开的实施例的训练用于时序数据的异常检测和缺失填补的模型的方法的流程图;

图3示出了根据本公开的实施例的用于时序数据的异常检测和缺失填补的方法的示意图;

图4示出了根据本公开的实施例的训练用于MR关键参数异常检测与缺失填补的模型的示意图;

图5示出了根据本公开的实施例的生成器和判别器网络结构示意图;

图6示出了可以实现根据本公开的实施例的计算设备的示例性配置。

具体实施方式

参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。

图1示出了根据本公开的实施例的用于时序数据的异常检测和缺失填补的系统100的示意图。

如图1所示,系统100可以包括构造模块101、预处理模块102以及训练模块103。

图2示出了根据本公开的实施例的训练用于时序数据的异常检测和缺失填补的模型的方法的流程图。

具体而言,如图2所示,在S201处,可以获取用户的时序数据;在S202处,可以对时序数据进行预处理,以得到经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签;在S203处,可以基于经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,对模型进行训练。

构造模块101可以被配置为获取用户的时序数据,其中,时序数据包括异常的参数和缺失的参数。

对于MR数据,可以根据会话ID、基站ID、时间戳获取各用户MR关键参数不定长时序及缺失位置标记矩阵。具体而言,获取用户的时序数据可以包括如下步骤:

1)将采集的MR数据,按主小区基站ID、小区ID分组,统计每组邻区FCN(FrequencyChannel Number,无线频道信号)编号+PCI(Physical Cell Identifier,物理小区标识)编号出现次数,按降序取出现次数前N个邻区FCN+PCI编号,N根据实际情况设定,例如,可以取N=15,应理解的是,N的取值不限于此;

2)将每条原始MR数据的N个邻区RSRP,根据对应主小区基站ID、小区ID,按出现次数前N个邻区FCN+PCI编号的索引,重新排列,得到[基站ID,小区ID,MME(MobileManagement Entity)编码,用户S1AP(S1-Application Protocol)标识,MMEPOOL编号,主小区TA,主小区RSRP,出现次数排前1~前N邻区FCN+PCI对应的RSRP,异常数据标志];

3)将字段重新排列的MR数据,按MME编码、用户S1AP标识、MMEPOOL编号、基站ID进行分组;

4)对每组MR数据,按时间戳排序;在根据本公开的实施例中,可以将前后时间戳时差小于等于1分钟或者相差大于1分钟但与首条相差5分钟内的连续MR数据,识别为同一用户连续上报的MR时序;

5)从每个用户的MR时序中提取[主小区TA,主小区RSRP,邻区RSRP]关键参数时序,构建表示对应位置是否缺失的缺失标记矩阵302,缺失位置填0,有值位置填1。

预处理模块102可以被配置为对时序数据进行预处理,以得到经预处理的时序数据301、第一标记矩阵302、第二标记矩阵304和区域标签303(如图3所示)。其中,第一标记矩阵302可以被配置为标记时序数据中的异常的参数和缺失的参数的位置,第二标记矩阵304可以被配置为标记经预处理的时序数据的中的异常的参数和缺失的参数的位置,区域标签303可以被配置为标记用户所位于的区域。

对时序数据进行预处理可以包括:将时序数据按照用户所位于的区域进行分组;对组内的时序数据中的缺失的参数采用判别插补方法进行预估,并将预估得到的参数填补到对应的缺失的参数的位置;以及识别经预处理的时序数据中的异常的参数。

具体而言,预处理可以包括如下步骤:

1)将字段重新排列的MR数据,再按基站ID+小区ID分组,分别对每组MR数据[MME编码,用户S1AP标识,MMEPOOL编号,主小区TA,主小区RSRP,出现次数排前1~前N邻区FCN+PCI对应的RSRP,异常数据标志]中存在的缺失值,采用基于LightGBM的MICE插补方法,预估缺失值;同时,对每组TA、若干RSRP逐列按3σ方法识别该列异常值;

2)将按区域分组预估的TA、若干RSRP缺失值,填充到对应用户对应时间戳的TA、RSRP缺失位置;在根据本公开的实施例中,可以记录每列特征最大值和最小值,对每列特征进行最大最小归一化,以得到经预处理的时序数据301;

3)根据按区域分组识别的TA、若干RSRP异常值位置,针对每个用户的MR关键参数时序,构建表示对应位置是否异常的异常标记矩阵,异常位置填0,其他位置填1;

4)根据每个用户的MR关键参数时序,构造对应的第一标记矩阵302和第二标记矩阵304;第一标记矩阵302中取值为0或1,其中缺失和异常值位置填0,正常位置填1;第二标记矩阵304标识预处理后时序异常值位置及部分值缺失值、正常值位置,其取值为0、0.5或1,异常位置标记为0,缺失位置标记为0或0.5,正常位置标记为1或0.5,其中标记0.5的位置是按一定概率随机选取得到的;

5)构造模型输入样本,每条样本包括归一化后的填充预估缺失值的MR关键参数时序301、第一标记矩阵302和第二标记矩阵304,和区域标签303,其中,区域标签303可以为基站ID+小区ID。

训练模块103可以被配置为基于经预处理的时序数据301、第一标记矩阵302、第二标记矩阵304和区域标签303,对模型进行训练。

在根据本公开的实施例中,模型可以是对抗生成插补网络。参见图3,该模型可以包括生成器305和判别器307。

生成器305可以被配置为输入经预处理的时序数据301、第一标记矩阵302和区域标签303并输出第一数值矩阵306,该第一数值矩阵306包括用于填补异常的参数和缺失的参数的正常值。

判别器307可以被配置为输入时序数据、第二标记矩阵304和区域标签303并输出概率矩阵308,该概率矩阵308包括时序数据中的参数为异常参数的概率。在进行训练时,该输入时序数据可以是利用生成器输出的正常值进行填补后的矩阵。

图4示出了根据本公开的实施例的训练用于MR关键参数异常检测与缺失填补的模型的示意图。

如图4所示,对于MR时序数据Y,在训练模型时,可以将经预处理的时序数据

图5更详细地示出了根据本公开的实施例的生成器和判别器网络结构示意图。

参考图4及图5,具体而言,模型构造和训练可以包括如下步骤:

1)构造对抗生成插补网络生成器为多输入多输出模型,如图5所示,其中虚线箭头代表生成器区别于判别器的数据流:

a.首先将大小同为(样本数,时间步长,关键参数维数)的填充预估缺失值的MR关键参数时序、及对应的第一标记矩阵输入至Concatenate层,串联为一个大小为(样本数,时间步长,特征维数*2)的张量;

b.然后依次输入至BiLSTM和Attention层,提取时间步长保持不变的、大小为(样本数,时间步长,BiLSTM隐藏层维数*2)时序隐藏层特征张量;

c.同时将对应的区域标签输入至RepeatVector层,提前按对应时序的t个时间步长复制t份,得到大小为(样本数,时间步长,标签维数)区域标签输入张量;

d.将时序隐藏层特征张量和区域标签输入张量一起输入至Concatenate层,再次串联为表征带条件的时序隐藏层特征,大小为(样本数,时间步长,BiLSTM隐藏层维数*2+标签维数)的张量;

e.最后,将表征带条件的时序隐藏层特征张量输入至TimeDistributed(Dense)层,产生针对各个时间步特征的全连接结果,输出大小为(样本数,时间步长,关键参数维数)的数据张量,与输入的不定长多变量时序一一对应;

f.另外,也将模型中间提取的尚未考虑条件约束的时序隐藏层特征张量直接连接Dense层,输出与输入的不定长多变量时序一一对应的张量;

2)构造对抗生成插补网络判别器为多输入多输出模型,如图5所示,其中三角形箭头代表判别器区别于生成器的数据流:

a.首先将大小同为(样本数,时间步长,关键参数维数)的待异常检测的MR关键参数时序、及对应的第二标记矩阵输入至Concatenate层,串联为一个大小为(样本数,时间步长,特征维数*2)的张量;

b.然后依次输入至BiLSTM和Attention层,提取时间步长保持不变的、大小为(样本数,时间步长,BiLSTM隐藏层维数*2)时序隐藏层特征张量;

c.同时将对应的区域标签输入至RepeatVector层,提前按对应时序的t个时间步长复制t份,得到大小为(样本数,时间步长,标签维数)区域标签输入张量;

d.将时序隐藏层特征张量和区域标签输入张量一起输入至Concatenate层,再次串联为表征带条件的时序隐藏层特征,大小为(样本数,时间步长,BiLSTM隐藏层维数*2+标签维数)的张量;

e.最后,将表征带条件的时序隐藏层特征张量输入至激活函数为Sigmoid的TimeDistributed(Dense)层,产生针对各个时间步特征的全连接结果,输出大小为(样本数,时间步长,关键参数维数)的概率张量,与输入的不定长多变量时序一一对应;

3)基于样本数据对抗训练上述生成器和判别器模型,其中:

a.生成器G根据上述构造分别输入缺失值填充预估值的时序

其中,t为时间步长,d为参数维数;

b.将输入时序中非正常值(例如,缺失值、异常值)用生成器生成的主要结果的对应位置的数值替换,得到:

c.判别器D根据上述构造分别输入由生成器生成值替换非正常值的时序

4)其中,生成器和判别器每隔一定的迭代次数,交替更新参数:

a.判别器基于输出的概率矩阵P和第一标记矩阵M,计算如下的判别器分类交叉熵损失,以此计算梯度更新参数:

L

b.生成器基于判别器判别非正常值生成正常概率、以及辅助结果Aux_output、主要结果Main_output中正常分量的生成回归损失,计算如下的生成器加权损失,:

其中,α、β为非正常值生成概率损失、主要结果还原正常分量回归损失部分权重;

5)其中,针对不定长时序输入,模型训练阶段,采用小批量随机累积梯度下降训练模型:

a.每次输入单个样本给生成器或判别器计算损失;

b.交替训练判别器阶段,累积输入b个上述包括生成器填充非正常值时序、第二标记矩阵、区域标签的样本,计算判别器对这b个样本的交叉熵损失的平均值,计算梯度更新参数,其中b为设定的Batch Size,b例如可以取值为10,但应理解的是,b的取值不限于此;

c.交替训练生成器阶段,累积输入b个上述包括缺失值填充预估值的时序、第一标记矩阵、区域标签的样本,计算生成器对这b个样本的加权损失的平均值,计算梯度更新参数。

在根据本公开的实施例中,系统100还可以包括检测与填补模块104。

检测与填补模块104可以利用经训练的模型生成待检测时序数据中的参数为异常参数的概率;基于概率和概率阈值判断待检测时序数据中的参数是否为异常参数;以及将待检测时序数据中被判断为异常的参数和缺失的参数填补为利用经训练的模型生成的正常值。

参见图3,在309处,可以利用经训练的模型中的判别器预测概率;在310处,可以根据概率筛选出正常值;在311处,可以利用经训练的模型中的生成器生成第一数值矩阵;在312处,可以基于第一数值矩阵将异常的参数和缺失的参数填补为正常值。

具体而言,异常检测和缺失填补可以包括如下步骤:

1)对测试数据进行异常检测与缺失填补阶段,首先按照步骤1和步骤2对原始数据进行转换和预处理,将缺失值用区域分组MICE预估值填充,将区域分组3σ以外的噪声分量标记为异常值;同时,记录归一化各参数所使用的最大值、最小值,构造所述预处理后时序数据、第一标记矩阵、第二标记矩阵、及区域标签;

2)首先对将缺失值填预估值、区域分组噪声标记为已知异常值的预处理后时序数据,逐条进行异常检测,找出其中的所有非正常值:

a.输入给判别器所需特征,输出对应输入数据各位置数值的正常概率矩阵;

b.根据设定的正常概率阈值θ,筛选出其中小于θ的数值,即为非正常数值,构造第一标记矩阵,其中找出的非正常数值对应位置填0,其余位置填1,θ的取值例如可以是0.5,但应理解的是,θ的取值不限于此;

3)根据异常检测结果,对预处理后时序数据的非正常分量进行填充,替换为正常值:

a.输入给生成器所需特征,其中第一标记矩阵使用上一步异常检测得到的,输出对应输入数据同尺寸的数值矩阵;

b.把预处理后时序数据中标记为非正常分量的原始数值,用生成器生成的第一数值矩阵对应位置数值替换;

4)根据记录的各参数所使用的最大值、最小值,对结果进行反归一化,输出最终修正数据。

图6示出了能够实现根据本公开的实施例的计算设备600的示例性配置。

计算设备600是能够应用本公开的上述方面的硬件设备的实例。计算设备600可以是被配置为执行处理和/或计算的任何机器。计算设备600可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。

如图6所示,计算设备600可以包括可以经由一个或多个接口与总线602连接或通信的一个或多个元件。总线602可以包括但不限于,工业标准架构(Industry StandardArchitecture,ISA)总线、微通道架构(Micro Channel Architecture,MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。计算设备600可以包括例如一个或多个处理器604。一个或多个处理器604可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器例如可以被配置为实现如图2、图3以及图4所示的方法。

计算设备600还可以包括或被连接至非暂态存储设备614,该非暂态存储设备614可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备600还可以包括随机存取存储器(RAM)610和只读存储器(ROM)612。ROM 612可以以非易失性方式存储待执行的程序、实用程序或进程。RAM 610可提供易失性数据存储,并存储与计算设备600的操作相关的指令。

综上所述,根据本公开的第一方面,提供了一种训练用于时序数据的异常检测和缺失填补的模型的方法,包括:获取用户的时序数据,其中,所述时序数据包括异常的参数和缺失的参数;对时序数据进行预处理,以得到经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,其中,所述第一标记矩阵被配置为标记时序数据中的异常的参数和缺失的参数的位置,所述第二标记矩阵被配置为标记经预处理的时序数据的中的异常的参数和缺失的参数的位置,所述区域标签被配置为标记用户所位于的区域;以及基于经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,对模型进行训练。

在根据本公开的实施例中,所述模型为对抗生成插补网络,包括生成器和判别器,所述生成器被配置为输入经预处理的时序数据、第一标记矩阵和区域标签并输出第一数值矩阵,所述第一数值矩阵包括用于填补异常的参数和缺失的参数的正常值,所述判别器被配置为输入时序数据、第二标记矩阵和区域标签并输出概率矩阵,所述概率矩阵包括时序数据中的参数为异常参数的概率。

在根据本公开的实施例中,对对抗生成插补网络进行训练包括将利用由所述生成器输出的第一数值矩阵进行填补的时序数据输入到所述判别器。

在根据本公开的实施例中,所述判别器输出的概率矩阵考虑区域约束,所述生成器输出的第一数值矩阵考虑区域约束,并且所述生成器还被配置为输出不考虑区域约束的第二数值矩阵,以用于所述生成器的训练。

在根据本公开的实施例中,对所述时序数据进行预处理包括:将时序数据按照用户所位于的区域进行分组;对组内的时序数据中的缺失的参数进行预估,并将预估得到的参数填补到对应的缺失的参数的位置;以及识别所述经预处理的时序数据中的异常的参数。

在根据本公开的实施例中,在所述第一标记矩阵中,异常的参数和缺失的参数对应的位置被标记为第一值,正常的参数对应的位置被标记为第二值;并且在所述第二标记矩阵中,异常的参数对应的位置被标记为第三值,缺失的参数对应的位置被随机标记为第三值或第四值,正常的参数对应的位置被随机标记为第四值或第五值。

根据本公开的第二方面,提供了一种用于时序数据的异常检测和缺失填补的方法,包括:利用根据第一方面所述的方法来训练模型;利用经训练的模型生成所述待检测时序数据中的参数为异常参数的概率;基于概率和概率阈值判断所述待检测时序数据中的参数是否为异常参数;以及将所述待检测时序数据中被判断为异常的参数和缺失的参数填补为利用经训练的模型生成的正常值。

根据本公开的第三方面,提供了一种训练用于时序数据的异常检测和缺失填补的模型的装置,包括:构造模块,被配置为获取用户的时序数据,其中,所述时序数据包括异常的参数和缺失的参数;预处理模块,被配置为对时序数据进行预处理,以得到经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,其中,所述第一标记矩阵被配置为标记时序数据中的异常的参数和缺失的参数的位置,所述第二标记矩阵被配置为标记经预处理的时序数据的中的异常的参数和缺失的参数的位置,所述区域标签被配置为标记用户所位于的区域;训练模块,被配置为基于经预处理的时序数据、第一标记矩阵、第二标记矩阵和区域标签,对模型进行训练。

在根据本公开的实施例中,所述模型为对抗生成插补网络,包括生成器和判别器,所述生成器被配置为输入经预处理的时序数据、第一标记矩阵和区域标签并输出第一数值矩阵,所述第一数值矩阵包括用于填补用于填补异常的参数和缺失的参数的正常值,所述判别器被配置为输入时序数据、第二标记矩阵和区域标签并输出概率矩阵,所述概率矩阵包括时序数据中的参数为异常参数的概率。

在根据本公开的实施例中,对对抗生成插补网络进行训练包括将利用由所述生成器输出的第一数值矩阵进行填补的时序数据输入到所述判别器。

在根据本公开的实施例中,所述判别器输出的概率矩阵考虑区域约束,所述生成器输出的第一数值矩阵考虑区域约束,并且所述生成器还被配置为输出不考虑区域约束的第二数值矩阵,以用于所述生成器的训练。

在根据本公开的实施例中,对所述时序数据进行预处理包括:将时序数据按照用户所位于的区域进行分组;对组内的时序数据中的缺失的参数进行预估,并将预估得到的参数填补到对应的缺失的参数的位置;以及识别所述经预处理的时序数据中的异常的参数。

在根据本公开的实施例中,在所述第一标记矩阵中,异常的参数和缺失的参数对应的位置被标记为第一值,正常的参数对应的位置被标记为第二值;并且在所述第二标记矩阵中,异常的参数对应的位置被标记为第三值,缺失的参数对应的位置被随机标记为第三值或第四值,正常的参数对应的位置被随机标记为第四值或第五值。

根据本公开的第四方面,提供了一种用于时序数据的异常检测和缺失填补的装置,包括:根据第三方面所述的构造模块、预处理模块和训练模块;以及检测与填补模块,所述检测与填补模块被配置为:利用经训练的模型生成所述待检测时序数据中的参数为异常参数的概率;基于概率和概率阈值判断所述待检测时序数据中的参数是否为异常参数;以及将所述待检测时序数据中的判断出的异常的参数和缺失的参数填补为利用经训练的模型生成的正常值。

根据本公开的第五方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据第一方面所述的方法。

根据本公开的第六方面,提供了一种非暂态计算机可读存储介质,其上存储有程序,其特征在于,当所述程序由计算机执行时,使所述计算机执行根据第二方面所述的方法。

根据本公开的第七方面,提供了一种训练用于时序数据的异常检测和参数填补的模型装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据第一方面所述的方法。

根据本公开的第八方面,提供了一种用于时序数据的异常检测和参数填补的装置,包括存储器和处理器,所述存储器与所述处理器通信耦合,所述存储器中存储有程序,所述程序当由处理器执行时,使得所述处理器执行根据第二方面所述的方法。

根据本公开的第九方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。

根据本公开的第十方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现根据第二方面所述的方法。

在本公开的实施例中,根据MR上报的会话ID、基站ID、小区ID、时间戳,按一定规则识别不同用户连续上报的MR时序,将问题转化为对各用户不定长多变量时序数据进行处理;

在本公开的实施例中,根据区域属性(基站ID、小区ID)分组,组内采用判别插补方法(MICE)预估缺失值、统计方法(3σ)识别噪声分量,预先根据空间关系初始化时序的缺失值和异常位置,修正原始时序数据分布;

在本公开的实施例中,基于GAIN直接利用原始不完整数据和时序结构信息训练生成器和判别器,无需正常完整时序样本训练,其中生成器输入的第一标记矩阵,揭示了输入时序中缺失/异常非正常位置,指导其学习正常分量分布推测出完整的数据,其中判别器输入的第二标记矩阵,揭示异常位置以及部分缺失、正常位置,训练其根据已知信息尽量把正常分量和填充的缺失、异常分量区分开,以此对抗训练两部分,实现精准判定时序数据具体异常位置和将缺失值、异常值替换为正常值的联合进行;

在本公开的实施例中,针对时序本身存在时空分布不一致问题,在训练GAIN时,引入空间条件约束(基站ID+小区ID),将生成器和判别器构造为多输入多输出模型,辅助输入区域标签,使生成器分别计算带条件生成样本和不带条件生成样本的回归损失,使判别器计算带条件下各分量正常概率的交叉熵损失,来控制模型逼近方向;

在本公开的实施例中,基于BiLSTM+Attention网络构造支持空间条件约束的生成器、判别器模型,并采用小批量随机累积梯度下降训练模型,使得模型能自适应处理(MR用户级)不定长多变量时序。

本公开将有效改善MR关键参数这类多变量时序异常检测和缺失填补的模型训练难度、准确性、鲁棒性及粒度,并自适应不定长且时空分布不一致时序,支撑数据质量优化。

提供本公开的主题作为用于执行本公开中描述的特征的装置、系统、方法和程序的示例。但是,除了上述特征之外,还可以预期其他特征或变型。可以预期的是,可以用可能代替任何上述实现的技术的任何新出现的技术来完成本公开的部件和功能的实现。

另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。

另外,在本公开的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性和顺序。

类似地,虽然在附图中以特定次序描绘了操作,但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。

技术分类

06120114734368