掌桥专利:专业的专利平台
掌桥专利
首页

缺失分布偏移下基于非完整数据的预测方法和系统

文献发布时间:2023-06-19 18:37:28


缺失分布偏移下基于非完整数据的预测方法和系统

技术领域

本发明涉及弱监督学习和分布外泛化技术领域,具体地,涉及一种缺失分布偏移下基于非完整数据的预测方法和系统。

背景技术

在许多应用中,由于传感器故障、感知范围不完全等原因,非完整数据是十分普遍的。近年来,许多工作关注基于非完整数据的预测问题,即根据非完整特征和缺失情况预测完整标签。这些工作仅考虑了训练分布与测试分布一致的情况。然而,在实际场景中,训练分布与测试分布可能并不相同。例如,训练数据包含20%的缺失数据,但随着传感器部署的增多和传感器质量的提升,之后的测试场景中,测试数据仅包含10%的缺失数据。进一步地,在训练阶段,测试数据的缺失情况往往是不可知的。

专利文献CN104899457A(申请号:CN201510329302.8)公开了一种基于改进无偏GM(1,1)模型的卫星数据预测方法,用于解决现有卫星数据预测方法预测结果精确度差的技术问题。技术方案是首先对卫星原始遥测数据的预处理,进行卫星原始遥测数据的缺失位补齐和野值数据剔除;其次对预处理后的数据进行归一化处理和平滑性处理;然后建立无偏GM(1,1)模型,并将上述步骤处理的数据作为输入数据进行预测,将获取的新预测结果作为信息带入无偏GM(1,1)模型对数据进行更新预测,最后将得到的预测数据进行反平滑处理和反归一化处理得到最终的预测结果。

首先,许多工作可用于基于非完整数据的预测。NeuMiss模型主要针对高斯分布特征的线性回归问题;许多数据补全的工作也可通过将预测的标签视为缺失变量的方式解决预测问题。然而,这些工作仅考虑了训练分布和测试分布一致的情况。

其次,许多工作关注预测中的分布外泛化问题,尤其是测试分布在训练阶段不可知的情况。然而,他们仅考虑了完整数据的场景,这使得他们的方法不能应用于非完整数据的场景。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种缺失分布偏移下基于非完整数据的预测方法和系统。

根据本发明提供的缺失分布偏移下基于非完整数据的预测方法,包括:

步骤A:构建基于多层感知机的预测函数网络,以传感器感知范围的非完整特征作为输入,学习完整标签与非完整特征之间的关联性,对完整标签进行预测;

步骤B:构建基于多层感知机的预测函数参数网络,学习预测函数参数与缺失情况之间的关联性;

步骤C:利用随机傅里叶特征,度量非完整特征和缺失情况之间的关联性;

步骤D:根据随机傅里叶特征,通过最小化非完整特征和缺失情况之间的关联性,对数据集中的非完整样本重新分配权重;

步骤E:根据重新分配的权重,通过最小化预测重构误差,联合训练预测函数参数网络和预测函数网络,将两个网络结合后整体的预测性进行最优化;

步骤F:基于非完整特征和缺失情况对完整标签进行预测。

优选的,所述步骤A包括:

步骤A1:定义非完整特征和完整标签的符号表示,使用大写和小写字母分别表示随机变量及其取值,用x∈R

步骤A2:将非完整特征x⊙m作为预测函数网络的输入,表示x与m在对应维度相乘;

步骤A3:构建基于多层感知机的预测函数网络,输入层的神经元数量与特征的维数一致,输出层的神经元数量与标签的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数;

设为单层全连接层,输入为n维,输出为d维,则该层可用如下公式刻画:

y=ReLU(Wx)

其中,W∈R

优选的,所述步骤B包括:

步骤B1:将缺失情况m作为预测函数参数网络的输入;

步骤B2:构建基于多层感知机的预测函数参数网络,输入层的神经元数量与缺失情况的维数一致,输出层的神经元数量与预测函数网络参数的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数,该多层感知机中每层的权重参数矩阵共同组成预测函数参数的参数,刻画预测函数参数与缺失情况之间的关联性,多层感知机的最终输出为预测函数的参数;

步骤B3:将预测函数参数网络的输出,作为预测函数的参数,作用于输入的非完整特征,最终得到预测的完整标签。

优选的,所述步骤C包括:

步骤C1:定义随机傅里叶特征的函数空间为:

其中,h为函数空间中的某个函数,由冒号后的形式定义;z为函数的自变量;ω为cos三角函数的角频率,由标准高斯分布中采样得到;β为cos三角函数的相位,由[0,2π)中均匀采样得到;

步骤C2:定义完整样本情况下变量之间的关联性度量,设有变量A和B,且有N个样本

u(A

v(B

其中,A

步骤C3:定义加权非完整样本情况下,非完整特征和缺失情况之间的关联性,为每个样本赋给一个权重w

其中,N

关于第k维特征和第l维缺失情况的交叉协方差矩阵为:

关于第k维缺失情况和第l维缺失情况的交叉协方差矩阵为:

其中,

优选的,所述步骤D包括:

通过最小化非完整特征和缺失情况之间的关联性,求解数据集中每个非完整样本的权重,需求解的优化问题为:

其中,为w的标准差;min表示优化目标为最小化,第一项CrossCovariance

所述步骤E包括:

通过最小化加权预测重构误差,联合训练预测函数参数网络和预测函数网络,需求解的优化问题为:

其中,min

根据本发明提供的缺失分布偏移下基于非完整数据的预测系统,包括:

模块A:构建基于多层感知机的预测函数网络,以传感器感知范围的非完整特征作为输入,学习完整标签与非完整特征之间的关联性,对完整标签进行预测;

模块B:构建基于多层感知机的预测函数参数网络,学习预测函数参数与缺失情况之间的关联性;

模块C:利用随机傅里叶特征,度量非完整特征和缺失情况之间的关联性;

模块D:根据随机傅里叶特征,通过最小化非完整特征和缺失情况之间的关联性,对数据集中的非完整样本重新分配权重;

模块E:根据重新分配的权重,通过最小化预测重构误差,联合训练预测函数参数网络和预测函数网络,将两个网络结合后整体的预测性进行最优化;

步骤F:基于非完整特征和缺失情况对完整标签进行预测。

优选的,所述模块A包括:

模块A1:定义非完整特征和完整标签的符号表示,使用大写和小写字母分别表示随机变量及其取值,用x∈R

模块A2:将非完整特征x⊙m作为预测函数网络的输入,表示x与m在对应维度相乘;

模块A3:构建基于多层感知机的预测函数网络,输入层的神经元数量与特征的维数一致,输出层的神经元数量与标签的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数;

设为单层全连接层,输入为n维,输出为d维,则该层可用如下公式刻画:

y=ReLU(Wx)

其中,W∈R

优选的,所述模块B包括:

模块B1:将缺失情况m作为预测函数参数网络的输入;

模块B2:构建基于多层感知机的预测函数参数网络,输入层的神经元数量与缺失情况的维数一致,输出层的神经元数量与预测函数网络参数的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数,该多层感知机中每层的权重参数矩阵共同组成预测函数参数的参数,刻画预测函数参数与缺失情况之间的关联性,多层感知机的最终输出为预测函数的参数;

模块B3:将预测函数参数网络的输出,作为预测函数的参数,作用于输入的非完整特征,最终得到预测的完整标签。

优选的,所述模块C包括:

模块C1:定义随机傅里叶特征的函数空间为:

其中,h为函数空间中的某个函数,由冒号后的形式定义;z为函数的自变量;ω为cos三角函数的角频率,由标准高斯分布中采样得到;β为cos三角函数的相位,由[0,2π)中均匀采样得到;

模块C2:定义完整样本情况下变量之间的关联性度量,设有变量A和B,且有N个样本

u(A

v(B

其中,A

模块C3:定义加权非完整样本情况下,非完整特征和缺失情况之间的关联性,为每个样本赋给一个权重w

其中,N

关于第k维特征和第l维缺失情况的交叉协方差矩阵为:

关于第k维缺失情况和第l维缺失情况的交叉协方差矩阵为:

其中,

优选的,所述模块D包括:

通过最小化非完整特征和缺失情况之间的关联性,求解数据集中每个非完整样本的权重,需求解的优化问题为:

其中,为w的标准差;min表示优化目标为最小化,第一项CrossCovariance

所述模块E包括:

通过最小化加权预测重构误差,联合训练预测函数参数网络和预测函数网络,需求解的优化问题为:

其中,min

与现有技术相比,本发明具有如下的有益效果:

(1)本发明采用了基于去关联性的预测框架,能够有效地学习到完整标签与非完整特征之间的底层关联性,从而在缺失分布发生偏移时,达到较好的泛化性能;

(2)本发明可以直接应用于具有非完整特征的数据集上;

(3)本发明构造合理,使用方便,能够克服现有技术的缺陷。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明的预测方法流程图;

图2为本发明实施例中的基于非完整数据预测框架的示例图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1:

如图1和图2所示,本发明提供了一种缺失分布偏移下基于非完整数据的预测方法。

具体地,本实施例包括如下步骤:

步骤A:以非完整特征作为输入,构建基于多层感知机的预测函数网络,通过预测函数的参数,学习完整标签与非完整特征之间的关联性,对完整标签进行预测;

步骤B:构建基于多层感知机的预测函数参数网络,学习预测函数参数与缺失情况之间的关联性;

步骤C:利用随机傅里叶特征,度量非完整特征和缺失情况之间的关联性;

步骤D:根据随机傅里叶特征,通过最小化非完整特征和缺失情况之间的关联性,对数据集中的非完整样本重新分配权重;

步骤E:根据重新分配的权重,通过最小化预测重构误差,联合训练预测函数参数网络和预测函数网络,将两个网络结合后整体的预测性进行最优化;

步骤F:基于非完整特征和缺失情况对完整标签进行预测。

所述步骤A包括如下内容:

步骤A1:定义非完整特征和完整标签的符号表示。具体地,使用大写和小写字母分别表示随机变量及其取值。用x∈R

步骤A2:将非完整特征x⊙m作为预测函数网络的输入,表示x与m在对应维度相乘,即可观测维度上为原始值,缺失维度上为0;

步骤A3:构建基于多层感知机的预测函数网络,输入层的神经元数量与特征的维数一致,输出层的神经元数量与标签的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数。数学表示上,以单层全连接层为例,输入为n维,输出为d维,则该层可用如下公式刻画:

y=ReLU(Wx)

其中,W∈R

所述步骤B包括如下内容:

步骤B1:将缺失情况m作为预测函数参数网络的输入;

步骤B2:构建基于多层感知机的预测函数参数网络,输入层的神经元数量与缺失情况的维数一致,输出层的神经元数量与预测函数网络参数的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数。该多层感知机中每层的权重参数矩阵共同组成预测函数参数的参数,刻画预测函数参数与缺失情况之间的关联性。多层感知机的最终输出为预测函数的参数;

步骤B3:将预测函数参数网络的输出,作为预测函数的参数,作用于输入的非完整特征,最终得到预测的完整标签。

所述步骤C包括如下步骤:

步骤C1:定义随机傅里叶特征的函数空间为:

其中,ω由标准高斯分布中采样而来,β由[0,2π)中均匀采样而来;

步骤C2:定义完整样本情况下,变量之间的关联性度量。假定有变量A和B,且有N个样本

其中

u(A

v(B

u(A

步骤C3:定义加权非完整样本情况下,非完整特征和缺失情况之间的关联性。为每个样本赋给一个权重w

其中,N

关于第k维缺失情况和第l维缺失情况的交叉协方差矩阵为

非完整特征和缺失情况之间总的关联性为以上三项的总合。

所述步骤D包括如下步骤:

步骤D1:通过最小化非完整特征和缺失情况之间的关联性,求解数据集中每个非完整样本的权重。具体地,需求解的优化问题为:

其中,第一项为非完整特征和缺失情况之间总的关联性,第二项的目的是防止赋给一小部分低关联性样本极大的权重,γ为权衡两者的参数。优化后得到的w即为每个非完整样本的权重。

所述步骤E包括如下步骤:

步骤E1:通过最小化加权预测重构误差,联合训练预测函数参数网络和预测函数网络。具体地,需求解的优化问题为:

其中,w()为样本权重,g()为预测函数网络,φ()为预测函数参数网络,θ为预测函数参数网络的参数。求解该优化问题得到的参数θ对应的预测函数,能够在缺失分布偏移下,在基于非完整数据的预测任务上,达到较好的泛化性能。

本发明主要关注缺失分布偏移下基于非完整数据预测的实际问题,并从分布外泛化的角度提出了一种基于非完整数据的框架进行预测。一方面通过预测函数网络和预测函数参数网络,学习完整标签、非完整特征、预测函数参数、缺失情况之间的关联性,另一方面通过去关联性的方式,促使预测框架学习到数据的底层关联性,从而克服分布偏移带来的负面影响。在人工生成的高斯、混合高斯数据集和实际场景的房屋售价数据集上的实验充分证明了本实施例的有效性。从均方根误差指标来看,本发明的性能要显著优于目前最好的基于非完整数据预测方法和完整数据下分布外泛化方法。

实施例2:

本发明还提供一种缺失分布偏移下基于非完整数据的预测系统,所述缺失分布偏移下基于非完整数据的预测系统可以通过执行所述缺失分布偏移下基于非完整数据的预测方法的流程步骤予以实现,即本领域技术人员可以将所述缺失分布偏移下基于非完整数据的预测方法理解为所述缺失分布偏移下基于非完整数据的预测系统的优选实施方式。

根据本发明提供的缺失分布偏移下基于非完整数据的预测系统,包括:模块A:构建基于多层感知机的预测函数网络,以传感器感知范围的非完整特征作为输入,学习完整标签与非完整特征之间的关联性,对完整标签进行预测;模块B:构建基于多层感知机的预测函数参数网络,学习预测函数参数与缺失情况之间的关联性;模块C:利用随机傅里叶特征,度量非完整特征和缺失情况之间的关联性;模块D:根据随机傅里叶特征,通过最小化非完整特征和缺失情况之间的关联性,对数据集中的非完整样本重新分配权重;模块E:根据重新分配的权重,通过最小化预测重构误差,联合训练预测函数参数网络和预测函数网络,将两个网络结合后整体的预测性进行最优化;步骤F:基于非完整特征和缺失情况对完整标签进行预测。

所述模块A包括:模块A1:定义非完整特征和完整标签的符号表示,使用大写和小写字母分别表示随机变量及其取值,用x∈R

所述模块B包括:模块B1:将缺失情况m作为预测函数参数网络的输入;模块B2:构建基于多层感知机的预测函数参数网络,输入层的神经元数量与缺失情况的维数一致,输出层的神经元数量与预测函数网络参数的维数一致,隐藏层的层数及每层的神经元数量为超参数,层间激活函数为ReLU函数,该多层感知机中每层的权重参数矩阵共同组成预测函数参数的参数,刻画预测函数参数与缺失情况之间的关联性,多层感知机的最终输出为预测函数的参数;模块B3:将预测函数参数网络的输出,作为预测函数的参数,作用于输入的非完整特征,最终得到预测的完整标签。

所述模块C包括:模块C1:定义随机傅里叶特征的函数空间为:

u(A

所述模块D包括:通过最小化非完整特征和缺失情况之间的关联性,求解数据集中每个非完整样本的权重,需求解的优化问题为:

所述模块E包括:通过最小化加权预测重构误差,联合训练预测函数参数网络和预测函数网络,需求解的优化问题为:

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

技术分类

06120115630532