掌桥专利:专业的专利平台
掌桥专利
首页

对时变分布数据进行回归预测在线迁移学习的方法

文献发布时间:2023-06-19 11:22:42


对时变分布数据进行回归预测在线迁移学习的方法

技术领域

本发明涉及深度迁移学习领域,尤其涉及一种对时变分布数据进行回归预测在线迁移学习的方法。

背景技术

随着传感器技术的进步和机器学习方法的快速发展,数据驱动方法在分类和回归预测任务中的应用越来越广泛。特别是一些深度学习方法已经成功地应用于图像识别和异常检测等任务中,如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。深度学习方法可以很好地自动学习到输入数据的特征。大多数这些方法都假设训练数据和测试数据具有相似的分布。然而,由于工况变化或工艺参数的不同,许多实际应用中的数据分布是非平稳的,即会随着时间发生变化,这会导致不可靠的预测结果。为了解决这一问题,近年来人们对迁移学习进行了积极的研究,其目的是使一个在源域中训练的模型能够很好地应用于目标域中的数据。迁移学习的一个常用的思想是提取出各个域之间相互接近且包含足够判别输出信息的特征。通过将深度学习与迁移学习相结合,基于深度迁移学习的方法可以在不同任务中自动提取出域不变且包含足够判别输出信息的特征。

现有的关于迁移学习的研究工作大多假设预先提供了目标域的数据。然而,在一些实际应用中,如多语言文本分类、制造过程监控等,目标域的数据往往是依次到达的。在线迁移学习(Online Transfer Learning,OTL)作为迁移学习的一种,旨在处理依次到达的目标域数据。在OTL中的在线阶段,模型依次接收一个或多个输入数据及其对应的标签,然后根据最近数据的预测误差对预测模型进行更新。近年来,OTL得到了广泛的研究,然而,大多数的工作都致力于解决分类问题而关注回归预测问题的很少,但是回归预测问题在工业实践中非常常见。

现有的OTL方法假设目标域的数据分布是不变的。然而,在工业实践中,目标域数据的分布可能会随着时间而变化,即产生时变分布的数据,因此需要一种新的OTL方法来适应这种情况。

发明内容

为了克服现有技术的缺陷,本发明的目的在于提出一种对时变分布数据进行回归预测在线迁移学习的方法。为此需要建立适当的模型,通过迁移学习技术使模型能够提取出域不变且包含足够判别输出信息的特征,再根据在线预测的结果对模型进行不断更新,从而提高模型对新数据的预测准确度。

本发明提出的方法包括线下和在线两个阶段。在线下阶段,利用最大均值差异和均方误差作为深度神经网络的损失函数训练深度神经网络模型,使其能提取出域不变且包含足够判别输出信息的特征;在在线阶段,通过一种模型更新策略和模型融合方法,保证对时变分布数据的在线预测准确度。

具体地,本发明提供的一种对时变分布数据进行回归预测在线迁移学习的方法,其包括以下步骤:

S1:获取线下时变分布数据及其对应的标签,并对数据进行归一化,其中所述时变分布数据指多个传感器测量得到时间序列数据,且其分布随时间变化;

S2:将所述S1中获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分,分别记为D

S3:用所述S2中的D

S4:用D

S5:在在线阶段,用最近的3000个有标签的样本精调所述S3中训练完成的LSTM-DTLN模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为

S6:利用所述S4中的LSTM-DNN和所述S5中得到的

S7:监测所述S6中的预测误差,当误差超过阈值th

S8:计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异,当它超过预定阈值th

可优选的是,所述预测模型的输入数据,是由多个时间步的多个传感器监测数据构成的矩阵。

可优选的是,在所述S3中训练LSTM-DTLN时的损失函数包含两个部分。首先,模型学习到的特征应包含足够的判别输出的信息。因此,第一个优化目标是最小化模型在D

式中,L

式中,

式中,f

L=L

式中,超参数λ表示第二个损失函数的权重,可以根据对提取出的特征的可视化确定其取值。

可优选的是,在所述S6中将所述S4中的LSTM-DNN和所述S5中得到的

式中,

式中,y

可优选的是,所述S7中监测预测误差时,每接收到n(n>1)个真实标签计算一次模型的预测值与真实标签的均方根误差,以减少随机性的影响,当该误差超过预定阈值时,即精调LSTM-DTLN.

可有选的是,所述S8中阈值th

与现有技术相比,本发明具有以下有益效果:

1、本发明将深度学习与0TL相结合,深度神经网络不仅能自动学习特征,而且具有良好的可迁移性,模型可以通过精调来适应新的数据,使得方法可以用于在线回归预测任务;

2、本发明能够解决时变分布数据的在线回归预测问题,在线下阶段,基于已有的有标签多维时序数据,即时变分布产生的源域数据,建立了第一预测模型,为了减小数据分布的差异,通过多层LSTM神经网络,并借助一个分布差异度量来学习域不变特征;在在线阶段,预测模型依次接收到在线数据,即时变分布产生的目标域数据,根据最近数据的预测误差,采用基于精调的更新策略对第一预测模型进行更新,这样,边际概率分布和条件概率分布的差异对预测任务的不利影响就可以得到缓解。

3、本发明通过一种集成方法来避免在线阶段更新模型时过拟合和欠拟合的问题,从而获得更好的在线回归预测效果。

附图说明

图1是本发明一种对时变分布数据进行回归预测的在线迁移学习方法的步骤流程图;

图2是柴油加氢精制过程及部分传感器示意图;

图3时柴油加氢精制在线监测过程示意图;

图4是LSTM-DTLN模型的结构示意图;

图5(a)-5(c)是不同λ得到的LSTM-DTLN模型学到的特征的可视化示意图;

图6是LSTM-DNN模型的结构示意图;

图7是不同方法的在线数据预测绝对误差箱型图。

具体实施方式

为更好的理解本发明的技术方案,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

本发明提出一种对时变分布数据进行回归预测的在线迁移学习方法,在线下阶段建立第一预测模型和第二预测模型,在在线阶段对第一预测模型进行更新,再结合一种模型集成方法,从而获得更准确的在线预测结果。如图1所示,具体实施步骤如下:

步骤S1:获取线下时变分布数据及其对应的标签,并对数据进行归一化,其中时变分布数据指多个传感器测量得到的时间序列数据,且其分布随时间变化。

在本实施例中,所用数据是某石化车间柴油加氢精制过程的实际数据。数据收集自柴油加氢精制过程。加氢精制是在一定的温度、压力、氢油比和空速条件下,将原料油和氢气通过反应器催化剂床层的过程。在催化剂的作用下,硫、氮、氧等非烃化合物转化为相应的碳氢化合物、硫化氢、氨和水,从而降低柴油中的硫含量。图2简要说明了该过程和一些传感器。硫含量取决于原料油的性质、催化剂的活性以及反应温度、流量等工艺参数。通过利用多个传感器的在线监测数据预测硫含量,有助于调整工艺参数从而满足生产需求,时间序列数据即是这些传感器记录的原料油的性质和加氢精制过程的工艺参数。传感器包括温度传感器和流量(含量)传感器,共19个传感器。

在每个时间点i,记录这19个传感器的监测数据,并用m

随着时间的推移,催化剂的活性逐渐降低,这对反应有直接的影响。然而没有传感器可以测量催化剂的活性。此外,原料油的性质也可能发生变化。因此,这些监测数据的边际概率分布和条件概率分布都会随时间发生变化,即是时变分布数据。

获取

步骤S2:将获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分,分别记为D

步骤S3:用D

在线下阶段训练LSTM-DTLN时的损失函数包含两个部分,即L

式中,m是D

式中,

式中,f

L=L

式中,超参数λ表示第二个损失函数的权重,过小的λ会导致

训练过程中其他的超参数如表1所示:

表1.线下阶段训练LSTM-DTLN模型的相关超参数.

步骤S4:用D

步骤S5:在在线阶段,用最近的3000个有标签的样本精调线下阶段获得的LSTM-DTLN模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为

步骤S6:利用步骤S4中的LSTM-DNN和步骤S5中得到的3个LSTM-DTLN对在线数据进行预测,并将预测结果加权起来,从而得到最终的预测结果。在时间点i,给定一个样本X

式中,

式中,y

通过上述模型集成方法,可以有效地避免精调时模型过拟合和欠拟合问题,从而获得准确的在线预测结果。

步骤S7:监测在线预测误差,计算每80个在线数据的预测误差,当误差超过阈值th

表2.在线阶段更新LSTM-DTLN模型相关的超参数.

通过利用在线数据对模型不断更新,可以有效地解决数据的条件概率分布差异,使模型适用于不断更新的在线数据。

步骤S8:计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异,当它超过预定阈值th

在本实施例中,按照上述方法步骤,在线阶段第一预测模型共更新6次,每次更新后的预测误差如表3所示,表中用均方根误差(RMSE)计算预测误差。作为比较,采用了两种广泛使用的迁移学习技术,一种是对模型的全连接层进行微调(用FTNN表示),另一种是神经网络的领域对抗性训练(用DANN表示)。在本文中,FTNN以LSTM-DNN模型为基础模型,当在线预测误差超过阈值时对全连接层进行微调,DANN只是在LSTM-DNN模型中加入一个域分类器,用特征提取器和域分类器对抗训练的方式提取域不变特征。二者的预测误差在表3中给出,可以看出,本发明的在线回归预测方法优于其他方法,能够更好地对由时变分布产生的在线数据进行预测。由于条件概率分布的差异,无更新的LSTM-DTLN模型的表现并不令人满意。FTNN可以利用最近的数据对模型进行更新,但不能学习域不变特征。另一方面,DANN可以通过域对抗性训练学到域不变特征,但缺乏适应新数据的模型更新策略。因此,这两种迁移学习技术不能很好地应用于时变分布数据的在线回归预测任务。

表3.不同方法的在线预测均方根误差.

为了进一步说明本发明的模型集成方法的有效性,图7给出了通过不同方法得到的在线数据中每个样本的绝对误差的箱型图。可以看出,本发明方法的预测误差的标准差较小,这意味着预测准确度和稳定性都得到了提高。

最后应说明的是:以上所述的实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 对时变分布数据进行回归预测在线迁移学习的方法
  • 基于锅炉主汽压力历史数据的在线动态自回归预测方法
技术分类

06120112899778