掌桥专利:专业的专利平台
掌桥专利
首页

可解释集成学习的间歇过程质量在线预测方法

文献发布时间:2023-06-19 13:45:04


可解释集成学习的间歇过程质量在线预测方法

技术领域

本发明涉及的是一种信息处理领域的技术,具体是一种可解释集成学习的间歇过程质量在线预测方法。

背景技术

间歇生产过程已被广泛应用于精细化工、生物制药、食品加工等诸多领域。由于涉及非常复杂的物理化学反应,并受到外部不确定因素的极大干扰,间歇过程的最终产品质量难以保持稳定,因此生产现场需要及时调整工艺参数。然而,最终产品质量只能在生产结束后进行离线测量,质量反馈严重滞后,且需要较高的人力和时间成本,设计准确性高、解释性强的质量在线预测方法已成为必然选择。

现有针对间歇过程质量预测的研究大致分为第一性原理方法和数据驱动方法。前者通过物理、化学实验或仿真,并借助统计学模型来推理实际工业过程的因果关系,只有深刻理解其中的物理化学规律,该类方法才能很好地发挥作用。随着数据采集和机器学习等技术的广泛应用,数据驱动方法已成为间歇过程质量预测研究的主流,其重点在于挖掘数据中的关联关系,而不试图反映实际工业过程的因果关系,例如偏最小二乘(PLS)、主成分分析(PCA)、支持向量回归(SVR)等浅层学习模型,以及多层感知器(MLP)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等先进的深度学习模型。

然而,这些数据驱动方法用于间歇过程的质量预测仍面临如下挑战:

1)影响因素众多:间歇生产过程往往涉及复杂、持续的物理化学反应,是典型的多变量控制过程。通常,与温度、压力和时间相关的工艺变量是影响间歇过程产品质量的主要因素,然而并不是所有的变量都有利于质量预测。这些影响因素之间相互作用,存在很强的非线性关联关系,很难准确地提取质量相关信息、并有效去除冗余信息。

2)分时段特性:变量间的相关关系并非随时间时刻变化,而是跟随生产进程发生规律性的改变,呈现分段性。在不同的时段,影响最终产品质量的因素不同,也就是说,最终产品质量由过程变量在不同时段的动态轨迹决定,且每个过程变量对最终产品质量的贡献可能不同,在建模过程中应该予以充分考虑。

3)可解释性差:现有浅层/深度学习的解决思路通常侧重于提升预测精度,而忽略了模型的可解释性,尽管高精度的质量预测很重要,但在工业领域内模型可解释并与工艺知识达成一致,也是实现安全、可靠应用的必然要求。

发明内容

本发明针对现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,提出一种可解释集成学习的间歇过程质量在线预测方法,通过多时段特性进行最终产品质量建模来描述间歇过程的工艺机理,并在关联和预测两方面分别通过Copula熵和堆叠集成随机森林算法实现间歇过程关键变量选择和质量定量表征,显著提升了质量预测的可解释性,可以帮助现场工程师准确地把握生产运行状态和产品质量信息,进而为间歇过程的控制决策提供有用参考。

本发明是通过以下技术方案实现的:

本发明涉及一种可解释集成学习的间歇过程质量在线预测方法,通过传感器采集的间歇过程历史数据集建立最终产品质量模型,经数据预处理得到候选输入变量;分时段计算候选输入变量与最终产品质量之间的Copula熵并进行排序,选取Copula熵最大的前M个候选输入变量作为关键变量;根据最终产品质量模型设计堆叠集成随机森林算法,训练该堆叠集成随机森林算法后,利用训练得到的堆叠集成随机森林算法对间歇过程的最终产品质量进行在线预测。

所述的间歇过程历史数据集包括:1)时段无关变量V

所述的最终产品质量模型,即时段无关变量以及时段相关变量在每个时间点产生影响的加权叠加:

所述的数据预处理是指在每个时段提取时段相关变量的6个时序特征,包括:均值

所述的候选输入变量与最终产品质量之间的Copula熵通过K近邻方法进行近似估计,具体为:

所述的堆叠集成随机森林算法,首先采用随机森林算法学习不同时段对最终产品质量的局部影响Q

本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、关键变量选择模块、质量预测模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到关键变量选择及质量预测建模所需历史数据集;关键变量选择模块根据历史数据信息,选择与质量变量关系密切的变量集合,从而剔除冗余信息、降低质量预测建模难度和模型复杂度;质量预测模型构建模块综合考虑历史数据和应用对象,选定合适的预测方法建立模型;模型维护模块根据质量预测模型投入使用一段时间后的性能下降趋势,对质量预测模型进行在线校正,以保证模型预测的准确性和可靠性。

技术效果

本发明通过关键变量选择模块和质量预测模型构建模块考虑多时段的最终产品质量建模、Copula熵关键变量选择和堆叠集成随机森林实现可解释集成的高精度间歇过程质量在线预测。本发明整体解决了现有数据驱动方法缺乏可解释性、难以与工艺知识达成一致的问题,其准确性及解释性均高于现有技术。

附图说明

图1为本发明流程图;

图2为批产过程历史数据集示意图;

图3为间歇过程最终产品质量模型示意图;

图4为随机森林算法流程示意图;

图5为质量在线预测结果的实验对比图;

图6为质量在线预测结果的散点对比图;

图7为质量在线预测误差的概率密度曲线对比图。

具体实施方式

本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。

本实施例基于第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程16600个生产批次样本,包括86个时段无关变量和22个时段相关变量,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。

如图1所示,为本实施例涉及的一种可解释集成学习的间歇过程质量在线预测方法,包括以下步骤:

步骤A:获取传感器采集的间歇过程历史数据集,分析数据集中3种类型的原始数据,如图2所示,构建最终产品质量模型。在本实施例中,时段无关变量数目为86个,时段相关变量数目为22个,最终产品质量指标为3维产品尺寸Size 1、Size 2和Size 3。

步骤B:数据预处理。本实施例中,针对22个时段相关变量,在注塑成型过程的11个关键生产时段:合模、注射、保压、熔胶、后松退、冷却、开模、顶进、顶退、中子进和中子退,分别提取22个时段相关变量的6个时序特征,即每个生产时段p(p=1,2,…P)衍生出132个候选输入变量。

步骤C:Copula熵关键变量选择。本实施例中,针对86个时段无关变量,依次计算每个变量与最终产品质量指标的Copula熵,并按照大小进行排序,选择Copula熵最大的前30个变量(即M=30)定义为生产时段p=0的关键变量集S

步骤D:训练堆叠集成随机森林算法,获得不同时段对最终产品质量的局部影响Q

步骤E:输入在线数据或测试集样本,进行间歇过程最终产品质量的在线预测。在本实施例中,采用测试集数据模拟质量在线预测的过程,并选择线性回归(LR)、K近邻回归(KNN)作为基准方法进行了对比实验,本方法获得了最佳性能。对比结果如表1所示,可以看出本方法获得了最低的RMSE和最高的R

表1性能对比结果

如图5所示,为3种方法对质量在线预测结果的实验对比,如图可见,本方法可以更有效地预测质量的微小波动。

如图6所示,为质量在线预测结果的散点对比图,可以看出,本方法的质量预测值比其他方法更接近真实值。

如图7所示,为质量在线预测误差的概率密度曲线对比图,可以看出,本方法的概率密度曲线比其他方法更瘦、更高,这进一步证明了其优越性。

经过具体实际实验,在Windows10/Python3.7的具体环境设置下,以第四届工业大数据创新竞赛中富士康集团提供的注塑成型过程数据集对本发明进行测试,能够得到的实验数据是:如表1所示的各项指标均优于现有方法。

与现有技术相比,本方法通过计算Copula熵更好的提取了不同时段对最终产品质量的关键影响信息,通过堆叠集成随机森林算法综合考虑了多时段制造偏差对最终产品质量的累积影响。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

相关技术
  • 可解释集成学习的间歇过程质量在线预测方法
  • 一种基于自动聚类结合偏最小二乘的间歇过程质量预测方法
技术分类

06120113791549