导航：首页> 医学或兽医学；卫生学>基于稀疏检测和径向基函数插值的虚拟样本生成方法

基于稀疏检测和径向基函数插值的虚拟样本生成方法

文献发布时间：2023-06-19 09:55:50

技术领域

本发明涉及化工预测技术领域，尤其涉及一种基于稀疏检测和径向基函数插值的虚拟样本生成方法。

背景技术

作为典型的流程工业，石油、化工、电力等制造业一直是关乎国民经济命脉的基础产业和支柱产业，为基础设施建设、交通、能源及人们的日常生活提供了原材料的保障。如今，生产制造业的智能化发展已经受到了各国的高度重视。为了实现生产过程智能化处理、建设石化行业智能工厂的宏伟目标，我国石化企业尤其是在行业占据主导地位的大型央企和国企，亟需面对和解决将先进的信息处理技术与复杂生产过程有机深度融合的问题，提升石化行业的智能化水平。

鉴于石油化工行业有着生产规模巨大、工艺流程复杂、原料繁多等特点，仅仅依靠经验管理难以满足智能化的要求，因此要做出准确的决策和判断，更加需要构建准确且稳定的数学模型，为实施有效的过程控制和优化决策奠定基础，提升其智能化水平，从而保证石油化工生产过程安全、高效、稳定地运行。因此，面向石化工业过程领域的预测建模是非常有必要的。作为一种重要的研究手段，数学建模能够有效的描述对象之间的相关关系，对流程工业而言，常见的建模模型有机理模型(白箱模型)、数据驱动建模(黑箱模型)、混合模型(灰箱模型)等。其中数据驱动建模方法是指模型是在原始数据的基础上，通过输入输出之间潜在的关系建立预测模型。数据驱动建模无需精确的过程模型，模型的结构和参数根据测试误差最小原则得以确定。

随着计算机技术的发展，数据获取能力、计算机的计算能力和速度都得到了明显的提升，但与此同时，海量数据也涌向了各个行业，大数据又成为数据时代的焦点和热点，面对数量庞大的数据，如何运用已知或者未知的工具和模型来对其进行分析和挖掘，找到隐藏在数据背后的深层次信息、知识和规律正是大数据技术要研究的内容。但值得注意的是，虽然身处大数据时代，由于一些行业数据发生概率小、数据的获取难度大、数据获取的成本高或获取的数据有用信息有限等，都会导致可用于分析挖掘的数据数量不足，难以从中获取到足够的信息。因此“大数据，小样本”问题仍然严重。若是采用处理大数据的方法处理小样本数据，由于数据有限且分布松散，样本之间存在着信息间隔，因此不能很好的刻画出全部特征空间，若是直接采用小样本数据进行建模预测，将会产生较大的误差，甚至造成“过拟合”。因此，采用处理大数据的方法来直接对小样本数据进行建模，将会造成较大的误差甚至造成错误的预测。

在解决小样本的方法中，通过扩充样本数量并保证样本的分布性和一致性来填补小样本数据之间的信息空缺是一种有效的方法，被称为虚拟样本生成技术。虚拟样本生成技术是解决小样本问题的一种有效的方法，虚拟样本生成技术在未知样本概率分布函数的情况下，利用研究的先验理论或者假设样本空间的分布函数，通过生成合理的新数据，再将虚拟样本添加到原始小样本集中，以扩充训练样本集，从而使建立的预测模型更加精确。

发明内容

为解决现有技术存在的局限和缺陷，本发明提供一种基于稀疏检测和径向基函数插值的虚拟样本生成方法，包括获取数据，对数据进行预处理，对样本空间进行稀疏检测，根据径向基函数插值生成虚拟样本，对PTA过程醋酸消耗进行GDBT建模；

所述根据径向基函数插值生成虚拟样本的步骤包括：利用原始训练数据建立径向基函数插值模型，所述径向基函数插值模型的表达式如下：

其中，x

获得插值函数，所述插值函数是由多个

将所述插值矩阵转化为如下表达式：

A·c＝f

其中，

对所述插值矩阵进行矩阵求逆，得到权重的表达式如下：

c＝A

获得径向基函数的线性组合插值模型，其中所述径向基函数的项数与样本个数相同，所述径向基函数的线性组合插值模型的表达式如下：

f(x)＝c

根据所述径向基函数的线性组合插值模型获得所述虚拟样本输入空间X

所述对PTA过程醋酸消耗进行GDBT建模的步骤包括：

将生成的虚拟样本集合加入原始训练样本中组成混合训练集，利用所述混合训练集建立GDBT预测模型，根据所述GDBT预测模型对所述PTA过程醋酸消耗进行预测。

可选的，所述获取数据的步骤包括：选择进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力作为输入，选择溶剂脱水塔塔顶电导率作为输出。

可选的，所述对数据进行预处理的步骤包括：对异常数据进行修正，对噪声数据进行滤波，使用固定均值算法进行数据融合，生成包含17组采样值和1组分析值的输出值v

其中，n为采样时刻，N为采样个数。

可选的，所述对样本空间进行稀疏检测的步骤包括：对所述训练数据输入样本空间X

将每个维度上的投影进行升序排列，计算连续两个投影点之间的距离，在距离最大连续两个投影点之间采用中点插值生成虚拟样本输入

使用DBSCAN聚类算法检测离群点，在离群点组成的稀疏空间内均匀产生虚拟样本输入，得到虚拟样本输入空间X

所述样本空间X

本发明具有下述有益效果：

(1)本发明提供了一种新型的虚拟样本生成技术——基于稀疏检测和径向基函数插值的虚拟样本生成技术，该技术可以在原始训练样本的基础上生成与原始训练数据性质和分布足够接近的虚拟样本，与传统通过原始数据直接建立预测模型相比，通过将生成的虚拟样本加入到原始数据，能够有效提高建立预测模型的精度和泛化能力，为化工行业生产建模优化提供了新的思路。

(2)本发明提出的基于稀疏检测和径向基函数插值的虚拟样本生成技术，能够准确检测原始样本空间的样本稀疏空间，并在稀疏空间生成虚拟样本，与传统的虚拟样本生成技术相比，基于稀疏检测和径向基函数插值的虚拟样本生成技术在稀疏空间生成虚拟样本在扩充样本数量的基础上能更好的填补样本空间信息的空缺，在建立预测模型时能够使用更多的信息，提高建立模型的精度。

(3)本发明提出的基于稀疏检测和径向基函数插值的虚拟样本生成技术，通过使用径向基函数插值来得到虚拟样本的属性输出值，与传统的使用原始训练数据建立神经网络模型预测虚拟样本的属性输出值相比，本发明能够得到更加准确的属性输出值，使生成的虚拟样本与原始样本更加贴近，可以有效的提高加入虚拟样本建立预测模型的精度，使建立的PTA过程预测模型更加准确的预测醋酸消耗，为工业生产过程提供参考。

附图说明

图1为本发明实施例一提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法的工作流程图。

图2为本发明实施例一提供的PTA反应流程图。

图3为本发明实施例一提供的投影点最大间距法工作流程图。

图4为本发明实施例一提供的DBSCAN算法流程图。

图5为本发明实施例一在标准函数上与其他方法在虚拟样本属性输出值的比较示意图。

图6为不同样本数目条件下加入40个本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。

图7为相同40个样本条件下加入不同数目本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。

其中，附图标记为：醋酸-水混合液-1；共沸蒸馏塔-2；空气冷却-3；水冷却-4；水回流-5；水流-6；乙酸-7；新鲜醋酸正丁酯供应 -8；来自醋酸正丁酯回收塔-9；回流槽-10；流向醋酸正丁酯回收塔 -11。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法进行详细描述。

实施例一

图1为本发明实施例一提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法的工作流程图。图2为本发明实施例一提供的PTA反应流程图。如图1和图2所示，本实施例提出一种基于稀疏检测和径向基函数(Radial basis function，RBF)插值的虚拟样本生成技术，通过加入虚拟样本来提高建立模型的精度，从而对精对苯二甲酸(PureTerephthalic Acid，PTA)过程醋酸消耗做出准确的预测，实现对PTA生产过程的操作优化，提高PTA生产过程经济效益。本实施例提供的基于稀疏检测和径向基函数插值的虚拟样本生成方法包括：数据预处理过程，对样本空间进行稀疏检测，利用RBF 插值生成虚拟样本，对PTA过程醋酸消耗进行梯度提升决策树 (Gradient Boosting Decision Tree，GBDT)建模。

本实施例中，所述数据预处理过程为：对所述异常数据进行修正、对所述噪声数据进行滤波以及采用固定均值算法进行数据融合，进而生成包含17组采样值和1组分析值在内的输出值v

其中，n为采样时刻，N为采样个数。

图3为本发明实施例一提供的投影点最大间距法工作流程图。如图3所示，所述对样本空间进行稀疏检测为：对输入样本空间数据进行投影，得到每个维度上的投影点，将其升序排列，计算连续两个投影点之间的距离，连续投影点距离最大处即为此维度检测得到的稀疏处，采用中点插值生成一组虚拟样本输入，将生成的数据加入原输入样本空间，重复上述过程；在上述过程基础上采用具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise，DBSCAN)检测离群点，在离群点组成的稀疏空间内均匀产生虚拟样本输入。

本实施例中，所述利用RBF插值生成虚拟样本为：利用原始训练数据建立RBF插值模型，利用建立的RBF模型根据已知训练数据样本空间去预测上述检测得到稀疏空间的虚拟样本输入空间对应的输出值，即为虚拟样本输出空间，从而得到完整的虚拟样本空间。

本实施例中，所述对PTA过程醋酸消耗进行GDBT建模为：将上述生成的虚拟样本加入到原始训练样本中组成混合训练样本，对混合样本建立GDBT模型。

本实施例用于建立GDBT预测模型，用于预测PTA工业生产中的醋酸消耗，采用投影点最大间距法和DBSCAN聚类算法对样本空间进行稀疏检测，采用中点插值在稀疏空间生成虚拟样本输入，并利用RBF插值生成高质量的虚拟样本，将生成的虚拟样本加入原始训练样本，以提高建立GDBT预测模型的精度，从而实现对PTA装置在生产过程中醋酸消耗的精准预测，提高装置的生产效率。

本实施例获得PTA过程训练样本(X,Y)并对数据进行预处理，对PTA数据中异常数据进行修正、对噪声数据进行滤波以及采用固定均值算法进行数据融合，进而生成包含17组采样值和1组分析值在内的输出值v

其中，n为采样时刻，N为采样个数。

本实施例中，PTA数据的输入变量包括进料醋酸含量、进料流量、水回流量、NBA主回流量、NBA侧线回流量、蒸汽流量、塔顶采出量、进料温度、回流温度、塔顶温度、塔板温度、塔板温度、塔板温度、塔内压力、塔板之间可控温度点、回流罐液位、溶剂脱水塔的操作压力；输出变量是溶剂脱水塔塔顶电导率。输入输出变量表如表1所示：

表1输入输出变量

本实施例中，对输入样本空间进行稀疏检测，并在检测得到稀疏空间生成虚拟样本输入，具体过程为：对训练数据输入样本空间

寻找每个维度上的f(i)

本实施例得到一组虚拟样本输入

本实施例设置DBSCAN算法的如下基本概念：

设置Eps近邻的定义：数据集D中一点p的Eps近邻是指在其邻域半径Eps范围内点的集合，表示为Eps(p)，Eps(p)的表达式为：

Eps(p)＝{q∈D|distance(p,q)≤Eps} (5)

设置直接密度可达的定义：数据集D中的p、q两点，如果 p∈Eps(q)且|Eps(q)|≥MinPts，则点p到点q直接密度可达。

设置密度可达的定义：给定一个数据集D，如果存在一个数据链p

设置核心点和边界点的定义：如果一点满足直接密度可达的定义，则它就是核心点；如果一个点不是核心点，但到另一个核心点密度可达，则该点为边界点。

设置密度相连的定义：对于数据集D中一点ω，如果点p和点q 到点ω都为密度可达，则称点p与点q密度相连。

设置簇的定义：对于数据集D，簇C定义为D的一个非空子集且满足下述条件：1、对于

设置噪声点或离群点的定义：假设C

本实施例中，DBSCAN算法执行步骤具体描述如下：

输入：数据集D，半径参数Eps，密度阈值MinPts；

输出：聚类结果及噪声数据或离群点数据；

步骤1：从数据集D中随机选取一个未被处理的对象p，且在它的Eps邻域满足密度阈值要求称为核对象；

步骤2：遍历整个数据集，找到所有从对象p的密度可达对象，形成一个新的簇；

步骤3：通过密度相连产生最终簇结果；

步骤4：重复执行步骤2和步骤3，直到数据集中所有对象都为“已处理”。

基于密度的聚类就是一组“密度相连”的对象，以实现最大化的“密度可达”，不包含在任何聚类中的对象就是噪声数据。

图4为本发明实施例一提供的DBSCAN算法流程图。如图4所示，在离群点组成的稀疏空间内均匀产生虚拟样本输入，得到另一虚拟样本输入空间：

本实施例中，样本空间

虚拟样本输入空间

所述样本空间X

本实施例利用原始训练数据建立RBF插值模型

令

则插值矩阵简写为：

A·c＝f (8)

通过矩阵求逆，可以得到权重：

c＝A

最后得到RBF的线性组合插值模型，其中，RBF的项数与样本个数相同：

对于上述插值模型，只要满足矩阵A是正定矩阵，则插值模型总是存在唯一解。高斯基函数和反高斯基函数在任意维度空间下都是正定的，用这两种基函数进行RBF插值，插值矩阵是正定矩阵。对于非正定基函数，可以对原RBF插值表达式进行稍微修改，在表达式中添加一个多项式，使其插值矩阵呈现为条件正定，使得矩阵 A的逆唯一，这样也能保证RBF的可解性。对于非正定矩阵，则采用如下插值函数表达式：

其中，p(x)＝λ

使其满足附加条件：

使其插值矩阵为条件正定

表达式可以简写为：

其中，

本实施例中，常用的RBF函数有：

广义Multi-Quadic函数：

其中，

广义逆Multi-Quadic函数：

其中，

Markov分布函数：

其中，r是欧几里得距离，取a＝0.1，即形状函数。

高斯分布函数：

其中，r是欧几里得距离，取a＝0.1，即形状函数。

体积样条函数：

其中，一般取r为欧几里得距离。

薄板样条函数：

其中，d为空间维数，且有2k-d＞0，在x∈R

本实施例利用得到的插值模型得到虚拟样本输入空间X

所述虚拟样本输出空间Y

本实施例对PTA过程醋酸消耗进行GDBT建模具体包括：将生成的虚拟样本集合加入原始训练样本中组成混合训练集，并建立 GDBT预测模型，对醋酸消耗进行预测。

图5为本发明实施例一在标准函数上与其他方法在虚拟样本属性输出值的比较示意图。图6为不同样本数目条件下加入40个本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。图7为相同40个样本条件下加入不同数目本发明实施例一生成的虚拟样本的均方误差MSE比较示意图。为了验证本发明的有效性，以某化工企业的PTA过程中溶剂脱水塔生产装置为实际应用对象进行GDBT 建模，目的是准确预测装置运行过程中塔顶的醋酸消耗，从而减少不必要的醋酸消耗，提高PTA过程的生产效益。PTA作为聚醋化工生产中的重要原材料之一，在化学纤维、轻工和电子等领域具有广泛的应用，前景十分广阔。PTA溶剂系统作为PTA生产的重要系统，其分为PTA溶剂脱水塔、再蒸馏器及回流槽三个部分，其中醋酸的消耗量被认为是检验反应体系是否有效的重要指标之一，降低减少醋酸的消耗能够减少生产成本，改善经济效益。实验结果表明，与不加虚拟样本相比，加入本发明所提出的基于稀疏检测和RBF插值生成的虚拟样本能有效提高建立GDBT模型的精度，能够实现对 PTA过程醋酸消耗更加精确的预测，也具有更好的泛化能力和鲁棒性。

本发明提出一种基于稀疏检测和径向基函数插值的虚拟样本生成方法，通过在原始样本中加入虚拟样本来提高建立PTA过程预测模型的精度，从而根据预测模型减少醋酸消耗，提高PTA生产过程效益。本发明首先获取数据进行数据预处理，对样本空间进行稀疏检测，利用径向基函数插值生成虚拟样本，最终对PTA过程醋酸消耗进行GDBT建模，从而改善了PTA过程建模，提高了建模精度。本发明提出一种基于稀疏检测和径向基函数插值的虚拟样本生成方法，采用投影点最大间距法和DBSCAN聚类算法对样本空间进行稀疏检测，使用中点插值在稀疏空间生成虚拟样本输入，利用径向基函数插值生成高质量的虚拟样本，将生成的虚拟样本加入原始训练样本，从而提高了建立GDBT预测模型的精度。本发明通过生成虚拟样本来扩充原始样本实现对PTA生产过程的建模。实验结果表明，本发明能够生成高质量的虚拟样本，加入虚拟样本能有效提高建立模型的精度和泛化能力，具有广泛的应用性。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：朱群雄;刘德平;贺彦林;徐圆;张洋;
专利申请人：北京化工大学;