掌桥专利:专业的专利平台
掌桥专利
首页

一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法

文献发布时间:2023-06-19 11:14:36



技术领域

本发明涉及燃气蒸汽锅炉的蒸汽产量生产技术领域,具体涉及一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法。

背景技术

燃气蒸汽锅炉是指利用燃气燃烧加热的蒸汽锅炉。立式蒸汽锅炉采用燃烧机下置方式,两回程结构,燃料燃烧充分,锅炉运行稳定而且占用空间少,同时烟管内插有扰流片,减缓排烟速度,增加换热量,锅炉热效率高,降低用户使用费用;卧式蒸汽锅炉为锅壳式全湿背顺流三回程烟火管结构,火焰在大燃烧室内微正压燃烧,完全伸展,燃烧热负荷低,燃烧热效率高,有效地降低了排烟温度,节能降耗,使用更经济,采用波形炉胆和螺纹烟管结构,即提高了锅炉的吸热强度,又满足了换热面受热膨胀的需要,科学合理,经久耐用。

燃气蒸汽锅炉的节能方式比较多,传统的节能方式更多的关注蒸汽锅炉的性能提升。例如:根据工业生产所需要蒸汽的量合理选择天然气锅炉的额定功率以及锅炉台数,这两种情况与实际使用匹配度越高排烟损失越小,节能就越明显;让燃料与空气充分接触,让适量的燃料和适量的空气组成最佳比例进行燃烧,这样既能提高燃料的燃烧效率,又能减少污染性气体的排放,实现双重节能的目的;降低天然气锅炉的排烟温度,降低锅炉排烟温度,有效利用排烟中产生的余热,常用锅炉的效率为85-88%,排烟温度是220-230℃。若设置省能器等利用排烟热量后,排烟温度下降到140-150℃,锅炉效率可提高到90-93%左右,再辅以其他节能措施,锅炉热效率可以轻松达到95%以上;回收利用锅炉排污水的热量,通过热交换利用连续排污水中的热量,提高除氧水的给水温度达到天然气蒸汽锅炉节能的目的;还可以合理回收供热系统中的凝结水,并对这些冷凝水的热量进行回收利用。

但以上的各种节能方法很快就会达到节能瓶颈,因为各种方法均受到蒸汽锅炉的工艺影响。同时,当锅炉负载变化时,锅炉不一定能维持在热效率最高的工作状态。因此,如果可以准确预测蒸汽锅炉的蒸发量,可以调节蒸汽锅炉的可控参数,使蒸汽锅炉在效率最高的状态下产生同样的蒸汽量。

国内外学者对蒸汽量预测方法多有研究,其现有方法主要包括模糊神经网络、支持向量机、神经网络及混合算法等。以往的预测算法往往需要根据专业人士的先验知识选取输入特征中有用的信息,去掉冗余的信息。并且传统的模型训练方式的周期较长,精确度不高。

发明内容

本发明的目的在于提供一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法,解决现有预测方法过于依赖经验、训练周期长、精确度低的问题。

为解决上述的技术问题,本发明采用以下技术方案:一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法,其特征在于包括如下步骤:

S1、获取燃气蒸汽锅炉的蒸发量生产数据并进行预处理,其中生产数据包括点火压力、熄火压力、蒸汽压力、蒸汽温度、锅炉内温度、锅炉给水温度、锅炉回水温度、锅炉回水压力、天然气流量、给水泵转速、回水泵转速和蒸汽流量;预处理包括数据清理、数据集成、数据规约和数据变换;

S2、对生产数据进行参数选择,选择出对训练数据集预测精度影响较大的参数;根据蒸汽量预测的特点,采用模型方法去筛选特征;

S3、将参数筛选后的数据输入到训练网络当中,训练网络采用自适应权重的融合模型,训练网络对筛选的数据进行数据训练并构建自适应权重的融合模型,得到预测模型;

S4、将测试数据集数据输入到预测模型,得到蒸汽量的预测结果。

更进一步的技术方案是所述步骤S1中数据预处理中当变量缺失率大于80%时,覆盖率低,且通过蒸汽生成原理预判其重要性低,直接将变量删除;定值填充使用-9999进行替代;对于数据符合均匀分布,用该变量的均值填补缺失,对于数据存在倾斜分布的情况,采用中位数进行填补。

更进一步的技术方案是所述步骤S2中采用boosting-tree算法计算各个参数的重要性指数,设置参数阈值,保留重要性指数大于参数阈值的参数,删除重要性指数小于参数阈值的参数。

更进一步的技术方案是所述步骤S3中具体的训练步骤为:

S3-1.模型训练之前,先用岭回归进行预测,剔除训练集中的预测残差在3sigma之外的点。

S3-2.在模型训练阶段,使用训练集的85%的数据分别对线性回归模型、支持向量回归模型和随机森林回归模型进行初步训练训练,针对每个模型均需要进行参数调优的训练和测试;随机森林回归模型中,使用网格搜索对以下参数进行调优:max_features随机森林允许单个决策树使用特征的最大数量和n_estimators需要建立的子树的数量;经过网格搜索后,参数分别设置为:sqrt和200;使用训练集的剩余15%作为验证机,分别对每个模型进行调参处理;

S3-3.在自适应模型融合阶段,使用训练集的剩余15%作为验证集,对各种加权方法进行验证,根据最小均方误差准则,确定三个模型的权重。

更进一步的技术方案是所述步骤S1获取的生产数据选自福士德燃油/气蒸汽锅炉,将获取的数据随机选取4000个组成训练数据集,余下的1000个数据组成测试数据集。

与现有技术相比,本发明的有益效果是:本方法在蒸汽量生产数据基础上应用合理算法,使用boosting-tree算法对模型参数进行选择,采用自适应权重的融合模型算法建立蒸汽量预测模型,选择相应的工艺参数,降低了输入的维数,节省了数据的训练时间。与神经网络(NN)、支持向量机(SVM)、随机森林树和k近邻数据挖掘算法构建蒸汽量的预测模型相比,采用自适应权重的融合模型算法建立的蒸汽量生产预测模型预测精度更高。

附图说明

图1为本发明中的网络模型结构组成图。

图2为蒸汽产生量的拟合效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例

一种基于数据挖掘的燃气蒸汽锅炉的蒸汽量预测方法具体实施步骤如下:

S1、数据获取

蒸汽量生产数据选自福士德燃油/气蒸汽锅炉,生产数据包括点火压力、熄火压力、蒸汽压力、蒸汽温度、锅炉内温度、锅炉给水温度、锅炉回水温度、锅炉回水压力、天然气流量、给水泵转速、回水泵转速和蒸汽流量。以上所有数据通过可编程控制器PLC,每隔1秒钟采集一次,收集72-96小时的运行数据。

将数据集随机分成两部分,第一部分数据集1有4000个数据点,用于通过数据挖掘算法训练和开发预测模型,另一部分数据集2有1000个数据点,用于测试我们从数据集1导出的模型的预测性能。

对获取的数据进行预处理,包括数据清理、变换等,用于删除无关变量、对偏态数据进行正态转换,同时对特征数据进行标准化处理。

针对缺失值的处理方法,主要是基于变量的分布特性和变量的重要性(信息量和预测能力),具体使用了以下方法:

删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。

定值填充:用-9999进行替代。

S2、参数筛选

数据集包含参数为点火压力、熄火压力、蒸汽压力、蒸汽温度、锅炉内温度、锅炉给水温度、锅炉回水温度、锅炉回水压力、天然气流量、给水泵转速、回水泵转速和蒸汽流量。其中一些参数很重要,因为它们相互影响。考虑到对于蒸汽量预测问题,选择较少的特征量能够有效减少模型训练周期,同时为了提高预测精度,采用boosting-tree算法减少参数个数。经过boosting-tree算法计算,得到各个参数的重要性指数,如表1所示。

表1列出了每个输入参数的重要性指数。选择参数的阈值设置为0,根据表1,所有参数的重要性都大于阈值。

表1输入参数的重要性指数

S3、自适应权重的融合模型建模

以线性回归、支持向量回归和随机森林回归作为基础模型,然后采取加权融合的办法进行结合,即对各模型预测结果取加权平均,这样可用避免单个模型在预测某一部分数据时产生较大的误差。加权多模型自适应控制的基本思路是采用“分而治之”的办法,离线建立多个局部模型和对应的多个局部控制器,在线加权融合各个局部控制器的控制输出,从而形成全局控制,是实现鲁棒自适应控制的一类重要方法。自适应算法所采用的最优准则是最小均方误差(LMS)准则。

模型训练之前,先用岭回归进行预测,剔除训练集中的异常样本(预测残差在3sigma之外的点)。

建模过程分为以下两个阶段:模型训练和自适应模型融合。

在模型训练阶段,使用训练集的85%的数据分别对线性回归模型、支持向量回归模型和随机森林回归模型进行初步训练。同时需要注意,针对每个模型均需要进行参数调优的训练和测试。随机森林回归模型中,使用网格搜索对以下参数进行调优:max_features随机森林允许单个决策树使用特征的最大数量和n_estimators需要建立的子树的数量。经过网格搜索后,参数分别设置为:sqrt和200。

使用训练集的剩余15%作为验证机,分别对每个模型进行调参处理。

在自适应模型融合阶段,使用训练集的剩余15%作为验证集,对各种加权方法进行验证,根据最小均方误差(LMS)准则,确定三个模型的权重。

Matlab 10.0(MathWorks,Inc.)中的工具箱功能线性回归、支持向量回归和随机森林回归用于构建预测模型。将参数筛选后的数据输入到训练网络当中,训练网络采用自适应权重的融合模型搭建。本文用于构建以线性回归、支持向量回归和随机森林回归作为基础模型,然后采取加权融合的办法进行结合,即对各模型预测结果取加权平均,这样可用避免单个模型在预测某一部分数据时产生较大的误差。

S4、预测模型性能分析

基于上述参数和自适应权重的融合模型结构,得到了测试数据集的观测和预测数据。结果表明,用自适应权重的融合模型方法建立的模型能较好地预测蒸汽量随时间的变化。除了观测值和预测值之间的微小变化外,建立的模型可以清楚地识别出大多数蒸汽量生产峰值。

使用五个指标,百分比误差(PE)、分数偏差(FB)、均方根误差(RMSE)、标准化均方根误差(NMSE)和一致性指数(IA)来评估数据挖掘算法导出的模型的预测精度。测试数据集的PE为0.10。结果表明,预测值与实测值吻合较好。FB几乎为零,NMSE为0.015。这两种测量结果表明,预测值和观测值之间的差异很小。IA很高,约为0.99。预测值与实测值吻合较好。

S5、验证本发明算法下预测模型准确性

采用神经网络(NN)、支持向量机(SVM)、随机森林树和k近邻数据挖掘算法来构建蒸汽量的预测模型。为了得到性能最好的神经网络,训练了200个网络,其中最大隐藏单元为30个,选择同一性、逻辑、tanh和指数作为隐神经元和输出神经元的激活函数。对于支持向量机算法,核函数的参数:容量在10到20之间,度数在1到5之间,gamma在0.2到1之间,以获得最佳的参数设置。最大迭代次数设置为1000,以减少测试错误。对于随机森林树,预测因子的数量从2到6,树的数量从100到200。随机数发生器的种子选择在1到5之间。对于k-最近邻算法,选择最近邻的个数作为1到15范围内的奇数。

图2的结果表明,自适应权重的融合模型比其他算法建立的模型具有更好的预测精度。具体来说,自适应权重的融合模型衍生的模型的分数偏差几乎为0,这明显小于其他算法的值。自适应权重的融合模型的误差百分比最小。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于数据挖掘的蒸汽锅炉的蒸汽产量的预测方法
  • 一种基于数据挖掘的污水处理厂甲烷产量预测方法
技术分类

06120112859003