掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特征工程和异质集成学习的沼气产量预测方法

文献发布时间:2023-06-19 19:30:30


一种基于特征工程和异质集成学习的沼气产量预测方法

技术领域

本发明涉及电力数据预测技术领域,特别是涉及一种基于特征工程和异质集成学习的沼气产量预测方法。

背景技术

近年来,全球能源需求总量出现了强劲增长势头,由此引发了能源和环保两个事关人类社会未来发展的全球性热点问题。清洁低碳、安全高效已成为世界能源发展的主流方向。生物质能源不同于煤炭、石油和天然气等能源,具有能流密度低和来源广泛的特点,适合构建热电联供系统且能源利用效率高,经济效益显著,同时得益于电力系统低碳化的发展,其在推动实现碳中和目标的过程中具有重要意义。但是基于生物质能进行生产发电的综合能源发电系统存在因人工经验控制造成资源浪费和能源利用率低的问题,因此,提前准确预测系统内相关参量合理进行资源配置,达到利益最大化具有重大意义。

得益于人工智能技术的快速发展,更多的机器学习算法应用到了电力能源领域,目前国内外对生物质在能源系统数据分析方面的研究主要为预测和系统的优化,基于误差反向传播的BP神经网络模型、XGBoost、循环神经网络和支持向量回归机等方法被广泛研究和使用。但是由于数据预测问题的假设空间很大,可能不同的方式在同一训练集上达到同等性能,采用单一方式进行预测可能因为随机性而导致泛化性能不佳。按照预测方式的不同,预测方法可分为单一方法预测和组合预测的方法。但组合预测多为采用均值计算的方式,将多种方法或者同种方法不同参数模型得到的预测结果求取均值,这种方法并不能充分体现不同算法间观测数据的差异性,组合得到的结果也不能良好的发挥各个模型的优势,达不到取长补短的目的。

发明内容

本发明的目的是提供一种基于特征工程和异质集成学习的沼气产量预测方法,提高预测精度,可以为电力系统制定机组组合、鲁棒调度计划时提供准确的沼气波动范围,以合理进行资源配置。

为实现上述目的,本发明提供了如下方案:

一种基于特征工程和异质集成学习的沼气产量预测方法,包括:

对沼气系统的产气原理进行分析,得到初始参数集;

基于所述初始参数集获取沼气系统的历史数据集;所述历史数据集包括参数数据集和产量数据集;

基于所述参数数据集和所述产量数据集,进行相关程度进行计算,并结合特征筛选模型,得到特征参数集;

获取[t-v,t]时间段内所述特征参数集中各特征参数的数据,得到特征参数数据集;t为当前时刻,v为时长;

对所述特征参数数据集进行特征构造,得到构造特征数据集;基于所述特征参数数据集和构造特征数据集构建输入数据集;

基于所述输入数据集和训练好的沼气产量预测模型,得到沼气产量预测序列数据。

优选地,所述基于所述参数数据集和所述产量数据集,进行相关程度进行计算,并结合征筛选模型,得到特征参数集,包括:

基于所述参数数据集和所述产量数据集进行相关程度计算,得到所述初始参数集中各初始参数对沼气产量的相关程度,继而得到参数相关程度集;

基于所述参数数据集和所述产量数据集,结合特征筛选模型,得到特征参数数量;

基于所述特征参数数量对所述参数相关程度集从大到小进行筛选,得到特征相关程度集;

根据所述特征相关程度集与所述初始参数集之间的映射关系,得到所述所述特征参数集。

优选地,所述对所述特征参数数据集进行特征构造,得到构造特征数据集;基于所述特征参数数据集和构造特征数据集构建输入数据集,包括:

对所述特征参数数据集进行特征统计,得到统计数据集;

对所述特征参数数据集进行基础四则运算,得到运算数据集;构造特征数据集包括所述统计数据集和所述运算数据集;

基于所述特征参数数据集、所述统计数据集和所述运算数据集构建所述输入数据集。

优选地,所述沼气产量预测模型选用两层的stacking集成学习模型;

所述stacking集成学习模型的第一层包括m个初级学习器;所述stacking集成学习模型的第二层包括一个元学习器;m为大于1的正整数;

所述基于所述输入数据集和训练好的沼气产量预测模型,得到沼气产量预测序列数据,包括:

基于所述特征参数集对所述参数数据集进行筛选,得到历史特征数据集;

基于所述历史特征数据集对M个预测网络进行训练,得到M个训练好的所述预测网络,进一步得到M个训练好的所述预测网络的误差值;M为大于1的正整数;

基于所述历史特征数据集和M个训练好的所述预测网络,得到M个初级预测数据集;

对M个初级预测数据集进行相关程度计算,得到M个所述训练好的所述预测网络之间的网络相关程度;

基于M个所述误差值和M个所述网络相关程度进行筛选,得到第一网络集和第二网络集;所述第一网络集为所述误差值小于或等于误差设定值且所述网络相关程度大于或等于相关程度设定值的训练好的所述预测网络的集合;所述第二网络集为所述误差值大于所述误差设定值和/或所述网络相关程度小于所述相关程度设定值的训练好的所述预测网络的集合;

基于所述第一网络集构建所述stacking集成学习模型的第一层;

基于所述第二网络集构建所述stacking集成学习模型的第二层,得到N个初始沼气产量预测模型,N为所述第二网络集中训练好的所述预测网络的数量,N为大于或等于1的正整数;

基于所述历史特征数据集对N个所述初始沼气产量预测模型进行训练,得到N个训练好的所述初始沼气产量预测模型,进一步得到N个训练好的所述初始沼气产量预测模型的准确率;

选定所述准确率最大值所对应的训练好的所述初始沼气产量预测模型作为训练好的所述沼气产量预测模型;所述第二层的输入为所述第一层的输出;

将所述输入数据集输入训练好的所述沼气产量预测模型,得到所述沼气产量预测序列数据。

优选地,所述对所述特征参数数据集进行特征统计,得到统计数据集,包括:

对所述特征参数数据集求平均值,得到平均值数据集;

对所述特征参数数据集求标准差,得到标准差数据集;

对所述特征参数数据集求最大值,得到最大值数据集;所述统计数据集包括所述平均值数据集、所述标准差数据集和所述最大值数据集。

优选地,基于K折交叉验证法对M个所述预测网络和N个所述初始沼气产量预测模型进行训练。

优选地,所述特征筛选模型为XGBoost模型。

优选地,所述stacking集成学习模型的第一层包括LSTM神经网络、SVR神经网络、RF神经网络和CatBoost模型。

优选地,所述stacking集成学习模型的第二层选用XGBoost模型。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种基于特征工程和异质集成学习的沼气产量预测方法,包括:对沼气系统的产气原理进行分析,得到初始参数集;基于所述初始参数集获取沼气系统的历史数据集;所述历史数据集包括参数数据集和产量数据集;基于所述参数数据集和所述产量数据集,进行相关程度进行计算,并结合特征筛选模型,得到特征参数集;获取[t-v,t]时间段内所述特征参数集中各特征参数的数据,得到特征参数数据集;t为当前时刻,v为时长;对所述特征参数数据集进行特征构造,得到构造特征数据集;基于所述特征参数数据集和构造特征数据集构建输入数据集;基于所述输入数据集和训练好的沼气产量预测模型,得到沼气产量预测序列数据。本发明提高了预测精度,可以为电力系统制定机组组合、鲁棒调度计划时提供准确的沼气波动范围,以合理进行资源配置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于特征工程和异质集成学习的沼气产量预测方法流程图;

图2为本发明训练好的各初级学习器的误差值示意图;

图3为本发明各初级学习器之间的网络相关程度示意图;

图4为采用本发明的方法进行沼气产量预测的误差频率直方图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种基于特征工程和异质集成学习的沼气产量预测方法,提高预测精度,可以为电力系统制定机组组合、鲁棒调度计划时提供准确的沼气波动范围,以合理进行资源配置。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明基于特征工程和异质集成学习的沼气产量预测方法流程图。如图1所示,本发明提供了一种基于特征工程和异质集成学习的沼气产量预测方法,包括:

步骤S1,对沼气系统的产气原理进行分析,得到初始参数集。

步骤S2,基于所述初始参数集获取沼气系统的历史数据集;所述历史数据集包括参数数据集和产量数据集。

步骤S3,基于所述参数数据集和所述产量数据集,进行相关程度进行计算,并结合特征筛选模型,得到特征参数集。

具体地,所述步骤S3包括:

步骤S31,基于所述参数数据集和所述产量数据集进行相关程度计算,得到所述初始参数集中各初始参数对沼气产量的相关程度,继而得到参数相关程度集。

步骤S32,基于所述参数数据集和所述产量数据集,结合特征筛选模型,得到特征参数数量。本实施例中,所述特征筛选模型为XGBoost模型。

步骤S33,基于所述特征参数数量对所述参数相关程度集从大到小进行筛选,得到特征相关程度集。

步骤S34,根据所述特征相关程度集与所述初始参数集之间的映射关系,得到所述所述特征参数集。

步骤S4,获取[t-v,t]时间段内所述特征参数集中各特征参数的数据,得到特征参数数据集;t为当前时刻,v为时长。

步骤S5,对所述特征参数数据集进行特征构造,得到构造特征数据集;基于所述特征参数数据集和构造特征数据集构建输入数据集。

优选地,所述步骤S5包括:

步骤S51,对所述特征参数数据集进行特征统计,得到统计数据集。

优选地,所述步骤S51包括:

步骤S511,对所述特征参数数据集求平均值,得到平均值数据集。计算公式如下:

式中:x

步骤S512,对所述特征参数数据集求标准差,得到标准差数据集。计算公式如下:

S

步骤S513,对所述特征参数数据集求最大值,得到最大值数据集;所述统计数据集包括所述平均值数据集、所述标准差数据集和所述最大值数据集。求最大值计算公式如下:

x

式中:x

步骤S52,对所述特征参数数据集进行基础四则运算,得到运算数据集;构造特征数据集包括所述统计数据集和所述运算数据集。基础四则运算的计算公式如下:

式中:x

步骤S53,基于所述特征参数数据集、所述统计数据集和所述运算数据集构建所述输入数据集。

步骤S6,基于所述输入数据集和训练好的沼气产量预测模型,得到沼气产量预测序列数据。

可选地,所述沼气产量预测模型选用两层的stacking集成学习模型。

所述stacking集成学习模型的第一层包括m个初级学习器;所述stacking集成学习模型的第二层包括一个元学习器;m为大于1的正整数。所述第二层的输入为所述第一层的输出。

所述步骤S6包括:

步骤S61,基于所述特征参数集对所述参数数据集进行筛选,得到历史特征数据集。

步骤S62,基于所述历史特征数据集对M个预测网络进行训练,得到M个训练好的所述预测网络,进一步得到M个训练好的所述预测网络的误差值;M为大于1的正整数。

步骤S63,基于所述历史特征数据集和M个训练好的所述预测网络,得到M个初级预测数据集。

步骤S64,对M个初级预测数据集进行相关程度计算,得到M个所述训练好的所述预测网络之间的网络相关程度。

计算公式如下:

式中:r为Pearson相关系数;m为预测数据的长度,x

步骤S65,基于M个所述误差值和M个所述网络相关程度进行筛选,得到第一网络集和第二网络集;所述第一网络集为所述误差值小于或等于误差设定值且所述网络相关程度大于或等于相关程度设定值的训练好的所述预测网络的集合;所述第二网络集为所述误差值大于所述误差设定值和/或所述网络相关程度小于所述相关程度设定值的训练好的所述预测网络的集合。

步骤S66,基于所述第一网络集构建所述stacking集成学习模型的第一层;基于所述第二网络集构建所述stacking集成学习模型的第二层,得到N个初始沼气产量预测模型,N为所述第二网络集中训练好的所述预测网络的数量,N为大于或等于1的正整数。

步骤S67,基于所述历史特征数据集对N个所述初始沼气产量预测模型进行训练,得到N个训练好的所述初始沼气产量预测模型,进一步得到N个训练好的所述初始沼气产量预测模型的准确率。

步骤S68,选定所述准确率最大值所对应的训练好的所述初始沼气产量预测模型作为训练好的所述沼气产量预测模型;所述第二层的输入为所述第一层的输出。

步骤S69,将所述输入数据集输入训练好的所述沼气产量预测模型,得到所述沼气产量预测序列数据。

本实施例中,基于K折交叉验证法对M个所述预测网络和N个所述初始沼气产量预测模型进行训练。

具体地,采用某餐厨垃圾发电系统进行说明,发电系统中每个部件的功能如表1所示。实验平台采用开源的Python发行版本Anaconda进行程序编写。实验计算机条件是CPU:酷睿i7-7700,内存:16G,GPU:10708G。

表1餐厨垃圾发电系统部件及功能

发电系统具体原理如下:

餐厨垃圾进入发电系统后首先在蒸煮釜内通过蒸汽进行蒸煮,将垃圾废水中的固、液、油三者进行分离,其中油和固体分离物发展副业,油加工成工业油和肥皂原料等,固体废渣作为高蛋白动物饲料等;液体分离物进入缓冲池,最后在厌氧罐内进行发酵产生沼气,沼气在经过脱水、脱硫和冷却等处理后进入沼气发电机组和燃气锅炉。

初始参数集中各初始参数与沼气产量相关程度如表2所示。

表2初始参数集中各初始参数与沼气产量相关程度

通过进行训练,各初级学习器的预测的误差值如图2所示,各初级学习器之间的网络相关程度如图3所示,继而进行选定,得到所述stacking集成学习模型的第一层包括LSTM神经网络、SVR神经网络、RF神经网络和CatBoost模型。

基于本发明stacking集成学习模型的第一层的组成与其他组合结构进行对比,结果如表3所示。

表3本发明第一层与其他组合结构的对比结果

/>

表3中,MSE为均方误差,MAE为平均绝对误差,MAPE为平均绝对百分比误差,从表3中可以看出,本发明stacking集成学习模型的第一层明显优于其他组合结构。

图4为采用本发明的方法进行沼气产量预测的误差频率直方图,通过对比图4与图2可知,本发明的预测误差集中在区间[-4,4],总体预测精度高于单一方法。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种基于遥感和集成学习的作物产量预测方法
  • 一种基于异质集成学习的汇率波动预测方法
技术分类

06120115930706