掌桥专利:专业的专利平台
掌桥专利
首页

基于两段式特征选择和随机森林改进模型的短期风电功率预测方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明属于新能源发电技术领域,特别是涉及一种基于两段式特征选择和随机森林改进 模型的短期风电功率预测方法。

背景技术

开展短期风电功率预测,对优化电力调度方式、提高电网接纳风电水平具有重要意义。 受风能资源自身特征影响,风电功率随机性强、规律性弱,现有短期风电功率预测准确度、 自适应能力有待提高。

风电功率预测方法一般是基于神经网络模型及其改进模型,往往存在训练过程过拟合、 泛化能力不足等问题。目前,改进方法主要有:一是优化训练目标,控制模型参数复杂性, 即,在目标函数或损失函数(Cost Function)中,增加正则化(Regularization)因子、松弛变 量(Slack Variable)或置信风险,使训练目标更为松弛,或提前终止训练,常见的算法有贝叶 斯神经网络(Bayesian Network)、支持向量机,以及深度学习中的卷积神经网络(CNN)、网 络节点裁剪技术(Dropout)。二是改进训练方式,提高数据特征多样性,即:1)利用实测数 据定期更新训练样本,对模型参数进行滚动修正;2)训练过程中采用交叉验证法(Cross Validation,CV),对输入样本进行特征重组,如:k折交叉验证、留一法、Holdout验证法。 近年来出现了数据增强(Data Augmentation)技术,根据先验知识对有限样本集进行重复抽 样,增加样本特征的多样性和随机性,如Bagging方法、集成学习、随机森林。三是采用组 合预测方法,增强模型自适应能力:利用预测对象不同的特征分量,或者在预测过程的各个 环节,开展不同算法的适应性分析,确保模型组合后能够适用于多个预测场景,预测结果更 加接近实际情况。

统筹考虑上述改进措施,本发明提出了一种基于两段式特征选择和随机森林改进模型的 短期风电功率预测方法,1)利用Bagging方法对亲密样本进行随机重采样,提高了训练样本 的特征多样性,属于第二类改进方法;2)随机森林是多个决策树的组合模型,对决策树性能 排序、约简、重组,进一步提高随机森林模型泛化能力,也顾了第一、三类改进方法。

发明内容

本发明所要解决的技术问题是:提供一种预测准确度高、计算效率高、抗干扰能力强, 能够解决现有风电预测模型训练过拟合、泛化能力不足技术问题的基于两段式特征选择和随 机森林改进模型的短期风电功率预测方法。

解决其技术问题采用的方案是,一种基于两段式特征选择和随机森林模改进型的短期风 电功率预测方法,其特征是:它包括以下步骤:

步骤1:基于两段式特征选择的训练样本筛选

1.1关键特征选择

风电场历史数据由气温、气压、湿度、风向、10m风速、30m风速、50m轮毂风速、70m风速、100m风速、风电历史功率10个特征变量组成,采用如下两种方法,对这10个特征变 量的重要性进行评估,

方法1:利用随机森林模型,对每个特征变量进行重要性评估,发现所述10个特征变量 的重要性指标参差不齐,其中,50m轮毂风速、风电历史功率的重要性大,能够归类为关键 特征变量,其他特征变量则作为冗余特征剔除;

方法2:分别以单个特征变量为输入,进行随机森林模型的训练,得到所述10个特征变 量所对应的10条预测误差曲线,根据误差曲线分群情况,发现50m轮毂风速、风电历史功 率训练出来的模型预测误差整体小,能够归类为关键特征变量,其他特征变量则作为冗余特 征剔除;

1.2亲密样本筛选

除了剔除冗余特征变量外,还需要从关键特征变量的海量历史数据中筛选出与预测目标 强相关的亲密样本集,其计算过程分为两步:

a)日样本构建:将风电场历史数据,包括风电功率P、风速V转换为每日数据样本{P

b)亲密样本筛选:将每日风电数据样本进行归一化处理后,分别计算每日风电数据样本 与预测日参考样本的关联度指标,并按关联度大小进行降序排列,筛选出强相关的前2M个 样本,设M=20作为亲密样本集{P

步骤2:基于随机森林改进模型的风电功率预测

2.1随机森林的基本流程

随机森林(Random Forest,RF)是一种并联组合方式的集成学习方法,包括Bagging方 法、随机子空间理论,随机森林的计算过程为:

1)对原始样本集使用Bagging方法进行有放回地随机重采样,得到多个训练样本子集, 分别用于每棵决策树的训练,利用袋外样本集(Out of Bag,OOB),对随机森林模型的泛化 误差进行无偏估计,

设原始训练样本集的样本总数为N,则每个样本未被抽中的概率为:

其中,x为训练样本,P为袋外样本集的概率分布,S

公式表明,原始样本集中,有36.8%的样本不会出现在训练样本中,将未被抽中的样本 组成袋外样本集OOB,用于估算随机森林模型的泛化误差,等同于k折交叉验证的过程;

2)基于随机子空间理论,从训练样本的特征变量中随机选取一部分特征变量参与决策树 的训练,使其自上而下地分枝生长,直至达到设定的叶节点尺寸为止;

3)将步骤1)和2)重复M次,能够训练得到M棵决策树,将M棵决策树组合起来, 便构成随机森林模型。集成学习理论证明,每棵决策树误差应小于50%,随着决策树棵数的 增多,随机森林的整体误差减小,最终趋于一个相对稳定的下限值;

4)将训练好的随机森林用于测试样本集,多棵决策树的预测结果按一定集成规则进行优 化组合后,即得到随机森林的预测值,对于分类问题,集成规则主要采用投票法;对于回归 及预测问题,集成规则主要采用平均法;

2.2随机森林改进模型的提出

随机森林模型集成了大量的决策树,涉及到的特征变量数量庞大,模型可解释性降低, 尤其是双重随机性的引入,使得随机森林像“黑箱”模型,其内部优化过程缺乏可观性、可控 性,物理可解释性差,可信度有待评估,此外,OOB袋外样本源于训练样本集,其与训练样 本属于同一分布,难以超越训练样本集的固有特征,故基于OOB样本的泛化误差评估仍属于 内部验证过程,在决策树性能评估阶段,还需要追加一些新样本,并引入外部验证指标,以 提高模型对未知样本的泛化能力,因此,提出了一种基于外部检验指标和决策树重组的随机 森林改进模型:

①增加决策树筛选、重组环节

Bagging随机重采样策略有助于增强子模型的独立性,提高随机森林模型的泛化能力,根 据随机子空间理论,将Bagging方法改为Subagging方法,以提高袋外样本OOB的比重,基 于选择性集成学习思想,在随机森林模型中增加决策树筛选、重组环节,旨在对训练出的每 棵决策树进行预测性能评估,剔除预测性能差的决策树,以削弱虚假样本对随机森林模型训 练产生的不良影响;

②基于NWP风速的外部检验指标

OOB误差是对模型泛化误差的无偏估计,只能估计训练样本对应的模型泛化误差,仍属 于内部检验指标,由于日前风电功率的预测日样本与训练样本的差异性很大,用OOB误差指 标估计预测日样本对应的模型泛化误差会失效,

采用迁移学习(Transfer Learning,TL)方法,将有助于提高模型的泛化能力,即:提高 训练样本、预测样本之间的特征相似性,以提高模型从训练域到目标域的可迁移性,因此, 在决策树筛选环节,提出一种参考数值天气预报(Numerical Weather Prediction,NWP)的外 部检验指标,即,将每棵决策树的预测结果与预测日的NWP风速进行关联度分析,根据关联 度指标大小筛选出与预测日风速强相关的决策树子集,进而重组成新的随机森林,使其增强 在预测集上的泛化能力。

通过上述设计方案,本发明带来如下有益效果:

1)随机森林模型经决策树排序后,预测误差先降后升、存在拐点,增加了决策树筛选、 重组环节后,使得随机森林的预测误差更小、训练成本更低;

2)与原有的OOB误差指标相比,基于NWP风速特征的外部验证指标,能够进一步提高 随机森林模型的泛化能力,降低预测误差;

3)其科学合理、适用性强、计算效率高、抗干扰能力强。

附图说明

图1为本发明的流程结构示意图;

图2(a)对所有特征变量进行重要性评估示意图;

图2(b)对每个特征变量进行OOB误差指标估计示意图;

图3为随机森林的基本流程图;

图4(a)为随机森林每棵决策树的关联度指标示意图;

图4(b)为原随机森林模型的泛化误差变化示意图;

图4(c)对每棵决策树关联度指标进行降序排列示意图;

图4(d)为降序排列后的随机森林模型泛化误差变化示意图;

图4(e)为选取关联度指标大于平均值的决策树示意图;

图4(f)为决策树重组后的随机森林模型泛化误差变化示意图;

图5(a)为BP神经网络对训练数据集的预测结果示意图;

图5(b)为BP神经网络对预测数据集的预测结果示意图;

图6(a)为随机森林模型对训练数据集的预测结果示意图;

图6(b)为随机森林模型对预测数据集的预测结果示意图。

具体实施方式

以下结合附图和具体实施方式对本发明作进一步的说明:

为了使公众能充分了解本发明的技术实质和有益效果,申请人将在下面结合附图对本发 明的具体实施方式详细描述,但申请人对实施例的描述不是对技术方案的限制,任何依据本 发明构思作形式而非实质的变化都应当视为本发明的保护范围。

参照图1,本发明的一种基于两段式特征选择和随机森林模改进型的短期风电功率预测 方法,包括以下步骤:

步骤1:基于两段式特征选择的训练样本筛选

1.1关键特征选择

风电功率预测涉及的数据源主要有:近年来风电场发电功率历史数据、测风塔各类气象 信息历史数据、未来几天的NWP数据。模型训练样本通常由气温、气压、湿度、风向、10m 风速、30m风速、50m轮毂风速、70m风速、100m风速、风电功率历史功率10个特征变量组成,采用如下两种方法,对这10个特征变量的重要性进行评估。

方法1:利用随机森林模型,对每个特征变量进行重要性评估,发现所述10个特征变量 的重要性指标参差不齐,如图2(a)所示,第7、10个特征变量(即:轮毂风速、风电历史功 率)重要性明显较大,可以归类为关键特征变量,其他特征变量则作为冗余特征剔除。

方法2:分别以单个特征变量为输入,进行随机森林模型的训练,得到10条预测误差曲 线,如图2(b)所示,根据误差曲线分群情况,发现第7、10个特征变量(即:轮毂风速、风电历史功率)训练出来的模型预测误差整体较小,能够归类为关键特征变量,其他特征变量则作为冗余特征剔除。

分别以所有的10个特征变量、2个关键特征变量为输入变量,进行随机森林模型的训练。 通过对比发现,通过关键特征选择环节,能够实现对海量多源历史数据的降维处理,能够大 幅提升模型的训练效率。

1.2亲密样本筛选

除了剔除冗余特征变量外,还需要从关键特征变量的海量历史数据中筛选出与预测目标 强相关的亲密样本集,其计算过程分为两步:

a)日样本构建:将风电场历史数据(包括风电功率P、风速V)转换为每日数据样本{P

b)亲密样本筛选:将每日风电数据样本进行归一化处理后,分别计算它们与预测日参考 样本的关联度指标,并按关联度大小进行降序排列,筛选出强相关的前2M个样本(设 M=20)作为亲密样本集{P

为验证亲密样本筛选对随机森林模型的影响程度,分别以所有样本、亲密样本训练出的 模型进行风电功率预测。可知,进行亲密样本筛选后,随机森林模型的预测误差和训练时间 均有所降低。

步骤2:基于随机森林改进模型的风电功率预测

2.1随机森林的基本流程

随机森林(Random Forest,RF)是一种并联组合方式的集成学习方法,包括Bagging方 法、随机子空间理论,如图3所示,随机森林的计算过程为:

1)对原始样本集使用Bagging方法进行有放回地随机重采样,得到多个训练样本子集, 分别用于每棵决策树的训练,利用袋外样本集(Out of Bag,OOB),对随机森林模型的泛化 误差进行无偏估计,

设原始训练样本集的样本总数为N,则每个样本未被抽中的概率为:

其中,x为训练样本,P为袋外样本集的概率分布,S

2)基于随机子空间理论,从训练样本的特征变量中随机选取一部分特征变量参与决策树 的训练,使其自上而下地分枝生长,直至达到设定的叶节点尺寸为止;

3)将步骤1)和2)重复T次,可以训练得到T棵决策树,将T棵决策树组合起来,便 构成随机森林模型。集成学习理论证明,每棵决策树误差应小于50%,随着决策树棵数的增多,随机森林的整体误差减小,最终趋于一个相对稳定的下限值。

4)将训练好的随机森林用于测试样本集,多棵决策树的预测结果按一定集成规则进行优 化组合后,即得到随机森林的预测值,对于分类问题,集成规则主要采用投票法;对于回归 及预测问题,集成规则主要采用平均法。

2.2随机森林改进模型的提出

随机森林模型集成了大量的决策树,涉及到的特征变量数量庞大,模型可解释性降低, 尤其是双重随机性的引入,使得随机森林像“黑箱”模型,其内部优化过程缺乏可观性、可控 性,物理可解释性差,可信度有待评估,此外,OOB袋外样本源于训练样本集,其与训练样 本属于同一分布,难以超越训练样本集的固有特征,故基于OOB样本的泛化误差评估仍属于 内部验证过程,在决策树性能评估阶段,还需要追加一些新样本,并引入外部验证指标,以 提高模型对未知样本的泛化能力,因此,提出了一种基于外部检验指标和决策树重组的随机 森林改进模型:

①增加决策树筛选、重组环节

Bagging随机重采样策略有助于增强子模型的独立性,提高随机森林模型的泛化能力,根 据随机子空间理论,将Bagging方法改为Subagging方法,以提高袋外样本OOB的比重,基 于选择性集成学习思想,在随机森林模型中增加决策树筛选、重组环节,旨在对训练出的每 棵决策树进行预测性能评估,剔除预测性能差的决策树,以削弱虚假样本对随机森林模型训 练产生的不良影响;

②基于NWP风速的外部检验指标

OOB误差是对模型泛化误差的无偏估计,只能估计训练样本对应的模型泛化误差,仍属 于内部检验指标,由于日前风电功率的预测日样本与训练样本的差异性很大,用OOB误差指 标估计预测日样本对应的模型泛化误差会失效,

采用迁移学习(Transfer Learning,TL)方法,将有助于提高模型的泛化能力,即:提高 训练样本、预测样本之间的特征相似性,以提高模型从训练域到目标域的可迁移性,因此, 在决策树筛选环节,提出一种参考数值天气预报(Numerical Weather Prediction,NWP)的外 部检验指标,即,将每棵决策树的预测结果与预测日的NWP风速进行关联度分析,根据关联 度指标大小筛选出与预测日风速强相关的决策树子集,进而重组成新的随机森林,使其增强 在预测集上的泛化能力。

1.实例分析:

假设原有随机森林包括100棵决策树,每棵决策树对应的外部检验指标——关联度,从 0.04到0.07大小不等,见图4(a),若将每棵决策树直接组合成随机森林,其模型的泛化误差 在0.02左右,见图4(b),且在决策树棵数较少时,泛化误差不稳定。为解决以上问题,将所 有决策树按照相关度指标进行降序排列,见图4(c),组成随机森林模型后得到的泛化误差曲 线如图4(d)所示,可发现,泛化误差先迅速下降至0.01以下,但随着相关度指标较小的决策 树的加入,其又有所上升,最终达到0.02左右。由此可知,决策树的简单增多,不一定能使 随机森林的泛化误差降低,因为还与每棵决策树对应的外部检验指标——相关度的大小密切 相关。

因此,本发明对随机森林增加决策树重组环节,旨在选取那些外部检验指标较好的决策 树,参与后期的随机森林预测工作。由图4(c)可知,经决策树排序后重组成新的随机森林, 其泛化误差先降后升、存在拐点,若将此拐点对应的决策树棵数定义为新随机森林规模,得 到的泛化误差应最小。故本发明选取那些外部检验指标值大于平均值的决策树,见图4(e), 重新组合成随机森林(决策树数量由100棵调整为50棵)再进行风电功率预测验证发现,新 的随机森林的预测误差大幅下降,且克服了原有随机森林的预测误差振荡问题,见图4(f)。

2.抗干扰能力分析:

实测的风电功率历史数据通常含有大量弃风数据,会出现长时段、大幅度、冲击性的阶 跃变化,导致历史数据存在严重失真,将严重影响其波动特性提取,导致预测误差较大。由 图5(a)和图5(b)可知:若低谷时段发生弃风数据(例如凌晨1:00-3:00),对BP神经网络模 型的预测结果不利影响较大;由图6(a)和图6(b)可知:若低谷时段发生弃风数据,对随机森 林模型的预测结果影响较小;对比图5(b)和图6(b)可知,在考虑弃风数据的情况下,随机森 林模型比BP神经网络模型的抗干扰能力更强。究其原因,随机森林模型对训练样本进行随机 重采样,能够弱化对原始样本特征的依赖性,尤其是随机森林改进模型,采用Bagging随机 子抽样算法后,对弃风数据影响的容忍度更强,随机森林模型预测准确度受弃风数据影响较 小。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之 内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于两段式特征选择和随机森林改进模型的短期风电功率预测方法
  • 基于概率预测模型的短期风电功率预测方法
技术分类

06120114720194