掌桥专利:专业的专利平台
掌桥专利
首页

一种短期光伏发电功率预测方法和系统

文献发布时间:2023-06-19 10:24:22


一种短期光伏发电功率预测方法和系统

技术领域

本发明涉及光伏发电技术领域,具体涉及一种短期光伏发电功率预测方法和系统。

背景技术

光伏发电具有较强的日变化周期,其输出功率受各种气象因素的影响。太阳辐射强度、大气温度、相对湿度、风速、风向、气压等参数对光伏发电有着不同程度的影响。因此,在试图通过不同的预测模型来提升预测精度的同时,如何对训练数据进行合理的选取应该成为备受关注的研究课题。

发明内容

本发明提出的一种短期光伏发电功率预测方法和系统,可解决上述技术问题。

为实现上述目的,本发明采用了以下技术方案:

一种短期光伏发电功率预测方法,包括以下步骤:

S100、考虑待预测日的天气类型,分为不同天气类型,并作为参考选择与之时间最接近的相同天气类型的历史气象和光伏功率数据以及预测日气象数据作为输入样本数据;

S200、对输入数据作预处理,包括对历史数据的异常数据清洗、特征选择和归一化;

S300、根据所选择的气象因素利用Davies Bouldin指数的自适应K-means算法进行聚类;

S400、将聚类后的数据结合对应的历史光伏功率数据使用LSTM进行预测;

S500、将预测的结果按照时间点整合并进行误差修正得到最终预测结果。

进一步的,所述S200中对输入数据作预处理步骤包括:

S201、对用于预测光伏发电功率的数据本身上存在异常情况进行

数据清洗;

S202、对影响光伏发电功率的因素进行特征选择;

S203、为消除各数据的单位限制进行归一化处理;

其中,所述S202具体包括:

通过计算了光伏输出功率与各气象因素之间的皮尔逊相关系数,来反映各气象因素与光伏功率之间的关系,计算公式如下:

式中,r为表示皮尔逊相关系数,ν为表示光伏输出功率,γ为表示气象因子。

进一步的,所述S202中可通过以下取值范围判断气象因素与光伏功率的相关程度,如下表所示:

进一步的,所述S203对输入数据进行归一化处理,具体如下式:

式中,

进一步的,所述S300、根据所选择的气象因素利用Davies Bouldin指数的自适应K-means算法进行聚类;

其中K-means算法步骤为:

步骤1、从数据集中随机选择k个样本作为初始聚类中心{μ

步骤2、计算剩余样本到聚类中心的欧氏距离,并将其分配到最近的聚类中心,形成k个簇,距离的度量在(2.3.3)中给出;

式中,n表示空间的维数,A

步骤3、通过距离度量方法更新聚类中心,更新为隶属该簇的全部样本的均值;

步骤4、重复步骤2和3,直到算法收敛为止。

进一步的,所述S300还包括:

为了自动选择最佳聚类数k,引入定量指标来搜索样本的最佳聚类,提出的自适应过程的关键是聚类评估,与此相关指标众多,而Davies-Bouldin指数使用数据集固有的数量和特征,适用于K-means聚类评估;

其中Davies-Bouldin指数定义如下:

式中,

为了避免生成过多的群集,利用阈值限制群集的数量,记为k

进一步的,所述S500中误差修正方法包括:

S501、计算训练样本中相邻的2个采样点光伏功率差的绝对值|P

S502、将ΔP

S503、根据各波动量区间的平均值

S504、同理,计算预测日功率输出波动量序列

进一步的,所述步骤S202中影响因素包括:太阳辐射强度、大气温度、相对湿度、风速、风向、气压。

另一方面本发明还公开一种短期光伏发电功率预测系统,包括以下单元:

输入样本确定单元,用于考虑待预测日的天气类型,分为不同天气类型,并作为参考选择与之时间最接近的相同天气类型的历史气象和光伏功率数据以及预测日气象数据作为输入样本数据;

数据预处理单元,用于对输入数据作预处理,包括对历史数据的异常数据清洗、特征选择和归一化;

聚类单元,用于根据所选择的气象因素利用Davies Bouldin指数的自适应K-means算法进行聚类;

预测单元,用于将聚类后的数据结合对应的历史光伏功率数据使用LSTM进行预测;

修正单元,用于将预测的结果按照时间点整合并进行误差修正得到最终预测结果。

由上述技术方案可知,本发明的短期光伏发电功率预测方法从选取数据集和评价指标入手,对所选数据集进行数据预处理,包括数据清洗、特征选择和归一化。数据清洗即使用iForest算法对异常数据清洗;特征选择是根据计算气象因素和光伏发电功率的皮尔逊系数,选择两者相关性强的气象因子作为模型的输入特征;归一化则消除不同类别输入数据数值上的差异对模型的学习训练产生不利的影响。基于Davies-Bouldin指数的K-means算法对特征展开聚类分析,在给定主要网络参数的前提下,给出了误差修正后的短期光伏发电功率的预测结果,以单一的BP以及LSTM方法作对比,验证了所提方法的预测精度更理想。

附图说明

图1是本发明的方法流程图;

图2是本发明实施例基于Davies-Bouldin指数的K-means流程图;

图3是本发明实施例辐照度与光伏发电功率关系曲线;

图4是本发明实施例温度与光伏发电功率关系曲线;

图5是本发明实施例湿度与光伏发电功率关系曲线;

图6是本发明实施例不同聚类方案的Davies-Bouldin指数;

图7是本发明实施例聚类结果的可视化示意图;

图8是本发明实施例晴天预测结果;

图9是本发明实施例的多云预测结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

由于深度学习算法具有多层次内部结构和重复学习特征的训练方式的特点,所以能更好地应对光伏预测问题,本发明实施例结合深度学习算法,从数据选取的角度提高预测性能。

如图1所示,本实施例所述的短期光伏发电功率预测方法,包括以下步骤:

S100、考虑待预测日的天气类型,分为不同天气类型,并作为参考选择与之时间最接近的相同天气类型的历史气象和光伏功率数据以及预测日气象数据作为输入样本数据;

S200、对输入数据作预处理,包括对历史数据的异常数据清洗、特征选择和归一化;

S300、根据所选择的气象因素利用Davies Bouldin指数的自适应K-means算法进行聚类;

S400、将聚类后的数据结合对应的历史光伏功率数据使用LSTM进行预测;

S500、将预测的结果按照时间点整合并进行误差修正得到最终预测结果。

以下对本发明的原理进行说明:

1.1数据预处理方法

(1)异常数据清洗

本发明实施例使用iForest算法对训练样本异常数据进行清洗;

(2)特征选择

影响光伏发电功率的因素众多,理论上,输入变量越多,识别能力越强。但在实践中,过多的变量容易导致许多问题,如过拟合,无效的特征使得预测精度不增反降以及预测过程变得更加复杂。因此,准确、详细的输入数据是提高预测精度的关键。通过计算了光伏输出功率与各气象因素之间的皮尔逊相关系数,以此来反映各气象因素与光伏功率之间的关系,计算公式如下:

式中,r为表示皮尔逊相关系数,ν为表示光伏输出功率,γ为表示气象因子。

可通过以下取值范围判断气象因素与光伏功率的相关程度,如下表所示。

表1气象因素与光伏功率的相关程度Tab.1The degree of correlation betweenmeteorological factors and photovoltaic power

本发明实施例选择两者相关程度为极强相关、强相关以及中等程度相关的气象因素作为光伏功率的输入的特征进行后续处理。

(3)归一化

为了消除不同类别输入数据数值上的差异对模型的学习训练产生不利影响,需要对输入数据进行归一化处理:

式中,

1.2自适应K-means算法原理

传统的K-means不适合直接对输入数据集进行聚类,因为不能在不了解数据集的情况下主观地确定聚类的个数,为此,本发明实施例提出了一种自适应K-means,它可以根据输入数据集自动设置聚类的个数,其主要思想是一种基于距离的迭代过程。

K-means算法步骤为:

步骤1从数据集中随机选择k个样本作为初始聚类中心{μ

步骤2计算剩余样本到聚类中心的欧氏距离,并将其分配到最近的聚类中心,形成k个簇,距离的度量在(2.3.3)中给出。

式中,n表示空间的维数,A

步骤3通过距离度量方法更新聚类中心,更新为隶属该簇的全部样本的均值。

步骤4重复步骤2和3,直到算法收敛为止。

为了自动选择最佳聚类数k,引入定量指标来搜索样本的最佳聚类。提出的自适应过程的关键是聚类评估,与此相关指标众多,而Davies-Bouldin指数使用数据集固有的数量和特征,适用于K-means聚类评估。定义如下:

式中,

为了避免生成过多的群集,利用阈值限制群集的数量,记为k

1.3误差修正方法

光伏输出功率具有一定的波动特性,在此基础上,对预测的光伏功率根据历史功率输出波动量进行误差修正,以下是具体过程。

1)计算相似日(训练样本)中相邻的2个采样点光伏功率差的绝对值|P

2)将ΔP

3)根据各波动量区间的平均值

4)同理,计算预测日功率输出波动量序列

对上述某地区2018年国庆7天的光伏出力进行预测,选取该区域太阳辐射强度、大气温度、相对湿度、风速、风向、气压6组现场实测气象数据以及光伏发电功率数据,采样周期为15min,预测时段为6:30-17:30,即每天45个时间采样点。按照国庆7天天气状况分为晴天和多云两种天气类型,分别选取这两种天气类型下与预测日时间最近的10个相似日的数据作为训练样本,共计900组数据。

同短期负荷预测一样,采用MAPE来评估短期光伏发电功率模型的优劣,采用RMSE来反映预测的精密度。

以下结合具体应用对本发明具体说明:

2.1数据预处理

数据预处理是指在对数据进行主要处理之前对数据进行一定的处理。本发明实施例首先针对用于预测光伏发电功率的数据本身上存在异常情况进行数据清洗;接着根据众多影响光伏发电的气象因素进行特征选择;最后为消除各数据的单位限制进行归一化处理。

2.2数据清洗

准确可靠的数据是预测的基础,影响气象及光伏功率数据出现异常的因素众多,如通信不畅、设备异常、人为限电等情况。直接利用这些异常数据预测,难免会降低光伏发电功率的预测精度,给电网运行调度带来不利影响。

本发明实施例基于python的sklearn包提供的emsemble.IsolationForest模块用于iForest算法实现,对训练样本进行异常数据清洗,算法的主要参数设置900组训练样本清洗后剩下855组。

2.3特征选择

光伏发电具有较强的日变化周期,其输出功率受各种气象因素的影响。太阳辐射强度、大气温度、相对湿度、风速、风向、气压等参数对光伏发电有着不同程度的影响。准确、详细的输入数据是提高预测精度的关键,但输入数据过多会使预测过程更加复杂且预测精度变低。

本发明实施例以训练样本数据计算了光伏输出功率与各气象因素之间的皮尔逊相关系数。如表2所示。

表2光伏输出功率与各气象因素的相关系数

Tab.4.1The correlation coefficient between photovoltaic output powerand meteorological factors

表2中的计算结果可以看出该地区训练样本时间段内辐照度、大气温度与光伏输出功率极强相关,相对湿度与光伏输出功率强相关(负相关),气压与光伏输出功率中等相关,风速、风向与光伏输出功率弱相关。将气象因素与光伏发电功率相关性强的可视化如图3、图4、图5所示。

其中,图3为日间太阳辐照度与光伏发电功率的关系曲线,可以看出两者之间的变化趋势几乎一致,具有很强的线性关系,光伏发电功率基本上是随着辐照度的波动而波动,正常状况下,辐照度越大,则光伏发电功率越大,两者呈明显的正相关。正是因为辐照度的随机性和间歇性才导致了光伏发电功率存在着波动性和不稳定性,由于辐照强度对光伏发电功率有直接的影响,故可被用作于光伏发电预测的重要输入特征。

图4为日间大气温度与光伏发电功率的关系曲线,可以看出大气温度与光伏发电功率之间的变化趋势相似。在空气中遮蔽物很少的状况下,大气温度跟辐照度关系密切,故而在光伏组件温度保持不变的状况下,随着大气温度的升高,光伏发电功率增大,两者呈正相关,具有很强的类线性关系。温度的变化会影响光伏发电功率产生细微的变化,具有一定的影响作用。

图5为日间相对湿度与光伏发电功率的关系曲线,可以看出两者基本呈反向变化。一般情况下,相对湿度较大时,空气的流动性较差,天空的云层也比较密集,导致辐照度变小,从而影响光伏发电功率,故两者之间为负相关。

经上述分析,本发明实施例选择太阳辐射强度、相对湿度和大气温度三个气象因素作为预测模型的输入数据,光伏发电功率作为输出数据。

归一化

数据归一化处理是数据分析的一项基础工作,归一化的目的是把数据统一映射到[0,1]的区间上,由于用于预测光伏发电功率的各维数据分布范围相差较大,对于数据的归一化处理,一方面可以提升模型的收敛速度,另一方面也可以大大提高模型的准确性。为此,本发明实施例根据式(2.3.2)基于MATLAB直接调用函数mapminmax对各组数据进行处理。

自适应K-means聚类过程

采用基于Davies-Bouldin指数的K-means算法对辐照强度、大气温度和相对湿度展开聚类分析,以便后续在不同类别间建立预测模型,数据集为预处理后的855组训练数据和预测日的315组测试数据,共计1170组数据。不同聚类方案的Davies-Bouldin指数结果如图6所示。

从图6可以看出,最小的Davies-Bouldin指数为1.3789,表明了当聚类类别为3时为最佳聚类数。因此,可将预处理后的数据分为三个集群(集群1为342组数据,集群2为364组数据,集群3为464组数据)。为了进一步分析,将聚类结果可视化如下图7所示。

从图7可以看出,3个集群几乎没有出现混淆和交叉的种子,说明聚类的效果良好,集群1中的数据比较集中,有利于预测。集群2和集群3有分散的种子但数目很少,对后续的预测影响也不大。总的来说,聚类的结果表明,本发明实施例选择的训练样本和预测日样本吻合度较高,这对于提升光伏发电功率预测精度至关重要。

短期光伏发电功率预测仿真结果及分析

同短期负荷预测一样,首先调节LSTM网络中的堆叠层数、隐含层神经元个数、Dropout参数以及每批处理样本数量来提升网络的预测的性能,经过多次测试,各个参数的设置如下表3所示。

表3LSTM网络主要参数设置Tab.3Main parameters setting of LSTM network

接着以每个集群的气象数据和对应的光伏发电功率数据建立LSTM模型进行训练、预测,将每个集群的预测结果按照时间点整合,再根据2.3.4节的误差修正方法进行修正得到最终的短期光伏发电功率预测结果。

以单一的BP以及LSTM模型作为对比实验,为更清晰直观地观测和比较预测结果,预测日有3天晴天,4天多云,在两种天气类型下各取1天进行定量分析。图8和图9分别是10月6号(晴天)和10月2号(多云)的光伏发电功率预测曲线与实际曲线。表4给出了3种方法的预测误差统计结果。

表4种方法的误差统计结果

Tab.4Error statistics of three methods

图8可以看出,在晴天状况下,光伏出力曲线有一定的规律性,3种预测模型预测效果都比较理想。图9相对于晴天条件下,云团的移动轨迹及云团大小不易预测,因此,3种模型的预测曲线在一些时间段内与实际曲线有较大偏差。其中,自适应K-means-LSTM模型的预测曲线更接近实际功率曲线的总体趋势。

由表4可以看出,晴天(4、5、6日)时3种模型的预测误差MAPE和RMSE均较小,且自适应K-means-LSTM模型预测结果最准确。多云天(1、2、3、7日)的预测误差均偏大,但自适应K-means-LSTM模型的预测结果明显优于其他两种,这表明该模型在同等天气条件下精度更高,且适用于天气状况出现波动的情况下。

综上所述,本发明实施例对短期光伏发电功率预测算例进行研究分析,从选取数据集和评价指标入手,对所选数据集进行数据预处理,包括数据清洗、特征选择和归一化。数据清洗即使用iForest算法对异常数据清洗;特征选择是根据计算气象因素和光伏发电功率的皮尔逊系数,选择两者相关性强的气象因子作为模型的输入特征;归一化则消除不同类别输入数据数值上的差异对模型的学习训练产生不利的影响。基于Davies-Bouldin指数的K-means算法对特征展开聚类分析,在给定主要网络参数的前提下,给出了误差修正后的短期光伏发电功率的预测结果,以单一的BP以及LSTM方法作对比,验证了所提方法的预测精度更理想。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于长短期记忆网络的光伏发电功率短期预测方法
  • 一种分布式光伏超短期发电功率预测方法及系统
技术分类

06120112531686