掌桥专利:专业的专利平台
掌桥专利
首页

基于最大期望样本加权神经网络模型的光伏出力预测方法

文献发布时间:2023-06-19 18:29:06


基于最大期望样本加权神经网络模型的光伏出力预测方法

技术领域

本发明涉及光伏出力预测技术领域,尤其是涉及基于最大期望样本加权神经网络模型的光伏出力预测方法。

背景技术

随着光伏发电设备成本的降低,光伏发电越来越多的出现在生活中,光伏发电装配容量也越来越高,为了提升光伏发电的效益,准确的光伏出力预测成为日益重要的问题。目前,实现光伏出力预测的方法主要有2种:一是以时序建模为代表的传统预测方法;二是以神经网络、支持向量机为主流的元启发式算法。后者因具有良好的非线性表达能力及容错性能,近年来在光伏出力预测领域得到了广泛应用。

然而,为了达到较高的预测精度,元启发式模型的输入大多包含辐照度数据,且该模型更适用于大型集中式光伏电站等数据充足的场景。容量低、数据少的光伏发电系统大多未安装辐照预报设备,这使光伏出力预测的难度极大增加。

为解决辐照预报数据受限的问题,有研究对天气进行分型聚类,充分挖掘天气类型信息以提高预测精度。按季节、天气类型等气象因素聚类划分原始数据,建立适用于不同天气的分类预测模型,充分挖掘光伏出力特征,基于出力信息聚类划分日类型。此外,考虑到待预测日光伏出力与气象条件相同的历史日光伏出力之间具有相似性进而提出相似日的概念。最基本的相似日选择方法是利用相关气象因素构建日特征向量来选择相似日。另外,有研究通过对模糊聚类算法改进相似度、考虑季节差异、利用互信息熵加权考虑相关度差异等手段有效避免错选现象,提高相似日选取的精度。

天气类型划分为模型的分类训练提供了依据,而相似日搜索为模型的输入特征选取提供了参考。但由上述分析可知,天气分型和相似日搜索通常被割离为2个不同的领域,缺乏结合两者优势的方法与模型研究。此外,为解决历史样本量少的问题,有研究将多个出力的历史数据进行融合。而现有的相似日方法均基于气象信息,并未考虑光伏出力系统实际输出功率和用户用电数据等隐含的系统内部信息,在用户数据融合预测场景下存在较大误差。

主流预测方法往往只是对模型进行不同程度的改进和完善,而未考虑模型训练时不同样本对模型的重要性关系,导致模型精度偏低。并且光伏出力预测的时间间隔通常为1h,不能满足更高精度的调度要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于最大期望样本加权神经网络模型的光伏出力预测方法,从历史数据中挖掘潜在天气信息,充分考虑历史发电数据与预测日之间的相似关系,实现对光伏出力的准确预测。

本发明的目的可以通过以下技术方案来实现:

一种基于最大期望样本加权神经网络模型的光伏出力预测方法,包括以下步骤:

步骤1:获取历史气象数据及历史光伏出力数据并进行预处理,利用距离相关系数和主成分分析法在历史气象数据中提取综合气象因子,将综合气象因子和历史光伏出力数据的统计指标作为聚类特征指标,利用最大期望聚类将历史气象数据划分为多个不同的天气类型,同时得到隶属度参数作为权重;

步骤2:根据步骤1划分的天气类型,确定预测日所属的天气类型,将相同天气类型的历史光伏出力数据确定为相似日样本数据,将相似日样本数据对应的权重结合到用于进行网络训练的交叉熵损失函数中;

步骤3:使用步骤2中得到的相似日样本数据和交叉熵损失函数训练预先构建的卷积神经网络模型,采用训练好的卷积神经网络模型对预测日的数据进行光伏出力预测。

进一步地,步骤1中,利用距离相关系数和主成分分析法在历史气象数据中提取综合气象因子的过程具体为:

获取影响光伏出力的气象因素,从历史气象数据中进行气象因素与光伏出力的相关性分析,该相关性分析的方法为计算两个随机样本的距离相关系数,选取多个距离相关系数最高的气象因素作为气象特征;

将各个气象特征构建为一个矩阵,对该矩阵进行主成分分析,得到各个主成分的贡献率,将贡献率最高的主成分作为提取的综合气象因子。

进一步地,所述距离相关系数的计算表达式为:

式中,d为距离相关系数,n为随机变量的长度,X

进一步地,所述主成分分析的过程包括计算所述矩阵的协方差矩阵的特征向量,从而计算各个主成分的贡献率;

各个主成分的贡献率的计算过程具体为:

式中,λ

进一步地,选取的所述气象特征包括水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对湿度、风速和降雨量。

进一步地,步骤1中,所述预处理过程包括对数据进行数据清洗,剔除异常数据,插补缺失数据,进而得到完整的有效数据;

利用3σ准则对历史光伏出力数据中的异常值进行检查;

利用拉格朗日插补法对历史光伏出力数据中缺失数据进行插补。

进一步地,所述隶属度参数的获取过程为:根据所述最大期望聚类的聚类损失函数获取每个样本对应的隶属度参数;

所述聚类损失函数的表达式为:

式中,J(U,V)为聚类损失函数,u

进一步地,所述交叉熵损失函数的计算表达式为:

式中,N为样本数;M为类别数;c为类别号;u

进一步地,所述卷积神经网络模型的训练过程具体为:

将相似日样本数据按照隶属度排序,将隶属度相邻的两天的样本数据分别作为训练阶段的输入和输出,从而进行卷积神经网络模型的训练;

采用所述卷积神经网络模型进行光伏出力预测的过程具体为:

从所述相似日样本数据中选取与预测日隶属度邻近的一天的样本数据作为预测阶段的输入,从而获取光伏出力预测结果。

进一步地,所述卷积神经网络模型包括依次连接的一个输入层、两个卷积层、一个全连接层和一个输出层。

与现有技术相比,本发明具有以下优点:

本发明提出一种基于最大期望样本加权神经网络模型的光伏出力预测方法,首先获取历史气象数据和历史光伏出力数据,并对历史光伏出力数据进行数据清洗,剔除异常数据,补足缺失数据,得到较好的数据,然后利用距离相关系数和主成分分析法在历史气象数据中提取综合气象因子,将综合气象因子和历史光伏出力数据的统计指标作为聚类特征,利用最大期望聚类将历史数据划分为4个不同的天气类型,并根据交叉熵损失对样本数据进行样本加权得到加权数据,并使用加权数据训练卷积神经网络模型并构建EM-WS-CNN模型,最终通过卷积神经网络输出预测的光伏出力数据,实现对光伏出力的准确预测。

该方法从历史数据中挖掘潜在天气信息,充分考虑历史发电数据与预测日之间的相似关系,将相似日中每个样本的隶属度确定为该样本的权重,相似度越大表示权重越大,对模型预测的影响越大,使用卷积神经网络对加权后的样本进行训练,凸显相似日样本在模型训练中的重要性,使模型在训练时从相似日样本中学到更多有用知识,能够有效准确的对光伏出力进行预测。

附图说明

图1为本发明实施例中提供的一种综合气象因子和功率图的示意图;

图2为本发明实施例中提供的一种卷积神经网络的结构示意图;

图3为本发明实施例中提供的一种基于最大期望样本加权神经网络模型的光伏出力预测方法的流程示意图;

图4为本发明实施例中提供的一种不同天气类型预测结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。

实施例1

如图3所示,本实施例提供一种基于最大期望样本加权神经网络模型的光伏出力预测方法,包括以下步骤:

步骤1:获取历史气象数据及历史光伏出力数据并进行预处理,利用距离相关系数和主成分分析法在历史气象数据中提取综合气象因子,将综合气象因子和历史光伏出力数据的统计指标作为聚类特征指标,利用最大期望聚类将历史气象数据划分为多个不同的天气类型,同时得到隶属度参数作为权重;

步骤2:根据步骤1划分的天气类型,确定预测日所属的天气类型,将相同天气类型的历史光伏出力数据确定为相似日样本数据,将相似日样本数据对应的权重结合到用于进行网络训练的交叉熵损失函数中;

步骤3:使用步骤2中得到的相似日样本数据和交叉熵损失函数训练预先构建的卷积神经网络模型,采用训练好的卷积神经网络模型对预测日的数据进行光伏出力预测。

优选的,步骤1中,预处理过程包括对数据进行数据清洗,剔除异常数据,插补缺失数据,进而得到完整的有效数据。

具体步骤为:

步骤101:利用3σ准则对历史光伏出力数据中的异常值进行检查,数据需要服从正态分布。在3σ原则下,异常值如超过3倍标准差,那么可以将其视为异常值,±3σ的概率是99.7%,所以距离平均值3σ之外的值出现的概率为P(|x-u|3σ)=0.003,属于极个别的小概率事件。如果数据不服从正态分布,另外也可以用远离平均值的多少倍标准差来描述。先假设需要检测的历史气象数据和历史光伏出力数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个概率区间,认为误差超过这个概率区间的就属于异常值。在检测出异常值后,对该异常值进行剔除处理。

步骤102:利用拉格朗日插补法对历史光伏出力数据中缺失数据进行插补。原有的数据是存在缺失值的,且在步骤101中本方法对异常值进行了剔除,所以需要对空缺处的值进行插补以得到完整的数据。拉格朗日插补法来自于在数值分析,给定函数f(x)的n+1个互不相同的点x

上式中,l

步骤1中,利用距离相关系数和主成分分析法在历史气象数据中提取综合气象因子的过程具体为:

获取影响光伏出力的气象因素,从历史气象数据中进行气象因素与光伏出力的相关性分析,该相关性分析的方法为计算两个随机样本的距离相关系数,选取多个距离相关系数最高的气象因素作为气象特征;

将各个气象特征构建为一个矩阵,对该矩阵进行主成分分析,得到各个主成分的贡献率,将贡献率最高的主成分作为提取的综合气象因子。

对应的具体步骤为:

步骤103:影响光伏出力大小的气象因素主要有辐照度、温度、湿度、压强和风速等。首先对这些影响变量进行相关性分析,并筛选出其中影响光伏出力的主要因素。距离相关系数(Distance Correlation Coefficient,DCC)是一种常用的相关性度量方法,它可以对不同因素间相关性进行量化分析。相关系数越接近1,表示与输出功率的相关性越大。本方法采用DCC来权衡输出功率与气象因素之间的相关性。两个随机样本X和Y之间的距离相关系数可以定义为:

上式中当分母为0时,d

上式中,n为随机变量的长度,k为变量所在的位置。

表1

本发明使用某个光伏电站的实际运行数据进行相关性分析,使用的气象因素有水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对湿度、风速和降雨量。为了更直观地显示分析结果,将相关系数d按照从大到小排序。排序后的光伏输出功率与气象特征间的相关系数分析结果如表1所示。

由表1数据可知,影响光伏输出功率的气象因素中,水平辐射和倾斜辐射与光伏出力具有强相关性;其次环境温度、相对湿度、水平散射、风速和倾斜散射均存在一定的相关性;而降雨量几乎没有相关性。本发明选取了8个气象特征中相关性较高的7个为影响光伏发电的主要气象输入参数,7个气象特征分别为水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对湿度和风速。

所述主成分分析的过程包括计算所述矩阵的协方差矩阵的特征向量,从而计算各个主成分的贡献率;

对应的具体步骤为:

步骤104:主成分分析法(Principal Component Analysis,PCA)是目前常用且有效的数据降维方法,其主要思想是将数据从高维特征空间投影到低维特征子空间,同时保留原始数据的大部分信息。由于各种气象因素之间存在冗余,过多的冗余信息会影响计算效率以及降低模型的精度。因此本发明使用主成分分析法对7个主要气象因素综合分析,提取出与输出功率高相关的综合气象因子(Comprehensive Meteorological Factors,CMF)。

将7个重要气象因素构成的矩阵设为一个n×m的矩阵X,n为样本个数,m为特征维度,这里m=7。首先针对每一维特征计算平均值,计算公式如下所示:

然后计算其协方差矩阵C,计算公式如下所示:

C的特征向量e

Ce

由此可得降维后的矩阵为Z=XE,其中E=[e

为确定k的大小,即Z中主成分的个数。根据下式计算特征约减后各主成分的贡献率,计算公式下式示:

上式中,e

表2

使用主成分分析法对8个气象因素进行综合分析,提取出与输出功率相关性高的综合气象因子。分别取不同的k值(从1~6)对7个主要气象因素进行PCA分析,按照季节将数据划分成春、夏、秋、冬。经过计算得到不同季节和全年的6组主成分贡献率如表2所示。可以看出,气象特征经过降维,春季、夏季和秋季主成分1的贡献率达到97%以上,其中夏季和秋季可以达到98%以上。综合全年,主成分1可以取得高于97%的贡献率,保留了原始气象数据中的绝大部分信息,因此将主成分1作为提取的综合气象因子特征。

图1给出了本发明2019年某天利用PCA提取到的综合气象因子和当天的输出功率。可以看出,输出功率和综合气象因子在同一时刻的变化趋势大体一致,证明了所提取到的综合气象因子的有效性,综合气象因子能够正确反应光伏的出力情况。

步骤105:将综合气象因子和归一化后历史光伏出力数据的统计指标作为聚类特征,利用最大期望(Expectation Maximization,EM)聚类将历史数据划分为4个不同的天气类型。

最大期望聚类算法的基础是混合高斯模型,该模型被定义为n个高斯密度函数的线性组合,如下面公式:

上式中,N

最大似然估计是参数估计的主要方法之一,其通过似然函数获得最大值的参数估计。高斯混合密度函数中所有参数标记为θ,那么似然函数如下式所示:

上式中,θ为参数集合,P(X|θ)为最大似然函数。对该式进行取对数求出最大值,即可得到最大期望聚类算法的一般性公式。

本发明中设样本数据{p

Q

上式中

同时定义了一个聚类损失函数:

式中:u

经过最大期望聚类后,得到了晴天、多云、阴雨以及极端天气四种典型的天气类型。

步骤2中,所述隶属度参数的获取过程为:根据所述最大期望聚类的聚类损失函数获取每个样本对应的隶属度参数;

步骤2具体为:根据步骤3中划分出的4个不同的天气类型,确定预测日所属的天气类型,将相同天气类型的历史光伏出力数据确定为相似日样本数据,根据交叉熵损失对相似日样本数据进行样本加权(Weighted Samples,WS)得到加权数据。

将相同天气类型的样本确定为相似日样本,对样本加权的操作是通过交叉熵损失函数进行的,将每个训练样本的权值属性考虑到交叉熵损失函数中,样本权重的大小直接反映了样本误差在反向传播时贡献度的大小,本发明使用的交叉熵损失函数的定义如下式所示:

上式中N为总样本数;M为样本类别数;c为样本类别号;u

步骤3中,所述卷积神经网络模型的训练过程具体为:

将相似日样本数据按照隶属度排序,将隶属度相邻的两天的样本数据分别作为训练阶段的输入和输出,从而进行卷积神经网络模型的训练;

采用所述卷积神经网络模型进行光伏出力预测的过程具体为:

从所述相似日样本数据中选取与预测日隶属度邻近的一天的样本数据作为预测阶段的输入,从而获取光伏出力预测结果。

步骤3具体为:

利用样本加权数据训练卷积神经网络(Convolutional Neural Networks,CNN))模型,并构建本发明提出的EM-WS-CNN模型,最终通过卷积神经网络输出预测的光伏出力数据,并对比真实数据以及传统的CNN模型说明本发明的有效性。

由于夜晚发电量全部为0,考虑对07:00-19:00期间的功率进行预测,时间间隔为15min,每天总共48个功率点。将48个功率按照顺序拆分成4×12的矩阵作为CNN模型的输入。训练阶段将加权后的相似日样本按照隶属度排序,将隶属度相邻的2天分别作为训练阶段的输入和输出。输入为4×12功率数据,输出为当日的48个功率点。预测阶段在相似日中选出与预测日隶属度邻近的一天作为预测阶段的输入,输出为预测日的48个功率。

本发明使用的CNN结构如图2所示,该模型由一个输入层、两个卷积层、一个全连接层和一个输出层组成。其中CNN的输入层为4×12的矩阵,两个卷积层的卷积核维度分别为2×3×4和2×3×16。可以看到,输入数据在经过两个卷积层后得到4×12×16的三维矩阵,经过Flatten操作后得到长度为768的一维向量作为全连接层的输入,全连接层的激活函数使用Relu函数,输出为48个功率点。得益于CNN强大的特征提取能力,最终得到预测日15min时间间隔的全部48个功率数据。

综上,本发明方法的整流流程包括:

首先对原始数据进行预处理,主要进行数据清洗工作,包括异常值处理和缺失值插补,以日为单位,将平均值±3×标准差之外的值判定为异常值,并对缺失的数据利用拉格朗日插补法进行插补,将插补后的数据归一化。

通过距离相关系数选取相关性较大的7个主要特征,包括水平辐射、水平散射、倾斜辐射、倾斜散射、环境温度、相对温度和风速。

基于7个主要天气因素,使用主成分分析法提取综合气象因子,反映整体天气因素。

提取出历史功率数据和CMF的5个统计指标,利用最大期望算法将历史功率数据聚类,按照天气类型分为晴天、多云、阴雨和极端天气。确定预测日所属的天气类型,将相同天气类型的历史日确定为相似日。然后将相似日中每个样本的隶属度确定为该样本的权重,相似度越大表示权重越大,对模型预测的影响越大。

使用卷积神经网络对加权后的样本进行训练,凸显相似日样本在模型训练中的重要性,使模型在训练时从相似日样本中学到更多有用知识。使用日前预测的气象数据进行预测,借助CNN强大的特征映射能力,预测出时间粒度更精细的时间间隔为15min的输出功率,图4是基于不同的天气类型的预测结果,由该图分析可知本发明能够有效准确的对光伏出力进行预测。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

相关技术
  • 一种基于加权欧氏距离模式分类的多通道光伏出力预测方法
  • 一种基于组合预测模型的风电出力与光伏出力评估的方法
技术分类

06120115587129