掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多视图的短期负荷预测方法

文献发布时间:2024-04-18 19:52:40


一种基于多视图的短期负荷预测方法

技术领域

本发明涉及电力技术领域,尤其涉及一种基于多视图的短期负荷预测方法。

背景技术

随着电力需求不断增加,电力行业面临着巨大的挑战。电力需求的增加对电力调度部门也提出了更高的管理要求,电力调度部门必须制定合理的调度计划,避免在发、供、用电过程中的浪费,保证电力的有效利用。电力系统的负荷预测对保障电网安全运行,实现电力供需平衡至关重要。

目前,现有的负荷预测方法可以分为基于数学模型的预测方法、基于传统机器学习的预测方法和基于深度学习的预测方法;基于数学模型的预测方法,常见的有自回归移动平均、自回归等时间序列模型,此种方法简单,运行速度快,能够解决负荷的时变性,但无法解决非线性和不确定性的问题;基于传统机器学习的预测方法,常用的有支持向量机、决策树、多层感知机等,此种方法可以有效处理非线性的问题,但面对复杂的电力系统,无法对数据特征进行有效及完整的挖掘;基于深度学习的预测方法,随着计算机性能的增强,深度学习技术因其强大的非线性映射和自适应能力在各个行业都有应用且效果显著,例如,以长短期记忆网络和门控循环单元为主的循环神经网络在负荷预测中有广泛应用,但预测精度不够。

发明内容

本发明的主要目的是提出一种基于多视图的短期负荷预测方法,旨在解决如何准确且快速的对短期负荷进行精准预测并输出结果的技术问题。

为实现上述目的,本发明提供一种基于多视图的短期负荷预测方法,其中,所述基于多视图的短期负荷预测方法包括以下步骤:

S1、数据获取,采集历史电力负荷数据、天气数据、时间及日期数据;

S2、数据处理,对所述历史电力负荷数据进行异常值识别、缺失值处理、数据归一化和数据平稳性检验,并进行数据增维及特征融合,形成特征集;

S3、模型训练,构建XGBoost目标函数,并进行XGBoost目标函数的性能优化,得到最优目标函数;

S4、负荷预测,根据所述最优目标函数对特征集进行短期负荷预测,并输出预测结果。

优选方案之一,所述天气数据包括天气、温度、风向和风力。

优选方案之一,所述对历史电力负荷数据进行异常值识别,具体为:

对数值集中的数据,采用箱线图的方式进行异常值识别;

对数值不集中的数据,取当前数据前后两个采样点的数据求平均值,并计算当前数据与平均值的误差占平均值的比例,若比例大于0.5,则为异常值。

优选方案之一,所述对历史电力负荷数据进行缺失值处理,具体为:

若缺失一个采样点的数据,则取当前缺失值前后两个采样点的数据求平均值确定缺失值;

若缺失大于一个采样点且小于N个采样点的数据,则采用线性插值确定采样点的缺失值;

若缺失大于N个采样点的数据,则取最后一个缺失值对应的采样时间向前查找对应数据进行缺失值填补。

优选方案之一,所述对历史电力负荷数据进行数据归一化,具体为:

y=(y

其中,y

优选方案之一,所述步骤S2中采用ADF检验历史电力负荷数据的数据平稳性。

优选方案之一,所述步骤S2中进行数据增维及特征融合,形成特征集,具体为:

采用多项式回归、多层感知机及卷积神经网络对所述历史电力负荷数据进行回归预测,分别得到所述历史电力负荷数据的特征数据,并将多项式回归、多层感知机及卷积神经网络分别得到的特征数据进行特征融合,得到所述历史电力负荷数据的特征集。

优选方案之一,所述步骤S3进行XGBoost目标函数的性能优化,得到最优目标函数,具体为:

将XGBoost目标函数进行二阶泰勒展开,去除常数项,优化损失函数项;

将XGBoost目标函数进行正则化项展开,去除常数项,优化正则化项;

将XGBoost目标函数中一次项系数和二次项系数进行合并,得到最终目标函数,也即最优目标函数。

优选方案之一,所述基于多视图的短期负荷预测方法还包括:

S5、模型评估,采用五折交叉验证法对最优目标函数进行性能评估。

优选方案之一,所述步骤S5模型评估的评估指标包括平均绝对值百分比误差、平均绝对值误差和均方根误差;

所述平均绝对值百分比误差为:

所述绝对值误差为:

所述均方根误差为:

其中,n

本发明的上述技术方案中,该基于多视图的短期负荷预测方法包括以下步骤:数据获取,采集历史电力负荷数据、天气数据、时间及日期数据;数据处理,对所述历史电力负荷数据进行异常值识别、缺失值处理、数据归一化和数据平稳性检验,并进行数据增维及特征融合,形成特征集;模型训练,构建XGBoost目标函数,并进行XGBoost目标函数的性能优化,得到最优目标函数;负荷预测,根据所述最优目标函数对特征集进行短期负荷预测,并输出预测结果。在本发明中,通过获取历史电力负荷数据以及天气数据,并对数据中的异常值和缺失值等进行预处理,采用多项式回归、多层感知机和卷积神经网络进行特征升维,采用XGBoost目标函数进行负荷预测,提高了预测精度,提高了短期负荷预测的精确度及准确度,解决了如何准确且快速的对短期负荷进行精准预测并输出结果的技术问题。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例一种基于多视图的短期负荷预测方法的第一示意图;

图2为本发明实施例一种基于多视图的短期负荷预测方法的第二示意图;

图3为本发明实施例历史电力负荷数据的折线图;

图4为本发明实施例历史电力负荷数据的正态分析;

图5为本发明实施例历史电力负荷数据的自相关示意图;

图6为本发明实施例历史电力负荷数据的偏自相关示意图;

图7为本发明实施例箱线图异常值分析示意图;

图8为本发明实施例多层感知机结构示意图;

图9为本发明实施例卷积神经网络结构示意图;

图10为本发明实施例箱线图示意图;

图11为本发明实施例XGBoost目标函数结构示意图;

图12为本发明实施例多视图测试集拟合示意图。

本发明目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

需要说明,本发明实施方式中所有方向性指示(诸如上、下……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参见图1-图2,根据本发明的一方面,本发明提供一种基于多视图的短期负荷预测方法,其中,所述基于多视图的短期负荷预测方法包括以下步骤:

S1、数据获取,采集历史电力负荷数据、天气数据、时间及日期数据;

S2、数据处理,对所述历史电力负荷数据进行异常值识别、缺失值处理、数据归一化和数据平稳性检验,并进行数据增维及特征融合,形成特征集;

S3、模型训练,构建XGBoost目标函数,并进行XGBoost目标函数的性能优化,得到最优目标函数;

S4、负荷预测,根据所述最优目标函数对特征集进行短期负荷预测,并输出预测结果。

具体地,在本实施例中,采集历史电力负荷数据、天气数据、时间及日期数据,首先对天气进行数据对齐,历史电力负荷数据每15min采集为一个采样点,一天有96个采样点的数据,天气数据为每小时采集为一个采样点,因此,需要对天气数据进行对齐;其中,天气数据包括天气、温度、风向和风力;天气数据其主要是文字描述,例如:晴、小雨、雷阵雨、雨夹雪和大雪等,将天气数据进行数字化处理。首先统计天气类型总共有多少中,然后对每一种类型进行数字编号,例如:天气数据总共有晴、阴天、小雨和大雨四种,则将其对应编号为1、2、3、4,最后将天气每小时一个点的数据进行复制扩充为每小时四个采样点的数据,本发明不进行具体限定,具体可根据需要进行设定。

具体地,在本实施例中,对于温度数据其随时间进行线性变化,基于此特性对温度数据对齐采用三阶样条插值的方式:

S

其中,a

S

S

则产生2n个等式,假设每个节点x

S

则产生2(n-1)个等式,因此,三阶样条插值本身满足的条件只有形成4n-2个方程,少于未知参数量4n,必须添加额外条件:

自然边界:S"(x

周期样条:S'(x

"'"'"'"'

Not-a-knot:S(x

具体地,在本实施例中,对于风向数据的处理同天气数据的处理方式相同,进行文字数字化后进行复制扩充,实现数据对齐;对于风力数据的处理,风力数据的数据格式为3-4级、1-2级等,首先提取风力级数得到两列数据,然后复制进行数据对齐;日期数据的获取通过日历库进行判断,判断档期那日期属于法定节假日或周六周日;时间数据的获取,考虑到时间在二维坐标系中时分段函数而非连续函数造成误差,因此需要将时间数据进行正弦化和余弦化,具体为:

S

S

其中,scatter为一天所划分的采样点数,在本发明中,scatter为96个采样点,i为第i个采样点。

具体地,在本实施例中,所述对历史电力负荷数据进行异常值识别,具体为:对数值集中的数据,采用箱线图的方式进行异常值识别;通过箱线图进行识别不要求数据满足某种模型假设,仅客观描述数据的特点,通过数据样本的四分位数和四分位距来判断异常值,且四分位数这一指标不会受到某几个异常值的影响;箱线图采用数据样本中五个统计量:下边缘、下四分位数、中位数、上四分位数与上边缘来描述数据;参见图10,IQR=Q

对数值不集中的数据,取当前数据前后两个采样点的数据求平均值,具体为:

计算当前数据与平均值的误差占平均值的比例,若比例大于0.5,则为异常值,具体为:

其中,avg为当前数据前后两个采样点的数据求平均值,x

具体地,在本实施例中,所述对历史电力负荷数据进行缺失值处理,具体为:若缺失一个采样点的数据,则取当前缺失值前后两个采样点的数据求平均值确定缺失值;具体为:

其中,X

若缺失大于一个采样点且小于N个采样点的数据,则采用线性插值确定采样点的缺失值;确定两个已知采样点(x

具体地,在本实施例中,在进行模型训练之前,因为电力负荷数据因不同测量方式使相关数据可能相差较大,为消除数据相差较大带来的不合理的影响,常采用变量归一化的方法进行数据归一化;所述对历史电力负荷数据进行数据归一化,具体为:

y=(y

其中,y

具体地,在本实施例中,所述步骤S2中采用ADF检验历史电力负荷数据的数据平稳性;在一个自回归过程中:

y

如果滞后项系数b为1,就称为单位根,当单位根存在时,自变量和因变量之间的关系具有欺骗性,因此残差序列的任何误差都不会随样本量增大而衰减,也就是说模型中的残差影响是永久的,这种回归又称为伪回归,如果单位根存在,这个过程就是随机漫步,ADF检验就是判断序列是否存在单位根,如果序列平稳,就不存在单位根;否则就会存在单位根;所以ADF检验的H0假设就是存在单位根,得到的显著性检验统计量小于三个置信度10%、5%、1%,则对应有90%、95%、99%的把握来拒绝原假设;自相关如图5所示的检验标准:平稳序列通常具有短期相关性,用自相关性系数来描述就是伴随着延迟期数k的增加,平稳序列的自相关系数会很快地衰减向0,反之非平稳序列的自相关系数衰减向0的速度通常比较慢;自相关系数为:

其中,R

x

x

…x

其中,φ

具体地,在本实施例中,所述步骤S2中进行数据增维及特征融合,形成特征集,具体为:采用多项式回归、多层感知机及卷积神经网络对所述历史电力负荷数据进行回归预测,调参训练出最好的结果,然后分别得到所述历史电力负荷数据的特征数据,并将多项式回归、多层感知机及卷积神经网络分别得到的特征数据进行特征融合,得到所述历史电力负荷数据的特征集。

具体地,在本实施例中,所述多项式回归由“多项式”和回归组成;多项式由若干个单项式相加组成,多项式中的每个单项式为多项式的项,单项式中最高项次数为多项式的次数,单项式由单个或多个变量和系数相乘组成,或者不含变量,即不含字母的单个系数组成,这个不含字母的项叫做常数项;多项式函数为:

f(x)=a

多项式线性回归比较复杂,如二元二次的线性回归函数,仅二元就很复杂,如:

因此,主要通过一元多项式回归模型来理解回归算法,具体为:

f(x)=a

同样,假设有p个样本,其矩阵形式为:

f=aX+ε

其中,

令x

f(x)=a

于是有关线性回归的方法都可以使用了,也就是说,线性回归并不知道x

具体地,在本实施例中,所述多层感知机包括输入层、输出层和多个隐藏层,参见图8,假设有m个样本n个特征则输入层X∈R

H=XW

O=HW

可得,后一层的输入就是前一层的输出,上式仅仅是对数据进行了线性变换,为了能使其达到分类的效果还要引入激活函数对每一层进行非线性变换,输入层除外;常见的激活函数包括ReLU函数、sigmoid函数以及tanh函数;ReLU函数:max(x,0)小于0取0,大于0,则y=x;sigmoid函数:1/(1+e(-x)),将输出结果映射到0-1之间;tanh函数:(1-e

z

a

采用误差函数进行损失函数求解,所述误差函数为均方差误差,所述误差函数为:

前述通过各层权重及偏置求输出值为正向传播算法,而求误差需要从后往前推导,得到每一层权重W

Θ为Hadmard积,即对应逐元素相乘,与矩阵乘法相区分,对于L-1层:

其中,z

同理,可得任一层l:

z

具体地,在本实施例中,参见图9,第一层输入负荷数据,进行卷积操作,得到第二层深度为3的特征图;对第二层的特征图进行池化操作,得到第三层深度为3的特征图;重复上述操作,得到第五层深度为5的特征图,最后将这5个特征图,也就是5个矩阵,按行展开连接成向量,传入全连接层,全连接层就是一个BP神经网络;图中的每个特征图都可以看成是排列成矩阵形式的神经元,与BP神经网络中的神经元大同小异;所述卷积和池化具体为:

w'=(w+2p-k)/s+1

其中,w为输入矩阵大小,k为卷积核大小,s为步幅,p为补零层数;

池化又称为下采样,与之相对的是上采样,卷积得到的特征图一般需要一个池化层以降低数据量;和卷积一样,池化有一个滑动的核,可以称之为滑动窗口,每滑动一个区域,则取最大值作为输出,这样的操作称为Max Pooling;

w″

其中,k为卷积核的大小,经过若干层的卷积,池化操作后,将得到的特征图依次按行展开,连接成向量,输入全连接网络,卷积神经网络的中误差为:

其中,y

具体地,在本实施例中,步骤S3构建XGBoost目标函数,所述XGBoost目标函数由损失函数和正则化项两部分组成,已知训练数据集为T={(x

其中,ξ(φ)为线性空间上的表达,i为第i个样本,k为第k棵树;

具体地,在本实施例中,所述步骤S3进行XGBoost目标函数的性能优化,得到最优目标函数,具体为:

将XGBoost目标函数进行二阶泰勒展开,去除常数项,优化损失函数项;具体为:

将XGBoost目标函数进行正则化项展开,去除常数项,优化正则化项;具体为:

将XGBoost目标函数中一次项系数和二次项系数进行合并,得到最终目标函数,也即最优目标函数,具体为:

其中,每个叶子节点j的目标函数为:

其中,(H

具体地,在本实施例中,所述基于多视图的短期负荷预测方法还包括:

S5、模型评估,采用五折交叉验证法对最优目标函数进行性能评估;所述步骤S5模型评估的评估指标包括平均绝对值百分比误差、平均绝对值误差和均方根误差;所述平均绝对值百分比误差为:

所述绝对值误差为:

所述均方根误差为:

其中,n

具体地,在本实施例中,从主站获取近三年的历史电力负荷数据,每15min为一个采样点,共计79912个采样点;

表1为数据归一化处理后的历史电力负荷数据示例表

表2为原始天气数据示例表

表3为历史电力负荷数据、天气数据、时间及日期数据示例表

参见图3、图4、图7,分别为历史电力负荷数据的折线图、正态分布和箱线图进行历史电力负荷数据缺失值、异常值的识别,对于数据不集中的数据集采用移动平均来识别,参见图5、图6,分别为历史电力负荷数据的自相关图、偏自相关图,结合表4的检验结果判断历史电力负荷数据的平稳性,表中p_value为0.000003远小于0.01,且Test Statistic的值也小于Critical(1%),则可判断出数据是平稳的。

表4为ADF检验示例表

本发明采用度为2的多项式进行多项式回归增维,本发明不进行具体限定,具体可根据需要进行设定,方式是求特征数据的平方,特征数据彼此相乘,增维后的数据示例表如下:

表5为以两个特征为例的多项式增维示例表

多层感知机共有四层,第一层隐藏层维度为100,第二层隐藏层维度为50,第三层隐藏层维度为25,经过训练后将第三层的特征进行输出作为增维后的特征,以2019-01-0100:00:00时间点的数据为例,提取如表6所示的25个特征数据x

表6为原始特征经过多层感知机增维后示例表

卷积神经网络结构的卷积输出维度为128,激活、池化,卷积输出维度为64,激活、池化、全连接,其中,卷积核大小均为3,经过卷积神经网络增维后得到32个特征,以2019-01-0100:00:00时间点的数据为例,提取如表7所示的32个特征数据x

表7为原始特征经过卷积神经网络增维后示例表

最后,将多项式回归、多层感知机和卷积神经网络提取的特征进行融合,也即将通过多项式回归、多层感知机和卷积神经网络提取的特征进行相同数据项的拼接得到特征集;将样本数据按照图11所示Xgboost进行训练,训练集大小为79240*210,然后进行负荷预测,XGBoost目标函数的预测结果是由内部所有决策树的预测结果取平均值的大,其中,决策树的预测过程包括以下步骤:

步骤1,针对输入样本,从决策树的根节点起,判断当前节点是否为叶子节点,如果是则返回叶子节点的预测值,即当前叶子中样本目标变量的平均值,如果不是则进入下一步;

步骤2,根据当前节点的切分变量和切分值,将样本中对应变量的值与节点的切分值对比;如果样本变量值小于等于当前节点切分值,则访问当前节点的左子节点;如果样本变量值大于当前节点切分值,则访问当前节点的右子节点;

循环步骤2,直到访问到叶子节点,并返回叶子节点的预测值;

模型的部分预测结果如下表所示:

表8为模型预测示例表

通过平均绝对值百分比误差、平均绝对值误差和均方根误差进行模型评估,n

表9为模型预测示例表

本发明通过采集三年的历史负荷数据、天气数据、时间及日期数据,采用数据分析处理及多项式回归、多层感知机和卷积神经网络进行特征升维,最后使用XGBoost目标函数进行负荷数据的预测,n

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

技术分类

06120116334949