掌桥专利:专业的专利平台
掌桥专利
首页

风-光-含混合式抽蓄电站梯级水库随机优化调度方法

文献发布时间:2024-01-17 01:28:27


风-光-含混合式抽蓄电站梯级水库随机优化调度方法

技术领域

本发明涉及新能源和水库优化调度研究领域,具体地指一种风-光-含混合式抽蓄电站梯级水库随机优化调度方法。

背景技术

近年来,为了应对全球气候变化,各国积极展开新能源消纳研究。目前,我国全力推进可再生能源高质量跃升发展,我国水电、风电、光伏发电、生物质发电装机规模均已连续多年稳居全球首位。但随着可再生清洁能源的快速发展,风电、光电的不确定性给新能源消纳以及电力系统安全稳定运行带来较大的压力。抽水蓄能电站作为当前技术最成熟、经济性最优、最具大规模开发条件的电力系统绿色低碳灵活调节电源,与风电、光伏发电、水电、核电、火电等配合效果较好。因此,有必要针对含抽水蓄能电站的互补系统进行优化调度,减少弃风、弃光、弃水,且在最大化互补系统经济性的前提下保障电力系统可靠性、稳定性。

发明内容

本发明的目的在于克服上述不足,提供一种风-光-含混合式抽蓄电站梯级水库随机优化调度方法,解决中长期径流、风电出力、光伏出力预测误差较大,以及由风、光出力不确定性、波动性造成电力系统稳定性、可靠性降低的问题。

本发明为解决上述技术问题,所采用的技术方案是:一种风-光-含混合式抽蓄电站梯级水库随机优化调度方法,它包括以下步骤:

步骤1:基于历史数据对风电出力、光伏出力、梯级水库来水进行随机性分析,并分别构建水风光互补系统中长期调度的水、风、光随机场景;

步骤2:提出基于相关距离的ISODATA算法分别对水、风、光随机场景进行场景削减,并构建水风光互补系统中长期调度环境;

步骤3:构建以系统发电量最大为目标,水风光互补系统中长期随机优化调度模型;

步骤4:将中长期优化调度求得的各调度时段出力作为短期调度模型的边界约束,从互补系统可靠性、稳定性、经济性三个角度出发,构建以剩余负荷均方差最小、系统出力波动性最小、系统总出力偏差平方值最小为目标的水风光互补系统中长期及短期耦合优化调度模型;

步骤5:基于强化学习PER-DQN算法求解中长期随机优化调度策略;

步骤6:基于强化学习Q-learning算法,求解中长期及短期耦合优化调度模型的短期优化调度策略、更新中长期随机优化调度策略,并确定日前发电计划;

步骤7:构建以水电补偿水风光预测偏差的实时调度模拟模型,并根据日前发电计划以及实际风光出力数、径流数据,滚动更新含混合式抽水蓄能电站的梯级水库调度过程。

优选地,所述步骤1中,构建水、风、光随机场景的方法如下:

S1.1:将各阶段随机变量历史数据以最大值、最小值为范围离散成相同数量的离散值作为马尔可夫决策过程各阶段的各个状态,对于不同时段状态对应随机值的相关性,采用皮尔逊相关性检验方法,如式(1)所示:

式中:Cov(s

若两相邻时段相关性较强则符合马尔可夫特性,相邻阶段离散随机值可用马尔可夫转移概率表示,否则相邻阶段离散随机值相互独立,即该相邻阶段各离散值之间均有可能进行转移,状态转移概率矩阵中各元素以各阶段离散总数的倒数来代替;

S1.2:基于历史数据,通过对历年的风电出力、光伏出力、梯级水库来水各调度时段的观测值进行统计,得到符合马尔可夫特性的各相邻阶段之间离散值转移过程对应频数,并求解得到各阶段马尔可夫状态转移概率矩阵,集合各状态之间的状态转移概率构成相邻阶段状态转移概率矩阵;

S1.3:根据各阶段状态概率矩阵通过蒙特卡洛采样方法,逐阶段进行直接采样,获取水、风、光长系列时序数及其对应状态转移概率作为水、风、光随机场景。

优选地,所述步骤2中,通过基于相关距离的ISODATA算法进行场景削减,并构建水风光互补系统中长期调度环境的方法,由于水风光互补系统随机场景中,随机值由长系列时序数据表示,采用聚类算法中常用的表示两点之间距离的距离函数难以描述两时序数据之间的距离,因此在进行水风光互补系统随机场景削减时,提出采用相关距离进行聚类,具体过程如下:

S2.1:输入随机变量时序数据;预选N

S2.2:计算每个样本数据到聚类中心的相关距离,将N个样本分配给最近的聚类S

S2.3:若聚类S

S2.4:重新计算聚类后的各项参数,包括聚类中心Z

其中,聚类中心,如式(2)所示:

式中,Z

聚类内样本数据到聚类中心的相关距离,如式(3)所示:

式中:D

所有样本数据到相应中心的总相关距离,如式(4)所示:

式中,

S2.5:停止分裂和合并计算

若此次迭代数等于迭代阈值,则转至S2.6,并将θ

若N

若N

若K/2≤N

S2.6:根据距离值计算聚类中样本数据的标准差向量:σ

式中,i代表样本特征向量维度;j代表聚类的序号;N

S2.7:若σ

S2.8:计算聚类中心之间的相关距离D

S2.9:比较D

S2.10:将排列后相邻的两个聚类中心进行合并,根据式(6)计算得到新的聚类中心,且N

式中,

S2.11:若抵达迭代阈值I,或者算法不在进行分裂或合并(聚类中心不再改变),则算法结束。否则算法重新进行迭代;

S2.12:输出聚类中心;

将时序数据的聚类中心作为水、风、光的代表性随机场景,通过组合获取水风光系统的随机场景。并通过对照各阶段马尔可夫状态转移概率矩阵,得到聚类中心时序数据对应的各阶段马尔可夫状态转移概率,构建水风光互补系统中长期调度环境。

优选地,所述步骤3中,水风光互补系统中长期随机优化调度模型以系统发电量最大为目标,通过以日为调度时段进行调度,使水风光互补系统的月总发电量最大,系统每个调度时段的总发电量,如式(7)所示:

式中:R

式中:E

含混合式抽水蓄能电站的梯级水库水量平衡约束,如式(9)所示:

式中:

梯级水位约束,如式(10)所示:

式中:

发电流量约束,如式(11)所示:

式中:

可逆式水泵水轮发电机组的发电功率和抽水功率限制,如式(12)所示:

式中:P

风、光出力限制,如式(13)所示:

式中:N

优选地,所述步骤4中,水风光互补系统中长期及短期耦合优化调度模型以中长期调度策略中系统日出力,作为短期调度系统总出力偏差的边界约束求解短期调度策略,并将短期调度结果反馈于中长期调度,更新中长期调度求解调度策略的调度过程;并且,短期调度以小时级别的调度,使水风光互补系统的日剩余负荷均方差最小、系统出力波动性最小且总出力偏差平方值最小;

其中,剩余负荷均方差表示,如式(14)所示:

式中:f

系统出力波动性通过变异系数表示为,如式(15)所示:

式中:f

系统总出力偏差平方值最小表示,如式(16)所示:

f

式中:f

通过加权法将以上三个目标函数转化为单目标综合目标函数,如式(17)所示:

式中:F是短期调度综合目标函数;ω

优选地,所述步骤5中,基于强化学习PER-DQN算法求解中长期随机优化调度策略的方法,考虑风光接入的含混合式抽蓄电站梯级水库的中长期随机优化调度视为多阶段决策问题,以各调度时段为各阶段,通过基于强化学习PER-DQN算法求解该问题的最优决策序列即最优调度策略;

优先经验回放通过以时间差分(temporal difference,TD)误差作为优先度指标,结合求和树(sumtree)算法,实现了对样本优先级的采样;TD误差越大说明预测精度提升大,样本具有更高的学习价值,优先度更大;而Sumtree算法通过采用二叉树结构进行样本采样;二叉树中的每一个叶子节点对应样本的优先度,其他节点没有实际意义;父节点的优先度是其两个子节点的优先度之和,根节点的优先度是所有样本优先度之和;在对数据训练时,先将样本划分成多个区间,区间的大小为根节点的优先度除以每个批次中的总样本数,每个区间中随机抽一个数,从根节点开始由上到下搜索之叶节点,确定最终的采样数据。

因此,基于TD误差的优先度定义,如式(18)所示:

式中:δ

此外,PER-DQN算法Q值以及神经网络参数更新与DQN算法相同,通过不断迭代即智能体训练更新神经网络参数以及Q值,提高智能体决策能力,获取最优调度策略;

如表达式(19)所示:

式中:L(θ)为时序差分误差;Q

具体求解步骤为:

S5.1:初始化神经网络参数、训练次数上限、神经网络参数更新间隔训练次数;

S5.2:输入构建水风光互补系统中长期调度环境的相关数据;

S5.3:将随机场景中时序数据作为样本放入经验池进行优先经验回放;

S5.4:取出一批次样本输入神经网络映射Q值;

S5.5:智能体与环境交互获取知识并获取Q值;

S5.6:基于时序差分以及梯度下降思想更新主神经网络参数,降低神经网络预测偏差,并更新Q值,提高智能体决策能力,见式(19);

S5.7:每间隔神经网络参数更新间隔训练次数将主神经网络参数复制于固定目标网络参数;

S5.8:重复步骤S3至S4直至智能体到达末状态为完成一次训练;

S5.9:重复S5至训练次数上限;

S5.10:输出水风光互补系统中长期调度策略。

优选地,所述步骤6中,基于强化学习Q-learning算法求解中长期及短期耦合优化调度模型中短期优化调度策略的方法,其中Q-learning算法通过计算下一时刻价值与当前时刻价值的差,构造时序差分值以更新当前时刻的价值估值,Q值表格将储存更新过程中多阶段决策问题每个阶段所有状态下的Q值,并在训练过程中始终以更优Q值覆盖旧值,使Q值贴近最优动作价值,以实现智能体决策能力的提升,获取最有调度策略;针对离散状态空间较小的确定型模型,结构较为简单的Q-learning算法能够在占用内存较小的情况下,保证计算精度,从而节约计算成本;

Q-learning算法Q值更新公式表达式,如式(20)所示:

式中:Q

具体求解步骤为:

S6.1:初始化Q值表,令训练次数上限为N,相邻阶段状态转移概率为1,日数i=0;

S6.2:输入第i日水、风、光随机变量的短期预测值、中长期调度策略中第i日出力;

S6.3:根据水、风、光随机变量的短期预测值构建确定型调度环境,即各阶段转移概率均为1;

S6.4:智能体与环境交互进行决策并获取知识;

S6.5:根据知识样本基于Q-learning算法Q值更新公式(16)计算Q值,并与Q值表中Q值对比,将更大Q值覆于Q值表相应位置进行更新,以提高智能体决策能力;

S6.6:重复步骤S3至S4直至智能体到达末状态为完成一次训练;

S6.7:重复S5至训练次数上限;

S6.8:输出第i日水风光互补系统短期调度策略;

S6.9:将第i日水风光互补系统短期调度策略末状态作为中长期调度的初状态,调用基于PER-DQN算法的水风光互补系统中长期随机优化调度模型,计算并更新中长期随机优化调度策略;

S6.10:输出以第i+1日为初始状态的水风光互补系统中长期随机优化调度策略;

重复以上步骤更新水风光互补系统短期调度策略,以编制并更新日前发电计划用于实时调度模拟模型中。

优选地,所述步骤7中,水风光互补系统的实时调度模拟模型遵循“以电定水”的原则,严格按照日前发电计划实时监控水电站库运行状态,并用含混合式抽水蓄能电站梯级水库调节水风光预测偏差的模型,并且,逐时段以水风光观测值更新水风光预测值进行含混合式抽水蓄能电站的梯级水库调度,并以调度后的水位作为下一时段初的初始水位更新日前调度计划,并不断重复这一过程进行滚动更新;

具体步骤如下:

S7.1:调用水风光互补系统中长期及短期耦合优化调度模型,通过Q-learning算法求解短期调度策略,并编制日前发电计划;

S7.2:根据日前发电计划,以及梯级水库来水、风电出力、光伏出力第一个调度时段实测数据,通过含混合式抽水蓄能电站的梯级水库补偿梯级水库来水、风电出力、光伏出力预测值与实测数据的偏差;

S7.3:以补偿后的末水位作为确定型中长期及短期耦合优化调度模型的初状态,更新日前发电计划;

S7.4:重复以上步骤滚动更新含混合式抽水蓄能电站的梯级水库调度过程。

本发明提出的考虑中长期调度径流、风电出力和光伏出力的随机性,并通过将中长期调度、短期调度、实时调度模拟模型结合,提出了风-光-含混合式抽蓄电站梯级水库随机优化调度方法,技术效果如下:

1)、本发明基于历史数据求解了马尔可夫转移概率构建马尔可夫链,生成了径流、风电出力、光伏出力对应随机场景,有效分析并描述了水风光互补系统中长期调度中径流、风电出力、光伏出力的随机性。

2)、针对由复杂随机性造成的随机场景冗杂的问题,本发明提出基于相关距离的ISODATA算法分别对径流、风电出力、光伏出力随机场景进行场景削减,再通过组合构建水风光互补系统中长期调度环境。通过该方法能使构建的水风光互补系统中长期调度随机场景,在有效描述调度环境随机特性的前提下削减场景数量,提升强化学习算法对于水风光互补系统中长期随机调度的训练速度。

3)、针对中长期预报不准确的问题,本发明构建了以考虑风光接入的含混合式抽水蓄能电站梯级水库为对象、以总发电量最大为目标的水风光互补系统中长期随机优化调度模型。通过该模型能够从中长期角度提升水风光互补系统的经济性,并取得水风光互补系统月调度策略用于指导短期调度。

4)、本发明提出采用PER-DQN算法求解构造的水风光互补系统中长期随机优化调度模型。PER-DQN算法作为强化学习改进算法,在强化学习框架下基于马尔可夫决策过程、通过深度学习神经网络以及优先经验回放技术,改善了传统强化学习面对大离散空间造成的维数灾问题计算低下的难题,且加速了学习速度,能有更加有效地求解具有高维度、随机性、非凸性、多阶段、可离散化等多种特性的复杂优化调度模型调度策略。

5)、为提升水风光互补系统的经济性、可靠性、稳定性,本发明构建了以考虑风光接入的含混合式抽水蓄能电站梯级水库为对象,以剩余负荷均方差最小、系统出力波动性最小、系统总出力偏差平方值最小为目标的水风光互补系统中长期及短期耦合优化调度模型。

通过该模型可以从短期角度有效平滑水风光互补系统出力波动、剩余负荷波动,同时从中长期以及短期互相反馈之中,最大化水风光互补系统经济效益。

6)、本发明提出采用Q-learning算法求解构造的水风光互补系统中长期及短期耦合优化调度模型。由于水风光的短期预测较为准确且Q-learning算法运行时占用内存较小,因此采用传统强化学习Q-learning算法直接进行确定型计算,由此在保证计算精度、速度的情况下节约计算成本,针对求解水风光互补系统短期优化调度模型的调度策略具有较好的有效性。

7)、本发明构建了以含混合式抽水蓄能电站梯级水库,补偿风光预测偏差的实时调度模拟模型,用于解决由水风光预测不准确造成的实际出力与预测出力出现偏差的问题。由于含混合式抽水蓄能电站梯级水库调节能力强、调度灵活性高,通过含混合式抽水蓄能电站梯级水库补偿水风光预测偏差,可以保障日前计划顺利实行,使实时运行更加安全可靠,且更加充分地发挥了水库效益。

附图说明:

图1为风-光-含混合式抽蓄电站梯级水库随机优化调度方法流程图;

图2为基于相关距离的ISODATA算法的场景削减流程图;

图3为基于PER-DQN算法的中长期随机优化调度流程图;

图4为基于Q-learning算法的中长期及短期耦合调度流程图;

图5为实时调度模拟流程图。

具体实施方式:

下面结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示,一种风-光-含混合式抽蓄电站梯级水库随机优化调度方法,它包括以下步骤:

步骤1:基于历史数据对风电出力、光伏出力、梯级水库来水进行随机性分析,并分别构建水风光互补系统中长期调度的水、风、光随机场景;

所述步骤1中,构建水、风、光随机场景的方法如下:

S1.1:将各阶段随机变量历史数据以最大值、最小值为范围离散成相同数量的离散值作为马尔可夫决策过程各阶段的各个状态,对于不同时段状态对应随机值的相关性,采用皮尔逊相关性检验方法,如式(1)所示:

式中:Cov(s

若两相邻时段相关性较强则符合马尔可夫特性,相邻阶段离散随机值可用马尔可夫转移概率表示,否则相邻阶段离散随机值相互独立,即该相邻阶段各离散值之间均有可能进行转移,状态转移概率矩阵中各元素以各阶段离散总数的倒数来代替;

S1.2:基于历史数据,通过对历年的风电出力、光伏出力、梯级水库来水各调度时段的观测值进行统计,得到符合马尔可夫特性的各相邻阶段之间离散值转移过程对应频数,并求解得到各阶段马尔可夫状态转移概率矩阵,集合各状态之间的状态转移概率构成相邻阶段状态转移概率矩阵;

S1.3:根据各阶段状态概率矩阵通过蒙特卡洛采样方法,逐阶段进行直接采样,获取水、风、光长系列时序数及其对应状态转移概率作为水、风、光随机场景。

步骤2:提出基于相关距离的ISODATA算法分别对水、风、光随机场景进行场景削减,并构建水风光互补系统中长期调度环境;

所述步骤2中,通过基于相关距离的ISODATA算法进行场景削减,并构建水风光互补系统中长期调度环境的方法,由于水风光互补系统随机场景中,随机值由长系列时序数据表示,采用聚类算法中常用的表示两点之间距离的距离函数难以描述两时序数据之间的距离,因此在进行水风光互补系统随机场景削减时,提出采用相关距离进行聚类,具体过程如下:

S2.1:输入随机变量时序数据;预选N

S2.2:计算每个样本数据到聚类中心的相关距离,将N个样本分配给最近的聚类S

S2.3:若聚类S

S2.4:重新计算聚类后的各项参数,包括聚类中心Z

其中,聚类中心,如式(2)所示:

式中,Z

聚类内样本数据到聚类中心的相关距离,如式(3)所示:

式中:D

所有样本数据到相应中心的总相关距离,如式(4)所示:

式中,

S2.5:停止分裂和合并计算

若此次迭代数等于迭代阈值,则转至S2.6,并将θ

若N

若N

若K/2≤N

S2.6:根据距离值计算聚类中样本数据的标准差向量:σ

式中,i代表样本特征向量维度;j代表聚类的序号;N

S2.7:若σ

S2.8:计算聚类中心之间的相关距离D

S2.9:比较D

S2.10:将排列后相邻的两个聚类中心进行合并,根据式(6)计算得到新的聚类中心,且N

式中,

S2.11:若抵达迭代阈值I,或者算法不在进行分裂或合并(聚类中心不再改变),则算法结束。否则算法重新进行迭代;

S2.12:输出聚类中心;

将时序数据的聚类中心作为水、风、光的代表性随机场景,通过组合获取水风光系统的随机场景。并通过对照各阶段马尔可夫状态转移概率矩阵,得到聚类中心时序数据对应的各阶段马尔可夫状态转移概率,构建水风光互补系统中长期调度环境。

步骤3:构建以系统发电量最大为目标,水风光互补系统中长期随机优化调度模型;

所述步骤3中,水风光互补系统中长期随机优化调度模型以系统发电量最大为目标,通过以日为调度时段进行调度,使水风光互补系统的月总发电量最大,系统每个调度时段的总发电量,如式(7)所示:

式中:R

式中:E

含混合式抽水蓄能电站的梯级水库水量平衡约束,如式(9)所示:

式中:

梯级水位约束,如式(10)所示:

式中:

发电流量约束,如式(11)所示:

式中:

可逆式水泵水轮发电机组的发电功率和抽水功率限制,如式(12)所示:

式中:P

风、光出力限制,如式(13)所示:

式中:N

步骤4:将中长期优化调度求得的各调度时段出力作为短期调度模型的边界约束,从互补系统可靠性、稳定性、经济性三个角度出发,构建以剩余负荷均方差最小、系统出力波动性最小、系统总出力偏差平方值最小为目标的水风光互补系统中长期及短期耦合优化调度模型;

所述步骤4中,水风光互补系统中长期及短期耦合优化调度模型以中长期调度策略中系统日出力,作为短期调度系统总出力偏差的边界约束求解短期调度策略,并将短期调度结果反馈于中长期调度,更新中长期调度求解调度策略的调度过程;并且,短期调度以小时级别的调度,使水风光互补系统的日剩余负荷均方差最小、系统出力波动性最小且总出力偏差平方值最小;

其中,剩余负荷均方差表示,如式(14)所示:

式中:f

系统出力波动性通过变异系数表示为,如式(15)所示:

式中:f

系统总出力偏差平方值最小表示,如式(16)所示:

f

式中:f

通过加权法将以上三个目标函数转化为单目标综合目标函数,如式(17)所示:

式中:F是短期调度综合目标函数;ω

步骤5:基于强化学习PER-DQN算法求解中长期随机优化调度策略;

所述步骤5中,基于强化学习PER-DQN算法求解中长期随机优化调度策略的方法,考虑风光接入的含混合式抽蓄电站梯级水库的中长期随机优化调度视为多阶段决策问题,以各调度时段为各阶段,通过基于强化学习PER-DQN算法求解该问题的最优决策序列即最优调度策略;

优先经验回放通过以时间差分(temporal difference,TD)误差作为优先度指标,结合求和树(sumtree)算法,实现了对样本优先级的采样;TD误差越大说明预测精度提升大,样本具有更高的学习价值,优先度更大;而Sumtree算法通过采用二叉树结构进行样本采样;二叉树中的每一个叶子节点对应样本的优先度,其他节点没有实际意义;父节点的优先度是其两个子节点的优先度之和,根节点的优先度是所有样本优先度之和;在对数据训练时,先将样本划分成多个区间,区间的大小为根节点的优先度除以每个批次中的总样本数,每个区间中随机抽一个数,从根节点开始由上到下搜索之叶节点,确定最终的采样数据。

因此,基于TD误差的优先度定义,如式(18)所示:

式中:δ

此外,PER-DQN算法Q值以及神经网络参数更新与DQN算法相同,通过不断迭代即智能体训练更新神经网络参数以及Q值,提高智能体决策能力,获取最优调度策略;

如表达式(19)所示:

式中:L(θ)为时序差分误差;Q

具体求解步骤为:

S5.1:初始化神经网络参数、训练次数上限、神经网络参数更新间隔训练次数;

S5.2:输入构建水风光互补系统中长期调度环境的相关数据;

S5.3:将随机场景中时序数据作为样本放入经验池进行优先经验回放;

S5.4:取出一批次样本输入神经网络映射Q值;

S5.5:智能体与环境交互获取知识并获取Q值;

S5.6:基于时序差分以及梯度下降思想更新主神经网络参数,降低神经网络预测偏差,并更新Q值,提高智能体决策能力,见式(19);

S5.7:每间隔神经网络参数更新间隔训练次数将主神经网络参数复制于固定目标网络参数;

S5.8:重复步骤S3至S4直至智能体到达末状态为完成一次训练;

S5.9:重复S5至训练次数上限;

S5.10:输出水风光互补系统中长期调度策略。

步骤6:基于强化学习Q-learning算法,求解中长期及短期耦合优化调度模型的短期优化调度策略、更新中长期随机优化调度策略,并确定日前发电计划;

所述步骤6中,基于强化学习Q-learning算法求解中长期及短期耦合优化调度模型中短期优化调度策略的方法,其中Q-learning算法通过计算下一时刻价值与当前时刻价值的差,构造时序差分值以更新当前时刻的价值估值,Q值表格将储存更新过程中多阶段决策问题每个阶段所有状态下的Q值,并在训练过程中始终以更优Q值覆盖旧值,使Q值贴近最优动作价值,以实现智能体决策能力的提升,获取最有调度策略;针对离散状态空间较小的确定型模型,结构较为简单的Q-learning算法能够在占用内存较小的情况下,保证计算精度,从而节约计算成本;

Q-learning算法Q值更新公式表达式,如式(20)所示:

式中:Q

具体求解步骤为:

S6.1:初始化Q值表,令训练次数上限为N,相邻阶段状态转移概率为1,日数i=0;

S6.2:输入第i日水、风、光随机变量的短期预测值、中长期调度策略中第i日出力;

S6.3:根据水、风、光随机变量的短期预测值构建确定型调度环境,即各阶段转移概率均为1;

S6.4:智能体与环境交互进行决策并获取知识;

S6.5:根据知识样本基于Q-learning算法Q值更新公式(16)计算Q值,并与Q值表中Q值对比,将更大Q值覆于Q值表相应位置进行更新,以提高智能体决策能力;

S6.6:重复步骤S3至S4直至智能体到达末状态为完成一次训练;

S6.7:重复S5至训练次数上限;

S6.8:输出第i日水风光互补系统短期调度策略;

S6.9:将第i日水风光互补系统短期调度策略末状态作为中长期调度的初状态,调用基于PER-DQN算法的水风光互补系统中长期随机优化调度模型,计算并更新中长期随机优化调度策略;

S6.10:输出以第i+1日为初始状态的水风光互补系统中长期随机优化调度策略;

重复以上步骤更新水风光互补系统短期调度策略,以编制并更新日前发电计划用于实时调度模拟模型中。

步骤7:构建以水电补偿水风光预测偏差的实时调度模拟模型,并根据日前发电计划以及实际风光出力数、径流数据,滚动更新含混合式抽水蓄能电站的梯级水库调度过程。

所述步骤7中,水风光互补系统的实时调度模拟模型遵循“以电定水”的原则,严格按照日前发电计划实时监控水电站库运行状态,并用含混合式抽水蓄能电站梯级水库调节水风光预测偏差的模型,并且,逐时段以水风光观测值更新水风光预测值进行含混合式抽水蓄能电站的梯级水库调度,并以调度后的水位作为下一时段初的初始水位更新日前调度计划,并不断重复这一过程进行滚动更新;

具体步骤如下:

S7.1:调用水风光互补系统中长期及短期耦合优化调度模型,通过Q-learning算法求解短期调度策略,并编制日前发电计划;

S7.2:根据日前发电计划,以及梯级水库来水、风电出力、光伏出力第一个调度时段实测数据,通过含混合式抽水蓄能电站的梯级水库补偿梯级水库来水、风电出力、光伏出力预测值与实测数据的偏差;

S7.3:以补偿后的末水位作为确定型中长期及短期耦合优化调度模型的初状态,更新日前发电计划;

S7.4:重复以上步骤滚动更新含混合式抽水蓄能电站的梯级水库调度过程。

在所述步骤1中,风电出力是指将风的动能转换为电能的风力发电机组的输出功率。光伏出力是指将太阳光能直接转化为电能的太阳电池的输出功率。梯级水库来水是指从河流流域的上游到下游,修建的一系列呈阶梯式的水库的第一级水库的入库径流和下游水库之间的区间来水。其中,入库径流和区间来水是指进入水库的降雨及冰雪融水或者在浇地的时候在重力作用下沿地表或地下流动的水流。历史数据特指风电出力、光伏出力、梯级水库来水的历年数据。水风光互补系统在本发明中特指:由含混合式抽水蓄能电站且具有年调节或多年调节能力的梯级水电站,以及风电、光电组成的联合发电系统。并且混合式抽水蓄能电站利用梯级水电站中可逆式机组,以梯级水库相邻两级水库为上下水库进行抽蓄。其中,混合式抽水蓄能电站即混合式抽蓄电站。中长期调度是指以月为调度周期,日为调度时段的水库调度方式。水是指含混合式抽水蓄能电站的梯级水电站来水,风是指风电场出力,光是指光伏电站出力。其中,混合式抽水蓄能电站即混合式抽蓄电站。

随机性分析是指以概率描述随机时间出现的可能性的过程,在本发明中以调度时段马尔可夫转移概率表示,并基于历史数据求得。马尔可夫状态转移概率是马尔可夫决策过程中随机变量进行状态转移的概率。马尔可夫状态转移过程中,下一状态只由上一状态决定且无后效性,如式(21)所示:

P(X

式中,t表示离散的时间;X

状态转移概率以矩阵形式,如式(22)所示:

式中:M为离散值的总数,其中j,k∈[1,M],j为t-1时刻第j个状态,k为t时刻第k个状态;P

且P

式中:M为离散值的总数,其中j,k∈[1,M],j为t-1时刻第j个状态,k为t时刻第k个状态;P

状态转移概率矩阵中的元素P

式中:M为离散值的总数,其中j,k∈[1,M],j为t-1时刻第j个状态,k为t时刻第k个状态;P

所述步骤1中,随机场景在本发明中指的是包含调度周期中各随机变量各调度时段的随机变量值的长系列时序数据。

所述步骤2中,相关距离是反映两数列之间相关程度的值,该值越小则代表两数列相关程度越大,而该值越大则代表两数列相关程度越小。

由于水风光互补系统随机场景中,随机值由长系列时序数据表示,采用聚类算法中常用的表示两点之间距离的距离函数难以描述两时序数据之间的距离,因此在进行水风光互补系统随机场景削减时,提出采用相关距离进行聚类。

所述步骤2中,ISODATA算法是一种聚类方法,ISODATA在传统聚类算法K-means的基础上,对聚类结果进行了合并和分裂,解决了k值的设定依赖经验的问题。即当聚类结果某一类中样本数太少,或两个类间的距离太近,或样本类别远大于设定类别数时进行合并,当聚类结果某一类中样本数太多,或某个类内方差太大,或样本类别远小于设定类别数时进行分裂。

所述步骤2中,场景削减是指从全部场景中去掉部分概率过小以及相似度过高的场景,以此缩短计算时间、提高计算效率。

所述步骤2中,调度环境是指各随机场景及其对应马尔可夫状态转移概率的集合,能够描述水风光互补系统中随机变量的特征,用于求解调度策略。

所述步骤4中,中长期及短期耦合调度是指:以中长期调度策略中日出力,作为短期调度系统总出力偏差边界约束求解短期调度策略,并将短期调度结果反馈于中长期调度,更新中长期调度求解调度策略的调度过程。其中,短期调度是指以日为调度周期小时为调度时段的调度方式。

所述步骤4中,互补系统可靠性是评价互补系统出力对于负荷需求满足能力的指标,应使互补系统出力满足负荷需求,应使出力曲线与负荷曲线尽可能一致。因此,本发明通过在短期调度模型中设置剩余负荷均方差最小的目标函数,提升互补系统的可靠性。

所述步骤4中,互补系统稳定性是评价互补系统出力稳定性的指标,由于风光出力具有波动性,为使保障电力系统安全稳定运行,需要通过水电平滑风光出力的波动性,是互补系统出力更加平稳。因此,本发明通过在短期调度模型中设置系统出力波动性最小的目标函数,提升互补系统的稳定性。

所述步骤4中,互补系统的经济性是衡量互补系统发电效益的指标,为使互补系统发电效益最大化,本发明通过在中长期调度模型中以总发电量最大为目标,求解月调度策略,并考虑短期调度出力偏差惩罚,使短期调度出力与使月总发电量最大的每日出力之间的偏差最小,以提升互补系统的经济性。

所述步骤4中,以剩余负荷均方差最小、系统出力波动性最小、系统总出力偏差平方值最小为目标的短期调度模型是指:通过每小时级别的调度使水风光互补系统的日剩余负荷均方差最小、系统出力波动性最小且总出力偏差平方值最小的模型。

所述步骤5中,强化学习是一种通过不断试错并以长期收益最大为目标求解多阶段决策问题的方法。其中,多阶段决策问题是指决策过程可以被划分为若干相互联系阶段的问题,通过于各阶段做出决策,得到使结果最优的决策序列。在本发明中各阶段即为各调度时段。

针对传统DQN算法中经验转移从经验池中按照相同频率进行均匀采样,导致抽样随机性较大、学习率较低的问题,PER-DQN算法引入了求和树结构的优先经验回放机制改善这一缺陷,提高了学习效率、加快了收敛速度。且其基于神经网络进行Q值更新的方式改善了大离散状态空间维数灾问题,针对水风光互补系统中长期随机优化调度有较好的有效性。

强化学习要素有:智能体、环境、动作策略、收益信号、价值函数。每一个阶段环境都将处于一种状态,智能体作为决策问题中的决策者,基于马尔可夫决策过程以及动作策略以离散的时间步与环境交互获取知识。其中,与环境交互指的是智能体完成决策的行为即动作,智能体通过动作进行决策。重复以上步骤即进行智能体训练更新价值估值,使价值函数估值最大化,最终获取最优策略。其中,价值函数是指描述智能体某状态下采取某动作获取的价值的期望称的函数,函数的值又称Q值。动作策略定义了智能体在特定时间的行为方式即决策方式。

在强化学习的马尔可夫决策过程中,智能体与环境交互获取的知识由五元变量组(S,A,R,π,P)表示,即状态、动作、奖励、策略、状态转移概率,其状态动作序列为一组带有收益过程的马尔可夫链。

所述步骤5中,PER-DQN算法是一种是深度Q网络(Deep Q-network,DQN)算法的改进算法。针对传统DQN算法中经验转移从经验池中按照相同频率进行均匀采样,从而导致抽样随机性较大、学习率较低的问题,PER-DQN算法引入了求和树结构的优先经验回放机制改善这一缺陷。

优先经验回放的目标是用优先度来衡量样本的重要性,提高优先度高的样本的采样权重,进而避开DQN算法均匀采样的缺点。优先经验回放通过以时间差分(temporaldifference,TD)误差作为优先度指标,结合求和树(sumtree)算法,实现了对样本优先级的采样。TD误差越大说明预测精度提升大,样本具有更高的学习价值,优先度更大。而Sumtree算法通过采用二叉树结构进行样本采样。二叉树中的每一个叶子节点对应样本的优先度,其他节点没有实际意义。父节点的优先度是其两个子节点的优先度之和,根节点的优先度是所有样本优先度之和。在对数据训练时,先将样本划分成多个区间,区间的大小为根节点的优先度除以每个批次中的总样本数,每个区间中随机抽一个数,从根节点开始由上到下搜索之叶节点,确定最终的采样数据。

此外,PER-DQN算法与DQN算法相同,具有结构完全相同的主神经网络和固定目标网络,且其参数、Q值更新过程也相同。其中,神经网络是指模拟生物神经网络工作过程的计算结构,一般由输入层、输出层、隐藏层三种节点层组成,数据从输入层输入、隐藏层处理、输出层输出,并且通过训练调整其中参数提升预测能力。主神经网络、固定目标网络分别用于拟合当前动作状态对应Q值即Q预测值,以及下一动作状态对应Q值即Q目标值。不同的是,主神经网络参数在每次Q值更新过程中进行更新,而固定目标网络参数每隔一定训练次数从主神经网络参数复制而来。

通过不断迭代即智能体训练,提高智能体决策能力,获取最优调度策略。

所述步骤5中,中长期随机优化调度策略是指考虑中长期模型中随机变量随机性,将该调度过程视为多阶段决策问题,通过对水风光互补系统调度过程进行优化,获取满足模型目标函数的最优决策序列即最优调度策略。其中,调度过程指的是梯级水库水位调节过程,调度策略是一个包含各调度时段梯级水库水位数值的数组。

所述步骤6中,Q-learning算法一种基于核心为时序差分(Temporal Difference,TD)思想进行价值函数更新的强化学习算法。Q-learning算法通过计算下一时刻价值与当前时刻价值的差,构造时序差分值以更新当前时刻的价值估值,Q值表格将储存更新过程中多阶段决策问题每个阶段所有状态下的Q值,并在训练过程中始终以更优Q值覆盖旧值,使Q值贴近最优动作价值,以实现智能体决策能力的提升,获取最优调度策略。

所述步骤6中,短期优化调度策略是指将短期优化调度过程视为多阶段决策问题,通过对水风光互补系统短期调度过程进行优化,获取满足模型目标函数的的最优决策序列即最优调度策略。其中,调度过程指的是梯级水库水位调节过程,调度策略是一个包含各调度时段梯级水库水位数值的数组。

所述步骤7中,水电是特指含混合式抽水蓄能电站梯级水库发电。水风光预测偏差是指梯级水库来水预测值与观测值之差、风光出力预测值与观测值之差。水风光互补系统的实时调度模拟模型是指模拟遵循“以电定水”的原则,严格按照日前发电计划实时监控水电站库运行状态,并用含混合式抽水蓄能电站梯级水库调节水风光预测偏差的模型。

所述步骤7中,滚动更新含混合式抽水蓄能电站的梯级水库调度过程是指:逐时段以水风光观测值更新水风光预测值进行含混合式抽水蓄能电站的梯级水库调度,并以调度后的水位作为下一时段初的初始水位更新日前调度计划,并不断重复这一更新过程。

为了体现PER-DQN算法与DQN算法相比的优势,分别用以上两种算法应用于水风光互补系统中长期随机优化调度模型进行对比分析验证。以两串联水库A、B构成的梯级水库为例,基于水文年首月的历年数据,计算得到1000个风-光-水风光系统的随机场景样本作为算法数据集,训练集、验证集、测试集比例设置为70%、20%、10%。模型参数设置如表1,求解结果见表2。

由表2可知,PER-DQN算法与DQN算法的求解结果相比各水库年发电量都有所提升,总发电量增加了1.87×10

表1 DQN模型参数

表2算法优化结果对比

相关技术
  • 一种梯级水库生态发电多目标中长期随机调度模型的构建方法以及优化调度方法
  • 一种基于梯级水库生态发电多目标中长期随机调度模型的优化调度方法
技术分类

06120116232057