掌桥专利:专业的专利平台
掌桥专利
首页

光伏发电逐日系统控制方法、电子设备及存储介质

文献发布时间:2024-04-18 19:58:53


光伏发电逐日系统控制方法、电子设备及存储介质

技术领域

本发明涉及光伏发电设备的控制技术领域,特别涉及一种光伏发电逐日系统控制方法、电子设备及存储介质。

背景技术

在碳达峰与碳中和目标任务下,能源结构将会发生颠覆性变革。传统的以化石能源为主的能源结构由于大量的碳排放将不再适用,具有零碳排放特点的光伏发电将会成为今后新能源结构的重要组成。

中国具有丰富且可再生的太阳能资源,如何高效的利用太阳能资源成为了光伏发电技术的核心问题。相关研究显示,光伏发电面板追踪系统相比于固定式系统太阳能捕获效率高出37%,因此光伏发电逐日系统的精确度是提高太阳能资源捕获效率的关键。目前,光伏发电逐日系统主要采用钟式跟踪方式与光电式跟踪方式。钟式跟踪方式通过计算太阳运动角度来控制电机匀速带动光伏面板转动实现跟踪,具有跟踪精度不高、需要定期校正的缺点;光电式跟踪方式通过传感器检测及一系列信号转换实现对太阳位置的跟踪,能够通过反馈调节提高精度,但决策方式复杂易出现误动。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的之一在于,提供一种光伏发电逐日系统控制方法、电子设备及存储介质,从而改善现有光伏发电逐日系统的跟踪控制精度,降低决策过程的复杂度。

本发明的另一目的在于,提供一种光伏发电逐日系统控制方法、电子设备及存储介质,从而提高光伏发电的发电效率。

为实现上述目的,根据本发明的第一方面,本发明提供了一种光伏发电逐日系统控制方法,包括如下步骤:

S110预设参数值,参数包括自主学习率α、奖励衰减率γ和贪婪度ε;

S120建立位置-动作-价值表,每一行表示光伏面板和太阳的位置状态,每一列表示可执行的动作策略,每一个位置状态下执行动作策略后进行动作策略价值的评价,评价值用Q表示,位置-动作-价值表的初始评价值设置为零值;

S130获取当前的状态信息S

S140基于ε-greedy策略进行动作决策,并执行动作策略A

S150获取动作后的状态信息S

S160根据动作后的状态信息S

S170更新位置-动作-价值表,更新规则为

Q

式中,Q

S180检测光伏面板是否与太阳光照对准,若对准,则控制结束,若未对准,则返回步骤S130。

进一步,上述技术方案中,自主学习率α表示从动作后的状态反馈中学到的新奖励值占自身奖励的比重,α取值范围为0~1,α取值越大表示从动作后的状态学到的信息越多。

进一步,上述技术方案中,奖励衰减率γ为未来奖励的重要性,γ取值范围为0~1,γ取值越大表示决策时越重视远期奖励。

进一步,上述技术方案中,贪婪度ε为决策动作时选择已有经验最优值的概率,1-ε为决策动作时随机选择动作的概率,ε取值范围为0~1。

进一步,上述技术方案中,标准坐标系根据光敏阵列板上光敏电阻的排列建立;通过太阳光聚光后投射在光敏阵列板上,根据不同光敏电阻反馈的电流值的大小来确定太阳在标准坐标系下的位置坐标。

进一步,上述技术方案中,当前状态可执行动作空间集为A

进一步,上述技术方案中,当前状态可执行动作空间集的动作约束为:

式中,A

进一步,上述技术方案中,奖励模型为

式中,R

进一步,上述技术方案中,步骤S170包括:

当R

当R

进一步,上述技术方案中,在当地日出时间与日落时间之间,该方法的运行间隔为1s~60s。

根据本发明的第二方面,本发明提供了一种电子设备,其包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行如上述技术方案中任意一项的光伏发电逐日系统控制方法。

根据本发明的第三方面,本发明提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如上述技术方案中任意一项的光伏发电逐日系统控制方法。

与现有技术相比,本发明具有如下有益效果:

1.本发明采用人工智能决策方法,能够使光伏发电系统模拟人脑思维方式决策并执行逐日跟踪动作策略,从而提高光伏发电逐日系统的跟踪控制精度,降低了决策过程的复杂度。

2.本发明通过实时获取太阳及光伏面板的位置坐标,并根据动作策略选择性执行历史最优动作方式或者探索新的动作方式,并将决策方案动作于光伏面板以执行逐日跟踪动作策略,避免陷入局部最优解。

3.本发明对所执行的动作策略进行价值评估,并更新位置-动作-价值表,以为下一次决策选择最优执行动作策略,能够始终保持光伏面板正对太阳光照,实现更高的光伏发电效率。

4.在动作后的状态下得到环境反馈的新位置信息、与奖惩机制反馈的奖惩信息,根据反馈信息进行学习并更新决策方式,至下一周期进行新一轮思维决策,不断执行这一循环以实现光伏面板不断跟踪太阳轨迹运动。

5.本发明的奖励模型包括位置奖励因素和功率奖励因素,光伏面板的位置差值和功率值差值越小,奖励值越高,表示跟随太阳运动的效果越好。

上述说明仅为本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段并可依据说明书的内容予以实施,同时为了使本发明的上述和其他目的、技术特征以及优点更加易懂,以下列举一个或多个优选实施例,并配合附图详细说明如下。

附图说明

图1是根据本发明的一实施方式的光伏发电逐日系统控制方法的流程示意图。

图2是根据本发明的光伏发电逐日系统控制方法在实施例1中9时光伏面板动作前后直流侧的功率差值变化图。

图3是根据本发明的光伏发电逐日系统控制方法在实施例1中12时光伏面板动作前后直流侧的功率差值变化图。

图4是根据本发明的光伏发电逐日系统控制方法在实施例1中15时光伏面板动作前后直流侧的功率差值变化图。

图5是根据本发明的实施例的执行光伏发电逐日系统控制方法的电子设备的硬件结构示意图。

具体实施方式

下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其他明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其他元件或其他组成部分。

在本文中,为了描述的方便,可以使用空间相对术语,诸如“下面”、“下方”、“下”、“上面”、“上方”、“上”等,来描述一个元件或特征与另一元件或特征在附图中的关系。应理解的是,空间相对术语旨在包含除了在图中所绘的方向之外物件在使用或操作中的不同方向。例如,如果在图中的物件被翻转,则被描述为在其他元件或特征“下方”或“下”的元件将取向在元件或特征的“上方”。因此,示范性术语“下方”可以包含下方和上方两个方向。物件也可以有其他取向(旋转90度或其他取向)且应对本文使用的空间相对术语作出相应的解释。

在本文中,术语“第一”、“第二”等是用以区别两个不同的元件或部位,并不是用以限定特定的位置或相对关系。换言之,在一些实施例中,术语“第一”、“第二”等也可以彼此互换。

如图1所示,根据本发明具体实施方式的光伏发电逐日系统控制方法,包括如下步骤:

S110预设参数值。参数包括自主学习率α、奖励衰减率γ和贪婪度ε。

进一步地,在本发明的一个或多个示例性实施方式中,自主学习率α表示从动作后的状态(下一状态)反馈中学到的新奖励值占自身奖励的比重,α取值范围为0~1,自主学习率α取值越大表示从下一状态学到的信息越多。

进一步地,在本发明的一个或多个示例性实施方式中,奖励衰减率γ为未来奖励的重要性,γ取值范围为0~1,奖励衰减率γ取值越大表示决策时越重视远期奖励。

进一步地,在本发明的一个或多个示例性实施方式中,贪婪度ε为决策动作时选择已有经验最优值的概率,1-ε为决策动作时随机选择动作的概率,ε取值范围为0~1。贪婪度ε越小代表决策随机性越大,结果导致计算量增大、收敛速度下降。

因此,应适当选择参数α、γ、ε的取值。

S120建立位置-动作-价值表。每一行表示光伏面板和太阳的位置状态,每一列表示可执行的动作策略,每一个位置状态下执行动作策略后进行动作策略价值的评价,评价值用Q表示,位置-动作-价值表的初始评价值设置为零值;

S130获取当前的状态信息S

所处状态要通过识别光伏面板位置、观测太阳所处位置以及光伏发电系统发电功率来确定。进一步地,在本发明的一个或多个示例性实施方式中,光敏阵列板由光敏电阻组成,标准坐标系根据光敏阵列板上光敏电阻的排列建立。太阳位置观测方式为太阳光通过聚光装置后投射至光敏阵列板上,通过不同光敏电阻反馈的电流值的大小来确定太阳在标准坐标系下的位置坐标。

光伏面板所输出的为直流电,经过逆变器转换为交流电后上网,因此,为了监测光伏发电系统功率,在发电起始端直流侧布置电压、电流表进行测量。

S140基于ε-greedy策略进行动作决策,并执行动作策略A

确定当前的状态信息后,要决策执行动作以跟踪太阳轨迹。进一步地,在本发明的一个或多个示例性实施方式中,当前状态可执行动作空间集为A

进一步地,在本发明的一个或多个示例性实施方式中,当前状态可执行动作空间集的动作约束为:

式中,A

进一步地,在本发明的一个或多个示例性实施方式中,在进行动作决策时,采用ε-greedy策略。该策略使得动作决策时,有ε概率选择以往经验的最优动作,有1-ε概率进行随机动作选择,决策时既能利用历史最佳经验,又能对未知动作进行探索,避免陷入局部最优解。ε-greedy策略如下式所示:

式中,G(A

S150获取动作后的状态信息S

在完成动作决策并执行动作后,光伏面板位置和太阳位置观测传感器反馈动作更新后的位置信息,光伏发电系统直流侧检测仪表反馈动作更新后的电压、电流及功率信息,形成动作后的状态信息(下一状态信息)。

S160根据动作后的状态信息S

进一步地,在本发明的一个或多个示例性实施方式中,根据环境反馈的更新后的位置信息对所执行的动作策略价值进行奖励,奖励因素包括位置奖励与功率奖励,奖励评价模型为:

式中,R

S170更新位置-动作-价值表。

经过以上工作流程,获得了当前状态信息S

Q

式中,Q

S180检测光伏面板是否与太阳光照对准,若对准,则控制结束,若未对准,则返回步骤S130。

进一步地,在本发明的一个或多个示例性实施方式中,步骤S170包括:当R

进一步地,在本发明的一个或多个示例性实施方式中,在当地日出时间与日落时间之间,该方法的运行间隔为1s~60s。

下面以具体实施例的方式更详细地说明本发明的光伏发电逐日系统控制方法、电子设备及存储介质,应了解的是,实施例仅为示例性的,本发明并不以此为限。

实施例1

本实施例采用本发明的光伏发电逐日系统控制方法,对光伏发电逐日系统进行控制。

参考图1所示,步骤如下:

S110预设参数值。

在本实施例中,设置自主学习率α=0.01、奖励衰减率γ=0.9,贪婪度ε=0.9。

S120建立位置-动作-价值表。

首先建立一个全零的位置-动作-价值表,表中每一行表示光伏面板所处的位置信息及太阳位置信息,每一列表示可以执行的动作策略,每一个位置状态下执行动作策略后会进行动作策略价值的评价,评价值用Q(S

S130获取当前的状态信息S

在本实施例中,某日9时、12时和15时,光伏面板的位置均设在复位位置,光伏面板复位位置设置为固定式光伏发电面板位置,对应标准坐标系下坐标原点位置(0,0)。9时、12时和15时,光伏面板和太阳在标准坐标系下的初始坐标,以及光伏面板直流发电侧的功率值,参见表1所示。

表1初始状态参数

S140基于ε-greedy策略进行动作决策,并执行动作策略A

当前状态可执行动作空间集的动作约束为:

在标准坐标系下沿水平方向与竖直方向运动下限值应大于零,避免陷入零状态;上限值小于或等于单位1。在光伏面板位置与太阳位置较远时能够快速进行粗调节,当二者位置接近时进行微调以实现跟随。

S150获取动作后的状态信息S

S160根据动作后的状态信息S

S170更新位置-动作-价值表,更新规则为

Q

S180检测光伏面板是否与太阳光照对准,若对准,则控制结束,若未对准,则返回步骤S130。

如图2~4所示,光伏发电逐日系统控制方法在不同时间下光伏面板动作前后直流侧发电功率差值变化,从图中可见,在工作开始后功率差值均大幅度变化,表明了在起始控制时探索未知环境,执行随机动作并获取动作奖励值。在一段时间后功率差值变化幅度逐渐减小,表示已经进行了多次探索并获得了多个不同的动作奖励值,多次更新了位置-动作-价值表并积累了最优执行策略,能够在不断决策时选择历史最优动作策略。

在9时、12时和15时,本实施采用本发明的光伏发电逐日系统控制方法分别在1.224s、1.038s和1.082s时功率差值降低至零,稳定不变,表示执行动作前后功率值不再变化,本发明的光伏发电逐日系统控制方法实现了在短时间内对太阳运动跟随的准确控制。

实施例2

本实施例提供了一种非暂态(非易失性)计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的方法,并实现相同的技术效果。

实施例3

本实施例提供了一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行以上各个方面的方法,并实现相同的技术效果。

实施例4

图5是本实施例的执行光伏发电逐日系统控制方法的电子设备的硬件结构示意图。该设备包括一个或多个处理器610以及存储器620。以一个处理器610为例。该设备还可以包括:输入装置630和输出装置640。

处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图5中以通过总线连接为例。

存储器620作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器610通过运行存储在存储器620中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。

存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可接收输入的数字或字符信息,以及产生信号输入。输出装置640可包括显示屏等显示设备。

一个或者多个模块存储在存储器620中,当被一个或者多个处理器610执行时,执行:

S110预设参数值,参数包括自主学习率α、奖励衰减率γ和贪婪度ε;

S120建立位置-动作-价值表,每一行表示光伏面板和太阳的位置状态,每一列表示可执行的动作策略,每一个位置状态下执行动作策略后进行动作策略价值的评价,评价值用Q表示,位置-动作-价值表的初始评价值设置为零值;

S130获取当前的状态信息S

S140基于ε-greedy策略进行动作决策,并执行动作策略A

S150获取动作后的状态信息S

S160根据动作后的状态信息S

S170更新位置-动作-价值表,更新规则为

Q

式中,Q

S180检测光伏面板是否与太阳光照对准,若对准,则控制结束,若未对准,则返回步骤S130。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明其他实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。针对上述示例性实施方案所做的任何简单修改、等同变化与修饰,都应落入本发明的保护范围。

技术分类

06120116511513