掌桥专利:专业的专利平台
掌桥专利
首页

一种基于强化学习的DC-DC变换器的调制策略设计方法及系统

文献发布时间:2024-04-18 19:52:40


一种基于强化学习的DC-DC变换器的调制策略设计方法及系统

技术领域

本发明属于电力电子技术领域,更具体地,涉及一种基于强化学习的DC-DC变换器的调制策略设计方法及系统。

背景技术

电力电子技术是实现电能高效变换的关键技术。DC-DC变换器可以实现直流端口间的能量转换,是电力电子技术的核心之一,在电动汽车、直流微网、计算机供电、绿色家居等众多场合广泛应用。DC-DC变换器使用多个半导体(MOSFET或者二极管)建立不同电流环路,从而在不同端口(输入、输出、双向端口)之间传输功率。由于DC-DC变换器的开关管数量比较多,故其开关模态多,为了实现某种能量管理任务,需要将多个开关模态组合在一起,并给出每种开关模态的持续时间(或占空比),形成特定的调制策略,设计过程较为复杂。

目前DC-DC变换器的调制策略设计主要是人为从所有开关模态中挑选若干特定模态组成模态序列,进而对电路进行分析,计算各模态占空比,最终得到一种特定的调制策略。当开关管数量或端口数量增多时,开关状态的组合可能性(即开关模态)大幅增加,开关模态的有效排列组合(即可用的模态序列)显著增加,而且每个模态的占空比也可取不同值。此外,不同的应用场合有不同的需求和指标(如电感电流纹波最小化、半导体元件损耗最小化等),所对应的调制策略也不同,使得设计空间非常庞大。因此,传统的DC-DC变换器调制策略设计过程费时费力,且高度依赖专家知识和经验,导致设计效率低。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种基于强化学习的DC-DC变换器的调制策略设计方法及系统,其目的在于提升DC-DC变换器的调制策略设计效率。

为实现上述目的,按照本发明的第一方面,提供了一种基于强化学习的DC-DC变换器的调制策略设计方法,包括:

S1、构建一个深度神经网络作为智能体,智能体的输入为DC-DC变换器的状态向量X,输出为智能体动作空间中所有可能动作的质量向量Q;其中,所述状态向量X包括DC-DC变换器各端口电压值V、电路开关模态及对应的占空比,初始状态向量X

S2、将第t步的状态向量X

S3、重复S2,使智能体运行一轮,得到至多T组X

S4、利所述至多用T组X

S5、重复S2-S4,直至达到预设训练轮次或智能体的损失收敛,并将训练完成的智能体用于实际DC-DC变换器的调制策略设计。

进一步地,S2中,对所述状态向量X

用所述状态向量X

若满足,则奖励值R

若只满足第一指标,则奖励值R

若第一指标中有指标不满足,则奖励值R

所述第一指标包括以下至少一种:

一个开关周期内开关模态数量小于等于T;

占空比之和满足电路的物理约束;

每个端口的功率值满足约束;

所述第二指标为:DC-DC变换器可以稳定工作。

进一步地,所述第一指标还包括以下至少一种:

电流纹波满足约束;

DC-DC变换器的效率满足约束;

半导体元件的损耗满足约束。

进一步地,S2中,根据所述质量向量Q

进一步地,所述动作选择算法采用ε-greedy算法,以一定概率ε选择所述质量向量Q

进一步地,训练过程中,智能体的损失函数Loss为:

式中,q

式中,R

进一步地,S5中,将训练完成的智能体用于实际DC-DC变换器的调制策略设计,包括:

将DC-DC变换器实际运行工况输入至训练完成的智能体中,其中,所述实际运行工况为DC-DC变换器各端口电压;

智能体每走一步,输出对应的质量向量Q

智能体执行一轮,获得一个开关周期内对应的至多T组开关模态和占空比,所述至多T组开关模态和占空比构成可用的调制策略。

进一步地,S5中,所述智能体的损失收敛是指所述智能体生成可用的调制策略的次数达到设定的阈值。

按照本发明的第二方面,提供了一种基于强化学习的DC-DC变换器的调制策略设计系统,包括计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令执行第一方面任一项所述的方法。

按照本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面任一项所述的方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

(1)本发明的DC-DC变换器的调制策略设计方法,将调制策略设计看作是对变换器开关模态排列组合并分配占空比的过程。构建DC-DC变换器的状态向量,该状态向量包括变换器各端口电压值V、电路开关模态及每种电路开关模态对应的占空比,该状态向量用于量化DC-DC变换器在不同运行工况下的调制策略;其中,变换器各端口电压值V用于表征变换器的运行工况;将该状态向量X输入至智能体,智能体的输出用于表征选择每种电路开关模态及对应占空比以获得最优调制策略的可能性,使用深度强化学习高效搜索开关模态与占空比的组合,从而自动生成在该电压工况下的最优调制策略,避免复杂的人工设计,提高设计效率。

(2)进一步地,在智能体的训练过程中,将电路设计规则和设计需求转换为强化学习的奖励,满足不同的指标给予不同的奖励,正奖励用来训练深度神经网络在之后遇到相同输入时增加对应动作的可能性;负奖励用来训练深度神经网络在之后遇到相同输入时减少对应动作的可能性,促使深度神经网络自动探索和学习出能够最大化奖励的调制策略。

总而言之,本发明的方法使用深度神经网络作为智能体来生成调制策略,并采用一组量化规则提供强化学习所需的奖励,用于训练智能体。通过强化学习,智能体无需人为干预即可在试错中总结经验,最终生成奖励最大化的调制策略,提升设计效率。

附图说明

图1为本发明的基于强化学习的DC-DC变换器的调制策略设计方法流程图。

图2为本发明实施例中的单电感多端口DC-DC变换器的电路图。

图3(a)为本发明实施例中的单电感多端口DC-DC变换器在模态m

图3(b)为本发明实施例中的单电感多端口DC-DC变换器在模态m

图3(c)为本发明实施例中的单电感多端口DC-DC变换器在模态m

图3(d)为本发明实施例中的单电感多端口DC-DC变换器在模态m

图3(e)为本发明实施例中的单电感多端口DC-DC变换器在模态m

图4本发明实施例中单电感多端口DC-DC变换器不同调制策略对应的状态向量,图4中的(a)-(d)分别对应于状态向量X

图5(a)为发明实施例中单电感多端口DC-DC变换器在一种工况下生成的最优调制策略。

图5(b)为发明实施例中单电感多端口DC-DC变换器在另一种工况下生成的最优调制策略。

图6(a)为发明实施例中使用图5(a)生成的调制策略得到的电感电流仿真波形和实验波形。

图6(b)为发明实施例中使用图5(b)生成的调制策略得到的电感电流仿真波形和实验波形。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

如图1所示,本发明的基于强化学习的DC-DC变换器的调制策略设计方法,主要包括:

S1、构建一个深度神经网络作为智能体,智能体的输入为DC-DC变换器的状态向量X,输出为智能体动作空间中所有可能动作的质量向量Q;其中,状态向量X用于量化DC-DC变换器在不同运行工况下的调制策略,包括变换器各端口电压值V、电路开关模态及每种电路开关模态对应的占空比,变换器各端口电压值V用于表征变换器的运行工况;初始化时,除变换器端口电压值,其余元素为0,也即,初始状态向量X

S2、将第t步的状态向量X

S3、重复S2,使智能体运行一轮,也即,使DC-DC变换器调制策略的状态向量从初始状态走完一轮,得到至多T组X

S4、利用至多T组X

S5、重复S2-S4,直至达到预设的训练轮次或者深度神经网络的损失收敛,并将训练完成的智能体用于实际DC-DC变换器的调制策略设计。

具体地,S1中,状态向量X为:

X={V,S

其中,V表示变换器各端口电压值,用于表征变换器运行工况,为1×N的向量,列数N为DC-DC变换器端口的个数;S

也即,状态向量X

质量向量Q为:

Q={q(m

其中,m

所有可能动作,也即动作空间,为DC-DC变换器所有的开关模态与占空比0-1等比例划分后的离散占空比的所有组合,动作数为s*p。动作的质量为一个数值,数值越高,代表动作越好,选择该动作更有可能生成最优的调制策略。

具体地,S2中,第t步的状态向量X

表示深度神经网络,其结构需要根据设计的复杂度合适地选择,本发明实施例中,选择深度神经网络为全连接神经网络(FCNN),在其它实施例中,也可以是卷积神经网络(CNN)等其它深度神经网络。

具体地,S2中,根据质量向量Q

将动作a

具体地,S2中,对第t+1步的状态向量X

用更新后的调制策略控制DC-DC变换器,判断变换器的控制结果是否都满足规定的第一指标和第二指标,若满足,则奖励值R

具体地,第一指标包括:

一个开关周期内开关模态数量小于等于T;

占空比之和满足电路的物理约束;在本发明实施例中,占空比之和满足的物理约束为:占空比之和小于等于1;在其它实施例中,也可以是占空比之和大于1等,根据具体的电路物理约束设计;

每个端口的功率值满足约束。

第二指标为:DC-DC变换器可以稳定工作。

在其它实施例中,衡量奖励的指标并不固定,可以根据变换器的运行指标进行调整,以满足设计要求。比如,在其它实施例中,第一指标还可以包括:电流纹波满足约束,变换器的效率满足约束或半导体元件的损耗满足约束等。

具体地,S3中,当智能体运行一轮走完T步,可以得到T组X

S4中,利用该至多T组X

具体地,在本发明实施例中,在智能体每一步的运行中,将得到的X

从记忆池的所有样本数据中随机抽取额定数量的样本数据对深度神经网络进行训练和学习,以更新智能体的权重和偏置。

具体地,本发明实施例中,采用DQN算法训练深度神经网络,其训练目标是获得奖励尽可能高的调制策略。

基于奖励值R

其中,R

将计算得到的目标值

具体地,损失函数Loss为:

通过计算参数

其中,α是深度神经网络的学习率。经过训练后,Loss变小,说明深度神经网络更新了设计策略。

具体地,S5中,深度神经网络的损失收敛,也即达到深度神经网络训练成功的要求,对应于神经网络可以生成可用的调制策略(满足上述的第一指标和第二指标)的次数达到设定的阈值。达到预设的训练轮次则认为深度神经网络没有训练成功,需要重新运行程序,进行下一次学习。

将训练完成的智能体用于实际DC-DC变换器的调制策略设计,具体包括:

将DC-DC变换器实际运行工况(即端口电压)输入至训练完成的智能体中,智能体每走一步,输出质量向量Q

智能体执行一轮,获得一个开关周期内对应的至多T组开关模态和占空比,一个开关周期内对应的至多T组开关模态和占空比构成可用的调制策略。

下面结合具体的实施例,对本发明进一步详细说明。

单电感多端口(Single-Inductor Multi-Port,SIMP)DC-DC变换器具有“多硅少磁”的特性,单电感多端口DC-DC变换器体积小,便于集成,目前已广泛应用于直流微网、电动汽车、消费电子、LED照明等具有多端口连接需求的场合。本发明实施例中,以一个非隔离单电感双向端口(Single-Inductor Bidirectional-Port,SIBP)DC-DC变换器为例对本发明的技术方案进行详细说明。

如图2所示,是本发明实施例提供的非隔离单电感双向端口DC-DC变换器的拓扑结构图。该SIBP变换器包含一个电感,三个开关管及两个二极管,可以实现输入端口V

该SIBP变换器有5种开关模态,如图3(a)-图3(e)所示,其中,图3(a)为开关模态m

本发明实施例中的SIBP变换器主要参数如表1所示,将其关键参数(端口电压等)输入Python程序中用于训练深度神经网络。本发明实施例中,取每个工作循环(智能体运行一轮)步数上限T=8,即一个开关周期内包含的开关模态数最多为8。

表1样机关键参数

将运行工况(即端口电压),模态序列及每个开关模态对应的占空比作为调制策略状态向量X

(A)运行工况由该SIBP变换器的三个端口电压V

(B)模态序列由开关管S

(C)d

(D)如图4中的(a)所示,除了端口电压V

(E)由(A)(B)(C)(D),状态向量X

深度神经网络的输出为质量向量Q

动作空间为开关模态与离散占空比的所有组合,因为该SIBP变换器可供选择的开关模态有5种,占空比被划分为19份,所以动作空间大小为n=95,质量向量Q

深度神经网络的输出层有95个节点,每个节点代表“选择某个开关模态和占空比组合”的动作质量。

基于上述的输入和输出,本发明实施例中的深度神经网络共有3层,即输入层,隐藏层和输出层。深度神经网络选择全连接神经网络,深度神经网络计算公式为:

X

其中,X

当i等于1时,输入X

当i等于2时,输入X

根据深度神经网络的输出质量向量Q

学习迭代次数m和概率ε有如下关系:

其中,ε

当得到下一步开关模态及其对应的占空比后,将该开关模态与占空比加入调制策略,则调制策略更新为X

1)开关周期内开关模态数量小于等于上限T,即8;

2)占空比之和不大于1;

3)输入光伏端口的功率不超过额定功率值240W;

第二指标为:电感L是满足伏秒平衡。

当上述第一指标和第二指标要求均满足时,说明该调制策略是可行的,会得到一个很大的正奖励R

存储第t步的四个值X

根据下述的DQN算法公式,对250组样本数据的R

调整深度神经网络的权重和偏置参数

其中,0.001是深度神经网络的学习率。经过训练后,Loss变小,说明深度神经网络更新了设计策略。

上述实施例中的总体过程可以概述为:

(1)状态向量X

本发明实施例中,当得到负奖励R

当训练次数达到最大值m

本发明实施例中,当端口电压V

当端口电压改为V

将生成的调制策略用于实际的SIBP变换器控制,当端口电压V

本发明的DC-DC变换器的调制策略设计方法,将调制策略设计看作是对变换器开关模态排列组合并分配占空比的过程。将DC-DC变换器在不同运行工况下的调制策略(电路开关模态及每种电路开关模态对应的占空比)作为状态向量X输入至智能体,智能体的输出用于表征选择每种电路开关模态及对应占空比以获得最优调制策略的可能性,使用深度强化学习高效搜索开关模态与占空比的组合,从而自动生成在该电压工况下的最优调制策略,避免复杂的人工设计,提高设计效率。

在智能体的训练过程中,将电路设计规则和设计需求转换为强化学习的奖励,满足不同的指标给予不同的奖励,正奖励用来训练深度神经网络在之后遇到相同输入时增加对应动作的可能性;负奖励用来训练深度神经网络在之后遇到相同输入时减少对应动作的可能性,促使深度神经网络自动探索和学习出能够最大化奖励的调制策略。

采用DQN算法训练深度神经网络,将调制策略设计问题转换为寻找最大奖励之和的强化学习问题,采用强化学习在动作空间中不断探索,并在试错过程中不断学习经验,最终高效寻找到最优解,无需人工干预,即可生成不同运行工况下的最优调制策略,自适应能力强,节省了存储空间。

本发明还提供了一种基于强化学习的DC-DC变换器的调制策略设计系统,包括计算机可读存储介质和处理器;计算机可读存储介质用于存储可执行指令;处理器用于读取计算机可读存储介质中存储的可执行指令执行上述实施例中的基于强化学习的DC-DC变换器的调制策略设计方法。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中的基于强化学习的DC-DC变换器的调制策略设计方法。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种连铸钢包无引流开浇装置及无引流开浇方法
  • 前列腺电切术后膀胱冲洗引流袋及膀胱冲洗引流装置
  • 一种膀胱引流冲洗连接器及膀胱引流冲洗系统
技术分类

06120116332542