掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于燃料电池混合动力汽车能量管理领域,尤其涉及一种基于DDPG算法的燃料电池混合动力系统能量管理方法。

背景技术

当下能源消耗问题和环境污染问题已成为全球亟需改善的问题,而公路货运是交通运输业减少碳排放中重要的一项,重型卡车应用主要集中于物流及工程建设,其需求的持续增长也导致其保有量的增加。而由于重型卡车的运载较高,其能源消耗和碳排放问题也一直困扰着社会,因此当下社会的目光已聚焦到对重型卡车的更新改革。燃料电池汽车由于其氢能的能量密度更高且能进行快速加氢,其输出的功率该更高,能够满足重型货运卡车对续航里程的高要求。

当下研究由于燃料电池的尺寸限制,无法满足单个燃料电池的大功率输出,这与重型卡车行驶的大功率需求相悖,且单一能量源会造成燃料电池性能的过度衰退。因此对于燃料电池重型卡车的能源布置,较为主流的观点即采取多堆燃料电池系统来满足其功率需求,同时多堆燃料电池系统也能提高其整体效率。

目前燃料电池混合动力系统常用的能量管理策略主要分为三类:基于规则的方法、基于优化的方法和基于机器学习的方法。基于规则的策略计算量小,易于实现,被广泛运用于混合动力汽车能量管理工业领域,但是相关规则的制定主要依靠工程经验,同时对于工况的敏感性导致其缺乏适应性,鲁棒性较差;基于优化的策略主要分为全局优化和瞬时优化的管理策略,这种策略以多目标价值函数最小量为优化目标。基于全局优化的方法可以获取全局最优的优点,但是依赖于工况已知并且计算时间长,无法做到实时控制;基于瞬时优化的方法仅采取单步或多步优化,最终结果并不能体现较好的性能。

近几年基于机器学习的算法开始广泛运用于能量管理策略上,尤其是AC(Actor-Critic)架构,AC框架通过蒙特卡洛法计算Q值,需要完整的状态序列并且只能单独对策略进行迭代更新,Actor网络和Critic网络同时进行更新,二者关联性强,不太容易收敛,并且针对双堆燃料电池混合动力系统采用DDPG算法可以优化其燃料电池输出功率分布,减小其损耗成本,提升效率并显著提升整体动力系统部件寿命。

发明内容

本发明提供了一种基于DDPG算法的燃料电池混合动力系统能量管理方法,在保证汽车动力性前提下,通过DDPG方法,采用经验池回放和双网络方式改进了收敛困难的问题,并且采用多目标成本函数,保证SoC在合理范围内变化的同时降低了整体行驶成本。

为了实现以上目的,本发明采用以下技术方案:

一种基于DDPG算法的燃料电池混合动力系统能量管理方法,包括以下步骤:

步骤1:建立双堆燃料电池重型卡车模型,包括汽车动力学、燃料电池和锂电池模型,并建立DDPG代理模型;

步骤2:设置DDPG代理模型的状态、动作和奖励值,得到设置后的DDPG代理模型;

步骤3:获得相关驾驶工况训练数据集,根据获取的数据集训练所述设置后的DDPG代理模型得到训练结果;

步骤4:使用训练后的DDPG代理模型进行燃料电池混合动力卡车的能量管理。

以上所述步骤中,步骤1中的燃料电池重型卡车模型混合动力系统由两个功率相同的燃料电池和锂电池组成;DDPG代理模型包括:当前网络和目标网络,所述当前网络负责与环境进行交互,并且计算当前Q值,并将网络参数更新传递到目标网络;所述目标网络负责进行动作的选择,并计算目标Q值,并且DDPG代理模型中所述当前网络与目标网络的网络结构一致,包含相同的Actor与Critic网络;

步骤2中状态量为:汽车速度Velocity,汽车加速度Acceleration和锂电池SoC,状态变量向量为S=[Velocity,Acceleration,SOC]

reward=-{α[C

其中,C

C

其中,C

步骤3中获得相关驾驶工况训练数据集,根据获取的数据集训练所述的DDPG代理模型得到训练结果,具体包括以下步骤:

步骤A:初始化所述设定的DDPG代理模型;

步骤B:初始化后的DDPG代理模型与燃料电池重型卡车进行交互,得到训练数据集;

上述步骤A具体包括:分别初始化当前网络和目标网络,其中当前网络中的Actor网络和Critic网络参数分别用θ和ω表示,目标网络中Actor网络和Critic网络分别用θ’和ω’表示;目标网络中的Actor和Critic网络参数通过θ′←θ,ω′←ω更新;清空经验回放池D;以一个基于Ornstein-Uhelnbeck(OU)的噪声N进行探索;

上述步骤B具体包括以下步骤:

步骤(Ⅰ):Actor当前网络通过与环境进行交互,将当前状态集S

步骤(Ⅱ):当前Actor网络输出a

步骤(Ⅲ):随机从经验回放池D中抽取一组数据用于更新网络参数;

步骤(Ⅳ):计算目标Q值:y

步骤(Ⅴ):通过最小化损失函数

步骤(Ⅵ):通过损失梯度函数:

步骤(Ⅶ):对目标Actor网络和目标Critic网络参数进行软更新:

ω′←τω+(1-τ)ω′,θ′←τθ+(1-τ)θ′,τ<<1为更新系数;

步骤4中使用训练后的DDPG代理模型进行燃料电池混合动力卡车的能量管理,具体包括以下步骤:

步骤(α):得到汽车当前状态量集S

步骤(β):将状态量集输入DDPG代理模型,得到燃料电池输出功率action=[FC1power,FC2 power]

步骤(γ):将控制量作用于汽车,汽车行驶得到下一时刻状态量集S

步骤(δ):重复步骤(α)至步骤(γ),根据多目标函数的设置,得到其最低行驶成本下的燃料电池输出功率分布。

有益效果:本发明提供了一种基于DDPG算法的燃料电池混合动力系统能量管理方法,首先,建立DDPG代理模型;其次,设置模型的状态量、动作和奖励,奖励即为多目标成本函数的相关函数,目标函数包含燃料电池损耗成本、锂电池健康损耗成本、氢耗和SoC变化惩罚项;然后,获取相关训练数据集进行模型的训练;最后,使用该模型进行双堆燃料电池重型卡车的能量管理。本发明在保证卡车动力性的前提下,针对双堆燃料电池重型卡车全里程行驶成本最优函数,采用DDPG的算法对燃料电池输出功率进行优化分配,避免了燃料电池在高损耗区间的工作时间,延长燃料电池使用寿命,同时减小了锂电池健康状态损耗,降低了卡车的总体行驶成本,提高了运输的经济性。

附图说明

图1是本发明实例中提供的双堆燃料电池重型卡车的结构图;

图2是本发明实例中提供的基于DDPG的能量管理策略的结构示意图;

图3是本发明实例中提供的优化后的燃料电池输出功率分布图;

图4是本发明实例中提供的优化后的各项成本分布图;

图5是本发明实例中提供的优化后的燃料电池功率密度分布图。

具体实施方式

下面结合附图和具体实例对本发明进行详细说明:

如图2所示,一种基于DDPG算法的燃料电池混合动力系统能量管理方法,包括以下步骤:

建立双堆燃料电池重型卡车模型,包括汽车动力学、燃料电池和锂电池模型,并建立DDPG代理模型;如图1所示,根据结构图可以看出双堆燃料电池重型卡车主要有两个PEMFC系统(最大输出功率95kW)、锂电池、电机、变速器和能量管理系统控制器组成。两个燃料电池各通过一个DC/DC变换器与锂电池并联到直流母线,通过一个DC/AC转换器对电机进行供能,再经由变速器将动力传输至车轮;DDPG代理模型包括:当前网络和目标网络,所述当前网络负责与环境进行交互,并且计算当前Q值,并将网络参数更新传递到目标网络;所述目标网络负责进行动作的选择,并计算目标Q值。并且DDPG代理模型中所述当前网络与目标网络的网络结构一致,包含相同的Actor与Critic网络;

获取汽车速度Velocity,汽车加速度Acceleration和锂电池SoC,状态变量向量为S=[Velocity,Acceleration,SOC]

reward=-{α[C

其中,C

C

其中,C

分别初始化当前网络和目标网络,其中当前网络中的Actor网络和Critic网络参数分别用θ和ω表示,目标网络中Actor网络和Critic网络分别用θ’和ω’表示;目标网络中的Actor和Critic网络参数通过θ′←θ,ω′←ω更新;清空经验回放池D;以一个基于Ornstein-Uhelnbeck(OU)的噪声N进行探索;Actor当前网络通过与环境进行交互,将当前状态集S

得到汽车当前状态量集S

action=[FC1 power,FC2 power]

图3是本发明实例中通过DDPG算法优化后的燃料电池输出功率分布图,从图中可以看出经由基于DDPG算法的燃料电池混合动力系统能量管理方法优化后的燃料电池输出功率分布大致分布于健康的工作区间,整体曲线较为平滑,避免了在高负载功率和低负载功率区间工作的时间,并且启停次数也较少,有效地降低了燃料电池的损耗。

图4是本发明实例中通过DDPG算法优化后的各项成本分布图,图中可以看出对燃料电池输出功率优化后,其损耗成本最小,并且主要的成本在氢耗上,电池的健康状态损耗成本也较小,整体上做到了行驶成本最优化。

图5是本发明实例中通过DDPG算法优化后的燃料电池功率密度分布图,右侧为燃料电池的效率曲线,从图中可以看出,基于DDPG控制策略下的功率分布中,燃料电池1的功率大多分布在20到40kW之间,燃料电池2的功率大多分布在30到60kW之间,根据专家经验规定,20%最大输出功率下为低负载区间,80%最大输出功率以上为高负载区间,划分出一个高效工作区间,燃料电池处于高效工作区间的占比也达到了63.5%和62.8%。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅是本发明的优选实施方式,熟悉本领域技术的人员可以对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不经过创造性的劳动,因此本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都在本发明的保护范围之内。

技术分类

06120114725494