掌桥专利:专业的专利平台
掌桥专利
首页

一种生态驾驶和能量管理协同优化方法

文献发布时间:2024-04-18 19:58:53


一种生态驾驶和能量管理协同优化方法

技术领域

本发明涉及车辆能量管理技术领域,特别是涉及一种生态驾驶和能量管理协同优化方法。

背景技术

随着汽车保有量的不断增加,汽车排放问题也日益凸显,减少碳排放是我国响应节能减排的重要措施。但由于电池功率密度和能量容量的限制,纯电动汽车持续驾驶的距离受限。因此,混合动力技术更加符合当今技术和行业发展的需要,其能量管理问题是当前新能源汽车亟待解决的控制优化问题之一。混合动力汽车能量管理问题具有时变、复杂、非线性的特点。规则能量管理策略控制参数为固定值,对复杂环境适应性较差,难以保持实现有效的最优分配控制。全局优化能量管理策略需要在行驶前就获知全部工况信息,仅适用于参考对比,无法实现实际应用。瞬时优化能量管理策略是主要的研究方向,近年来,基于强化学习、深度学习为代表的能量管理方法逐步应用到混合动力汽车能量管理策略中,但其优化效果有待提升,实时性以及对复杂工况的适应性存在缺陷。

并且,随着智能网联技术的发展,生态驾驶也迎来了更多的发展。生态驾驶是一种有效提高燃油效率和减少汽车污染物排放的驾驶行为,是通过网联信息和智能决策融合传统的车辆控制策略形成的生态驾驶控制策略。而较多的生态驾驶研究集中于燃油车的能源系统硬件、速度规划和交通场景等方面,混合动力汽车领域需要更加生态、更加全局、更加节能的能源系统,需要决策控制层面兼顾控制目标的最优性与控制过程的实时性,以实现生态驾驶和能量管理的协同优化。

如今已有一些关于生态驾驶与能量管理策略协同优化方法被提出,其中有代表性、公开发表的方法有如下几个:方法一为一种基于模型预测控制的车辆跟随分层式控制系统及方法,上层控制采用模型预测控制的方法与非线性跟车策略,下层控制基于车辆整车及传动系统的动力学模型对期望加速度进行跟踪;方法二为一种新能源汽车能量管理和自适应巡航协同优化的方法,以混合动力汽车为研究对象,基于深度确定性策略梯度(DDPG)算法构建Actor、Critic训练网络,并将可继承的神经网络参数下载至整车控制器,以实现实时在线应用;方法三为一种智能网联HEV车路协同分层生态驾驶控制方法和系统,该方法由车辆动力系统、车速规划模块及功率分流控制模块构成,规划了最优车速轨迹,并实现了以车辆燃油经济性最大化为目的实现了实时功率分配。以上方法的缺点包括第一,模型预测控制方法控制性能高,便于实现,但受模型精度影响较大;第二,DDPG算法为单智能体模型,执行生态驾驶与能量管理协同优化存在多目标权衡问题,稳定性较低;第三,分层控制方法具有较小的计算负担,但在优化过程中不能正确地解决生态驾驶与能量管理间的耦合关系。

发明内容

本发明的目的是针对上述技术缺陷,提供一种生态驾驶和能量管理协同优化方法,利用MADDPG算法,实现对混合动力汽车的协同优化控制,在保证行驶安全性及舒适性的基础上,提升车辆经济性,满足实时应用要求。

为实现上述目的,本发明提供了如下方案:

一种生态驾驶和能量管理协同优化方法,包括:

构建混合动力汽车的车辆跟随模型仿真环境;

基于MADDPG算法和神经网络结构,创建所述混合动力汽车的生态驾驶及能量管理智能体网络,并构建所述混合动力汽车的生态驾驶及能量管理智能体奖励函数;

基于所述智能体网络和所述智能体奖励函数,将所述智能体网络与所述车辆跟随模型仿真环境进行互动,并对互动中的智能体网络进行训练,获取最优神经网络参数,将所述最优神经网络参数编译至整车控制器,实现生态驾驶与能量管理在线协同优化。

进一步地,构建所述混合动力汽车的车辆跟随模型仿真环境包括:

确定所述混合动力汽车的混合储能系统结构及能量流,构建混合动力系统模型;

分析车辆安全舒适驾驶要求,构建车辆跟随模型;

获取所述混合动力汽车的动力电池特性曲线、混合工况下车辆行驶数据,并将所述混合动力汽车的动力电池特性曲线、混合工况下车辆行驶数据与所述混合动力系统模型、车辆跟随模型相结合,构建所述混合动力汽车的车辆跟随模型仿真环境。

进一步地,获取所述混合动力汽车的动力电池特性曲线包括:

构建内阻、开路电压与动力电池SOC的函数关系,根据所述函数关系求解任意时刻和状态下的电池SOC值,即为动力电池特性曲线,所述函数关系如下:

其中,V

进一步地,所述车辆跟随模型为:

其中,Δv、d、d

进一步地,所述混合动力汽车的生态驾驶及能量管理智能体网络包括:生态驾驶智能体Actor网络μ

进一步地,构建所述混合动力汽车的生态驾驶及能量管理智能体奖励函数包括:

根据典型车辆跟随模型,定义生态驾驶智能体状态向量和动作向量:

state1={v

action1={a

其中,state1为生态驾驶智能体状态向量;action1为生态驾驶智能体动作向量;a

基于所述生态驾驶智能体网络、生态驾驶智能体状态向量和动作向量,构建所述生态驾驶智能体奖励函数,所述生态驾驶智能体奖励函数为:

其中,R

基于混合动力汽车仿真模型,定义能量管理智能体状态向量和动作向量:

state2={P

action2={ΔP

其中,state2为能量管理智能体状态向量;action2为能量管理智能体动作向量;P

基于所述能量管理智能体网络、能量管理智能体状态向量和动作向量,构建所述能量管理智能体奖励函数,所述能量管理智能体奖励函数为:

其中,R

进一步地,对所述互动中的智能体网络进行训练包括:

初始化所述生态驾驶及能量管理智能体Actor网络及其目标网络、Critic网络及其目标网络,并定义经验回放池,预设最大迭代次数;

开始训练,使用Laplace随机分布引入t时刻动作探索噪声N

基于所述采样概率及重要性权重从所述经验回放池中获取样本对所述生态驾驶及能量管理智能体Actor网络和Critic网络进行训练,获取所述生态驾驶及能量管理智能体Critic网络的损失和所述生态驾驶及能量管理智能体Actor网络的梯度,并更新生态驾驶及能量管理智能体Actor网络和Critic网络的目标网络参数,重复训练达到所述最大迭代次数,训练结束,提取所述最优神经网络参数。

进一步地,所述生态驾驶智能体Critic网络的损失计算方法为:

所述能量管理智能体Critic网络的损失计算方法为:

其中,L(Q

所述生态驾驶智能体Actor网络的梯度计算方法为:

所述能量管理智能体Actor网络的梯度计算方法为:

其中,

所述生态驾驶及能量管理智能体Actor网络和Critic网络的目标网络参数的更新方法为:

其中,τ为目标网络参数更新幅度;i为智能体序号,i=1,2。

本发明的有益效果为:

本发明所提出的基于MADDPG算法的生态驾驶和能量管理协同优化方法,首先以燃料电池/电池混合动力汽车为研究对象,根据车辆行驶安全性、舒适性要求以及车辆纵向动力学,搭建车辆跟随模型及混合动力系统模型;其次分析协同优化控制目标,提取状态变量输入及动作输出,分别建立生态驾驶及能量管理策略的Actor-Critic网络及奖励函数;最后对混合动力汽车协同优化控制策略进行离线训练并进行测试。所提出的协同优化控制方法具有较高收敛速度,在保证行驶安全性及舒适性的基础上,提升车辆经济性,满足实时应用要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种生态驾驶和能量管理协同优化方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例提供了一种生态驾驶和能量管理协同优化方法,如图1所示,包括:

S1.对燃料电池/电池混合动力系统组成进行理论分析,确定混合储能系统结构及不同工作状态的能量流,建立包括燃料电池系统、动力电池系统、电机系统及整车附件的混合动力系统模型,预加载动力电池特性曲线作为先验知识,并输入混合工况下车辆行驶数据;

其中,动力电池特性曲线的获取方法为:构建内阻、开路电压与动力电池SOC的函数关系,根据函数关系求解任意时刻和状态下的电池SOC值,即为动力电池特性曲线,函数关系如下:

其中,V

S2.分析车辆安全舒适驾驶要求,建立包含本车、前车及V2V通讯技术的典型车辆跟随模型;

典型车辆跟随模型具体为:

其中,Δv、d、d

S3.基于MADDPG算法和神经网络结构分别创建生态驾驶及能量管理的Actor网络、Critic网络及其目标网络,选取状态向量及动作向量,构建生态驾驶及能量管理控制目标所对应的奖励函数,具体步骤如下:

S31.构建Actor、Critic网络及目标网络

构建生态驾驶智能体及能量管理智能体Actor网络,分别记为μ

Actor网络的目标网络分别为

S32.选取状态向量及动作向量

根据典型车辆跟随模型,结合车辆间距、两车速度及加速度,定义车辆跟随智能体状态向量如下:

state1={v

action1={a

其中,state1为生态驾驶智能体状态向量;action1为生态驾驶智能体动作向量;a

结合混合动力系统结构及能量流,定义能量管理智能体状态向量如下:

state2={P

action2={ΔP

其中,state2为能量管理智能体状态向量;action2为能量管理智能体动作向量;P

S33.构建奖励函数

车辆跟随智能体奖励函数如下:

其中,R

能量管理智能体奖励函数如下:

其中,R

S4.基于已构建的Actor网络、Critic网络及奖励函数,智能体与环境进行互动,通过MADDPG算法对多智能体进行训练,提取最优神经网络参数,具体步骤如下:

S41.初始化Actor网络、Critic网络、目标网络,定义经验回放池R,并初始化;

S42.使用Laplace随机分布引入t时刻动作探索噪声N

S43.根据当前梯度及Laplace随机噪声,分别获取生态驾驶及能量管理智能体动作向量;

S44.根据时序误差绝对值|δ

S45.根据采样概率利用优先级经验回放技术,从经验回放池R获取小批量样本对Actor和Critic网络进行训练;

S46.分别计算Critic网络的损失函数;

其中,L(Q

S47.分别计算Actor网络的梯度;

其中,

S48.使用软更新的方法更新Actor和Critic网络的目标网络参数;

其中,τ为目标网络参数更新幅度;i为智能体序号,i=1,2;

S49.重复步骤S42至S48,直到设定的最大迭代次数,训练结束,提取最优神经网络参数。

其中,通过MADDPG算法对多智能体进行训练,提取最优神经网络参数的代码如表1所示:

表1

S5.将最优神经网络参数下载并编译至整车控制器,实现生态驾驶与能量管理在线协同优化。

本发明提出的基于MADDPG算法的生态驾驶和能量管理协同优化方法,首先以燃料电池/电池混合动力汽车为研究对象,根据车辆行驶安全性、舒适性要求以及车辆纵向动力学,搭建车辆跟随模型及混合动力系统模型;其次分析协同优化控制目标,提取状态变量输入及动作输出,分别建立生态驾驶及能量管理策略的Actor-Critic网络及奖励函数;最后对混合动力汽车协同优化控制策略进行离线训练并进行测试。所提出的协同优化控制方法具有较高收敛速度,在保证行驶安全性及舒适性的基础上,提升车辆经济性,满足实时应用要求。

以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

技术分类

06120116514244