导航：首页> 燃烧发动机；热气或燃烧生成物的发动机装置>一种基于深度强化学习的个性化自适应巡航系统及其控制方法

一种基于深度强化学习的个性化自适应巡航系统及其控制方法

文献发布时间：2023-06-19 19:04:00

技术领域

本发明涉及一种车辆自动控制系统，特别提供了一种基于深度强化学习的个性化自适应巡航系统及其控制方法，属于车辆辅助驾驶技术领域。

背景技术

随着科学技术的不断进步，汽车也越来越偏向智能化，自动驾驶是今后汽车发展的主要趋势之一。自适应巡航控制(Adaptive cruise control，ACC)系统是先进驾驶辅助系统(Advanced driving assistance system，ADAS)的重要组成部分，也是自动驾驶较为初级的阶段。ACC系统最初是从定速巡航的基础上发展而来，此后又增加了车距保持的功能，通过车载传感器感知前方的行驶环境，控制器根据感知信息做出决策，给出相应的控制量，控制节气门和制动系统自动调整车速，提高了驾驶的安全性和舒适性。

自适应巡航系统研究的核心部分就是控制方法的设计，一般可分为基于规则和基于学习的控制方法两类。其中基于规则的自适应巡航方法就是根据固定规则对环境做出特定的反应，但是在实际的行车工况中复杂度很高，人为设计的规则难以囊括所有的情况，因此泛化性较差。此外由于决策是基于固定规则，不能够满足人类驾驶员个性化的需求，从而导致ACC系统的接受度低。经典的PID控制理论、滑膜控制理论、模糊控制理论、模型预测控制方法等被广泛应用于基于规则的自适应巡航控制方法中。其中利用模型预测控制方法，通过既定规则结合性能指标的方式可实现多目标ACC系统的设计，但是缺乏从状态到动作的因果关联性。

而基于学习的自适应巡航控制方法，不需要根据特定的工况制定相应的规则，解决上述问题具有天然的优势。目前很多研究者们都倾向用深度强化学习来设计自适应巡航控制方法，由于深度学习具有强大的感知能力，可作为强化学习特征提取的工具。同时强化学习将车辆看成是一个智能体，通过试错的方式不断地与环境进行交互，寻求最优策略，根据策略使得在特定状态下采取能够获得最大累计回报的动作。将深度学习和强化学习相结合得到的深度强化学习，具有在复杂的坏境下做出合理决策的能力，因此该方法泛化性良好。

目前有很多研究者为了提高ACC系统的市场接受率，针对大量驾驶员的行为数据展开了驾驶员驾驶风格的研究；也有不少学者针对ACC多目标协调问题进行了深入研究，但是在设计多目标ACC系统的时候忽略了不同风格驾驶员对于ACC系统各性能的需求。如何在考虑驾驶风格的基础上有效平衡ACC系统各性能，实现个性化及综合性能的提升是ACC研究的重点。

发明内容

发明目的：针对现有技术中存在的不足，本发明提供了一种基于深度强化学习的个性化自适应巡航系统及其控制方法。本发明基于深度强化学习设计个性化的多目标自适应巡航控制系统，基于改进的深度确定性梯度策略，对自适应巡航系统的安全性、跟车性及舒适性进行了模块化奖励函数的设计，此外根据特定的驾驶风格设计了三套不同控制风格的控制模块，以满足不同风格驾驶员对于不同性能的需求。

技术方案：一种基于深度强化学习的个性化自适应巡航系统，包括环境感知层、上层控制器、下层控制器和执行机构，所述环境感知层获取的信号输入至上层控制器，上层控制器根据输入的信号转化为控制信号输出给下层控制器，下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构，执行机构根据执行指令运行；

所述环境感知层包括毫米波雷达、车速传感器，毫米波雷达获取探测范围内自车与前车的实际间距d信号和相对车速ΔV信号；车速传感器用于获取自车车速V

所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块；

所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块，信号参数记录模块记录由环境感知层传来的自车车速V

所述动作输入计算模块包括激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块，所述激进型动作输入计算模块、一般型动作输入计算模块和保守型动作输入计算模块分别包括期望距离计算模块、参数计算模块和参数记录模块；

所述深度强化学习模块包括激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块及保守型DDPG_calm控制模块，根据驾驶风格识别器识别出的驾驶风格，选择对应风格的动作输入计算模块和控制模块；

所述下层控制器包括驱动/制动切换模块和期望节气门/制动压力计算模块，驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号，并将加速或制动信号发送至期望节气门/制动压力计算模块，期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构；

所述执行机构包括动力装置控制单元、电子节气门、制动控制单元及制动油缸，动力装置控制单元根据计算出的节气门开度控制电子节气门，制动控制单元根据期望制动压力控制制动油缸。

本发明通过环境感知层采集智能体状态信号传输给上层控制器，上层控制器根据其信号识别出对应的驾驶风格，并切换至对应的驾驶风格控制模式，经过训练得出对应驾驶风格的期望加速度，下层控制器根据该期望加速度，计算出对应的期望节气门开度或制动压力，将其输入至执行机构执行，从而达到在系统的基础性能上提升个性化和整体性能，并且满足各种风格驾驶的需求。

一种基于深度强化学习的个性化自适应巡航系统的控制方法，包括以下步骤：

步骤一、启动系统，毫米波雷达获取探测范围内是否有前车，无前车则保持设定车速行驶，有前车则进入步骤二；

步骤二、采集信号参数，毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度V

步骤三、录入信号参数，将步骤二中获得的信号参数输入至信号参数记录模块中并保存；

步骤四、识别驾驶风格，识别驾驶风格模块根据参数记录模块中的信号参数判断当前驾驶员的风格；若判定为激进型，则进入步骤五；若不是激进型则进一步判定是否为一般型，若是一般型，则进入步骤六；若不是一般型则判定为保守型，则进入步骤七；将驾驶员的识别结果存储在识别驾驶风格模块中；

步骤五、切换至激进型控制模式，识别驾驶风格模块判定的驾驶风格为激进型，则将信号参数记录模块中存储的信号参数输入到激进型动作输入计算模块中，输出为本车与前车之间的状态量，激进型DDPG_aggressive控制模块与激进型动作输入计算模块相连，以状态量作为输入，输出为激进型驾驶员的期望加速度；

步骤六、切换至一般型控制模式，识别驾驶风格模块判定的驾驶风格为一般型，则将信号参数记录模块中存储的信号参数输入到一般型动作输入计算模块中，输出为本车与前车之间的状态量，一般型DDPG_normal控制模块与一般型动作输入计算模块相连，以状态量作为输入，输出为一般型驾驶员的期望加速度；

步骤七、切换至保守型控制模式，识别驾驶风格模块判定的驾驶风格为保守型，则将信号参数记录模块中存储的信号参数输入到保守型动作输入计算模块中，输出为本车与前车之间的状态量，保守型DDPG_calm控制模块与保守型动作输入计算模块相连，以状态量作为输入，输出为保守型驾驶员的期望加速度；

步骤八、调节加速度，驱动/制动切换模块根据上层控制器输出的期望加速度值转化为加速/制动信号，并将加速/或制动信号发送至期望节气门/制动压力计算模块，期望节气门/制动压力计算模块计算出节气门开度或者期望制动压力发送至执行机构；动力装置控制单元根据节气门开度控制电子节气门或者制动控制单元根据期望制动压力控制制动油缸或者执行机构保持现状；若系统持续运行则回到步骤二重复循环至步骤八，若系统关闭则进入步骤九；

步骤九、结束，关闭系统或停车时，系统运行至步骤八后进入步骤九停止运行。

本发明根据特定的驾驶风格设计出三套不同控制风格的控制模块，并且对该系统的安全性、跟车性及舒适性进行了模块化奖励函数的设计，通过不同风格的控制模块进行策略训练以及奖励函数的辅助使得该系统在不断学习更新策略的同时保证其策略都是高价值经验并且使智能体的学习更加稳定，满足了不同风格驾驶员对于ACC系统各性能的需求，提升了该系统的个性化及综合性能。

优选项，所述步骤四中识别驾驶风格的方法如下：

S1、计算冲击度，读取由信号参数记录模块记录的环境感知层传来的自车车速V

J(t)＝d

式中，V

S2、求驾驶员驾驶状态识别系数R

驾驶员驾驶状态识别系数R

式中，SD

S3、判断驾驶员的风格，在识别驾驶风格模块中，根据实时计算的驾驶员驾驶状态识别系数R

优选项，所述步骤五、六和七中本车与前车之间的状态量包括距离误差Δd、自车速度V

选取激进型的跟车间距τ为1s及d

优选项，所述步骤五、六和七中激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块和保守型DDPG_calm控制模块的控制策略通过进行训练，训练收敛后获得并分别保存在对应的模块中，以状态量为输入根据控制策略输出期望加速度。

优选项，所述训练方法包括状态量更新模块、经验更新模块、网络参数更新模块和奖励函数模块，所述状态量更新模块将通过环境感知层采集到的数据转换成状态量后输入到经验更新模块更新出高价值经验样本并存储，所述网络参数更新模块随机抽取经验更新模块中的经验样本进行训练并且根据奖励函数模块给予的奖励朝着获得最大奖励的方式进行更新。

优选项，所述状态量更新模块将自车与前车的相对车速ΔV、自车车速V

ΔV

式中，ΔT为更新的时间步长，V

训练开始前初始化状态量：

d(t＝0)＝d

式中，V

优选项，所述经验更新模块通过筛选高价值样本经验进入对应风格经验池，收集对应风格驾驶员的样本经验(s

定义激进型风格驾驶员训练样本的平均奖励

式中，n是从最开始训练到当前训练所经历的次数，r

获取当前经验的奖励r

对于一般型风格驾驶员和保守型风格驾驶员采取与激进型风格驾驶员的经验更新模块相同的更新方式，其中，定义一般型风格驾驶员的平均奖励为

优选项，所述网络参数更新模块包括动作网络和策略评价网络，所述动作网络包括在线动作网络和目标动作网络，所述策略评价网络包括在线动作评价网络和目标动作评价网络，所述动作网络基于自车和前车的状态量输出确定性的期望加速度，所述策略评价网络基于在线动作网络采取的动作好坏输出动作价值评价函数：Q(s，a|θ

定义在线动作网络参数为θ

动作网络更新：

随机采集N(s

构造相似度函数：

式中，a

在线动作评价网络根据样本中的s

式中，Q(s，a|θ

通过演员(actor)网络的优化器更新Q

式中，θ

动作评价网络更新：

目标动作网络根据样本中的s

式中，r

通过评论家网络(critic)网络的优化器更新在线动作评价网络的参数θ

式中，y

目标动作网络和目标动作评价网络都采取软更新(soft update)的方式分别更新参数θ

式中，θ

对于动作网络的输出采用tanh激活函数，对于激进型驾驶风格，将函数映射到范围[-1，1]，因此可以将输出加速度限制在[-4,4]m/s

优选项，所述奖励函数模块分为安全性奖励函数、跟车性奖励函数、舒适性奖励函数，将其线性集成，在训练中不断调整各性能前的权重；

安全性主要和自车和前车的相对距离Δd和相对速度Δv有关，当两车之间的Δd、Δv很小时容易发生追尾事故，所述安全性奖励函数R1如下：

式中，Δd为自车和前车的相对距离，Δv为相对速度，

跟车性能用两车间的实际距离和期望距离之间的偏差来衡量，偏差越大则给予的惩罚越多，所述跟车性奖励函数R2如下：

式中，d

所述舒适性奖励函数R3如下：

R3＝-jerk

式中，jerk为加速度变化率。常用来衡量舒适性，jerk的值越小则舒适性越好，

对于激进型驾驶风格，要求跟车性优于舒适性，故将其跟车性期望间距中的跟车时距τ设置为1s，其奖励函数线性集成为R＝10R

对于一般型驾驶风格，要求跟车性和舒适性介于其他两种驾驶风格之间，故将其跟车性期望间距中的跟车时距τ设置为1.5s，其奖励函数线性集成为R＝10R

对于保守型驾驶风格，要求舒适性优于跟车性，故将其跟车性期望间距中的跟车时距τ设置为2s，其奖励函数线性集成为R＝10R

有益效果：本发明通过设计三种不同控制风格的控制模块，以及对该系统的安全性、跟车性及舒适性进行模块化奖励函数的设计满足不同风格驾驶员对于ACC系统各性能的需求，通过构建相似度函数，将其用于在线动作网络的更新，使其更加符合人类驾驶员的驾驶习惯，通过经验更新模块，提高了各类型驾驶员高价值经验样本的复用率，有效提升了网络的收敛速度，总体提升了该系统的个性化及综合性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图；

图1为本发明ACC系统整体架构图；

图2为本发明驾驶员风格识别器结构图；

图3为本发明ACC系统工作流程图；

图4为本发明经验更新模块处理图；

图5为本发明网络更新图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

如图1所示，一种基于深度强化学习的个性化自适应巡航系统，包括环境感知层、上层控制器、下层控制器和执行机构，所述环境感知层获取的信号输入至上层控制器，上层控制器根据输入的信号转化为控制信号输出给下层控制器，下层控制器根据上层控制器输出的控制信号转化为动作指令给执行机构，执行机构根据执行指令运行；

所述上层控制器包括驾驶员风格识别器、动作输入计算模块以及深度强化学习模块；

如图2所示，所述驾驶员风格识别器包括信号参数记录模块、计算冲击度模块、计算驾驶状态识别系数模块以及识别驾驶风格模块，信号参数记录模块记录由环境感知层传来的自车车速V

为了避免驱动/制动频繁切换，通过驱动/制动曲线上下方设置阈值的方式，将其分为驱动控制、制动控制及不操作三种模式。当期望加速度在驱动/制动阈值上方时进行驱动控制，当期望加速度在驱动/制动阈值下方时则进行制动控制，当期望加速度在两者之间时，则无需进行驱动或制动控制，以提高驾驶过程中的舒适性和燃油经济性。

如图3所示，一种基于深度强化学习的个性化自适应巡航系统的控制方法，包括以下步骤：

步骤一、启动系统，毫米波雷达获取探测范围内是否有前车，无前车则保持设定车速行驶，有前车则进入步骤二；

步骤二、采集信号参数，毫米波雷达和车速传感器分别检测获得与前车的相对距离d和相对速度ΔV以及自车速度V

步骤三、录入信号参数，将步骤二中获得的信号参数输入至信号参数记录模块中并保存；

步骤六、切换至一般型控制模式，识别驾驶风格模块判定的驾驶风格为一般型，则将信号参数记录模块中存储的信号参数输入到一般型动作输入计算模块中，输出为本车与前车之间的状态量，一般型DDPG normal控制模块与一般型动作输入计算模块相连，以状态量作为输入，输出为一般型驾驶员的期望加速度；

步骤七、切换至保守型控制模式，识别驾驶风格模块判定的驾驶风格为保守型，则将信号参数记录模块中存储的信号参数输入到保守型动作输入计算模块中，输出为本车与前车之间的状态量，保守型DDPG calm控制模块与保守型动作输入计算模块相连，以状态量作为输入，输出为保守型驾驶员的期望加速度；

步骤九、结束，关闭系统或停车时，系统运行至步骤八后进入步骤九停止运行。

本发明根据特定的驾驶风格设计出三套不同控制风格的控制模块，并且对该系统的安全性、跟车性及舒适性进行了模块化奖励函数的设计，通过不同控制风格的控制模块进行策略训练以及奖励函数的辅助使得该系统在不断学习更新策略的同时保证其策略都是高价值经验并且使智能体的学习更加稳定，将三种模式下的策略分别保存在对应的控制模块中，使得每种模式的策略都能够根据传感器采集到的两车之间的状态信息，做出符合驾驶习性的决策，满足了不同风格驾驶员对于ACC系统各性能的需求，提升了该系统的个性化及综合性能。

所述步骤四中识别驾驶风格的方法如下：

S1、计算冲击度，读取由信号参数记录模块记录的环境感知层传来的自车车速V

J(t)＝d

式中，V

S2、求驾驶员驾驶状态识别系数R

驾驶员驾驶状态识别系数R

式中，SD

S3、判断驾驶员的风格，在识别驾驶风格模块中，根据实时计算的驾驶员驾驶状态识别系数R

所述步骤五、六和七中本车与前车之间的状态量包括距离误差Δd、自车速度V

选取激进型的跟车间距τ为1s及d

所述步骤五、六和七中激进型DDPG_aggressive控制模块、一般型DDPG_normal控制模块和保守型DDPG_calm控制模块的控制策略通过进行训练，训练收敛后获得并分别保存在对应的模块中，以状态量为输入根据控制策略输出期望加速度。

所述训练方法包括状态量更新模块、经验更新模块、网络参数更新模块和奖励函数模块，所述状态量更新模块将通过环境感知层采集到的数据转换成状态量后输入到经验更新模块更新出高价值经验样本并存储，所述网络参数更新模块随机抽取经验更新模块中的经验样本进行训练并且根据奖励函数模块给予的奖励朝着获得最大奖励的方式进行更新。

所述状态量更新模块将自车与前车的相对车速ΔV、自车车速V

ΔV

式中，ΔT为更新的时间步长，V

训练开始前初始化状态量：

d(t＝0)＝d

式中，V

如图4所示，由于经验池是有限的，新样本会不断地代替旧样本以实现更新的目的。但是在智能体探索的过程中会出现低价值的新样本经验代替原来高价值旧样本的经验，这样就会导致网络收敛的速度慢。因此为了提高高价值经验样本的复用率，筛选高价值的经验样本，设计经验更新模块。

所述经验更新模块通过筛选高价值样本经验进入对应风格经验池，收集对应风格驾驶员的样本经验(s

式中，n是从最开始训练到当前训练所经历的次数，r

获取当前经验的奖励r

对于一般型风格驾驶员和保守型风格驾驶员采取与激进型风格驾驶员的经验更新模块相同的更新方式，其中，定义一般型风格驾驶员的平均奖励为

如图5所示，所述网络参数更新模块包括动作网络和策略评价网络，所述动作网络包括在线动作网络和目标动作网络，所述策略评价网络包括在线动作评价网络和目标动作评价网络，所述动作网络基于自车和前车的状态量输出确定性的期望加速度，所述策略评价网络基于在线动作网络采取的动作好坏输出动作价值评价函数：Q(s，a|θ

定义在线动作网络参数为θ

动作网络更新：

随机采集N(s

构造相似度函数，其实际加速度和期望加速度的偏差越大则给予的价值越低：

式中，a

在线动作评价网络根据样本中的s

式中，Q(s，a|θ

以最大化Q

通过演员(actor)网络的优化器更新Q

式中，θ

动作评价网络更新：

目标动作网络根据样本中的s

式中，r

通过评论家网络(critic)网络的优化器更新在线动作评价网络的参数θ

式中，y

目标动作网络和目标动作评价网络都采取软更新(soft update)的方式分别更新参数θ

式中，θ

对于动作网络的输出采用tanh激活函数，对于激进型驾驶风格，将函数映射到范围[-1，1]，因此可以将输出加速度限制在[-4,4]m/s

由于奖励函数的设计关乎到控制方法的好坏，它给动作网络和策略评价网络参数的更新指明了方向，在强化学习的任务中起到了至关重要的作用。奖励函数是状态和动作的函数，其设计是强化学习方法的关键，需要不断优化和实验以防止智能体投机取巧的行为。所述奖励函数模块分为安全性奖励函数、跟车性奖励函数、舒适性奖励函数，将其线性集成，在训练中不断调整各性能前的权重；

安全性主要和自车和前车的相对距离Δd和相对速度Δv有关，当两车之间的Δd、Δv很小时容易发生追尾事故，所述安全性奖励函数R1如下：

式中，Δd为自车和前车的相对距离，Δv为相对速度，

跟车性能用两车间的实际距离和期望距离之间的偏差来衡量，偏差越大则给予的惩罚越多，所述跟车性奖励函数R2如下：

式中，d

所述舒适性奖励函数R3如下：

R3＝-jerk

式中，jerk为加速度变化率。常用来衡量舒适性，jerk的值越小则舒适性越好，

对于激进型驾驶风格，要求跟车性优于舒适性，故将其跟车性期望间距中的跟车时距τ设置为1s，其奖励函数线性集成为R＝10R

对于一般型驾驶风格，要求跟车性和舒适性介于其他两种驾驶风格之间，故将其跟车性期望间距中的跟车时距τ设置为1.5s，其奖励函数线性集成为R＝10R

对于保守型驾驶风格，要求舒适性优于跟车性，故将其跟车性期望间距中的跟车时距τ设置为2s，其奖励函数线性集成为R＝10R

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姜顺明;吴朋朋;
专利申请人：江苏大学;

上一篇：一种高压泡状流预混合燃料制备供给系统及控制方法
下一篇：一种数字物流车辆管理系统