掌桥专利:专业的专利平台
掌桥专利
首页

一种稀疏高维状态下不完全信息场景的无人驾驶训练方法

文献发布时间:2023-06-19 19:28:50


一种稀疏高维状态下不完全信息场景的无人驾驶训练方法

技术领域

本发明涉及无人驾驶训练方法技术领域,具体为一种稀疏高维状态下不完全信息场景的无人驾驶训练方法。

背景技术

目前,无人驾驶飞机、无人驾驶车辆等智能设备可以通过自身所携带的各类传感设备(如高清摄像头、激光雷达等)获取环境信息后结合深度学习获得感知环境的能力。而在决策部分,依靠基于规则的模型来应对大部分常见场景是可以行的,但是如果出现规则模型中不适用的极端复杂场景时,如果仍然依靠基于规则的模型来进行行为决策,将会因为规则模型的局限性导致行为决策失误从而造成不良后果。为此,解决序列决策问题的强化学习方法与模仿学习方法均可以被引入来提升智能设备的智能体在自动行动场景中决策行为的能力。

强化学习策略更新的关键在于从环境中获取的奖励反馈。可以应用强化学习的场景,根据环境的特性,可分成完全信息场景和不完全信息场景。所谓完全信息场景就是指智能体所处训练环境中所有信息都可观测的,那么与之对应的不完全信息场景就是环境中智能体仅能获取局部的观测信息。然而,在许多不完全信息复杂场景中,不仅存在场景状态稀疏的特性,而且存在奖励稀疏问题,即只有少量的动作能够使得智能体获得奖励或惩罚,这使得原本以奖励反馈作为这类场景的一种补充信息来利用强化学习方法驱动智能体提升决策能力的训练模式出现了问题,这种情况会使得算法的学习效果差,这种问题称之为“稀疏奖励”问题。直接应用强化学习算法去训练智能体决策模型,很难取得良好的训练结果。

现有四种方法可以缓解“稀疏奖励”问题,即,奖励塑形,课程学习,层次强化学习和基于逆强化学习实现的模仿学习,但它们各自都存在缺陷。

第一种方法是奖励塑形,它是通过人为设计,修改仿真模拟的训练场景中的奖励设置来针对智能体训练过程中的每一个决策动作增加奖励。考虑到不同场景复杂度的不同,设置奖励函数时难免对场景理解存在偏差,不合理的奖励设置难以驱使智能体向着策略更优的方向学习,同时对于不同场景需要进行针对性的设计,这也不符合通用人工智能的研究理念。

第二种方法是课程学习,让智能体“循序渐进”完成学习的方法,即,先从简单场景开始训练智能体,等训练达到一定水平,再将这个智能体放到复杂场景中继续训练。与奖励塑形类似,课程学习最关键的是对于课程进行精细的人工设计,因此,也存在难以泛化的缺陷。

第三种方法就是层次强化学习。一般将问题任务划分层次,一个层次表示了当前任务的状态和行动,另一个层次表示了更高层次的状态和行动,即高层次将整个任务过程分成了几个部分,而另一个低层次则分别完成每一个小部分的工作。目前层次分解大多需要人工设计,依据任务本身的层次性,自动化的层次分解,以及与领域先验知识的结合仍然是研究的热门方向。

第四种就是基于逆强化学习实现的模仿学习,它与前三种方法本质的区别在于它是利用专家动作轨迹数据学习一个奖励函数从而缓解“稀疏奖励”问题,而以上三种方法都难免有人为因素干预,从而使得训练得到的模型在决策中存在一定风险。但该方法的缺点是在学习奖励函数的过程中,将强化学习算法作为整个逆强化学习训练过程中的一个子过程,从而使得计算量偏大、收敛速度慢,在不完全信息复杂场景中很难应用。

在这四个解决方法中,前三个都需要人为因素参与,在一定程度上增加了模型正确训练的风险,而逆强化学习则完全是从已有数据中学习知识来提供解决方案,对于上述风险有一定的规避效果,但是其计算量偏大、收敛速度慢,造成难以在不完全信息复杂场景中应用。

此外,虽然利用模仿学习的模式可以最大程度上避免人为奖励设计失误的影响,但当前最有效的生成对抗模仿学习(Generative adversarial imitation learning,GAIL)及其他的变种,由于继承自生成对抗网络(Generative Adversarial Networks,GAN)的思想,故GAN中固有的问题,比如“模式崩溃(Mode Collapse)”,也会在生成对抗模仿学习及其变种方法中存在,造成模型训练不稳定的问题,从而也在一定程度上影响智能体决策能力的提升。

发明内容

(一)解决的技术问题以及发明目的

针对现有技术的不足,本发明提供了一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,解决了如下的技术问题:

第一、人为因素干预影响训练得到的模型在决策中存在一定风险;

第二、面临生成对抗模仿学习及其变种存在的模型训练不稳定的问题;

第三、进行智能体训练时计算量偏大、收敛速度慢的问题。

本发明为了解决以上问题,提出一种面向稀疏高维状态下不完全信息场景的智能体训练方法及电子装置,目的在于在降低训练复杂度加速训练的收敛过程的同时保证在不完全信息场中缓解“稀疏奖励”的问题,从而得到达到甚至超过人类决策的模型,既大大降低训练过程中的运算量,又降低迁移至真实环境后成本,避免生成对抗模仿学习及其变种存在的模型训练不稳定的问题,减少智能体在真实场景中决策出现致命失误的概率。

为了避免由此产生的固定奖励函数对于不完全信息的仿真模拟场景中一些复杂状况评判不准确的情况,本发明采取了奖励塑形与固定奖励函数组合的方式构建一个更为“理解”复杂仿真模拟场景的奖励函数来驱动智能体策略网络参数更新;为了避免生成对抗模仿学习中存在的训练不稳定的缺陷,本发明设计了判别器以及随机蒸馏网络相互结合在一起增加模型训练稳定性的同时让学习到的近似奖励函数对于当前环境的“理解”更为准确,从而做出最为合理的评判;为了避免其自身存在的计算复杂度高的缺陷,采用了在模型循环迭代开始训练之前,就通过专家动作轨迹数据输入模仿学习训练得到预训练的策略网络参数,并将预训练的策略网络参数输入智能体的策略网络对其进行初始化,这样就会大大降低训练过程中的运算量。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,包括以下步骤:

步骤一、训练准备:

S1、策略网络构建:先构建策略网络的目标函数,然后对策略网络进行内部设计。

S2、随机蒸馏网络构建:随机蒸馏网络参考RED算法,首先构造一个蒸馏网络

S3、模仿学习网络构建:模仿学习网络包含三层,第一层使用了32个的过滤器,每个过滤器尺寸为8*8,步长为4;第二层使用了64个的过滤器,每个过滤器尺寸为4*4,步长为2;第三层使用了64个的过滤器,每个过滤器尺寸为3*3,步长为1。

S4、判别器网络构建:判别器网络结构包含输入层,第一个神经元数量为128的全连接层,激活函数为leaky_relu,第二个神经元数量为64的全连接层,激活函数为leaky_relu,第三个神经元数量为32的全连接层,激活函数为leaky_relu,以及最后的输出层。

S5、Q网络构建:Q网络Q

步骤二、策略网络预训练:将抽取的专家动作轨迹数据中的专家状态/动作输入到模仿学习网络,输出模仿学习输出的参数作为预训练的策略网络参数用于初始化策略网络。

步骤三、奖励函数获取:将抽取的专家动作轨迹数据中的专家状态/动作分别输入到随机蒸馏网络和奖励塑形,分别输出得到专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数。

步骤四、奖励函数组合:将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数作为输入进行线性组合,输出各自以一定的比例组成新的奖励函数RD_reward。

步骤五、策略网络训练:将线性组合的奖励函数输出到策略网络,策略网络分别与随机蒸馏网络、奖励塑形、仿真模拟训练环境交互,即输出预测动作,得到预测状态,以更新策略网络参数。

步骤六、对抗网络训练:策略网络输出预测动作和预测状态到辨别器,辨别器输出靠近专家动作轨迹分布所获得的奖励函数Dis_reward,并与步骤五中输出的线性组合的奖励函数RD_reward进行组合,从而得到稳定可靠的奖励函数Reward,将其作为最终的奖励函数输入到策略网络中,再重复步骤五进行策略网络的迭代训练。直至通过策略网络和判别器网络之间的对抗过程使得策略网络输出具有最大化Q值的动作,最终输出智能体的策略网络参数。

优选的,所述目标函数的构建方法为:假设

δ

其中λ∈[0,1],表示一个超参数。优势函数

其中

在上式中,∈是超参数。通常将q

其中clip表示为截断函数,所述策略网络的内部设计针对性体现在策略网络接受的输入为RGB单张图像,与经典结构中输入不同,后者使用了帧堆栈的灰度图像作为输入,同时,根据输入的不同,本发明调整了相应网络结构中卷积的层数与卷积核的个数以及全连接神经元的个数。策略网络μ

优选的,所述步骤三中:通过网络参数训练让蒸馏网络

其中σ

优选的,所述步骤四中:奖励函数RD_reward结合了通过专家动作轨迹重构的奖励函数与人为设置的奖励函数,在专家动作轨迹数据有限的情况下,通过有限次的迭代训练所重构的奖励函数不一定能对在高维状态信息场景中产生的行为有一个恰当的奖惩评判,将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数进行组合,各自以一定的比例组成新的奖励函数,希望能规避上述问题,公式如下所示:

RD_reward=α*R_reward+β*A_reward

其中,A_reward是根据专家动作轨迹模型奖励塑形然后按照不同的仿真模拟场景人为设计的奖励函数,α,β∈[0,1]。

优选的,所述步骤五中:对于策略网络的训练过程,借鉴DDP算法,给输入状态s通过策略网络产生的确定性动作a引入O-U(Ornstein-Uhlenbeck Process)噪声,然后将(s,a)作为输入送入Q网络,通过最大化Q网络的输出Q值来达到策略网络参数更新的目的,训练完成后,最终得到的策略网络即为我们的智能体自动行驶提供决策。

为了解决单个Q网络训练不稳定的问题,给Q网络与策略网络分别创建两个神经网络拷贝:Q

更新Q网络的损失函L公式如下所示:

策略网络利用策略梯度进行参数更新的目标函数公式如下所示:

利用蒙特卡洛(Monte-carlo)方法来估算目标函数期望值,可以对目标函数期望值进行无偏估计,公式如下所示:

同时目标网络的参数更新,公式如下所示:

其中,l∈(0,1)。

优选的,所述步骤六中:当开始训练策略网络之后,参照生成对抗模仿学习算法中对抗网络,也构造出一个拥有两个共享参数的神经网络

判别器能尽可能判断出从策略网络生成的样本数据与专家动作轨迹数据间的区别。而该样本数据尽可能靠近专家动作轨迹分布所获得的奖励Dis_reward,表示为公式如下所示:

同时地,在判别器的训练过程中存在参数训练不稳定的问题,于是将RD_reward与Dis_reward二者结合起来互相弥补劣势,具体做法就是将RD_reward作为Dis_reward的权重值,并将二者的数值控制在同一个取值范围[0,1]之内,以便达到为策略网络更新提供稳定可靠奖励函数Reward的目标,公式如下所示:

Reward=RD_reward*Dis_reward。

(三)有益效果

本发明提供了一种稀疏高维状态下不完全信息场景的无人驾驶训练方法。

具备以下有益效果:

1.该训练方法在降低训练复杂度加速训练的收敛过程的同时保证在不完全信息场中缓解“稀疏奖励”的问题,从而得到达到甚至超过人类决策的模型,既大大降低训练过程中的运算量,又降低迁移至真实环境后成本,避免生成对抗模仿学习及其变种存在的模型训练不稳定的问题,减少智能体在真实场景中决策出现致命失误的概率。

2.该训练方法针对“稀疏奖励”的问题,利用奖励塑形设计的人为奖励函数,与通过随机蒸馏网络学习专家动作轨迹数据,判别器对靠近专家动作轨迹分布所获得的奖励重构的奖励函数进行组合的方式得到能理解高维状态信息场景的全新奖励函数;

3.该训练方法针对高维状态信息场景,设计了策略网络的内部结构,以提高神经网络对于场景的感知与表征能力。特别在策略网络的训练阶段,用行为克隆替换策略网络参数随机初始化,提高初始采样数据的质量,加速整个方法的收敛速度。

附图说明

图1为本发明的原理示意图;

图2为本发明中Aalborg赛道示意图;

图3为本发明中Wheel2赛道示意图;

图4为本发明中Alpine2赛道示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:

如图1所示,本发明实施例提供一种稀疏高维状态下不完全信息场景的无人驾驶训练方法,该实施例以自动驾驶智能体作用的环境是自动驾驶仿真模拟场景TORCS为例,详细阐述在自动驾驶的场景下无人驾驶车辆智能体的训练流程。本流程针对TORCS中不完全信息场景中的复杂场景,比如在道路行驶的场景中含有复杂的地形、糟糕的天气条件、其他车辆驾驶路径等因素。通过采用本发明提出的方法来训练无人驾驶车辆智能体使得它能找到执行任务的最优策略,以达到提升不完全信息极端复杂场景下的自动驾驶决策能力,从而让无人驾驶车辆能在回合时间内安全且尽可能快速地跑出最长里程。

无人驾驶车辆智能体使用车辆,该模拟环境产生的状态s分为两种:一种是三维张量,表示视频图像的RGB信息,一种是无人驾驶车辆的传感器数据,表示为一个多维向量。用a表示仿真模拟环境中无人驾驶车辆的行驶动作,表示为多维连续动作向量。

本实施例利用一个随机蒸馏网络,一个模仿学习网络一个判别器网络与在专家动作轨迹中提取知识来形成奖励。然后,通过策略网络和判别器网络之间的对抗过程使得策略网络输出具有最大化值的动作。训练完成后,策略网络就成为了无人驾驶车辆智能体的决策大脑,通过接收环境状态输入,从而做出最优决策将动作输出。其具体训练步骤如下:

步骤一、训练准备

S1、策略网络构建:本实施例期望训练后的智能体的策略网络能得到最优策略,即期望每次策略更新时,新的策略能保证累积奖励的期望单调不减。本步骤先给出策略网络的目标函数,然后给出策略网络的内部设计,最后给出策略网络的预训练方式。

(1)目标函数的构建:

假设

δ

其中λ∈[0,1],表示一个超参数。优势函数

其中

在上式中,∈是超参数。通常将q

(2)内部设计:

针对性体现在策略网络接受的输入为RGB单张图像,与经典结构中输入不同,后者使用了帧堆栈的灰度图像作为输入,同时,根据输入的不同,本发明调整了相应网络结构中卷积的层数与卷积核的个数以及全连接神经元的个数。策略网络μ

S2、随机蒸馏网络构建:随机蒸馏网络参考RED算法[8],首先构造一个蒸馏网络

S3、模仿学习网络构建:模仿学习网络包含三层,第一层使用了32个的过滤器,每个过滤器尺寸为8*8,步长为4;第二层使用了64个的过滤器,每个过滤器尺寸为4*4,步长为2;第三层使用了64个的过滤器,每个过滤器尺寸为3*3,步长为1。

S4、判别器网络构建:判别器网络结构包含输入层,第一个神经元数量为128的全连接层,激活函数为leaky_relu,第二个神经元数量为64的全连接层,激活函数为leaky_relu,第三个神经元数量为32的全连接层,激活函数为leaky_relu,以及最后的输出层。

S5、Q网络构建:Q网络Q

步骤二、策略网络预训练

由于借鉴了逆强化学习的思想,故策略网络这部分的训练采用了强化学习思想并参照PPO算法而设计的。在训练开始时,策略网络中包含的参数都是随机初始化的,这导致前期的算法迭代很难让策略网络通过参数更新快速进入一个相对理想的状态。由于策略网络本质上也是针对提升智能体决策能力而设计的神经网络结构,那么对于一个未经任何训练的神经网络来说,采用一定的算法对该神经网络的参数进行预训练,这将有助于策略网络在后续提升智能体决策能力的训练中,尽快摆脱训练初始阶段,网络参数更新的不确定性与智能体决策能力提升的缓慢。

为了实现对于策略网络的预训练,考虑利用早期借鉴了监督学习思想而产生的模仿学习算法,即行为克隆(BehaviorClone)算法。利用模仿学习的行为克隆算法让策略网络一开始的决策行为就靠近专家动作轨迹数据中专家的行为策略是一个不错的选择,即预先从专家模型里抽取的专家动作轨迹作为输入利用行为克隆算法对策略网络的参数进行预训练。而行为克隆算法本质上包含监督学习思想,具体做法是将专家动作轨迹数据作为算法输入,通过神经网络输出模仿策略,利用模仿策略与专家策略之间的差距来构建损失函数,然后反向传播更新神经网络参数,从而达到策略网络参数预训练的目的。

预训练方法为:将抽取的专家动作轨迹数据中的专家状态/动作输入到模仿学习网络,输出模仿学习输出的参数作为预训练的策略网络参数用于初始化策略网络。

步骤三、奖励函数获取

当开始训练策略网络之前,先训练随机蒸馏网络和奖励塑形从轨迹数据中学习“知识”。这些“知识”将作为驱动策略网络训练更新所需奖励函数的一部分。

通过网络参数训练让蒸馏网络

其中σ

虽然构建了两种神经网络结构(随机蒸馏网络和模仿学习网络)来从专家动作轨迹数据中学习“知识”,但是因为如果在专家动作轨迹数据有限的情况下,仅仅利用随机蒸馏网络进行有限次的训练而学习到的奖励不一定能对策略网络所生成的策略行为有一个恰当的奖惩评判。

奖励函数获取方法为:将抽取的专家动作轨迹数据中的专家状态/动作分别输入到随机蒸馏网络和奖励塑形,分别输出得到专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数。

步骤四、奖励函数组合

奖励函数RD_reward结合了通过专家动作轨迹重构的奖励函数与人为设置的奖励函数。我们观察到在专家动作轨迹数据有限的情况下,通过有限次的迭代训练所重构的奖励函数不一定能对在高维状态信息场景中产生的行为有一个恰当的奖惩评判,同样地,通过人为设置获得的奖励函数也可能存在对场景理解偏差,从而设置不合理的情况。于是将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数进行组合,各自以一定的比例组成新的奖励函数,希望能规避上述问题,公式如下所示:

RD_reward=α*R_reward+β*A_reward

其中,A_reward是根据专家动作轨迹模型奖励塑形然后按照不同的仿真模拟场景人为设计的奖励函数,α,β∈[0,1]。

奖励函数组合方法为:将专家动作轨迹数据重构的奖励函数和人为设置获得的奖励函数作为输入进行线性组合,输出各自以一定的比例组成新的奖励函数RD_reward。

步骤五、策略网络训练

对于策略网络的训练过程,借鉴DDP算法[10],给输入状态s通过策略网络产生的确定性动作a引入O-U(Ornstein-Uhlenbeck Process)噪声,然后将(s,a)作为输入送入Q网络,通过最大化Q网络的输出Q值来达到策略网络参数更新的目的,训练完成后,最终得到的策略网络即为我们的智能体自动行驶提供决策。

为了解决单个Q网络训练不稳定的问题,给Q网络与策略网络分别创建两个神经网络拷贝:Q

更新Q网络的损失函L公式如下所示:

策略网络利用策略梯度进行参数更新的目标函数公式如下所示:

/>

利用蒙特卡洛(Monte-carlo)方法来估算目标函数期望值,可以对目标函数期望值进行无偏估计,公式如下所示:

同时目标网络的参数更新,公式如下所示:

其中,l∈(0,1)。

策略网络训练步骤为:将线性组合的奖励函数RD_reward输出到策略网络,策略网络分别与随机蒸馏网络、奖励塑形、仿真模拟训练环境交互,即输出预测动作,得到预测状态,以更新策略网络参数。

步骤六、对抗网络训练

当开始训练策略网络之后,参照生成对抗模仿学习算法中对抗网络,也构造出一个拥有两个共享参数的神经网络

判别器能尽可能判断出从策略网络生成的样本数据与专家动作轨迹数据间的区别。而该样本数据尽可能靠近专家动作轨迹分布所获得的奖励Dis_reward,表示为公式如下所示:

同时地,在判别器的训练过程中存在参数训练不稳定的问题,于是将RD_reward与Dis_reward二者结合起来互相弥补劣势,具体做法就是将RD_reward作为Dis_reward的权重值,并将二者的数值控制在同一个取值范围[0,1]之内,以便达到为策略网络更新提供稳定可靠奖励函数Reward的目标,公式如下所示:

Reward=RD_reward*Dis_reward

对抗网络训练步骤如下:策略网络输出预测动作和预测状态到辨别器,辨别器输出靠近专家动作轨迹分布所获得的奖励函数Dis_reward,并与步骤五中输出的线性组合的奖励函数RD_reward进行组合,从而得到稳定可靠的奖励函数Reward,将其作为最终的奖励函数输入到策略网络中,再重复步骤五进行策略网络的迭代训练。直至通过策略网络和判别器网络之间的对抗过程使得策略网络输出具有最大化Q值的动作,最终输出智能体的策略网络参数。

本发明将以强化学习与模仿学习作为研究基础,着重解决在不完全信息复杂场景中受“稀疏奖励”因素制约的智能体如何通过训练获得最优决策能力的问题,期望通过对深度模仿学习算法研究,提出在多样化的不完全信息复杂场景中都能训练智能体做出最优策略的策略模型。为此本发明聚焦在如何解决在稀疏高维状态下不完全信息仿真模拟场景中提出合适的智能体策略模型的更新训练方式来去除其存在的“稀疏奖励”问题的影响。

a.在不完全信息场景中,如果基于局部观测信息去人为设计奖励函数来利用强化学习模型驱动智能体进行策略更新就可能因为奖励函数设计时所产生的误差从而导致训练很难达到所预期的效果。本发明通过逆强化学习从已有数据中学习知识来提供解决方案,对于上述风险有一定的规避效果。减少人为因素参与,在一定程度上会减少了模型训练的风险;

b.为保障学习到的奖励函数是在充分理解场景信息的基础上获得的,本发明引入了生成对抗模仿学习思想,本发明将用来学习奖励函数的随机蒸馏网络与生成对抗模仿学习算法中获取近似奖励函数的判别器网络,以两者有机地结合在一起来获得充分理解自动行驶场景的奖励函数,即作为本发明的训练更新的奖励函数。本发明通过构建、建模奖励塑形设计的人为奖励函数,与通过随机蒸馏网络学习专家动作轨迹数据,判别器对靠近专家动作轨迹分布所获得的奖励重构的奖励函数进行组合的方式获得一个更为适应复杂仿真模拟训练场景的奖励函数来驱动智能体策略网络参数更新,策略网络和判别器之间的对抗过程使得策略网络输出具有最大化值的动作。该奖励反馈也有助于增加用于智能体决策的策略网络参数更新的稳定性;

c.在保证本发明训练效果的同时也应该考虑加快该方法的训练速度。由于随机蒸馏网络、策略网络都属于深度神经网络结构,加之本发明还包含模仿学习与强化学习思想,故该方法训练时的计算量很大,为此考虑在其策略网络训练开始前,本发明利用行为克隆方法对策略网络参数进行初始化,以便加速整个方法的收敛速度。

通过本发明训练获得无人车智能体后,为了评估其在自动驾驶场景中的表现,本文选取TORCS自动驾驶模拟平台来进行实验。

实验选取了TORCS模拟平台中的两个模式:Practice与QuickRace进行对比实验。在这两个模式下训练无人车智能体时,对它们中所包含的赛道设置了通用行驶规则,如果违反其中的规则,无人车智能体在赛道上的行驶结束,即一个训练回合结束。通用行驶规则主要包含以下三条。

(1)无人车智能体不能冲出赛道。

(2)无人车智能体在赛道上行驶多个时间步内,

行驶速度不能低于某一阈值或减速至零(实验中设置时间步为100,阈值为5km/h)。

(3)无人车智能体加速度不能长时间为负,导致它在赛道上倒着行驶。

此外,在Practice模式中,每个赛道上的最大行驶圈数设置为20,故无人车智能体完成行驶20圈后,也表示一个训练回合结束。而在QuickRace模式中,设置的最大竞速距离为10公里,共4圈,完成竞速表示一个训练回合结束。其中,在Practice模式中,只允许无人车智能体一辆车在赛道上行驶,该无人车智能体表现好坏的评价标准是:在不违反赛道通用的行驶规则内尽可能稳定地行驶最大的圈数为优。而在QuickRace模式中,可以允许多辆平台内置的BOT(CPUplayer)赛车与无人车智能体在赛道上竞速,那么评价无人车智能体在该模式下表现好坏的标准则是:同样也是在不违反赛道通用的行驶规则内尽可能减少车辆间的碰撞从而获得竞速胜利为优。

在Practice模式中,本发明选取了3个经典困难赛道来测试无人车智能体被训练后的表现,它们分别是Aalborg,Wheel2与Alpine2,如图2-4所示。

在QuickRace模式中,本发明选取Aalborg赛道同时在该赛道内添加两个BOT(tita3和inferno3),来测试训练完成后的无人车智能体在竞速方面的表现。

对比基线:本发明的算法对比实验选取了以上提及的Aalborg,Wheel2与Alpine2这三个场景进行与深度强化学习算法DDPG、深度模仿学习算法GAIL(PPO)与本发明方法实验效果的对比。在Practice模式中,实验运行20回合。在QuickRace模式中,实验运行100回合。

参数设定:在本发明的训练过程中,需要使用到一些超参数。其中如下表所示的超参数对于Practice模式与QuickRace模式下是相同的。

训练过程中的参数如表1所示:

表1参数设定

实验结果如表2、表3以及表4所示,清晰地显示出本发明方法是优于其他两种算法的。

表2 Practice模式行驶步数

表3 Practice模式行驶圈数

表4 Quick Race模式获胜次数

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115921824