导航：首页> 计算；推算；计数>一种适用于长距离城市道路的自动驾驶决策方法及系统

一种适用于长距离城市道路的自动驾驶决策方法及系统

文献发布时间：2023-06-19 11:27:38

技术领域

本发明涉及车辆的自动驾驶技术领域，特别涉及一种适用于长距离城市道路的自动驾驶决策方法及系统。

背景技术

随着人工智能技术的发展与成熟，自动驾驶技术越来越受社会的重视。

目前，使用比较广泛的自动驾驶控制系统为基于指定规则的驾驶控制系统，其在有限的场景范围内基于位姿指定控制动作，例如在高速公路上跟车。然而这一方案受到场景规模及传感器能力限制，无法大规模应用在城市道路场景。

当前虽然存在一些新的基于深度强化学习的自动驾驶控制系统，例如通过前向图像传感器或激光雷达传感器作为信号输入，来提取环境信息及其变化情况，从而产生相应的驾驶动作，但现有的此类控制系统仅适用于简单的短距离控制。而在城市场景下，驾驶动作受复杂道路情况影响较严重。在复杂路网下，现有的自动驾驶方案仍无法较好地解决长距离多路口的路径规划及驾驶问题。

发明内容

本发明提供了一种适用于长距离城市道路的自动驾驶决策方法及系统，以解决现有技术无法较好地解决长距离多路口的路径规划及驾驶的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种适用于长距离城市道路的自动驾驶决策方法，该适用于长距离城市道路的自动驾驶决策方法包括：

获取被控车辆的前向图像、车辆位姿以及车辆速度，并根据所述被控车辆的当前驾驶任务，获取相应的地图信息以及当前场景的有向加权图信息；

基于所述地图信息、车辆位姿、有向加权图信息和当前驾驶任务的目标位置，将当前驾驶任务拆分成多个子驾驶任务，并根据所述地图信息、车辆位姿和子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务所对应的局部地图；

对所述前向图像和所述局部地图分别进行特征编码，得到待执行的子驾驶任务对应的前向图像特征编码、局部地图视觉特征编码以及地图空间信息编码；

基于所述前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度，生成控制信号，控制所述被控车辆执行当前待执行的子驾驶任务。

进一步地，基于所述地图信息、车辆位姿、有向加权图信息和当前驾驶任务的目标位置，将当前驾驶任务拆分成多个子驾驶任务，包括：

基于所述地图信息、车辆位姿和当前驾驶任务的目标位置，利用有向加权图信息，使用图搜索算法完成当前驾驶任务的最短路径规划；其中，所述有向加权图信息包括所述地图信息中所有路口及各路口的连接关系信息；

将规划出的最短路径拆分成多个子路径，并查找出所述最短路径中距离所述被控车辆预设距离处的位置，以之作为当前待执行的子驾驶任务的目标位置。

进一步地，根据所述地图信息、车辆位姿和子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务所对应的局部地图，包括：

根据所述被控车辆的车辆位姿对地图进行旋转平移，使得所述被控车辆位于坐标原点，且地图正上方为所述被控车辆的车头朝向；

在地图上以不同颜色绘制被控车辆所在位置及子驾驶任务的目标位置；

以被控车辆作为绘制后的地图的中心位置，对绘制后的地图进行裁剪；

对裁剪后的地图进行图像预处理，在保证地图信息不丢失的前提下，降低地图的运算和存储压力，得到所述子驾驶任务所对应的局部地图。

进一步地，对所述前向图像进行特征编码，包括：

通过预设的前向视觉图像编码器对所述前向图像进行降维，提取所述前向图像的特征向量；其中，所述前向视觉图像编码器为深度卷积网络。

进一步地，对所述局部地图分别进行特征编码，包括：

通过预设的局部地图视觉编码器对所述局部地图进行降维，提取所述局部地图的特征向量；其中，所述局部地图视觉编码器为深度卷积网络。

进一步地，所述前向视觉图像编码器和所述局部地图视觉编码器在进行预训练的过程中分别使用编码器-解码器相结合的深度学习模型。

进一步地，所述地图空间信息编码的获取过程，包括：

通过预设的地图空间信息编码器，在所述局部地图中模拟车载距离传感器，用以探测道路边界到所述被控车辆的方位和距离，以及子驾驶任务的目标位置到所述被控车辆的方位和距离，以对所述局部地图中所体现的局部地区道路的边界信息以及子驾驶任务进行有效的空间编码，得到地图空间信息编码。

进一步地，基于所述前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度，生成控制信号，包括：

将所述前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度进行拼接融合，得到融合信息；

将所述融合信息输入预设的控制模块，得到控制信号；其中，所述控制模块为深度全连接网络，所述控制信号包括刹车幅度、油门幅度和方向盘转角。

进一步地，控制模块在训练过程中，基于深度强化学习算法实现决策更新。

另一方面，本发明还提供了一种适用于长距离城市道路的自动驾驶决策系统，该适用于长距离城市道路的自动驾驶决策系统包括：

传感数据获取模块，用于获取被控车辆的前向图像、车辆位姿以及车辆速度，并根据所述被控车辆的当前驾驶任务，获取相应的地图信息以及当前场景的有向加权图信息；

路径规划及短距离任务构建模块，用于基于所述传感数据获取模块获取的地图信息、车辆位姿、有向加权图信息和当前驾驶任务的目标位置，将当前驾驶任务拆分成多个子驾驶任务，并根据所述地图信息、车辆位姿和子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务所对应的局部地图；

编码模块，用于对所述传感数据获取模块获取的前向图像和所述路径规划及短距离任务构建模块绘制的局部地图分别进行特征编码，得到待执行的子驾驶任务对应的前向图像特征编码、局部地图视觉特征编码及地图空间信息编码；

控制信号生成模块，用于基于所述编码模块生成的前向图像特征编码、局部地图视觉特征编码、地图空间信息编码，以及所述传感数据获取模块获取的车辆速度，生成控制信号，控制所述被控车辆执行当前待执行的子驾驶任务。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明通过获取被控车辆的前向图像、车辆位姿、车辆速度，地图信息及当前场景的有向加权图信息；根据获取的信息，将当前驾驶任务拆分成多个子驾驶任务，并根据地图信息、车辆位姿以及各子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务的局部地图；获取前向图像特征编码、局部地图视觉特征编码和地图空间信息编码，并基于此生成控制信号，控制被控车辆执行当前待执行的子驾驶任务。从而实现了长距离且多路口的城市道路自动驾驶策略。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的适用于长距离城市道路的自动驾驶决策系统的；

图2为本发明实施例提供的模块间信息传递关系图；

图3为本发明实施例提供的各个训练流程所使用模块示意图；

图4为本发明实施例提供的自动驾驶控制系统与驾驶测试环境交互流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种适用于长距离城市道路的自动驾驶决策方法，该自动驾驶决策方法从长距离驾驶任务出发，对长距离任务进行实时分解与编码，从而实现长距离多路口的城市道路自动驾驶策略。该方法可由电子设备实现，该电子设备可以是终端或服务器。该自动驾驶决策方法的执行流程包括以下步骤：

S1，获取被控车辆的前向图像、车辆位姿以及车辆速度，并根据被控车辆的当前驾驶任务，获取相应的地图信息以及当前场景的有向加权图信息；

S2，基于地图信息、车辆位姿、有向加权图信息和当前驾驶任务的目标位置，将当前驾驶任务拆分成多个子驾驶任务，并根据地图信息、车辆位姿和子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务所对应的局部地图；

S3，对前向图像和局部地图分别进行特征编码，得到待执行的子驾驶任务对应的前向图像特征编码、局部地图视觉特征编码以及地图空间信息编码；

S4，基于前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度，生成控制信号，控制被控车辆执行当前待执行的子驾驶任务。

其中，上述S2中的基于地图信息、车辆位姿、有向加权图信息和当前驾驶任务的目标位置，将当前驾驶任务拆分成多个子驾驶任务，具体如下：

基于获取的地图信息、车辆位姿和当前驾驶任务的目标位置，利用有向加权图信息，使用图搜索算法完成当前驾驶任务的最短路径规划；然后将规划出的最短路径拆分成多个子路径，并查找出该最短路径中距离被控车辆预设距离处的位置，以之作为当前待执行的子驾驶任务的目标位置，从而完成驾驶任务拆解。其中，有向加权图信息包括地图信息中所有路口及其连接关系信息

上述S2中的根据地图信息、车辆位姿和子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务所对应的局部地图，具体如下：

根据被控车辆的车辆位姿对地图图像进行旋转平移，使得被控车辆位于坐标原点，且地图正上方为被控车辆的车头朝向；然后在地图上以不同颜色绘制被控车辆所在位置及子驾驶任务的目标位置；以被控车辆作为绘制后的地图的中心位置，对绘制后的地图进行裁剪；对裁剪后的地图进行图像预处理，在保证地图信息不丢失的前提下，降低运算和存储压力，得到子驾驶任务所对应的局部地图。其中，图像预处理可以是将图像转为灰度图、图像降采样等。

上述S3中的对前向图像和局部地图分别进行特征编码，具体为：通过预设的前向视觉图像编码器对前向图像进行降维，提取前向图像的特征向量。通过预设的局部地图视觉编码器对局部地图进行降维，提取局部地图的特征向量。其中，前向视觉图像编码器和局部地图视觉编码器相互独立，两个编码器在进行预训练的过程中分别使用编码器-解码器相结合的深度学习模型。

其中，前向视觉图像编码器为深度卷积网络，用于对车辆前向图像进行降维，获得其特征向量，而前向图像分割信息解码器为深度解卷积网络，用于对特征向量进行升维操作，获得前向图像的语义分割信息。前向视觉图像编码器和前向图像分割信息解码器进行联合训练，同步进行参数更新。

上述前向视觉图像编码器训练时所使用的前向图像来自于所需自动驾驶车辆的前向图像传感器，而语义分割数据可以来自人工对前向图像的标注，也可以来自三维仿真平台的自动渲染。目前，现有的多种三维驾驶仿真平台，例如CARLA等，均可以提供前向图像的自动语义分割标注生成。

局部地图视觉编码器为深度卷积网络，用于对局部地图进行降维，获得其特征向量，而局部地图视觉解码器为深度解卷积网络，用于对局部地图进行升维操作，输出局部地图本身。局部地图视觉编码器和局部地图视觉解码器在训练时进行联合训练，同步进行参数更新。

考虑到对控制系统而言，基于深度卷积网络的地图视觉信息编码器效率较低。因此，本实施例通过地图空间信息编码器完成对地图信息及子驾驶任务信息补充编码，得到S3中的地图空间信息编码，具体如下：

通过预设的地图空间信息编码器，在局部地图中模拟车载距离传感器，在地图图像上，使用以车辆位姿为原点的多个伪距离传感器，分别探测道路边界（不可行区域）到被控车辆的方位和距离，以及子驾驶任务的目标位置到被控车辆的方位和距离，该地图空间信息编码器以这些距离和方位信息为基础，对地图中所体现的局部地区道路边界信息以及子驾驶任务信息，构建归一化的地图空间信息编码，得到地图空间信息编码。大量实验证明，该地图空间信息编码器对驾驶控制系统的性能有着显著的提升作用。

上述S4中的基于前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度，生成控制信号，包括：

将前向图像特征编码、局部地图视觉特征编码、地图空间信息编码和车辆速度进行拼接融合，得到融合信息；将融合信息输入预设的控制模块，得到控制信号；其中，控制模块为深度全连接网络，控制信号包括刹车幅度、油门幅度和方向盘转角等。该控制模块在训练时基于深度强化学习算法实现决策更新。

具体地，训练上述控制模块时，在城市道路驾驶测试平台，循环进行多步驾驶决策流程-策略更新流程。其中，每一步的驾驶决策流程，包括：

步骤M101：获取传感数据。其中，传感数据包括：前向图像传感器所得的前向图像、车辆位置与姿态、地图图像信息及基于有向加权图的道路信息、驾驶任务的目标位置、车辆速度传感器采集的车辆速度信息等。

步骤M102：城市路径规划及子驾驶任务构建，其过程如上述S2所述。

步骤M103：传感器信息及子驾驶任务空间编码。其过程如上述S3所述.

步骤M104：获取控制信号。通过任务信息、地图信息、速度信息与前向图像信息，挖掘驾驶控制所需特征编码，从而实现长距离的城市道路自动驾驶。

策略更新基于深度强化学习算法，通过控制模块和价值函数估计模块实现。其中，深度强化学习算法是一类基于大量试错从而优化策略的方案。

控制模块如上所述。价值函数估计模块是一种深度全连接网络，其输入与控制模块的输入完全相同，而输出为该状态下的价值函数估计。其中，价值函数的定义是，在给定的采样策略下，从当前车辆状态出发，未来所有奖励衰减后求和的期望。因此，通过大量的试错采样，可以基于定义计算价值函数的采样值，从而以此为监督，利用欧式距离实现对价值函数估计模块的更新。

本实施例使用的典型的强化学习算法，基于更新后的价值函数估计模块，可以计算出控制模块的更新方式，包括参数更新方向和更新步长，从而完成对控制模块的更新。其中，此处需要说明的是，在控制模块的强化学习过程中，上述的前向视觉图像编码器以及局部地图视觉编码器不进行参数更新。

此外，还需要说明的是，本实施例所使用的典型深度强化学习算法（PPO、TRPO、SAC、TD3、DDPG等），均需要在训练过程中维护一个规模较大的动态数据库，并以此作为数据来源更新价值估计函数以及策略函数。而考虑到图像信息数据量大，冗余较多，而通常情况下运算资源与存储资源无法支持这种量级的数据，因此步骤M103中对图像信息进行编码和降维是十分有必要的。

综上，本实施例通过获取被控车辆的前向图像、车辆位姿、车辆速度，地图信息及当前场景的有向加权图信息；根据获取的信息将当前驾驶任务拆分成多个子驾驶任务，并根据地图信息、车辆位姿及各子驾驶任务的目标位置，绘制出每一待执行的子驾驶任务的局部地图；获取前向图像特征编码、局部地图视觉特征编码和地图空间信息编码，并基于此生成控制信号，控制被控车辆执行当前待执行的子驾驶任务。实现了长距离且多路口的城市道路自动驾驶策略。

第二实施例

本实施例提供了一种适用于长距离城市道路的自动驾驶决策系统，该适用于长距离城市道路的自动驾驶决策系统包括以下模块：

本实施例的适用于长距离城市道路的自动驾驶决策系统与上述第一实施例的适用于长距离城市道路的自动驾驶决策方法相对应；其中，本实施例的适用于长距离城市道路的自动驾驶决策系统中的各功能模块所实现的功能与上述第一实施例的适用于长距离城市道路的自动驾驶决策方法中的各流程步骤一一对应；故，对于该自动驾驶决策系统的具体工作原理，在此不再赘述。

下面，结合图1至图4，对该自动驾驶决策系统的构建过程进行说明。

首先，需要说明的是，基于强化学习算法要求，本实施例的适用于长距离城市道路的自动驾驶决策系统的实现有如下依赖项作为前提：

本实施例的适用于长距离城市道路的自动驾驶决策系统的实现依赖于一种可重复的城市道路驾驶测试平台，这一平台通常是某种三维仿真平台，但也可以是真实构建的驾驶平台。在这一平台中，可通过提供控制信号对车辆进行控制，一般的控制信号包括油门、刹车、转向的幅度等。车辆装载了位置姿态传感器、速度传感器、前向图像传感器等。同时，平台能够在车辆行驶过程中对车辆状态进行打分，并判断车辆是否超出道路范围，以及是否达到终点。

具体地，在本实施例中，使用CARLA仿真环境作为本实施例的自动驾驶决策系统实现所依赖的驾驶测试平台，本实施例的数据采集、驾驶控制均在CARLA仿真环境中进行。在该平台中，智能车辆可获得前向图像信息、车辆位姿与速度信息、任务信息、地图信息、奖惩信息以及任务终止信号等。该环境所提供的前向图像为512*256个像素，各有红、绿、蓝三个通道。

而且，鉴于本实施例的自动驾驶决策系统在实现自动驾驶决策时，是将长距离驾驶任务实时拆解成短距离驾驶任务（子驾驶任务），然后再对短距离驾驶任务进行决策实现，所以在下文中对于拆分出的子驾驶任务统称为短距离任务。

如图1至图4所示，获得该自动驾驶决策系统的流程包括以下步骤：

步骤S101，在测试平台中进行数据采集工作。

具体为：采集车辆在测试平台中进行随机驾驶，以保证不同姿态的车辆的观测数据在不同位置下均得到较完备的覆盖。所采集的数据包括：前向图像、前向图像语义分割以及通过局部地图绘制模块A002所绘制的局部地图。

本步骤所涉及的模块包括分层规划模块A001及局部地图绘制模块A002。

有向加权的地图网络包含了所有路口及其连接关系。为完成路径规划，分层规划模块A001首先在网络中添加当前车辆位置及其路口连接关系，同时添加任务目标位置及其路口连接关系。对完成该步处理的地图网络应用A*图搜索算法，基于有向加权图表达的城市道路信息，加入驾驶任务起始点与终点，建立道路规划图；基于道路规划图完成路径规划，从而高效地获得规划路线。然后，分层规划模块A001在规划路径中寻找距离当前车辆位置固定距离（20米）处的点，作为短距离任务目标点，从而完成短距离任务的构建。

在本实施例中，局部地图绘制模块A002基于短距离目标及地图图像信息进行绘制。其中，地图图像为单通道灰度图，以黑色作为不可行驶区域，以白色作为可行驶区域。局部的地图的绘制方法为，以当前车辆的位置为原点，以当前车辆的朝向为y轴正方向，裁剪地图上相当于真实世界60米*30米的范围。其中，包括车辆前25米以及车辆后5米，左右各30米。然后分别以较深色和较浅色的圆点绘制当前车辆的位置以及短距离目标点的位置。然后对局部地图图像进行降采样至64*32个像素。由此，完成局部地图的绘制。

本步骤所采集的图像数量为：前向图像及对应语义分割图各约1万张，局部地图图像约10万张。

步骤S102，进行前向图像和局部地图深度神经网络编码器的训练。

本步骤包含两个相互独立的深度卷积神经网络图像编码器：车辆前向视觉图像编码器A003与局部地图视觉图像编码器A005，分别用于编码车辆前向图像和局部地图图像。这两个编码器的作用在于消除图像中的冗余信息，对图像进行降维，获得图像低维特征向量，从而便于后续的存储和运算。同时也包含两个深度解卷积神经网络解码器：车辆前向图像解码器A004与局部地图图像解码器A006，用于对图像低维特征向量进行升维，保证编码器中包含了图像中的空间信息。前向图像解码器A004输出前向图像的语义分割图像，而局部地图图像解码器A006的输出仍为局部地图本身。编解码器的训练为预先训练，本实施例所使用的驾驶框架仅使用编码器，且编码器在驾驶过程中使用固定参数，在后续的训练和驾驶过程中参数不发生任何变化。

在本实施例中，前向视觉图像编码器A003与前向图像解码器A004使用基于MobileNet深度神经网络架构的编码器和解码器模型，使用的前向图像深度神经网络编码器所输出的编码长度为2560个浮点数。局部地图视觉图像编码器A005与局部地图图像解码器A006使用基于变分自编码器的编码器和解码器模型。局部地图深度神经网络编码器所输出的编码长度为512个浮点数。

在驾驶测试平台采集数据集并依此训练图像编码器，包括以下步骤：

采集前向图像传感器所得图像、采集前向图像对应的语义分割图像；

根据采集任务，建立短距离任务，并依此绘制并采集局部地图图像；

利用前向图像和局部地图图像，分别训练编解码器。其中前向图像解码器输出为语义分割图像，局部地图解码器输出为局部地图本身。

步骤S103，在驾驶测试平台上进行基于强化学习的驾驶策略模型学习。

具体地，该步骤是在现有的城市道路驾驶测试平台上通过不断尝试随机控制信号，进行基于强化学习的驾驶策略学习。

该步骤由N101驾驶决策和N102策略更新循环迭代而成。可理解的是，强化学习算法中也可进行多步N101驾驶决策和多步N102策略更新的循环迭代。

其中，驾驶决策是利用观测信息及任务信息进行驾驶决策并采集运行数据；策略更新是基于强化学习算法，利用采集的数据更新优化驾驶控制系统。

具体地，驾驶决策实现包含M101-M104共四个步骤。

步骤M101，车辆在驾驶环境中完成对前向图像、车辆位姿、速度等信息的采集，并根据任务信息，获取地图的图像信息以及当前场景的有向加权图信息。

步骤M102，利用任务数据及地图信息完成路径规划并构建短距离任务。该步骤基于分层规划模块A001，具体实现方式如上文所述。

步骤M103，构建传感器信息及短距离任务地图空间编码。该步骤基于局部地图绘制模块A002、前向视觉图像编码器A003、局部地图视觉图像编码器A005以及地图空间信息编码器A007。其中，局部地图绘制模块A002、前向视觉图像编码器A003及局部地图视觉图像编码器A005的具体实现方式如上文所述。

地图空间信息编码器A007包含道路形状编码及短距离目标编码。其中，道路形状编码是在地图上绘制27条以原点为起点的射线，间隔为10°，中心射线的方向为竖直向上，左右两边各有13条射线，共覆盖车辆前方260°的范围；每条射线从原点出发，达到不可行驶区域则停止。短距离目标编码使用和道路形状编码相同的射线，每条射线从原点出发，达到短距离目标位置则停止。

具体地，在本实施例中，地图空间信息编码器A007所使用的射线对应在真实世界的最大长度为30米，若30米内均没有触发停止条件，则在30米处停止。每条射线对应一个编码数值，该编码的值为1-射线长度/30米。因此，短距离任务地图的空间编码包含27*2=54条0到1之间的数据。

在本实施例中，由前向视觉图像编码器A003、局部地图视觉图像编码器A005和地图空间信息编码器A007，得到前向图像编码、地图视觉编码和地图空间编码。将三种编码以及车辆的速度信息拼接融合，即得到最终的信息编码。

步骤M104，利用M103所得信息编码，通过控制模块A008得到控制信号。

在本实施例中，为提升信息充分程度，使用包含当前时刻及之前的连续3个时刻共4条信息编码合并为一条信息编码，作为当前控制模块A008的输入。

其中，控制模块A008为4层全连接深度神经网络，对应的隐变量个数分别为1024，256，256。

在本实施例中，使用的控制信号为车辆的刹车、油门以及转向幅度。将刹车和油门的幅度归一化到0到1之间，而将转向幅度归一化到-1到1之间。同时，将刹车和油门幅度合并为单一的刹车油门信号。当刹车油门信号小于0时，令油门幅度为0，刹车幅度为刹车油门信号的绝对值；而当刹车油门信号大于0时，令刹车幅度为0，油门幅度等于刹车油门信号的大小。

在本实施例中，循环开展3000次步骤M101-M104，同时保存每一次循环中步骤M103所得信息编码、步骤M104所得控制信号、驾驶测试平台所反馈的奖励、任务是否终止的信息。以这些信息作为强化学习策略更新的数值依据。

在策略更新步骤N102中，使用PPO作为策略更新的强化学习算法。该算法基于控制模块A008及价值函数估计模块A009。其中，控制模块A008的结构如上文所述。价值函数估计模块A009的结构与控制模块A008相同，输入信息也与控制模块A008相同，输出为对应价值函数的估计。价值函数估计模块A009的更新基于价值函数的定义以及广义优势估计算法，控制模块A008的更新基于策略优化的梯度方向，从而使得控制模块A008在驾驶测试环境中的得分更高。

其中，需要说明的是，步骤S103所使用的任务并不必须是实际的驾驶任务，相反，本实施例的自动驾驶决策系统支持对长距离驾驶任务进行拆解，将长距离驾驶任务分解为较短的中等距离驾驶任务，每段任务只包含最多一个路口。通过基于单个控制模块的多任务训练，即可完成长距离驾驶任务。为提升长距离驾驶任务的成功率，可使用课程学习的方案，先在拆解后的中等距离驾驶任务上进行训练，然后在实际的长距离驾驶任务上进行进一步训练。

通过上述S101-S103步骤，即可获得自动驾驶决策系统。利用该自动驾驶决策系统，即可完成在所需场景的长距离自动驾驶任务。在该自动驾驶决策系统实际运行，进行自动驾驶的过程中，则重复执行步骤M101-M104。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：马惠敏;张笑钦;伍谋语;胡天宇;
专利申请人：北京科技大学;清华大学;

上一篇：一种公益诉讼重点领域案件趋势分析系统
下一篇：一种双面对位贴合精度检测系统