导航：首页> 一般车辆>行驶控制方法、装置、设备、介质和产品

行驶控制方法、装置、设备、介质和产品

文献发布时间：2024-04-18 20:02:18

技术领域

本申请涉及自动驾驶技术领域，特别是涉及一种行驶控制方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着自动驾驶技术的发展，自动驾驶车辆能够在各种行驶场景中安全行驶。但是，目前的自动驾驶技术，在自动驾驶车辆周围存在潜在的隐藏交通参与者或者其他看不见的物体时，无法做出准确的行驶策略，存在一定的安全隐患。

发明内容

基于此，有必要针对上述技术问题，提供一种能够控制车辆在盲区场景中安全行驶的行驶控制方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种行驶控制方法，所述方法包括：

在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的；

基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数；

基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略；

基于所述行驶策略，控制所述目标车辆行驶。

在其中一个实施例中，所述获取所述目标车辆在盲区场景下的安全行驶轨迹，包括：

从所述目标车辆的历史行驶过程中确定多个历史盲区场景，并获取每一历史盲区场景相应的目标车辆的第一运动状态数据、目标车辆预设范围内其他车辆的第二运动状态数据、以及道路拓扑结构；

基于所述第一运动状态数据、所述第二运动状态数据以及所述道路拓扑结构，确定所述安全行驶轨迹。

在其中一个实施例中，所述基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，包括：

获取所述安全行驶轨迹相应的目标函数，所述目标函数表征当前行驶场景下的行驶策略和安全行驶轨迹间的相似性；

获取所述安全行驶轨迹的海森矩阵信息，基于梯度上升法和所述海森矩阵信息，确定所述目标函数的最大值；

将所述目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值。

在其中一个实施例中，所述在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数之前，还包括：

获取当前行驶场景相应的场景图像；

基于目标卷积神经网络判断当前行驶场景的场景类型，所述场景类型包括盲区场景和正常场景；

若所述场景类型为盲区场景，则执行获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数的步骤。

在其中一个实施例中，所述方法还包括：

在所述盲区场景和所述正常场景的场景切换过程中，逐步降低在前场景相应的第一权重值，并逐步升高在后场景相应的第二权重值，所述在前场景为进行切换之前的场景，所述在后场景为进行切换之后的场景，在所述场景切换过程中，所述第一权重值和所述第二权重值之和为1。

在其中一个实施例中，所述目标卷积神经网络是利用所述目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络训练得到的，在训练过程中，冻结所述初始卷积神经网络的卷积层，并对全连接层进行训练。

第二方面，本申请还提供了一种行驶控制装置，所述装置包括：

获取模块，用于在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的；

第一确定模块，用于基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数；

第二确定模块，用于基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略；

控制模块，用于基于所述行驶策略，控制所述目标车辆行驶。

第三方面，本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的任意一个实施例中的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。

上述行驶控制方法、装置、计算机设备、存储介质和计算机程序产品，在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取目标车辆在盲区场景下的安全行驶轨迹和目标车辆在当前行驶场景下的初始代价函数，初始代价函数包括多项代价特征，代价特征是基于目标车辆的当前运动状态数据确定的；基于安全行驶轨迹确定每一代价特征相应的目标权重值，并基于初始代价函数和目标权重值确定相应的目标代价函数；基于目标代价函数确定目标车辆在当前行驶场景下的行驶策略；基于行驶策略，控制目标车辆行驶。本申请提供的方法，能够使得目标车辆在盲区场景下做出合理的行驶策略，从而使得目标车辆在盲区场景下安全行驶。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中行驶控制方法的流程示意图；

图2为一个实施例中安全行驶轨迹确定方法的流程示意图；

图3为一个实施例中行驶控制装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种行驶控制方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

S102、在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取目标车辆在盲区场景下的安全行驶轨迹和目标车辆在当前行驶场景下的初始代价函数，初始代价函数包括多项代价特征，代价特征是基于目标车辆的当前运动状态数据确定的。

其中，盲区场景指的是在目标车辆的行驶过程中，存在隐藏交通参与者或者其他看不见的物体的行驶场景，例如，盲区场景可以为对向车道驶来的大型车辆后面紧跟一辆自行车的场景或者前方建筑物后面的道路上隐藏有一个物体的场景；安全行驶轨迹表征在目标车辆的历史行驶过程中，人类驾驶员在盲区场景中所做出的驾驶策略；代价函数用于引导目标车辆的自动驾驶系统进行逆强化学习，帮助自动驾驶系统从安全行驶轨迹中学习如何在盲区场景中做出正确的驾驶策略。

代价特征可以包括第一代价特征、第二代价特征、第三代价特征、第四代价特征、第五代价特征以及第六代价特征，其中，第一代价特征为目标车辆分别和左右相邻车道中心线上的最近点的距离、第二代价特征为目标车辆分别和左右相邻车道中心线上的最近点的航向角差值、第三代价特征为目标车辆和全局路径终点间的距离、第四代价特征为目标车辆和周围其他车辆间的最小碰撞距离、第五代价特征为目标车辆的控制项、第六代价特征为目标车辆和产生盲区的物体间的距离，其中，目标车辆的控制项可以为目标车辆的动作数据，例如控制项可以包括目标车辆的加速度和目标车辆的方向盘转角。在其他实施例中，代价特征也可以为其他的，本申请实施例对此不作具体限定。

S104、基于安全行驶轨迹确定每一代价特征相应的目标权重值，并基于初始代价函数和目标权重值确定相应的目标代价函数。

其中，目标代价函数可以由代价特征和每一代价特征相应的目标权重值表征，目标代价函数如下式所示：

式中，c为代价函数，

为了控制目标代价函数的复杂性，防止目标代价函数过拟合，还需要在目标代价函数中添加一个正则项，正则项对应的目标权重值用

S106、基于目标代价函数确定目标车辆在当前行驶场景下的行驶策略。

其中，可以确定在目标代价函数取得最小值时，目标车辆的运动状态数据和动作数据，基于此时的运动状态数据和动作数据确定目标车辆的行驶策略。

S108、基于行驶策略，控制目标车辆行驶。

其中，在基于行驶策略控制目标车辆行驶之后，将目标车辆在当前行驶场景下行驶的实际运动状态数据和实际动作数据进行储存，用于后续对控制算法和代价函数进行修正。

上述行驶控制方法中，在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取目标车辆在盲区场景下的安全行驶轨迹和目标车辆在当前行驶场景下的初始代价函数，初始代价函数包括多项代价特征，代价特征是基于目标车辆的当前运动状态数据确定的；基于安全行驶轨迹确定每一代价特征相应的目标权重值，并基于初始代价函数和目标权重值确定相应的目标代价函数；基于目标代价函数确定目标车辆在当前行驶场景下的行驶策略；基于行驶策略，控制目标车辆行驶。本申请提供的方法，能够使得目标车辆在盲区场景下做出合理的行驶策略，从而使得目标车辆在盲区场景下安全行驶。

在一些实施例中，如图2所示，获取目标车辆在盲区场景下的安全行驶轨迹，包括：

S202、从目标车辆的历史行驶过程中确定多个历史盲区场景，并获取每一历史盲区场景相应的目标车辆的第一运动状态数据、目标车辆预设范围内其他车辆的第二运动状态数据、以及道路拓扑结构。

S204、基于第一运动状态数据、第二运动状态数据以及道路拓扑结构，确定安全行驶轨迹。

其中，历史行驶过程可以为人类驾驶员驾驶目标车辆行驶的过程；运动状态数据可以包括位置、速度以及航向角。

具体地，将每一历史盲区场景相应时刻的历史数据、相应时刻前5秒历史数据、以及相应时刻后3秒历史数据确定为一条历史数据，其中，历史数据包括目标车辆和周围其他车辆的运动状态数据、目标车辆和周围其他车辆的动作数据、以及相应的道路拓扑结构。

从多个历史盲区场景中采集多条历史数据，以0.1秒为周期，将每一条历史数据处理为多对状态-动作对，其中，状态指的是历史数据相应的每一时刻的目标车辆和周围其他车辆的运动状态数据，动作指的是历史数据相应的每一时刻与相距一个周期的下一时刻间的动作数据，基于状态-动作对以及相应的道路拓扑结构即可确定安全行驶轨迹。

本实施例中，基于目标车辆的第一运动状态数据、周围其他车辆的第二运动状态数据以及道路拓扑结构，确定安全行驶轨迹，使得确定的安全行驶轨迹更加准确。

在一些实施例中，基于安全行驶轨迹确定每一代价特征相应的目标权重值，包括：获取安全行驶轨迹相应的目标函数，目标函数表征当前行驶场景下的行驶策略和安全行驶轨迹间的相似性；获取安全行驶轨迹的海森矩阵信息，基于梯度上升法和海森矩阵信息，确定目标函数的最大值；将目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值。

其中，如下式所示，先利用目标函数

如下式所示，将上述偏导函数展开：

式中，

基于上述目标函数的偏导函数，利用梯度上升法，即可确定目标函数的最大值。

本实施例中，先确定目标函数的最大值，并将目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值，这样确定的目标权重值更加准确，从而使得基于目标权重值做出的行驶策略更加合理。

在一些实施例中，在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取目标车辆在盲区场景下的安全行驶轨迹和目标车辆在当前行驶场景下的初始代价函数之前，还包括：获取当前行驶场景相应的场景图像；基于目标卷积神经网络判断当前行驶场景的场景类型，场景类型包括盲区场景和正常场景；若场景类型为盲区场景，则执行获取目标车辆在盲区场景下的安全行驶轨迹和目标车辆在当前行驶场景下的初始代价函数的步骤。

其中，目标卷积神经网络可以为经过修改之后的深度残差网络ResNet50，可以将ResNet50的全连接层修改为[2048，1024]、[1024，512]、[512，2]，在其他实施例中，目标卷积神经网络和相应的修改方法也可以为其他的，本申请实施例对此不作具体限定。

本实施例中，利用目标卷积神经网络判断当前行驶场景的场景类型，使得对于场景类型的判断更加准确。

在一些实施例中，上述方法还包括：在盲区场景和正常场景的场景切换过程中，逐步降低在前场景相应的第一权重值，并逐步升高在后场景相应的第二权重值，在前场景为进行切换之前的场景，在后场景为进行切换之后的场景，在场景切换过程中，第一权重值和第二权重值之和为1。

其中，例如，若场景切换过程一共包括三个时间帧，在场景切换过程中，依次将在前场景在这三个时间帧中的权重值确定为1、0.5、0，依次将在后场景在这三个时间帧中的权重值确定为0、0.5、1。

本实施例中，通过在场景切换过程中，改变在前场景和在后场景的权重值，从而完成场景切换过程，使得场景切换过程更加平稳。

在一些实施例中，目标卷积神经网络是利用目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络训练得到的，在训练过程中，冻结初始卷积神经网络的卷积层，并对全连接层进行训练。

具体地，从历史行驶场景中采集40000张场景图像，其中，20000张为盲区场景的场景图像，20000张为正常场景的场景图像。将这40000张场景图像打乱之后分为训练集和测试集，其中，训练集包括32000张图像，测试集包括8000张图像。利用训练集对初始卷积神经网络进行训练，并用测试集对训练结果进行测试，在通过测试之后，将训练之后的卷积神经网络确定为目标卷积神经网络。

本实施例中，通过目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络进行训练得到目标卷积神经网络，使得目标卷积神经网络对于行驶场景的判断更加准确。

在一个实施例中，提供了另一种行驶控制方法，该方法包括以下三个部分：盲区场景判断、代价决策模块（利用逆强化学习生成的代价函数决策规划，主要包括专家轨迹生成、代价函数设计以及逆强化学习训练）、以及常规规则决策模块。在每一个决策周期，首先由场景判断模型判断当前场景是否为盲区场景，如果是，则由代价决策模块处理并输出，否则由常规规则决策模块处理并输出。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的行驶控制方法的行驶控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个行驶控制装置实施例中的具体限定可以参见上文中对于行驶控制方法的限定，在此不再赘述。

在一个示例性的实施例中，如图3所示，提供了一种行驶控制装置300，包括：获取模块301、第一确定模块302、第二确定模块303和控制模块304，其中：

获取模块301，用于在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的。

第一确定模块302，用于基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数。

第二确定模块303，用于基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略。

控制模块304，用于基于所述行驶策略，控制所述目标车辆行驶。

在一些实施例中，获取模块301，还用于从所述目标车辆的历史行驶过程中确定多个历史盲区场景，并获取每一历史盲区场景相应的目标车辆的第一运动状态数据、目标车辆预设范围内其他车辆的第二运动状态数据、以及道路拓扑结构；基于所述第一运动状态数据、所述第二运动状态数据以及所述道路拓扑结构，确定所述安全行驶轨迹。

在一些实施例中，第一确定模块302，还用于获取所述安全行驶轨迹相应的目标函数，所述目标函数表征当前行驶场景下的行驶策略和安全行驶轨迹间的相似性；获取所述安全行驶轨迹的海森矩阵信息，基于梯度上升法和所述海森矩阵信息，确定所述目标函数的最大值；将所述目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值。

在一些实施例中，行驶控制装置300，具体用于获取当前行驶场景相应的场景图像；基于目标卷积神经网络判断当前行驶场景的场景类型，所述场景类型包括盲区场景和正常场景；若所述场景类型为盲区场景，则执行获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数的步骤。

在一些实施例中，行驶控制装置300，还用于在所述盲区场景和所述正常场景的场景切换过程中，逐步降低在前场景相应的第一权重值，并逐步升高在后场景相应的第二权重值，所述在前场景为进行切换之前的场景，所述在后场景为进行切换之后的场景，在所述场景切换过程中，所述第一权重值和所述第二权重值之和为1。

在一些实施例中，行驶控制装置300，还用于目标卷积神经网络是利用所述目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络训练得到的，在训练过程中，冻结所述初始卷积神经网络的卷积层，并对全连接层进行训练。

上述行驶控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种行驶控制方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的；基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数；基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略；基于所述行驶策略，控制所述目标车辆行驶。

在一个实施例中，处理器执行计算机程序时所实现的获取所述目标车辆在盲区场景下的安全行驶轨迹，包括：从所述目标车辆的历史行驶过程中确定多个历史盲区场景，并获取每一历史盲区场景相应的目标车辆的第一运动状态数据、目标车辆预设范围内其他车辆的第二运动状态数据、以及道路拓扑结构；基于所述第一运动状态数据、所述第二运动状态数据以及所述道路拓扑结构，确定所述安全行驶轨迹。

在一个实施例中，处理器执行计算机程序时所实现的基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，包括：获取所述安全行驶轨迹相应的目标函数，所述目标函数表征当前行驶场景下的行驶策略和安全行驶轨迹间的相似性；获取所述安全行驶轨迹的海森矩阵信息，基于梯度上升法和所述海森矩阵信息，确定所述目标函数的最大值；将所述目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值。

在一个实施例中，处理器执行计算机程序时所实现的在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数之前，还包括：获取当前行驶场景相应的场景图像；基于目标卷积神经网络判断当前行驶场景的场景类型，所述场景类型包括盲区场景和正常场景；若所述场景类型为盲区场景，则执行获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数的步骤。

在一个实施例中，处理器执行计算机程序时所实现的方法还包括：在所述盲区场景和所述正常场景的场景切换过程中，逐步降低在前场景相应的第一权重值，并逐步升高在后场景相应的第二权重值，所述在前场景为进行切换之前的场景，所述在后场景为进行切换之后的场景，在所述场景切换过程中，所述第一权重值和所述第二权重值之和为1。

在一个实施例中，处理器执行计算机程序时所实现的目标卷积神经网络是利用所述目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络训练得到的，在训练过程中，冻结所述初始卷积神经网络的卷积层，并对全连接层进行训练。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的；基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数；基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略；基于所述行驶策略，控制所述目标车辆行驶。

在一个实施例中，计算机程序被处理器执行时所实现的获取所述目标车辆在盲区场景下的安全行驶轨迹，包括：从所述目标车辆的历史行驶过程中确定多个历史盲区场景，并获取每一历史盲区场景相应的目标车辆的第一运动状态数据、目标车辆预设范围内其他车辆的第二运动状态数据、以及道路拓扑结构；基于所述第一运动状态数据、所述第二运动状态数据以及所述道路拓扑结构，确定所述安全行驶轨迹。

在一个实施例中，计算机程序被处理器执行时所实现的基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，包括：获取所述安全行驶轨迹相应的目标函数，所述目标函数表征当前行驶场景下的行驶策略和安全行驶轨迹间的相似性；获取所述安全行驶轨迹的海森矩阵信息，基于梯度上升法和所述海森矩阵信息，确定所述目标函数的最大值；将所述目标函数处于最大值时，每一代价特征相应的权重值确定为目标权重值。

在一个实施例中，计算机程序被处理器执行时所实现的在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数之前，还包括：获取当前行驶场景相应的场景图像；基于目标卷积神经网络判断当前行驶场景的场景类型，所述场景类型包括盲区场景和正常场景；若所述场景类型为盲区场景，则执行获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数的步骤。

在一个实施例中，计算机程序被处理器执行时所实现的方法还包括：在所述盲区场景和所述正常场景的场景切换过程中，逐步降低在前场景相应的第一权重值，并逐步升高在后场景相应的第二权重值，所述在前场景为进行切换之前的场景，所述在后场景为进行切换之后的场景，在所述场景切换过程中，所述第一权重值和所述第二权重值之和为1。

在一个实施例中，计算机程序被处理器执行时所实现的目标卷积神经网络是利用所述目标车辆的多个历史行驶场景相应的场景图像对初始卷积神经网络训练得到的，在训练过程中，冻结所述初始卷积神经网络的卷积层，并对全连接层进行训练。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：在目标车辆的当前行驶场景的场景类型为盲区场景的情况下，获取所述目标车辆在盲区场景下的安全行驶轨迹和所述目标车辆在当前行驶场景下的初始代价函数，所述初始代价函数包括多项代价特征，所述代价特征是基于所述目标车辆的当前运动状态数据确定的；基于所述安全行驶轨迹确定每一代价特征相应的目标权重值，并基于所述初始代价函数和所述目标权重值确定相应的目标代价函数；基于所述目标代价函数确定所述目标车辆在当前行驶场景下的行驶策略；基于所述行驶策略，控制所述目标车辆行驶。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国第一汽车股份有限公司;

上一篇：一种电芯均衡方法及车辆
下一篇：用于车辆自动行驶控制的方法、装置、终端及存储介质