导航：首页> 特别适用于特定应用领域的信息通信技术〔ICT〕〔2018.01〕>行为决策方法、装置、电子设备及存储介质

行为决策方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 18:34:06

技术领域

本发明涉及人工智能技术领域，尤其涉及一种行为决策方法、装置、电子设备及存储介质。

背景技术

随着机器人技术的发展，越来越多的机器人工作在与人类共存的场景中，机器人在人类的生活、工作场所中运动时，需要适应复杂、动态的场景，并对人类的活动进行避让。近年来，一些研究提出了用于机器人的多策略决策模型，通过对未来场景状态进行前向模拟，并设计代价函数来评价和选择策略，具有较好的实时性。

但当前的机器人行为决策方法虽然能够根据场景变化自动调整行动策略，但是其用来评估场景的代价函数较为简单，未考虑环境中机器人与行人的避障距离等舒适性因素。此外，现有方法主要依赖人工调整代价函数中的特征权重，对复杂场景的适应能力不足。

发明内容

本发明提供一种行为决策方法、装置、电子设备及存储介质，用以解决现有技术中评估场景的代价函数简单并需要人工调整权重导致对复杂场景的适应能力不足的缺陷。

本发明提供一种行为决策方法，包括：

确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；

基于所述各行为策略下的行人轨迹和机器人轨迹，以及所述当前地图，确定所述各行为策略下的轨迹特征向量；

基于评估代价函数，应用权重向量和所述各行为策略下的轨迹特征向量，对所述各行为策略进行评估，得到最优策略；所述权重向量是基于由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

根据本发明提供的一种行为决策方法，所述基于所述各行为策略下的行人轨迹和机器人轨迹，确定所述各行为策略下的轨迹特征向量，包括：

基于所述各行为策略下的机器人轨迹和所述当前地图，确定所述各行为策略下所述未来预设连续多个时刻内机器人与障碍物最小距离；

基于所述各行为策略下的行人轨迹和机器人轨迹，确定所述各行为策略下所述未来预设连续多个时刻内机器人与行人最小距离；

基于所述各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置，确定所述各行为策略下机器人与所述预设目标点距离；

基于所述各行为策略下的机器人轨迹和预设全局路径，确定所述各行为策略下机器人与预设全局路径最大偏差距离；

基于所述各行为策略下与障碍物最小距离、所述各行为策略下与行人最小距离、所述各行为策略下与所述预设目标点距离和所述各行为策略下与预设全局路径最大偏差距离，确定所述各行为策略下的轨迹特征向量。

根据本发明提供的一种行为决策方法，所述权重向量的训练步骤如下：

确定当前权重向量和所述样本对；

基于所述样本对中的样本机器人示例轨迹的起始位置和结束位置，所述样本对中的样本行人轨迹，以及所述当前权重向量，应用所述评估代价函数，确定机器人规划轨迹；

基于所述样本对中的样本机器人示例轨迹和所述样本对中的样本行人轨迹，确定第一轨迹特征向量；并基于所述机器人规划轨迹和所述样本对中的样本行人轨迹，确定第二轨迹特征向量；

基于所述第一轨迹特征向量和所述第二轨迹特征向量，确定所述当前权重向量的梯度；并基于所述梯度对所述当前权重向量进行迭代调整，直至所述当前权重向量收敛，得到所述权重向量。

根据本发明提供的一种行为决策方法，所述各行为策略下的行人轨迹的确定步骤包括，包括：

确定当前预测时刻和所述各行为策略中任一策略下的行人轨迹；

基于所述当前预测时刻的前一时刻所述任一策略下行人位置、所述前一时刻所述任一策略下机器人位置和所述当前地图，应用所述行人轨迹预测模型进行预测，得到所述任一策略下当前预测时刻的行人位置；

将所述行人位置加入所述任一策略下的行人轨迹，并将所述当前预测时刻的下一时刻作为所述当前预测时刻进行迭代，直至所述当前预测时刻为所述未来预设连续多个时刻的结束时刻，得到所述任一策略下的行人轨迹。

根据本发明提供的一种行为决策方法，所述各行为策略下的机器人轨迹的确定步骤包括，包括：

确定当前规划时刻和所述各行为策略中任一策略下的机器人轨迹；

基于所述当前规划时刻的前一时刻所述任一策略下机器人位置和所述任一策略，应用所述机器人轨迹规划模型进行规划，得到所述任一策略下当前规划时刻的机器人位置；

将所述机器人位置加入所述任一策略下的机器人轨迹，并将所述任一策略下的当前规划时刻的下一时刻作为所述任一策略下的当前规划时刻进行迭代，直至所述当前规划时刻为所述未来预设连续多个时刻的结束时刻，得到所述任一策略下的机器人轨迹。

根据本发明提供的一种行为决策方法，所述样本对中的样本机器人示例轨迹是基于记录在仿真环境中由人操作机器人从起始位置到结束位置的运动轨迹；所述仿真环境包括所述起始位置、所述结束位置和多个自主运动行人的轨迹。

根据本发明提供的一种行为决策方法，所述各行为策略包括：避障、行人跟随和停止。

本发明还提供一种行为决策装置，包括：

确定模块，用于确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；

特征模块，用于基于所述各行为策略下的行人轨迹和机器人轨迹，以及所述当前地图，确定所述各行为策略下的轨迹特征向量；

评估模块，用于基于评估代价函数，应用权重向量和所述各行为策略下的轨迹特征向量，对所述各行为策略进行评估，得到最优策略；所述权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述行为决策方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述行为决策方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行为决策方法。

本发明提供的行为决策方法、装置、电子设备及存储介质，通过在评估代价函数中增加各行为策略下的轨迹特征向量，并且通过逆向训练得到权重向量，实现了评估代价函数根据轨迹特征向量和权重向量进行策略评估的同时，避免了人工调整代价函数的特征权重，从而提升了复杂场景的适应能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供行为决策方法的流程示意图；

图2是本发明提供的轨迹特征向量获取方法的流程示意图；

图3是本发明提供的权重向量训练方法的流程示意图；

图4是本发明提供的行为决策装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

早期的机器人行为决策方法通过设定针对不同场景的规则，利用有限状态机或者分层状态机方法来评估当前场景状态并选择相应的策略。比如基于障碍物速度和环境可通行空间等信息设计机器人运动规则，并根据预先设定的规则实时生成行为决策。但通常对移动障碍物进行匀速运动假设，且不考虑障碍物对无人车运动的反应，因此这些方法的决策结果可能带来潜在的风险。为了考虑场景状态未来的发展变化，一些方法在策略决策过程中引入了对场景中智能体运动状态的预测，从而使策略选择具有前瞻性。比如利用贝叶斯分类器来预测障碍物的运动趋势，并设计基于树状图的机制来搜索最优策略。由于策略决策具有很强的不确定度，一些方法将策略决策问题建模为部分观测马尔可夫决策过程(Partially observable Markov decision process,POMDP)进行策略求解。由于在线POMDP求解器通常需要大量的计算资源且计算效率低，从而限制了其在复杂的真实场景中的应用。近年来，一些研究提出了用于机器人的多策略决策模型，通过对未来场景状态进行前向模拟，并设计代价函数来评价和选择策略，具有较好的实时性。

但当前的机器人行为决策方法虽然能够根据场景变化自动调整行动策略，但是其用来评估场景的代价函数较为简单并且主要依赖人工调整代价函数中的特征权重，对复杂场景的适应能力不足。

因此，如何提高代价函数的适应能力是本领域技术人员亟待解决的技术问题。

针对上述技术问题，本发明实施例提供一种行为决策方法。图1是本发明提供行为决策方法的流程示意图。如图1所示，该方法包括：

步骤110，确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；

需要说明的是，各行为策略下的行人轨迹的前向轨迹模拟可以是在各行为策略下，根据行人历史轨迹和当前地图预测未来多个连续时刻的行人位置以得到行人轨迹，还可以是根据行人历史轨迹、机器人轨迹和当前地图预测未来多个连续时刻的行人位置以得到行人轨迹，本发明对此不作限制。各行为策略下的机器人轨迹的前向轨迹模拟可以根据机器人的轨迹位置，应用各行为策略，迭代规划未来多个连续时刻的机器人位置，以得到机器人轨迹。

步骤120，基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；

步骤130，基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

考虑到机器人在人机混合的环境中需要安全、快速到达目标，需要与环境中的因素保持合适的距离，例如：障碍物和行人，因此，本发明实施例在使用评估代价函数进行决策时引入了轨迹特征向量，同时为了避免依赖人工调整代价函数中的权重，因此，本发明通过逆向训练来得到权重向量。

具体地，在预先通过由样本行人轨迹和样本机器人示例轨迹组成的样本对进行逆向强化学习得到权重向量之后，根据各行为策略下的行人轨迹和机器人轨迹，计算与各环境因素的距离，并将各环境因素的距离按照预定维度顺序作为向量中的一个维度，组成轨迹特征向量。其中，环境因素可以包括机器人与障碍物的最小距离、机器人与行人的最小距离和机器人到目标点的最近距离等，本发明实施例对此不作限制。在得到各行为策略下的轨迹特征向量后，结合权重向量对各行为策略进行最小化预期，得到最优策略。

需要说明的是，样本机器人示例轨迹可以是在包含有多个自主运动行人的仿真环境中由人控制机器人从起点位置运动到终点位置并记录轨迹点得到。权重向量的维度和轨迹特征向量的维度相同。

最优策略确定的公式如下：

式中，π

评估代价函数C为一系列特征的线性组合，公式如下：

式中，w＝(w

本发明实施例提供的行为决策方法，通过在评估代价函数中增加各行为策略下的轨迹特征向量，并且通过逆向训练得到权重向量，实现了评估代价函数根据轨迹特征向量和权重向量进行策略评估的同时，避免了人工调整代价函数的特征权重，从而提升了复杂场景的适应能力。

基于上述实施例，图2是本发明提供的轨迹特征向量获取方法的流程示意图，如图2所示，步骤120，包括：

步骤121，基于各行为策略下的机器人轨迹和当前地图，确定各行为策略下未来预设连续多个时刻内机器人与障碍物最小距离；

步骤122，基于各行为策略下的行人轨迹和机器人轨迹，确定各行为策略下未来预设连续多个时刻内机器人与行人最小距离；

步骤123，基于各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置，确定各行为策略下机器人与预设目标点距离；

步骤124，基于各行为策略下的机器人轨迹和预设全局路径，确定各行为策略下机器人与预设全局路径最大偏差距离；

步骤125，基于各行为策略下未来预设连续多个时刻机器人与障碍物最小距离、各行为策略下未来预设连续多个时刻机器人与行人最小距离、各行为策略下机器人与预设目标点距离和各行为策略下机器人与预设全局路径最大偏差距离，确定各行为策略下的轨迹特征向量。

考虑到机器人在向目标点移动的过程中，影响其安全快速移动到目标点的环境因素主要是机器人与障碍物的距离、机器人与行人的距离、机器人与预设目标点距离以及机器人与预设全局路径最大偏差距离，因此，本发明实施例以机器人与障碍物最小距离、机器人与行人最小距离、机器人与预设目标点距离、机器人与预设全局路径最大偏差距离确定轨迹特征向量。

具体地，对当前地图中的障碍物位置信息和各行为策略下的机器人轨迹中的位置进行距离计算，得到各行为策略下未来预设连续多个时刻内机器人与障碍物最小距离，对各行为策略下的行人轨迹中的位置和机器人轨迹中的位置进行距离计算，得到各行为策略下未来预设连续多个时刻内机器人与行人最小距离，对各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置进行距离计算，得到各行为策略下机器人与所述预设目标点距离，对各行为策略下的机器人轨迹中的位置和预设全局路径中的位置一一进行距离计算，得到各行为策略下机器人与预设全局路径最大偏差距离，然后将各行为策略下未来预设连续多个时刻内机器人与障碍物最小距离，各行为策略下未来预设连续多个时刻内机器人与行人最小距离，各行为策略下机器人与预设目标点距离，以及各行为策略下机器人与预设全局路径最大偏差距离均作为向量中的一个维度，依据预设的维度映射关系，得到各行为策略下的轨迹特征向量。

需要说明的是，最新轨迹位置是机器人轨迹中结束时刻机器人所在的位置。维度映射关系表示记录未来预设连续多个时刻内机器人与障碍物最小距离，未来预设连续多个时刻内机器人与行人最小距离，机器人与所述预设目标点距离，以及机器人与预设全局路径最大偏差距离在向量中的维度，例如，未来预设连续多个时刻内机器人与障碍物最小距离为5，在向量中的维度是1，未来预设连续多个时刻内机器人与行人最小距离为4，在向量中的维度是2，机器人与所述预设目标点距离为20，在向量中的维度是3，机器人与预设全局路径最大偏差距离为7，在向量中的维度是4，则轨迹特征向量为[5,4,20,7]。

未来预设连续多个时刻内机器人与障碍物最小距离f

其中：设未来预设连续多个时刻中有T个时刻。

基于上述实施例，图3是本发明提供的权重向量训练方法的流程示意图。如图3所示，权重向量的训练步骤如下：

步骤310，确定当前权重向量和所述样本对；

需要说明的是，当前权重向量表示在应用样本对进行迭代逆向强化学习时，每一迭代轮的权重向量，在逆向强化学习之前会对当前权重向量赋予初始值，样本对由样本机器人示例轨迹和样本对中的样本行人轨迹组成。其中，样本行人轨迹中的每一个样本均包含一个或多个行人轨迹，样本机器人示例轨迹中是由人工操作机器人在仿真环境下获取的，在获取样本机器人示例轨迹样本的同时也获取了生成该示例轨迹样本的周围的样本行人轨迹。仿真环境是通过机器人起始位置和结束位置，以及多个自主行动的行人中每一个人的行动起始位置和行动结束位置构建的。

步骤320，基于样本对中的样本机器人示例轨迹的起始位置和结束位置，样本对中的样本行人轨迹，以及当前权重向量，确定机器人规划轨迹；

具体地，根据样本对中的样本机器人示例轨迹的起始位置和结束位置，从起始位置开始，依次根据样本对中样本行人轨迹在当前规划时刻的历史轨迹和机器人当前所在的位置，以及当前权重向量，应用评估代价函数进行策略评估，得到当前的策略，并根据该决策控制机器人行动，直到到达结束位置，得到机器人规划轨迹。

需要说明的是，样本对中的样本机器人示例轨迹中的时刻和样本对中的样本行人轨迹中的时刻是一一对应。

步骤330，基于样本机器人示例轨迹和样本行人轨迹，确定第一轨迹特征向量；并基于机器人规划轨迹和样本行人轨迹，确定第二轨迹特征向量；

步骤340，基于第一轨迹特征向量和第二轨迹特征向量，确定当前权重向量的梯度；并基于该梯度对当前权重向量进行迭代调整，直至当前权重向量收敛，得到权重向量。

具体地，通过样本机器人示例轨迹和样本行人轨迹，经过舒适距离计算得到第一轨迹特征向量，同时通过机器人规划轨迹和样本行人轨迹，经过舒适距离计算得到第二轨迹特征向量。在得到第一轨迹特征向量和第二轨迹特征向量之后，根据第一轨迹特征向量和第二轨迹特征向量计算当前权重向量的梯度，然后通过梯度执行梯度下降并对当前权重向量进行迭代调整，直至当前权重向量收敛，将当前权重向量作为训练得到的权重向量。

需要说明的是，利用样本对D对当前权重向量w进行训练，通过重复迭代优化，不断利用样本对D来优化当前权重向量w，步骤如下：

(1)设置随机的初始权重向量w

(2)对D中的每一条样本机器人示例轨迹

(3)分别计算样本机器人示例轨迹

(4)遍历一次D中所有的样本数据，计算权重w的梯度

(5)执行梯度下降w←w-δΔw。

(6)重复步骤(2)至(5)，直至当前权重向量w收敛。

基于上述实施例，各行为策略下的行人轨迹的确定步骤包括，包括：

步骤S11，确定当前预测时刻和各行为策略中任一策略下的行人轨迹；

需要说明的是，各行为策略中任一策略下的行人轨迹的初始为空，此后，每预测一个时刻的行人位置，就将该行人位置加入该策略下的行人轨迹中。

步骤S12，基于当前预测时刻的前一时刻该策略下行人位置、前一时刻该策略下机器人位置和当前地图，应用行人轨迹预测模型进行预测，得到该策略下当前预测时刻的行人位置；

步骤S13，将行人位置加入该策略下的行人轨迹，并将该策略下的当前预测时刻的下一时刻作为该策略下的当前行人时刻进行迭代，直至当前预测时刻为未来预设连续多个时刻的结束时刻，得到该策略下的行人轨迹。

具体地，将当前预测时刻的前一时刻该策略下的行人位置、当前预测时刻的前一时刻该策略下的机器人位置和当前地图输入到行人轨迹预测模型中进行预测，得到行人轨迹预测模型输出的该策略下的当前预测时刻的行人位置，然后将该策略下的当前预测时刻的行人位置加入到该策略下的行人轨迹中，并将该策略下的当前预测时刻的下一时刻作为该策略下的当前行人时刻，以此进行迭代，直到该策略下的当前预测时刻为未来预设连续多个时刻的结束时刻，此时即得到该策略下的行人轨迹。

需要说明的是，定义行人i在t时刻的行人位置为

式中，

基于上述实施例，各行为策略下的机器人轨迹的确定步骤包括，包括：

步骤S21，确定当前规划时刻和各行为策略中任一策略下的机器人轨迹；

需要说明的是，该策略下的行人轨迹最初为空，每规划一个时刻的机器人位置，就将该机器人位置加入该策略下的行人轨迹中。

步骤S22，基于当前规划时刻的前一时刻该策略下机器人位置和该策略，应用机器人轨迹规划模型进行规划，得到该策略下当前规划时刻的机器人位置；

步骤S23，将机器人位置加入该策略下的机器人轨迹，并将该策略下的当前规划时刻的下一时刻作为该策略下的当前规划时刻进行迭代，直至当前规划时刻为未来预设连续多个时刻的结束时刻，得到该策略下的机器人轨迹。

具体地，将该策略和该策略下的当前规划位置输入至机器人轨迹规划模型进行规划，得到该策略下的当前规划时刻的机器人位置，然后将该机器人位置加入到该策略下的机器人轨迹中，同时将该策略下的当前规划时刻的下一时刻作为该策略下的当前规划时刻，以此进行迭代，直到该策略下的当前预测时刻为未来预设连续多个时刻的结束时刻，此时即得到该策略下的机器人轨迹。

需要说明的是，定义行人i在t时刻的行人位置为

式中，

此外，在得到t+1时刻行人位置以及机器人位置之后，根据上述行人轨迹的前向模拟和机器人轨迹的前向模拟得到t+2时刻的行人位置以及机器人位置，以此迭代预设阈值T次，则可以得到行人i在未来T时刻内的行人轨迹

基于上述实施例，样本对中的样本机器人示例轨迹是基于记录在仿真环境中由人操作机器人从起始位置到结束位置的运动轨迹；仿真环境包括起始位置、结束位置和多个自主运动行人的轨迹。

需要说明的是，在仿真环境中随机设置机器人运行轨迹的起始位置和结束位置，并设置多个自主行动的行人的起始位置和结束位置，自主行动的行人可以在其对应的起始位置和结束位置之间进行往复运动，人操作机器人从起始位置出发，并且根据多个自主行动的行人的位置对机器人进行控制，直至将机器人控制运动到结束位置，并且在从机器人起始位置开始移动的时刻开始到机器人结束位置停止移动的时刻结束，记录两个时刻之间机器人的行动轨迹，形成样本对中的样本机器人示例轨迹，同时记录两个时刻之间每一个自主行动的行人的行动轨迹，作为样本对中的样本行人轨迹。

基于上述实施例，本发明提供一优选实施例，该实施例中行为策略包括：避障、行人跟随和停止。

需要说明的是，定义机器人的导航行为策略Π＝{避障，跟随行人i，停止}：

避障策略，机器人全局路径周围具有较少或中等密度的人类活动，存在可通行路径，机器人选择避障策略。具体执行方式是依据预设全局路径设置局部目标点，避让环境中的行人，并进行局部运动规划避障；

跟随第i个行人策略，机器人全局路径上人群拥挤、运动缓慢，选择周围行人中运动趋势与预设全局路径最接近的行人i作为领航者，执行跟随策略。具体执行方式是依据行人i的位置设置局部目标点，进行局部避障运动规划；

停止策略，紧急情况或全局路径被完全拥堵，选择停止策略。具体执行方式是机器人减速停止等待周围情景变化。

下面对本发明提供的行为决策装置进行描述，下文描述的行为决策装置与上文描述的行为决策方法可相互对应参照。

图4是本发明提供的行为决策装置的结构示意图。如图4所示，本发明实施例提供的行为决策装置，包括：确定模块410、特征模块420和评估模块430。

其中，

确定模块410，用于确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；

特征模块420，用于基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；

评估模块430，用于基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

本发明实施例提供的行为决策装置，能够通过确定模块，用于确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；特征模块，用于基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；评估模块，用于基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的，实现了评估代价函数根据轨迹特征向量和权重向量进行策略评估的同时，避免了人工调整代价函数的特征权重，从而提升了复杂场景的适应能力。

基于上述任一实施例，特征模块410，包括：

障碍物距离子模块，用于基于各行为策略下的机器人轨迹和当前地图，确定各行为策略下未来预设连续多个时刻内机器人与障碍物最小距离；

行人距离子模块，用于基于各行为策略下的行人轨迹和机器人轨迹，确定各行为策略下未来预设连续多个时刻内机器人与行人最小距离；

目标点距离子模块，用于基于各行为策略下的机器人轨迹中最新轨迹位置和预设目标点位置，确定各行为策略下机器人与预设目标点距离；

偏差距离子模块，用于基于各行为策略下的机器人轨迹和预设全局路径，确定各行为策略下机器人与预设全局路径最大偏差距离；

向量子模块，用于基于各行为策略下未来预设连续多个时刻机器人与障碍物最小距离、各行为策略下未来预设连续多个时刻机器人与行人最小距离、各行为策略下机器人与预设目标点距离和各行为策略下机器人与预设全局路径最大偏差距离，确定各行为策略下的轨迹特征向量。

基于上述任一实施例，本发明实施例提供的行为决策装置，还包括：逆训练模块，该模块包括：

初始化子模块，用于确定当前权重向量和所述样本对；

规划子模块，用于基于样本对中的样本机器人示例轨迹的起始位置和结束位置，样本对中的样本行人轨迹，以及当前权重向量，确定机器人规划轨迹；

向量子模块，用于基于样本机器人示例轨迹和样本行人轨迹，确定第一轨迹特征向量；并基于机器人规划轨迹和样本行人轨迹，确定第二轨迹特征向量；

迭代训练子模块，用于基于第一轨迹特征向量和第二轨迹特征向量，确定当前权重向量的梯度；并基于该梯度对当前权重向量进行迭代调整，直至当前权重向量收敛，得到权重向量。

基于上述任一实施例，本发明实施例提供的行为决策装置，还包括：行人前向模拟模块，该模块包括：

预测条件子模块，用于确定当前预测时刻和各行为策略中任一策略下的行人轨迹；

行人位置预测子模块，用于基于当前预测时刻的前一时刻该策略下行人位置、前一时刻该策略下机器人位置和当前地图，应用行人轨迹预测模型进行预测，得到该策略下当前预测时刻的行人位置；

行人轨迹确定子模块，用于将行人位置加入该策略下的行人轨迹，并将当前预测时刻的下一时刻作为当前预测时刻进行迭代，直至当前预测时刻为未来预设连续多个时刻的结束时刻，得到该策略下的行人轨迹。

基于上述任一实施例，本发明实施例提供的行为决策装置，还包括：机器人前向模拟模块，该模块包括：

规划条件子模块，用于确定当前规划时刻和各行为策略中任一策略下的机器人轨迹；

规划位置子模块，用于基于当前规划时刻的前一时刻该策略下机器人位置和该策略，应用机器人轨迹规划模型进行规划，得到该策略下当前规划时刻的机器人位置；

机器人轨迹确定子模块，用于将机器人位置加入该策略下的机器人轨迹，并将该策略下的当前规划时刻的下一时刻作为该策略下的当前规划时刻进行迭代，直至当前规划时刻为未来预设连续多个时刻的结束时刻，得到该策略下的机器人轨迹。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行行为决策方法，该方法包括：确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的行为决策方法，该方法包括：确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的行为决策方法，该方法包括：确定当前地图，以及前向轨迹模拟得到的各行为策略下未来预设连续多个时刻的行人轨迹和机器人轨迹；基于各行为策略下的行人轨迹和机器人轨迹，以及当前地图，确定各行为策略下的轨迹特征向量；基于评估代价函数，应用权重向量和各行为策略下的轨迹特征向量，对各行为策略进行评估，得到最优策略；权重向量是由样本行人轨迹和样本机器人示例轨迹组成的样本对训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙世颖;赵晓光;张宇佳;谭民;
专利申请人：中国科学院自动化研究所;

上一篇：基因深度信息数据压缩方法、装置、电子设备及存储介质
下一篇：连接结构