一种基于语义的动态物体自适应轨迹预测方法

文献发布时间：2023-06-19 09:26:02

技术领域

本发明涉及路径规划技术领域，特别涉及是指一种基于语义的动态物体自适应轨迹预测方法。

背景技术

当今社会，动态避障是移动机器人执行任务时需要解决的重要问题之一。目前，市场上出现的大多数移动机器人遇到动态物体接近时，由于无法预测障碍物的下一步运动轨迹，它们只能停止移动并等待，直到障碍物远离后再执行任务，这严重降低了机器人执行任务的效率。因此如果机器人要实现通过移动来绕过障碍而不是简单地停下，必须准确地感知和预测动态物体的未来轨迹。然而，实时的轨迹预测费时费力，且由于该轨迹预测是为后期机器人动态避障奠定基础，因此需要更加准确的预测精度。

目前国内外研究了多种轨迹预测方法，部分方法利用神经网络或遗传算法来提高轨迹预测的准确度，但增加了预测时间，不能达到实时性；另一些方法考虑利用低样本率进行预测，虽然极大提高了预测效率，但预测精度不能满足避障的需求。

综合准确度和效率两方面考虑，统计方法中的灰色预测模型GM(1,1)可同时满足以上两个要求(刘思峰,曾波,刘解放,等.GM(1,1)模型的几种基本形式及其适用范围研究[J].系统工程与电子技术,2014,36(3))。实验表明，现有技术中的GM(1,1)仅利用少量样本数据在实时性的要求下能实现较为精准的预测。但该方法随着样本数据的增加，预测效率明显下降。另外，由于生活中尤其在室内场景下，动态物体的种类和运动状态都较为复杂，GM(1,1)无法区别动态物体的运动状态及规律，无法自适应地对不同运动状态物体作出最合适的预测，因此若直接将该方法作用于室内场景下的轨迹预测将无法保证对所有动态物体都实现精准有效的预测。

发明内容

本发明实施例提供了基于语义的动态物体自适应轨迹预测方法，能够自适应地对不同运动状态的运动物体的运动轨迹进行准确预测。所述技术方案如下：

一方面，提供了一种基于语义的动态物体自适应轨迹预测方法，该方法包括：

实时获取场景信息；

根据获取的场景信息，利用语义对场景中的动态物体进行识别和跟踪，为动态物体分配语义标签；

基于动态物体的语义标签，按照运动状态对动态物体进行分类；

采用自适应预测策略，利用基于最小二乘法的灰色预测模型对不同类别的动态物体的运动轨迹进行相对应的预测。

进一步地，所述基于动态物体的语义标签，按照运动状态对动态物体进行分类包括：

通过动态物体的语义标签对动态物体进行语义分析，按照运动状态将动态物体分为随机运动物体和规律运动物体。

进一步地，自适应预测策略为根据动态物体的运动状态自动选择相对应的预测策略，其中，

对于规律运动物体，采取周期性采样和多帧预测；

对于随机运动物体，采取逐帧采样和逐帧预测。

进一步地，周期性采样过程表示为：

其中，

进一步地，逐帧采样过程表示为：

其中，

进一步地，所述采用自适应预测策略，利用基于最小二乘法的灰色预测模型对不同类别的动态物体的运动轨迹进行相对应的预测包括：

对随机动态物体的运动轨迹进行逐帧采样；

对采样得到的轨迹数据进行动态筛选，保留与当前时刻最近的轨迹数据，作为生成的动态原始序列x

将生成的动态原始序列x

将动态原始序列

其中，x

将该灰色预测模型进行白化，生成的白化函数为：

其中，

通过线性回归对参数a和b进行估计，得到：

[a,b]

其中，B、Y都表示简写形式；

结合邻近生成序列及估计值a和b，通过灰色预测模型解出第k时刻的累加序列

通过灰色预测模型解出第k+1时刻的累加序列

通过对解出的累加序列

其中，

实现随机动态物体的运动轨迹的逐帧预测。

进一步地，采用多帧预测策略预测得到的规律动态物体的运动轨迹

其中，

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，通过自动识别场景中动态物体的语义并按照运动状态对动态物体进行分类，然后，采用自适应预测策略，利用改进的基于最小二乘法的灰色预测模型自适应地对不同运动状态的动态物体的运动轨迹进行准确预测，从而提高轨迹预测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语义的动态物体自适应轨迹预测方法的流程示意图；

图2为本发明实施例提供的MaskFusion跟踪模型和掩膜-卷积神经网络(Mask R-CNN)语义分割模型的工作流程图；

图3为本发明实施例提供的语义分析示意图；

图4为本发明实施例提供的自适应预测策略的工作流程示意图；

图5为本发明实施例提供的改进的灰色预测模型GM(1,1)的工作流程示意图；

图6为本发明实施例提供的在第一个场景中对规律运动物体的跟踪结果示意图；

图7为本发明实施例提供的在第一个场景中对规律运动物体的预测结果示意图；

图8为本发明实施例提供的在第二个场景中对随机运动物体的跟踪结果示意图；

图9为本发明实施例提供的在第二个场景中对随机运动物体的预测结果示意图；

图10为本发明实施例提供的在第三个场景中对多个运动物体的跟踪结果示意图；

图11为本发明实施例提供的在第三个场景中对多个运动物体的预测结果示意图；

图12为本发明实施例提供的在三个场景中预测时间的对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于语义的动态物体自适应轨迹预测方法，该方法包括：

S101，实时获取场景信息；

S102，根据获取的场景信息，利用语义对场景中的动态物体进行识别和跟踪，为动态物体分配语义标签；

S103，基于动态物体的语义标签，按照运动状态对动态物体进行分类；

S104，采用自适应预测策略，利用基于最小二乘法的灰色预测模型对不同类别的动态物体的运动轨迹进行相对应的预测。

本发明实施例所述的基于语义的动态物体自适应轨迹预测方法，通过自动识别场景中动态物体的语义并按照运动状态对动态物体进行分类，然后，采用自适应预测策略，利用改进的基于最小二乘法的灰色预测模型自适应地对不同运动状态的动态物体的运动轨迹进行准确预测，从而提高轨迹预测精度。

本实施例中，为了实现本实施例所述的基于语义的动态物体自适应轨迹预测方法，还需对应的自适应轨迹预测系统，该系统包括：深度相机和服务器/电脑/笔记本等电子设备；其中，S101可以利用深度相机Kinect2实时获取场景信息，其中，获取帧率为30帧/秒；S102-S104可以通过服务器/电脑/笔记本等电子设备实现。

本实施例中，根据获取的场景信息，利用语义对场景中的动态物体进行识别和跟踪，为动态物体分配语义标签(S102)，具体可以包括以下步骤：

根据获取的场景信息，通过掩膜融合(MaskFusion)跟踪模型和掩膜-卷积神经网络(Mask R-CNN)语义分割模型对场景中动态物体进行识别和跟踪，并实时记录动态物体的运动轨迹，如图2所示，首先通过MaskFusion跟踪模型对深度相机捕获到的场景信息进行检测，判断场景中存在的物体是否是动态，若确定为动态物体，则对其进行跟踪，并利用掩膜-卷积神经网络(Mask R-CNN)语义分割模型进行几何分割和语义分割从而确定该动态物体轮廓，随后将分割结果传入语义数据库中进行语义匹配，并为其贴上语义标签，即为动态物体分配语义标签，该Mask R-CNN语义分割模型会为不同语义的物体渲染不同的颜色以作区分。

本实施例中，Mask R-CNN语义分割模型的识别阈值设置为0.35，即识别到的物体与语义数据库中的物体相似度得分大于0.35，则将认定为同一种物体。

本实施例中，语义数据库可以采用MS-COCO，该数据库包含了生活中常见的80种可移动物体，例如人，小车，球类等。

在前述基于语义的动态物体自适应轨迹预测方法的具体实施方式中，进一步地，所述基于动态物体的语义标签，按照运动状态对动态物体进行分类(S103)包括：

通过动态物体的语义标签对动态物体进行语义分析，按照运动状态将动态物体分为随机运动物体和规律运动物体。

本实施例中，具有主观意识的物体，其运动视为随机运动；只能被动运动的物体，其运动视为规律运动。例如，行人，动物等具有主观意识的运动，其运动视为随机运动；而玩具小车、球类等被动运动物体，其运动视为规律运动，如图3所示。

本实施例中，如图4所示，针对两种不同运动状态的动态物体，根据动态物体的运动状态自动选择相对应的预测策略，其中，

对于规律运动物体，采取周期性采样和多帧预测，其中，周期性采样过程表示为：

其中，

对于随机运动物体，采取逐帧采样和逐帧预测，其中，逐帧采样过程表示为：

其中，

在前述基于语义的动态物体自适应轨迹预测方法的具体实施方式中，进一步地，所述采用自适应预测策略，利用基于最小二乘法的灰色预测模型对不同类别的动态物体的运动轨迹进行相对应的预测(S104)包括：

B1，对随机动态物体的运动轨迹进行逐帧采样；

B2，对采样得到的轨迹数据进行动态筛选，保留与当前时刻最近的的轨迹数据，作为生成的动态原始序列x

本实施例中，对运动轨迹进行采样后生成动态原始序列x

本实施例中，对采样到的轨迹数据进行动态筛选的过程如下：

其中，l代表动态原始序列的长度，m代表新增的轨迹数据个数。最新的轨迹数据x

B3，如图5所示，在预测阶段，将生成的动态原始序列x

本实施例中，为x

其中，

生成的累加序列

其中，

B4，将动态原始序列

其中，x

B5，将该灰色预测模型进行白化，生成的白化函数为：

其中，

B6，通过线性回归对参数a和b进行估计，得到：

[a,b]

其中，B、Y都表示简写形式；

B7，结合邻近生成序列及估计值a和b，通过灰色预测模型解出第k时刻的累加序列

B8，通过灰色预测模型解出第k+1时刻的累加序列

B9，通过对解出的累加序列

其中，

因此，随机动态物体的运动轨迹预测结果可用

同理，规律运动物体的运动轨迹预测结果可表示为：

其中，

本实施例中，根据N取值的不同，可以一次性实现多帧预测，例如，当N依次取6、7、8、9、10时，通过

本实施例中，通过自适应预测策略为不同运动状态物体选择合适的预测策略，具体的：为规律运动物体自适应的选择多帧预测，一次性预测多帧的轨迹；为随机运动物体选择逐帧预测，即对每一帧都需要重新构造原始序列、灰色预测模型以进行预测。

接着，通过实验对本实施例提供的基于语义的动态物体自适应轨迹预测方法的有效性进行验证，其中，所有实验均在装备有NVIDIA 2080Ti的服务器上进行测试。

本实施例中，选用平均相对误差百分比(ARPE)和后验差作为评估指标。ARPE用于验证轨迹预测的精度，后验差用于验证预测序列与真实序列的拟合性。

ARPE的计算方式如下：

其中，τ代表轨迹的预测次数，Δ

表1是不同ARPE值对应的预测能力标准。

表1不同ARPE值对应的预测能力标准

后验差的计算方式如下：

C＝S

其中，S

表2是不同后验差值对应的预测能力标准。

表2不同后验差值对应的预测能力标准

实验结果：本实施例采取了三个场景进行实验。

场景一，选取VOT-RGBD 2019开源数据集中的机器小车作为动态物体进行跟踪预测实验，该小车在室内按照一定规律进行运动。本实施例利用MaskFusion跟踪模型成功跟踪了330帧轨迹数据。跟踪结果如图6所示，第一行图像包括跟踪的第一帧和最后一帧的RGB输入，第二行包括其深度图，第三行包括了跟踪结果。

本实施例将机器小车归类为规律运动物体，总共对33帧小车的原始轨迹数据进行了采样，并将其用作预测阶段的原始序列。预测结果如图7所示。根据图7可知，本实施例提供的方法及系统预测的轨迹更接近小车的真实轨迹。特别是当该小车的轨迹具有明显拐点时(如图7中的矩形框所示)，传统GM(1,1)的预测性能开始急剧下降。

表3为该场景两种预测方法ARPE对比。

表3 ARPE(％)对比

可以看出，与传统的GM(1,1)相比，本实施例提供的方法及系统具有更高的预测精度，且在x方向上的预测误差降低了50％以上。

表4为该场景两种预测方法后验差对比

表4后验差对比

可以看出，与传统GM(1,1)相比，本实施例提供的方法及系统在x方向和y方向上的拟合得到了改善。特别是在y方向，拟合性比传统方法提高了50％。

通过该场景的实验，证明了该实施例提供的方法对规律运动物体的预测精度高于传统GM(1,1)。

场景二，选取Princeton tracking benchmark开源数据集中随机行走的行人作为动态物体进行跟踪预测实验。本实施例成功跟踪了210帧。跟踪结果如图8所示。第一行图像包含通过MaskFusion跟踪到的RGB输入的第一帧，第100帧和最后一帧。第二行包含其深度图；第三行包含该行人的跟踪结果。如图所示，该行人在前100帧中相对于摄像机向右移动，并逐渐远离摄像机。100帧后，行人的移动方向发生了变化：开始向左移动，逐渐靠近摄像机，然后远离摄像机。

本实施例将行人归类为规律运动物体，跟踪了210帧原始轨迹数据作为原始序列并进行了预测。预测结果如图9所示。如图9所示，该实施例提供的方法的预测轨迹与该行人的真实轨迹更加贴合。从行人的原始轨迹可以看出，行人在x方向上的运动状态突然变化(突然反转)，而在y方向上的速度也产生了突变(突然的加速度)，这些突变如图中矩形框所示。在轨迹突然变化之后，传统GM(1,1)的预测结果与实际轨迹有很大的偏差。因此，对于随机运动的行人，传统的GM(1,1)无法获得令人满意的预测效果。相比之下，本实施例提供的方法及系统可以随时间的变化感应并预测行人的方向和速度，因此实现了更准确的预测。

表5为该场景两种预测方法ARPE对比。

表5 ARPE(％)对比

可以看出，在x方向上，由于行人运动方向的突然变化，传统GM(1,1)的预测误差超过了最大允许范围。相反，在方向突然改变的情况下，该实施例提供的方法仍具有良好的预测精度。

表6为该场景两种预测方法后验差对比

表6后验差对比

可以看出，传统的GM(1,1)无法感知行人在y方向上的速度突然增加，因此预测的轨迹与实际轨迹有很大的偏差。与此相比，当行人的速度突然变化时，本实施例提供的方法及系统仍显示出很高的拟合度。

通过该场景的实验，对规律运动物体，当运动方向或速度突然变化时，传统的GM(1,1)无法获得令人满意的随机运动物体的预测结果。该实施例提供的方法表现出更好，更稳定的预测性能。

场景三，利用kinect2深度相机实时获取现实场景中多个动态物体的运动轨迹。该场景包含规律运动的小车及随机运动的行人。通过跟踪，本实施例获得了行人和机器小车的500帧轨迹数据，如图10所示。第一行图像包含了由相机拍摄到的第一帧，第200帧，第400帧和最后一帧的RGB输入；第二行包含了他们的深度图；第三行包含了跟踪结果。从图中可以看出，机器小车一直沿着相同方向移动，并在400帧后停止。行人在前200帧中相对于摄像机向左移动，在200帧后改变方向，然后在不断变化方向的同时接近摄像机。

对于该小车，本实施例总共采样了50帧轨迹数据；对于行人，本实施例将500帧轨迹数据都作为原始序列。预测结果如图11所示。从图11中可以看出，对于小车来说，传统GM(1,1)和本实施例提供的方法及系统预测的轨迹基本贴真实轨迹。但是，在小车停止移动后，传统的GM(1,1)无法正确处理轨迹，从而导致x方向的预测偏差较大。与此相比，本实施例提供的方法及系统可以感知运动物体的停止并做出更合理的预测。对于行人来说，由于行人的方向在200帧后不断变化，因此传统GM(1,1)的预测结果与实际轨迹之间的偏差越来越大。这表明传统的GM(1,1)不能在方向连续变化的情况下准确预测轨迹。相反，本实施例提供的方法及系统的预测结果与实际轨迹高度一致，表明DGM(1,1)在方向连续变化的情况下依然可以实现更准确的预测。

表7为该场景两种预测方法ARPE对比。

表7 ARPE(％)对比

可以看出，传统的GM(1,1)无法感知小车的停止，因此，在x方向上产生了不合格的预测结果。对于行人，当运动方向连续变化时，传统GM(1,1)的预测极不准确。相反，本实施例提供的方法及系统对两个物体均保持了稳定且良好的预测。

表8为该场景两种预测方法后验差对比。

表8后验差对比

可以看出，本实施例提供的方法及系统对两个物体的预测准确度均达到1级，而传统GM(1,1)在行人的x方向仅达到3级预测水平。另外，从表8中拟合性提升率可以看出，本实施例提供的方法及系统在预测随机运动物体的轨迹上具有更突出的性能优势。

通过以上三个场景的实验结果和评估，很明显，对于规律运动和随机运动，本实施例提供的方法及系统的预测精度均高于传统GM(1,1)。此外，由于本实施例提供的方法及系统可以感知物体运动方向和速度的变化，因此本实施例提供的方法及系统的性能优势对于随机运动轨迹更为突出。

本实施例对三个场景的预测运行时间进行了实验对比，如图12所示。由于三个场景帧率均为30帧/秒，为了实现实时性能，每帧的运行时间不应超过0.33秒。该图表明，在预测这四个轨迹时，传统的GM(1,1)和本实施例提出的方法都可以实现实时性能。相比而言，本实施例提供的方法及系统比传统GM(1,1)节省了约25％的运行时间，因此具有较高的预测效率。

本发明实施例与现有技术相比，具有以下特点及有益效果：

(1)稳定性：当场景中动态物体运动时间增加，现有技术的预测效率会大幅下降，而本实施例采取动态序列对原始轨迹数据进行筛选，解决了预测过程中由于计算量不断增大而预测效率不稳定的问题。

(2)高预测精度：由于随机运动物体的运动状态时刻发生变化，现有技术无法按照特定规律对其进行预测，本实施例利用语义对随机运动物体进行识别并按照运动状态对动态物体进行分类，然后，采用自适应预测策略，利用改进的基于最小二乘法的灰色预测模型自适应地对不同运动状态的动态物体的运动轨迹进行准确预测，能够最大程度降低预测误差，提高轨迹预测精度。

(3)可感知性：由于本实施例提出的动态序列通过优胜劣汰准则自动保留原始轨迹数据中最有价值的当前时刻附近的轨迹数据，摒弃早期无用的轨迹数据，因此可及时感知到运动物体速度，方向的改变，从而自适应地调整灰色预测模型，对轨迹作出最佳预测，从而提高了轨迹预测的准确度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：米振强;张靖;郭宇;
专利申请人：北京科技大学;

上一篇：一种环路带宽动态调整的过采样时钟数据恢复方法及系统
下一篇：基于滑模控制的矩阵变换器输出侧电流跟踪方法及系统