一种基于注意力机制的行人轨迹预测方法
文献发布时间:2023-06-19 11:57:35
技术领域
本发明涉及计算机视觉技术和自动驾驶领域,是一种基于注意力机制的行人轨迹预测方法。
背景技术
行人轨迹预测问题是计算机视觉应用中重要的研究方向之一,研究成果可以广泛应用于行人规避、自动导航、街道规划、自动驾驶等领域。轨迹预测问题可以看成是一种序列问题,即根据场景中行人的历史轨迹预测行人的未来轨迹。因为行人运动灵活多变,并且行人之间的交互运动复杂又抽象,所以行人轨迹预测的主要挑战就是如何准确找到行人的运动规律并对行人之间的交互运动建模。
在行人轨迹预测中,大多先进的方法都从两个方面提高预测方法的性能。一种从模拟行人运动规律的角度出发,学习行人的行走规律。另一种是从行人社会交互的角度出发,对场景中所有行人的运动建模。
现有的技术缺陷:目前的方法忽略了行人意图对运动的影响,导致不能正确地模拟行人的运动状态;目前的编码模块局限于使用循环神经网络,来编码当前时刻的行人的位置信息。但循环神经网络包含大量的重复计算导致模型运行时间长的问题,并且循环神经网络存在梯度消失和梯度爆炸等问题。因此,设计一种充分考虑行人意图的简单有效的行人轨迹预测模型是很有必要的。
发明内容
鉴于上述现有技术中的不足之处,本发明提供一种基于注意力机制的行人轨迹预测方法。该方法所采用的技术方案是通过引入注意力机制和改进行人交互运动模块,来使得模型更准确地预测行人的未来轨迹。
首先在个体注意力编码模块中,首次利用注意力机制提取行人的历史轨迹中的运动意图特征。其次,对社会注意力池化模块进行改进,利用注意力机制计算场景中周围行人对目标行人的影响权重得到社会注意力特征矩阵。然后,对社会注意力特征矩阵输入到多层感知机和池化门控循环单元提取时间相关性,得到综合运动特征矩阵。最后在门控循环单元解码模块中,输入综合运动特征矩阵,采用速度更快的门控循环单元解码能够快速得到预测的行人未来轨迹。
具体方案如下:
所述的行人轨迹预测方法包括三个模块,个体注意力编码模块、社会注意力池化模块和门控循环单元解码模块,其中,
所述个体注意力编码模块,用于计算行人自身历史轨迹中隐藏向量的相似性,并输出个体注意力特征矩阵,以获取行人自身在运动过程中的主要影响因素;
所述社会注意力池化模块,用于接收个体注意力编码模块的计算结果,即个体注意力特征矩阵,计算场景中所有行人的历史轨迹中隐藏向量的相似性,并输出综合运动特征矩阵,以获取在运动过程中行人之间的相互影响关系;
所述门控循环单元解码模块,用于接收社会注意力池化模块的计算结果,即综合运动特征矩阵,利用门控循环单元计算并输出行人的未来轨迹坐标;
所述行人轨迹预测方法的整体步骤包括:
(1)获取一段视频,以相同间隔将视频划分为若干帧,每T帧为一组,获取每组中每个行人的轨迹坐标X={(x
(2)将一组中每个行人的轨迹坐标输入到个体注意力编码模块中,利用注意力机制计算得到每个行人的个体注意力特征矩阵,以下称该模块中的注意力机制为个体注意力机制;
(3)输入个体注意力特征矩阵到社会注意力池化模块,利用注意力机制计算行人之间的相互影响,得到综合运动特征矩阵,以下称该模块中的注意力机制为社会注意力机制;
(4)输入综合运动特征矩阵到门控循环单元解码模块,通过门控循环单元计算得到未来n帧的行人轨迹坐标;
(5)重复(2)-(4)的步骤,不断输入一组历史轨迹生成一组未来轨迹。
有益结果
(1)本发明设计的个体注意力机制替代了传统的LSTM编码器。个体注意力编码模块不仅能够实现数据的并行计算,大大缩短模型预测时间。而且能够有效捕获历史轨迹中长距离依赖特征,以捕捉行人动态运动意图,避免了循环神经网络梯度消失的问题;
(2)设计的社会注意力池化模块结构简单,该模块仅由社会注意力机制、多层感知机和门控循环单元构成,但能够有效捕获行人之间的影响权重。社会注意力池化模块中的门控循环单元捕捉行人之间相互影响的时间相关性,充分利用了行人的历史轨迹信息;
(3)门控循环单元解码模块基于门控循环单元。门控循环单元具有结构简单、运算速度快的特点,在预测过程中使模型满足实时性的要求。
附图说明
图1是本发明提供的一种基于注意力机制的行人轨迹预测方法的结构示意图;
图2是本发明提供的个体注意力编码模块的结构示意图;
图3是本发明提供的社会注意力池化模块的结构示意图
具体实施方式
参照图1,一种基于注意力的行人轨迹预测方法,所述方法共包括三个模块,个体注意力编码模块、社会注意力池化模块和门控循环单元解码模块。所述方法共在个体注意力编码模块和社会注意力池化模块两处使用注意力机制,分别将注意力机制称为个体注意力机制和社会注意力机制。同时,所述方法在社会注意力池化模块和门控循环单元解码模块共两处使用门控循环单元,分别将门控循环单元称为池化门控循环单元和解码门控循环单元。
预测过程主要包括以下步骤:
1、获取一段视频,以0.4s的间隔将视频划分为若干帧,每8帧的轨迹坐标为一组,并获取每帧中每个行人的轨迹坐标X={(x
2、将每帧中每个行人的轨迹坐标X={(x
2.1)在时间维度上,计算每个行人在每一帧的绝对坐标减去上一帧的绝对坐标,共得到每个行人共8帧的相对位置坐标
2.2)将每个行人共8帧的相对位置坐标
2.3)以图1为例,展示了以8帧为一组,共三个行人(假设场景中所有行人的个数N=3),
2.4)以图2为例,将一号行人的嵌入特征矩阵E
2.5)最后计算得到一号行人的个体注意力特征矩阵
3、以图3为例,将当前得到的N个行人的个体注意力特征矩阵Tim
3.1)首先,将个体注意力特征矩阵Tim
3.2)将第一帧即t=1所有行人的个体注意力特征向量
3.2)计算第一帧每个行人相对于其他行人(包括该行人本身)的相对位置坐标得到
3.3)将相对位置坐标
3.4)将嵌入特征矩阵
3.5)将嵌入特征矩阵
3.6)将查询矩阵Q
3.7)输入社会注意力特征矩阵ST
3.8)将下一帧即t=2所有行人的个体注意力特征向量
3.9)最后,将t=1每个行人的池化向量
3.10)预测下一帧时,将当前帧每个行人的池化向量
其中,P_GRU表示池化门控循环单元,W
4、参考图1,将当前得到的第8帧的每个行人的综合运动特征向量
4.1)将第8帧的每个行人的综合运动特征向量
4.2)预测第9帧时,将每个行人的初始隐藏状态
4.3)预测下一帧时,将每个行人上一帧的嵌入特征向量
D_GRU表示解码门控循环单元,W
4.4)将得到每个行人的未来8帧的
4.5)最后,将每个行人第8帧的绝对位置坐标加上预测得到的第9帧的相对位移即可得到第9帧的绝对位置坐标,以此类推,即可得到所有行人在预测阶段的绝对位置坐标。
本发明提出的基于注意力的行人轨迹预测方法和其他方法在ETH和UCY数据集上的预测准确率如表1所示,预测速度如表2所示。ADE表平均距离误差,FDE代表最终距离误差,平均距离误差的值越小性能越好,最终距离误差的值越小性能越好。如表1所示,可以看到本方法在平均精度上明显优于其他方法。如表2所示,LSTM网络虽然速度最快,但是LSTM网络的精度远远不如本方法。综上所述,本方法在精度上和速度上都取得了很好的效果。
表1、各种轨迹预测方法预测误差对比
表2、各轨迹预测模型速度对比
本发明提供了一种基于注意力行人轨迹预测方法。通过个体注意力与社会注意力结合实现了将行人意图与社会交互相结合,从而有效模拟场景中所有行人的动态运动;使用注意力机制代替循环神经网络可以实现数据的并行计算,缩短预测时间。同时本方法能够有效捕获历史轨迹中长距离依赖特征,避免了循环神经网络梯度消失的问题;本方法基于门控循环单元,结构简单、运算速度快,在预测过程中可以满足实时性的要求。利用本方法提供的行人轨迹预测方法进行轨迹预测,可以获得准确快速的预测结果。
- 一种基于注意力机制的图神经网络行人轨迹预测方法
- 一种基于多特征提取和多注意力机制的行人轨迹预测方法