一种基于端到端特征优化模型的无人系统视觉自定位方法

文献发布时间：2023-06-19 18:25:54

技术领域

本发明属于移动机器人领域，涉及一种基于端到端特征优化模型的无人系统视觉自定位方法。

背景技术

自定位是SLAM、自主导航和增强现实等领域的重要技术基础，指自主无人系统在具有先验环境信息的地图中，根据自身装载传感器的信息计算其在地图中六自由度(6-DoF)位姿的过程。为保证移动机器人长时间的精准定位，当累积误差严重、位姿跟踪失败、“被绑架”、断电重启等情况下必须进行自定位，位姿信息对于各种智能无人系统实现其他高级任务也至关重要。自主无人系统一般可以利用GPS、北斗为代表的卫星定位系统在室外环境中实现便捷高效的自定位，但受限于卫星信号的穿透性和定位精度，在室内环境、建筑密集的街区、山地/森林公园、特种涉密场合等GPS受限的场景，自主无人系统需要利用相机或激光雷达等传感器来获取环境信息，其中视觉传感器由于成本低、体型小、适用场合多被广泛应用于自定位任务。但是在复杂动态环境中，长时间视觉自定位主要面临如下困难：1)复杂环境中自然条件变化或者人为因素影响，使得自主无人系统当前所处的环境模型与先前构建的地图不一致或者矛盾，致使观测信息与先验地图无法匹配从而定位失败；2)环境中存在高度重复结构或者纹理稀疏场景，导致自主无人系统产生感知混淆或者难以捕捉有效视觉特征；3)实际环境中存在大量人、车等动态目标，其出现的时间与数量等都具有很大的不确定性，会给定位带来很大干扰。

根据位姿估计方法的不同，视觉自定位主要分为三类方法：基于图像检索的方法、基于几何结构的间接估计方法、基于端到端模型的直接估计方法。基于图像检索的方法通常由一组具有位姿标签的离散场景图像组成的地图数据库，然后在数据库中找到与查询图像最相似图像，并将其对应的位姿近似看作查询图像的位姿，这种近似估计的方法属于粗糙定位，更适用于大规模场景或者对位姿精度没有过高要求的任务，如位置识别。基于几何结构的间接估计方法通常使用构建三维点云地图表示环境模型，在相机图像和三维环境模型之间建立对应的坐标点对，并使用几何优化的方法计算相机位姿。但是长时间动态环境中通常存在自然条件变化、人为因素改变、动态目标干扰等消极影响，容易导致错误的对应关系从而产生糟糕的定位结果，另外，大规模场景中由于地图模型大、计算量高，也会对定位实时性造成很大挑战。随着深度学习在计算机视觉相关领域的快速发展与显著表现，基于端到端模型的直接估计方法也受到广泛关注和研究。这种方法利用深度神经网络构造端到端的位姿回归模型，即输入待查询图像，可以直接输出6-DoF位姿。PoseNet是最具代表性的一种模型，其主要是由提取特征的视觉编码器和预测位姿的回归器组成，其中视觉编码器采用卷积神经网络实现，并以端到端的方式进行训练，用训练好的网络参数隐式的表达场景模型，不需要专门构建显式地图。这种突破性的网络模型简单而有效，可以占用较小的空间来存储网络模型的权重，且模型大小不因场景规模的增大而急剧增长。但是面临复杂动态环境，也存在精度下降和鲁棒性不足的难题。一些研究者通过引入额外传感器信息、使用连续图像序列、联合其他任务共同学习等方式处理这一难题，然而也面临使用成本高、精度与效率难以平衡的问题。

综上所述，如何面向复杂动态场景构造可学习的端到端网络模型，使之更加关注对预测位姿有帮助的场景几何信息与静态有效特征，鲁棒性高且高效的实现基于单帧图像的全局位姿估计，是目前亟需解决的技术难题。

因此，有必要设计一种新的无人系统视觉自定位方法。

发明内容

本发明所要解决的技术问题是提供一种基于端到端特征优化模型的无人系统视觉自定位方法，该基于端到端特征优化模型的无人系统视觉自定位方法具有精度高、实时性好、鲁棒性强、存储空间占用小、适用于室内外多种场景等优点。

发明的技术解决方案如下：

一种基于端到端特征优化模型的无人系统视觉自定位方法，包括以下步骤：

步骤一、构造模型

构造端到端预测全局位姿的深度神经网络模型，即Re-PoseNet网络，或称Re-PoseNet模型；

步骤二、模型训练

针对某一特定场景，对Re-PoseNet模型进行训练；

步骤三、模型应用

将在所述的特定场景处采集的图像输入到Re-PoseNet模型中，返回端到端的位姿估计结果。

Re-PoseNet模型包括特征提取器、特征优化模块和位姿回归器，特征提取器是基于残差网络ResNet34的特征提取器，特征优化模块由两个交叉注意力模块和四方向的长短期记忆模块组成，位姿回归器由全连接层构成。

步骤二中的训练所用到的训练集的获取方式为：

使用装载视觉传感器的移动机器人随机遍历某一场景，采集一组图像及其全局位姿作为训练数据集T，用于构建该场景的隐式地图模型，其中每帧图像对应的全局位姿作为后续网络训练的真值标签，记为

训练过程为：

步骤(1)：对训练数据集T中的所有图像I

步骤(2)：将一组训练图像及其位姿标签按照批量大小batch_size＝64输入Re-PoseNet，通过位姿回归器得到预测位姿[p，q]，同时构建联合损失函数

步骤(3)：设置超参数初始学习率为5×10

步骤三中，移动机器人在该场景内以任意运动状态进行作业，对其在任意时刻采集的位姿未知的图像I

通过特征提取器得到查询图像

构建端到端预测全局位姿的深度神经网络(Re-PoseNet)的具体过程如下：

步骤1.1：设计Re-PoseNet的特征提取器的具体结构如表1所示，共有33个卷积层和一个最大池化层；以卷积层1为例，其参数信息包括：卷积核大小为7×7、通道数为64、步长为2；残差层由多个残差单元组成，每个残差单元包含两个卷积核为3×3、步长为1的卷积层；对于输入特征提取器的任意图像I，都可以得到其对应的特征图

表1Re-PoseNet特征提取器的网络结构

步骤1.2：利用2个卷积核为1×1、通道为64、步长为1的卷积层对原始特征图F进行卷积操作，分别生成与其空间大小相同但数量不同的特征图

步骤1.3：对于特征图F空间维度中的任意位置u，通过计算该位置特征与之同行和同列的其他特征之间的关联度，来捕捉位置u特征在全局范围内的上下文信息：

其中，

步骤1.4：遍历所有i，重复步骤1.3计算X

步骤1.5：遍历特征图F空间中的所有位置u，重复步骤1.3和1.4，可以得到

步骤1.6：将注意力图A与特征图Z进行聚合操作，并通过残差连接将聚合结果与原始特征图F进行相加，以实现特征适应，调整网络对不同特征信息的关注度同时过滤冗余信息，得到新特征图

其中，A

步骤1.7：对特征图F′重复步骤1.2至步骤1.6，进一步捕捉稠密的上下文信息，重新调整特征权重，以得到新特征图

步骤1.8：利用平均池化层聚集特征图F″在每个通道上的信息，得到维度为512×1×1的特征，并通过一个神经元数量为2048的全连接层输出特征向量

步骤1.9：将特征向量V′形状重构为32×64的矩阵，然后用四个神经元数量为256的长短期记忆单元分别按照上、下、左、右四个方法进行处理，再将四个输出向量拼接成一个维度为1024的特征向量V；

步骤1.10：位姿回归器由两个全连接层组成，分别包含3个和4个神经元，将特征向量V分别输入这两个全连接层，可以输出预测的位置信息

采用另一种方式表述本发明的具体步骤如下：

一种基于端到端特征优化模型的无人系统视觉自定位方法，包括以下步骤：

步骤1：使用装载视觉传感器的移动机器人(自主无人系统)随机遍历某一场景，采集一组图像及其全局位姿作为训练数据集T，用于构建该场景的隐式地图模型，其中每帧图像对应的全局位姿作为后续网络训练的真值标签，记为

步骤2：构建一个可训练的端到端预测全局位姿的深度神经网络(Re-PoseNet)，该网络主要由特征提取器、特征优化模块和位姿回归器三部分组成；

其中，特征提取器是基于残差网络ResNet34修改的，特征优化模块由两个交叉注意力模块和四方向的长短期记忆模块组成，位姿回归器由全连接层构成；

步骤3：使用ResNet34网络公开的预训练模型初始化Re-PoseNet网络中特征编码器的参数，同时随机初始化其他网络参数；

步骤4：对训练数据集T中的所有图像I

步骤5：将一组训练图像及其位姿标签按照批量大小batch_size＝64输入Re-PoseNet，通过位姿回归器得到预测位姿[p，q]，同时构建联合损失函数

步骤6：设置超参数初始学习率为5×10

步骤7：移动机器人在该场景内以任意运动状态进行作业，对其在任意时刻采集的位姿未知的图像I

步骤8：通过特征提取器得到查询图像

所述步骤2中构建端到端预测全局位姿的深度神经网络(Re-PoseNet)的具体过程如下：

步骤2.1：对经典卷积神经网络ResNet34进行修改，保留其主要卷积层作为Re-PoseNet的特征提取器，其具体结构如表1所示，共有33个卷积层和一个最大池化层。以卷积层1为例，其重要参数信息包括：卷积核大小为7×7、通道数为64、步长为2。残差层由多个残差单元组成，每个残差单元包含两个卷积核为3×3、步长为1的卷积层，不同残差单元的卷积层通道数有所调整。对于输入特征提取器的任意图像I，都可以得到其对应的特征图

表1Re-PoseNet特征提取器的网络结构

步骤2.2：利用2个卷积核为1×1、通道为64、步长为1的卷积层对原始特征图F进行卷积操作，分别生成与其空间大小相同但数量不同的特征图

步骤2.3：对于特征图F空间维度中的任意位置u，通过计算该位置特征与之同行和同列的其他特征之间的关联度，来捕捉位置u特征在全局范围内的上下文信息：

其中，

步骤2.4：遍历所有i，重复步骤2.3计算X

步骤2.5：遍历特征图F空间中的所有位置u，重复步骤2.3和2.4，可以得到

步骤2.6：将注意力图A与特征图Z进行聚合操作，并通过残差连接将聚合结果与原始特征图F进行相加，以实现特征适应，调整网络对不同特征信息的关注度同时过滤冗余信息，得到新特征图

其中，A

步骤2.7：对特征图F′重复步骤2.2至步骤2.6，进一步捕捉稠密的上下文信息，重新调整特征权重，以得到新特征图

步骤2.8：利用平均池化层聚集特征图F″在每个通道上的信息，得到维度为512×1×1的特征，并通过一个神经元数量为2048的全连接层输出特征向量

步骤2.9：将特征向量V′形状重构为32×64的矩阵，然后用四个神经元数量为256的长短期记忆单元分别按照上、下、左、右四个方法进行处理，再将四个输出向量拼接成一个维度为1024的特征向量V；

步骤2.10：位姿回归器由两个全连接层组成，分别包含3个和4个神经元，将特征向量V分别输入这两个全连接层，可以输出预测的位置信息

所述步骤4中对训练数据集T中的所有图像I

步骤4.1：将所有图像缩放为较短一边为256像素的图像，再以随机裁剪的方式得到分辨率为256×256的图像；

步骤4.2：对每张图像进行归一化操作，使其像素强度介于-1和1之间：

其中，μ

所述步骤5中构建损失函数

步骤5.1：利用1-范数计算位置的预测值与真值之间的损失，即

步骤5.2：通过θ＝logq将四元数表示的旋转信息约束在半球空间内，保证数值的唯一性，利用1-范数计算旋转的预测值与真值之间的损失，即

步骤5.3：构建联合损失函数同时对两种损失进行训练：

其中，α和γ是可以学习的超参数，作为一种同方差不确定性反映多任务联合训练时不同任务间的相对难度，即用来平衡由于单位和数值存在明显差异的位置与旋转信息，在训练时设置初始值α

所述步骤7中对查询图像I

步骤7.1：将图像缩放为较短一边为256像素的图像，再以中心裁剪的方式得到分辨率为256×256的图像；

步骤7.2：与归一化测试图像方法相同，使测试图像的像素强度介于-1和1之间：

有益效果：

本发明的基于端到端特征优化模型的无人系统视觉自定位方法，利用深度学习技术构造一个可以端到端训练的位姿回归模型，采用本发明提出的特征优化模块帮助网络重点学习对位姿估计有利的场景信息与静态特征，并引入协同不确定性进行联合训练提升网络模型性能。本发明可以实现长时间动态环境下基于单帧图像的实时自定位，具有精度高、鲁棒性强、存储空间占用小、适用于室内外多种场景等优点。

与现有基于端到端模型的单目自定位方法相比，本发明的先进性表现在：

1.本发明采用基于残差单元的卷积神经网络ResNet作为Re-PoseNet的特征提取器，通过残差连接在反向传播时保留部分损失函数，使得网络深度增加的同时避免退化问题，与经典方法PoseNet使用的卷积神经网络GoogleNet相比性能更好；

2.本发明提出一种融合注意力机制与长短期记忆网络的特征优化模块，对特征提取器学习得到的原始特征进行权重再分配以及重构降维。首先通过两个交叉注意力模块捕捉稠密的全局上下文信息，促使网络更加关注静态特征、过滤冗余特征；然后通过四方向的长短期记忆模块对特征进行重构，保留更多对位姿估计有利的信息，同时降低特征维度减少计算量。与经典方法PoseNet直接使用原始特征进行位姿估计相比，本发明通过特征优化显著提升了特征的代表性与鲁棒性，使得算法在复杂动态场景中的精确度与稳定性远高于PoseNet；

3.本发明提出基于同方差不确定性的联合损失函数训练策略，对位姿回归器输出的位置预测值和方向预测值进行联合学习，反映不同任务不确定性的两个平衡因子可以在训练中自动找到最优值，经典方法PoseNet中使用的单个平衡因子需要手动调参且对不同场景类型比较敏感，因此本发明的训练策略具有人工成本低、训练效率高、模型参数性能更好的优点，也广泛适用于室内外各种场景。

附图说明

图1为本发明整体流程图；

图2为本发明提出的网络模型Re-PoseNet的具体网络架构；

图3为本发明提出的网络模型Re-PoseNet在室外数据集Oxford RobotCar上的消融实验结果图(其中黑色线表示真实运动轨迹，灰色点表示使用不同定位方法计算得到的位置结果，a列定位方法使用的网络模型以修改后的ResNet34为骨干，不添加其他功能模块，b列使用的网络模型在a基础上增加注意力模块，c列使用的网络模型在a基础上同时增加注意力模块和长短期记忆模块，即本发明提出的Re-PoseNet)；

图4为本发明提出的网络模型Re-PoseNet和经典方法PoseNet提取图像特征的可视化显著图(其中a列为原图，b列为采用PoseNet的处理效果图，c列为采用Re-PoseNet的处理效果图)。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

本发明涉及的无人系统视觉自定位方法是基于单帧图像的，本发明使用的图像均为普通相机采集的RGB图像。训练数据集T中包含的图像是由装载RGB相机的移动机器人在特定场景内，以任意运动状态和轨迹遍历该场景采集的，利用成熟的视觉里程计或者运动恢复算法可以制作每张图像对应的全局位姿标签。网络模型Re-PoseNet基于训练数据集T学习得到隐式的场景地图模型，之后移动机器人在该场景中以任意运动状态进行作业，可以对任意时刻采集的图像进行全局位姿的查询。以此为应用实例，本发明给出基于不同室内外场景的应用效果。

如图1所示，为本发明的流程图，一种基于端到端特征优化模型的无人系统视觉自定位方法，包括以下步骤：

步骤1：使用装载RGB相机的移动机器人随机遍历某一场景，采集一组图像及其全局位姿作为训练数据集T，用于构建该场景的隐式地图模型，其中每帧图像对应的全局位姿作为后续网络训练的真值标签，记为

步骤2：构建一个可训练的端到端预测全局位姿的深度神经网络(Re-PoseNet)，该网络主要由特征提取器、特征优化模块和位姿回归器三部分组成，其网络架构如图2所示；

所述特征提取器是基于残差网络ResNet34修改的，特征优化模块由两个交叉注意力模块和四方向的长短期记忆模块组成，位姿回归器由全连接层构成，具体构造过程如下：

1)对经典卷积神经网络ResNet34进行修改，保留其主要卷积层作为Re-PoseNet的特征提取器，其具体结构如表1所示，共有33个卷积层和一个最大池化层。以卷积层1为例，其重要参数信息包括：卷积核大小为7×7、通道数为64、步长为2。残差层由多个残差单元组成，每个残差单元包含两个卷积核为3×3、步长为1的卷积层，不同残差单元的卷积层通道数有所调整。对于输入特征提取器的任意图像J，都可以得到其对应的特征图

表1Re-PoseNet特征提取器的网络结构

2)利用2个卷积核为1×1、通道为64、步长为1的卷积层对原始特征图F进行卷积操作，分别生成与其空间大小相同但数量不同的特征图

3)对于特征图F空间维度中的任意位置u，通过计算该位置特征与之同行和同列的其他特征之间的关联度，来捕捉位置u特征在全局范围内的上下文信息：

其中，

4)遍历所有i，重复步骤2.3计算X

5)遍历特征图F空间中的所有位置u，重复步骤2.3和2.4，可以得到

6)将注意力图A与特征图Z进行聚合操作，并通过残差连接将聚合结果与原始特征图F进行相加，以实现特征适应，调整网络对不同特征信息的关注度同时过滤冗余信息，得到新特征图

其中，A

7)对特征图F′重复步骤2.2至步骤2.6，进一步捕捉稠密的上下文信息，重新调整特征权重，以得到新特征图

8)利用平均池化层聚集特征图F，，在每个通道上的信息，得到维度为512×1×1的特征，并通过一个神经元数量为2048的全连接层输出特征向量

9)将特征向量V′形状重构为32×64的矩阵，然后用四个神经元数量为256的长短期记忆单元分别按照上、下、左、右四个方法进行处理，再将四个输出向量拼接成一个维度为1024的特征向量V；

10)位姿回归器由两个全连接层组成，分别包含3个和4个神经元，将特征向量V分别输入这两个全连接层，可以输出预测的位置信息

步骤3：使用ResNet34网络公开的预训练模型初始化Re-PoseNet网络中特征编码器的参数，同时随机初始化其他网络参数；

步骤4：对训练数据集T中的所有图像I

所述预处理过程如下：

1)将所有图像缩放为较短一边为256像素的图像，再以随机裁剪的方式得到分辨率为256×256的图像；

2)计算数据集T中所有图像的像素平均值μ

步骤5：将一组训练图像及其位姿标签按照批量大小batch_size＝64输入Re-PoseNet，通过位姿回归器得到预测位姿[p，q]，同时构建联合损失函数

所述构建联合损失函数

1)利用1-范数计算位置的预测值与真值之间的损失，即

2)通过θ＝logq将四元数表示的旋转信息约束在半球空间内，保证数值的唯一性，利用1-范数计算旋转的预测值与真值之间的损失，即

3)构建联合损失函数同时对两种损失进行训练：

步骤6：设置超参数初始学习率为5×10

步骤7：移动机器人在该场景内以任意运动状态进行作业，对其在任意时刻采集的位姿未知的图像I

所述预处理过程如下：

1)将图像缩放为较短一边为256像素的图像，再以中心裁剪的方式得到分辨率为256×256的图像；

2)与归一化测试图像方法相同，使测试图像的像素强度介于-1和1之间：

步骤8：通过特征提取器得到查询图像

本发明的试验结果与对比效果如表2-5和图3、图4所示。这里使用了包含多种场景类型的三个公共数据集来对本发明进行试验，采用某一场景中所有查询图像预测值与数据集提供真实值之间的中值误差来评估试验结果。

表2为基于7Scenes数据集的对比试验结果，这是一个室内数据集，由手持KinectRGB-D相机在七个不同的室内场景中采集，并使用Kinect Fusion算法生成相机位姿的真值。本试验在使用这个数据集时仅用到了RGB图像，每个场景包括在不同时间下使用不同的轨迹和照明条件采集的多组图像序列。训练集和查询集取自不同的序列，包含较多模糊的无纹理特征，这导致基于该数据集进行纯视觉的自定位非常具有挑战性。如表所示，本发明提出的方法在各个室内场景中都具有更高的定位精度。

表2本发明Re-PoseNet与已有算法在室内数据集上的误差对比

表3为基于Cambridge Landmarks数据集的对比试验结果，该数据集使用智能手机在几个室外城市场景中进行图像采集，对应的真实位姿是使用现有的三维重建方法计算的。训练集和查询集来自不同的采集路径，这些数据包含很多实际的挑战性因素，例如运动模糊、光照变化、不同的天气条件和动态目标(例如行人和车辆)。如表所示，本发明提出的方法在有明显条件变化以及动态目标干扰的环境中具有最好的算法性能以及鲁棒性。

表3本发明Re-PoseNet与已有算法在室外数据集上的误差对比

表4为基于Oxford RobotCar数据集的对比试验结果，这是一个大型室外数据集，广泛应用于自动驾驶领域。该数据集由牛津大学使用RobotCar汽车平台在英国牛津市内长达1010.46公里的驾驶记录整理制作的，数据采集时间跨越一年。它由100多个序列组成，包括RGB、激光雷达、GPS/INS和其他数据。本发明选择一些图像序列，并将其划分为训练集和查询集，再根据采集场景不同，分别命名为LOOP1、LOOP2和FULL，这些序列因为存在较大时间跨度且场景规模较大，存在天气、光照、季节、行人、车辆等不稳定因素。如表所示，本发明提出的方法在这种挑战性环境中具有明显优势。

表4本发明Re-PoseNet与已有算法在大规模动态室外数据集上的误差对比

表5和图3为本发明提出的网络模型Re-PoseNet在室内数据集7Scenes和室外数据集Oxford RobotCar上的消融实验结果。RN表示删除Re-PoseNet中特征优化模块后的模型，RN-AM表示特征优化模块中仅使用注意力模块的模型，RN-AM-LSTM表示完整的Re-PoseNet模型。如表所示，本发明提出的特征优化模块可以帮助提升模型性能，提高定位精确度以及在挑战性场景中的鲁棒性。图3是对应的可视化结果，本发明提出的方法具有明显优势。

表5 Re-PoseNet在室内外数据集上的消融实验效果

图4所示为本发明提出的网络模型Re-PoseNet和经典方法PoseNet提取图像特征的可视化显著图，其中样例图片选自室内数据集7Scenes和室外数据集Oxford RobotCar。高亮位置表示网络对相关区域信息更加关注，与PoseNet相比，Re-PoseNet更加关注建筑、柜子这种不随时间发生变化的静态目标，拒绝对车辆、行人等动态目标的学习，从而在动态环境中保持更好的鲁棒性。

根据上述实验分析，本发明算法在定位精确度和鲁棒性方面均优于现有算法，也适用于各种室内外场景。

参考文献1：A.Kendall，M.Grimes，and R.Cipolla，“Posenet：Aconvolutionalnetwork for real-time 6-dof camera relocalization，”inProceedings of the IEEE international conference on computer vision，2015，pp.2938-2946.

本发明的基于端到端特征优化模型的无人系统视觉自定位方法，可以实现长时间动态环境下基于单帧图像的实时自定位，该方法首先基于卷积神经网络构造图像的特征提取器，得到具有较好条件不变性的学习特征；然后使用两个交叉注意力模块和四方向的长短期记忆模块构造特征优化模块，对学习特征进行权重再分配以及重构降维，使其更加关注静态特征，并且保留更多与位姿相关的几何信息，提高学习特征面向动态变化场景的鲁棒性；其次引入同方差不确定性对位置损失和方向损失进行联合训练，在提升训练效率的同时显著提高网络模型性能；最后通过位姿回归器直接输出六自由度的位姿估计结果，具有精度高、实时性好、鲁棒性强、存储空间占用小、适用于室内外多种场景等优点。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：余洪山;王静文;
专利申请人：湖南大学;

上一篇：工艺角度智能匹配分析方法及系统
下一篇：一种地下室外墙后浇带穿插封闭施工方法