导航：首页> 水泥；混凝土；人造石；陶瓷；耐火材料〔4〕>一种定位方法、定位装置及存储介质

一种定位方法、定位装置及存储介质

文献发布时间：2024-04-18 19:54:45

技术领域

本申请涉及定位技术领域，具体涉及一种定位方法、定位装置及存储介质。

背景技术

视觉定位技术使用环境图像作为输入，查询数据库中与之匹配的图像，进而使用匹配到的图像的地理信息作为目标当前的地理信息，实现对目标的定位。然而，目标当前所处的环境可能存在季节、光照、天气等外观变化，使得当前获取的环境图像与数据库保存的图像存在很大差异，从而影响当前环境图像在数据库中进行匹配的结果，降低了目标定位的准确性。

发明内容

针对上述技术问题，本申请提供一种定位方法、定位装置及存储介质，通过采用基于中频信息增强的图像特征进行特征匹配，可以减少环境外观变化对特征匹配结果的影响，提高目标定位的准确性。

为解决上述技术问题，本申请提供一种定位方法，所述方法包括以下步骤：

获取目标当前所在环境的图像作为输入图像；

根据所述输入图像的中频信息，生成所述输入图像对应的中频特征图像；

将所述输入图像与所述中频特征图像进行特征融合，获得所述输入图像的增强图像特征；

将所述输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配；

根据匹配结果，获取对应的预设位置信息对所述目标进行定位。

可选地，所述根据所述输入图像的中频信息，生成所述输入图像对应的中频特征图像，包括：

对所述输入域图像进行从空间域到频率域的DCT变换，以获取DCT系数矩阵；

根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界；

根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数，确定掩膜的范围；

根据所述掩膜的范围，生成用于将所述输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵；

使用所述掩膜矩阵进行逆DCT变换，得到所述输入图像对应的中频特征图像。

可选地，所述根据所述DCT系数矩阵确定所述输入图像的中频信息在频率域中的上边界与下边界，包括：

将所述DCT系数矩阵展开成向量并按顺序排列，所述向量为：

h＝sort(flatten(D(u，v)))，

其中，D(u，v)为所述DCT系数矩阵；u和v分别表示频率域中的横向坐标和纵向坐标，u的取值范围为[0，M-1]，v的取值范围为[0，N-1]，M和N分别是所述输入图像的高度和宽度；

构造集合：

其中，i和j分别表示所述DCT系数矩阵的i行和j列；l

确定所述输入图像的中频信息在频率域中的上边界与下边界，其中，所述上边界表示为

可选地，所述方法，还包括：

计算所述集合的标准差；

所述根据所述上边界、所述下边界、对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数，确定掩膜的范围，包括：

根据所述上边界、所述下边界、所述标准差及对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数，确定掩膜的内径和外径，以得到掩膜的范围；

其中，所述内径为r＝(α-c)*θ+ub，所述外径为R＝(β-c)*θ+lb，其中，α为对应于所述上边界的掩膜尺寸基准参数，β为对应于所述上边界的掩膜尺寸基准参数，c为调节常数，c的取值大于0且小于或等于1，θ为标准差，ub为上边界，lb为下边界。

可选地，所述方法，还包括：

通过卷积神经网络对所述输入图像进行处理，得到第一特征向量；

将所述第一特征向量输入第一全连接层中进行线性变换，并经过第一激活函数进行非线性变换，得到第二特征向量；

将所述第二特征向量输入第二全连接层中进行线性变换，得到输出向量，所述输出向量∈R

通过第二激活函数对所述输出向量进行非线性变换，将所述输出向量映射到区间(0，1)中，得到对应于所述上边界的掩膜尺寸基准参数及对应于所述下边界的掩膜尺寸基准参数。

可选地，所述将所述输入图像与所述中频特征图像进行特征融合，获得所述输入图像的增强图像特征，包括：

将所述输入图像和所述中频特征图像输入卷积神经网络中，得到所述输入图像的第一卷积特征与所述中频特征图像的第二卷积特征；

将所述第一卷积特征与所述第二卷积特征进行拼接，得到第三特征向量；

将所述第三特征向量输入全连接神经网络，得到所述输入图像的增强图像特征。

可选地，所述方法，还包括：

获取同一预设位置的不同环境外观下的多个预设环境图像，以将多个预设位置的多个预设环境图像作为样本图像，所述样本图像包括锚点样本、与所述锚点样本对应的正样本以及与锚点样本对应的负样本；

根据所述样本图像的中频信息，生成所述样本图像对应的中频特征图像；

将所述样本图像与对应的中频特征图像进行特征融合，获得所述样本图像对应的增强图像特征；

使用所述样本图像对应的增强图像特征对所述第一全连接层、所述第二全连接层、所述全连接神经网络进行训练；

在损失函数符合预设条件时，停止训练。

可选地，所述损失函数包括第一损失函数、第二损失函数和第三损失函数；其中，

第一损失函数为：

第二损失函数为：

λ为用于平衡Σ

第三损失函数为：

本申请提供一种定位设备，包括存储介质与控制器，其中，所述存储介质上存储有定位程序，所述定位程序被所述控制器执行时实现如上任一所述的定位方法的步骤。

本申请提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述的定位方法的步骤。

本申请的定位方法、定位装置及存储介质，所述方法包括以下步骤：获取目标当前所在环境的图像作为输入图像；根据输入图像的中频信息，生成输入图像对应的中频特征图像；将输入图像与中频特征图像进行特征融合，获得输入图像的增强图像特征；将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配；根据匹配结果，获取对应的预设位置信息对目标进行定位。本申请技术方案，采用基于中频信息增强的图像特征进行特征匹配，可以减少环境外观变化对特征匹配结果的影响，提高目标定位的准确性。

附图说明

图1是根据一实施例示出的定位方法的流程示意图。

图2是根据一实施例示出的特征匹配过程的示意图。

图3是根据一实施例示出的获取图像增强特征的流程示意图。

图4是根据一实施例示出的卷积神经网络的架构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。

图1是根据一实施例示出的定位方法的流程示意图。如图1所示，本申请的定位方法，包括以下步骤：

S1：获取目标当前所在环境的图像作为输入图像；

S2：根据输入图像的中频信息，生成输入图像对应的中频特征图像；

S3：将输入图像与中频特征图像进行特征融合，获得输入图像的增强图像特征；

S4：将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配；

S5：根据匹配结果，获取对应的预设位置信息对目标进行定位。

通过上述方式，在将目标当前所在环境的图像与预设环境图像进行匹配时，采用了基于中频信息增强的图像特征进行特征匹配，由于中频信息对环境外观的变化相对不敏感，可以减少环境外观变化对特征匹配结果的影响，提高特征匹配结果对环境外观变化的鲁棒性，从而提高目标定位的准确性。

目标当前所在环境可以是室内环境或户外环境。目标当前所在环境的图像可以通过目标装载的图像采集装置进行采集。一种场景下，车辆或机器人等目标采集当前所在环境的图像，通过本申请的定位方法，可以实现对车辆或机器人等目标的定位。又一种场景下，用户使用终端采集当前所在环境的图像，通过本申请的定位方法，可以实现对终端的定位，进而间接地对该用户进行定位。

可选地，S2步骤中，根据输入图像的中频信息，生成输入图像对应的中频特征图像，包括：

对输入域图像进行从空间域到频率域的DCT(Discrete Cosine Transform，离散余弦变换)变换，以获取DCT系数矩阵；

根据DCT系数矩阵确定输入图像的中频信息在频率域中的上边界与下边界；

根据上边界、下边界、对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数，确定掩膜的范围；

根据掩膜的范围，生成用于将输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵；

使用掩膜矩阵进行逆DCT变换，得到输入图像对应的中频特征图像。

DCT系数矩阵可描述为：

其中，

z为u或v。

其中，DCT系数矩阵的特点是低频信息集中于矩阵左上角，逐渐向外扩散至右下角的高频信息，因此，中频信息在DCT系数矩阵主要集中在中部环形带状的区域，这个区域也即所需要设计的掩膜的信息提取范围。确定掩膜的范围时，除了确定中频信息在频率域中的上边界与下边界之前，还使用了对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数，这两个基准参数用于对上边界与下边界进行调整，以调整掩膜范围。在一实施方式中，对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数可以通过预先训练的神经网络模型对输入图像进行处理得到，以实现掩膜范围根据不同输入图像的自适应调节，获得更合适、有用的中频信息。在确定掩膜的范围后，生成用于将输入图像的中频信息所在的区域作为兴趣区的掩膜矩阵，掩膜矩阵所要提取信息的区域为兴趣区。之后，使用掩膜矩阵进行逆DCT变换，得到输入图像对应的中频特征图像。逆DCT变换可描述如下：

其中，I′(x，y)为变换得到的频特征图像的像素值矩阵中第x行、第y列的值。F(u，v)为掩膜矩阵，可描述如下：

r为掩膜的内径，R为掩膜的外径。

可选地，根据DCT系数矩阵确定输入图像的中频信息在频率域中的上边界与下边界，具体包括如下步骤：

将DCT系数矩阵展开成向量并按顺序排列，向量为：

H＝sort(flatten(D(u，v)))，

其中，D(u，v)为DCT系数矩阵；u和v分别表示频率域中的横向坐标和纵向坐标，u的取值范围为[0，M-1]，v的取值范围为[0，N-1]，M和N分别是输入图像的高度和宽度；

构造集合：

其中，i和j分别表示DCT系数矩阵的i行和j列；l

确定输入图像的中频信息在频率域中的上边界与下边界，其中，上边界表示为

其中，

可选地，本申请的方法，还包括：

计算集合的标准差；

根据上边界、下边界、对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数，确定掩膜的范围，包括：

根据上边界、下边界、标准差及对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数，确定掩膜的内径和外径，以得到掩膜的范围；

其中，内径为r＝(α-c)*θ+ub，外径为R＝(β-c)*θ+lb，其中，α为对应于上边界的掩膜尺寸基准参数，β为对应于上边界的掩膜尺寸基准参数，c为调节常数，c的取值大于0且小于或等于1，θ为标准差，ub为上边界，lb为下边界。

其中，通过计算集合L的标准差，可以使掩膜在常数c所设定的标准差范围内自适应调节大小。优选地，c取值为0.5，也即，在半个标准差的距离内自适应调节掩膜的大小，从而掩膜大小的波动较小，以保证识别效果。

确定掩膜的内径和外径后，掩膜矩阵可描述如下：

r为掩膜的内径，R为掩膜的外径。

可选地，为获取对应于上边界的掩膜尺寸基准参数α及对应于下边界的掩膜尺寸基准参数β，本申请的方法，还包括：

通过卷积神经网络对输入图像进行处理，得到第一特征向量；

将第一特征向量输入第一全连接层中进行线性变换，并经过第一激活函数进行非线性变换，得到第二特征向量；

将第二特征向量输入第二全连接层中进行线性变换，得到输出向量，输出向量∈R

通过第二激活函数对输出向量进行非线性变换，将输出向量映射到区间(0，1)中，得到对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数。

其中，第一特征向量和第二特征向量优选∈R

α，β＝Sigmoid(W

其中，I：输入图像；

CNN(I)：通过卷积神经网络(Convolutional Neural Networks，CNN)提取出的图像特征向量；

ReLU(x)：非线性激活函数，将第一全连接层的输出进行非线性变换；

Sigmoid(x)：激活函数，将第二全连接层的输出映射到(0，1)区间内，得到α和β两个参数。

通过上述处理，对应于上边界的掩膜尺寸基准参数及对应于下边界的掩膜尺寸基准参数可以通过预先训练的神经网络模型对输入图像进行处理得到，以实现掩膜范围根据不同输入图像的自适应调节，获得更合适、有用的中频信息。

可选地，S3步骤，将输入图像与中频特征图像进行特征融合，获得输入图像的增强图像特征，包括：

将输入图像和中频特征图像输入卷积神经网络中，得到输入图像的第一卷积特征与中频特征图像的第二卷积特征；

将第一卷积特征与第二卷积特征进行拼接，得到第三特征向量；

将第三特征向量输入全连接神经网络(Embed层)，得到输入图像的增强图像特征。

其中，第一卷积特征与第二卷积特征优选R

Embed(V)＝ReLU(BN(W

其中，W

以下结合图2，对上述获取增强图像特征的过程进行总结描述。如图2所示，在获取输入的图像后，通过卷积神经网络CNN、第一全连接层(FC)、ReLU激活函数、第二全连接层(FC)、Sigmoid激活函数依次处理，得到α和β两个参数。此外，对输入的图像进行DCT变换后，根据DCT系数矩阵得到θ、lb、ub，再根据α、β、θ、lb、ub确定掩膜的内径r和外径R，创建适用于当前输入的图像的掩膜矩阵。之后，进行逆DCT变换并使用掩膜矩阵，得到中频特征图像。将输入图像和中频特征图像输入卷积神经网络CNN中，得到输入图像的第一卷积特征与中频特征图像的第二卷积特征，将第一卷积特征与第二卷积特征进行拼接(Concat)，得到第三特征向量，将第三特征向量输入全连接神经网络(Embed层)，至此得到与输入的图像对应的增强图像特征。进一步地，当上述输入的图像是目标当前所在环境的图像时，将增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配，以对目标进行定位。当上述输入的图像是预设环境图像时，将增强图像特征存储与特征库(Feather Database)中，作为训练神经网络的数据。

在DCT-Mask Net中，卷积神经网络CNN采用VGG16网络的卷积层，并对其进行修改以更适用于提取场景图像的特征。VGG16是属于分类的深度学习网络，使用全连接层的特征来进行分类。对于位置识别，卷积层的特征(conv)相比于全连接层的特征对外观变化有更强的鲁棒性，可以获得更高的准确度。因此，截取VGG16网络的卷积层的部分来提取特征。此外，为了减小网络训练参数和获得更小特征形状来加速模型训练，在截取的卷积层的后端添加自适应最大池化层以更便于获取所需的降维结果，并将卷积层的权重冻结，即不训练CNN。本申请的卷积神经网络CNN的具体框架请参考图3。

本申请在训练神经网络模型时，使用损失函数对上述的第一全连接层、第二全连接层、全连接神经网络进行训练。现有方法主要通过简单的权重来约束三元组损失函数(Triplet loss)，以获得更好的视觉特征，但不考虑对特征增加更多相关性的约束和适当的正则化，从而无法在大数据集中获得很好识别效果。由于Triplet loss无法满足越来越复杂的场景数据集，同时训练易过拟合的问题，因此，本申请采用去相关化损失函数(Decorrelation loss)和规范化损失函数(Regulation loss)来优化Triplet loss，提高了特征的区分度和避免模型过拟合。

可选地，为训练神经网络模型，本申请的方法，还包括以下步骤：

获取同一预设位置的不同环境外观下的多个预设环境图像，以将多个预设位置的多个预设环境图像作为样本图像，样本图像包括锚点样本、与锚点样本对应的正样本以及与锚点样本对应的负样本；

根据样本图像的中频信息，生成样本图像对应的中频特征图像；

将样本图像与对应的中频特征图像进行特征融合，获得样本图像对应的增强图像特征；

使用样本图像对应的增强图像特征对第一全连接层、第二全连接层、全连接神经网络进行训练；

在损失函数符合预设条件时，停止训练。

其中，预设位置是指位置信息已知的位置，预设环境图像是指预先采集的已知位置的环境图像。预设位置的位置信息(即预设位置信息)、预设环境图像以及预设环境图像的增强图像特征相互关联存储。同一预设位置的不同环境外观下的多个预设环境图像，可以是同一预设位置在不同季节、光照、天气下的预设环境图像，每个预设位置可以绑定多个不同环境外观下的预设环境图像。将多个预设位置的多个预设环境图像作为样本图像，得到训练集。样本图像中，正样本可以是同一地方但不同外观变化的环境图像，负样本可以是不同地点不同外观变化的环境图像。

在确定样本图像后，根据样本图像的中频信息，生成样本图像对应的中频特征图像，再将样本图像与对应的中频特征图像进行特征融合，获得样本图像对应的增强图像特征。此过程与S2-S3及图2所示过程相同，区别仅在于将输入图像变换为预设环境图像，因此，不再赘述。

可选地，损失函数包括第一损失函数(Triplet loss)、第二损失函数(Decorrelation loss)和第三损失函数(Regulation loss)。具体可表示为：

其中，L

具体地，第一损失函数为：

其中，X

具体地，第二损失函数为：

其中，λ为用于平衡Σ

具体地，第三损失函数为：

其中，Regulation loss为了让特征在特征空间中足够分散。使用Triplet loss训练时，模型倾向将所有特征压缩到特征空间的某个小范围，减少了特征之间的区分度，表现出模型过拟合的现象。在每个batch中，选择最小距离的两个向量，通过loss增加他们之间的距离。

请继续参考图1，在得到输入图像的增强图像特征后，将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配，根据匹配结果，获取对应的预设位置信息对目标进行定位。

图像特征匹配的过程，可通过获取图像特征之间的余弦相似度来判断图像特征之间是否相似。当两张图像足够相似，则图像特征的余弦相似度接近1，反之，则图像特征的余弦相似度接近-1。余弦相似度的定义为：

其中，Q、R分别对应输入图像的图像特征和预设环境图像的图像特征，i是特征向量的分量，n是特征向量的长度。

请参考图4，一种对目标进行定位的场景下，地图上有p

本申请的定位方法包括以下步骤：获取目标当前所在环境的图像作为输入图像；根据输入图像的中频信息，生成输入图像对应的中频特征图像；将输入图像与中频特征图像进行特征融合，获得输入图像的增强图像特征；将输入图像的增强图像特征与对应于预设位置信息的预设环境图像的图像特征进行匹配；根据匹配结果，获取对应的预设位置信息对目标进行定位。本申请技术方案，采用基于中频信息增强的图像特征进行特征匹配，可以减少环境外观变化对特征匹配结果的影响，提高目标定位的准确性。

本申请提供一种定位设备，包括存储介质与控制器，其中，所述存储介质上存储有定位程序，所述定位程序被所述控制器执行时实现如上实施例所述的定位方法的步骤。

本申请提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上实施例所述的定位方法的步骤。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：东莞理工学院;

上一篇：一种水下三维相对定位光电测绳装置
下一篇：煤矸石固废基膏体充填管路免冲洗材料及充填工艺