一种AR摄像头结合物联网系统的远程定位方法

文献发布时间：2024-04-18 20:02:40

技术领域

本发明涉及物联网设备控制领域，特别涉及一种AR摄像头结合物联网系统的远程定位方法。

背景技术

随着智能制造的发展，工业机器人在复杂环境中的应用需求日益增长。但是传统机器人主要依赖自主导航进行定位，因环境变化大而难以实现高精度定位，无法满足对精确操控的需求。为实现机器人在复杂环境中的精确定位，迫切需要一种新型的定位与控制方案。

现有的机器人定位方法主要有激光雷达定位、视觉定位和惯导组合定位等。但激光雷达受场地影响大，视觉定位需事先建图且存在漂移问题，惯导组合定位累积误差大。这些方法难以做到机器人在复杂变化环境中得到实时精确定位。

在相关技术中，比如中国专利文献CN111885707A中提供了一种基于AR设备的物联网设备控制方法，包括通过AR设备中的动态UWB模块与物联网设备中的静态UWB模块相互通信；将AR设备在空间内沿预设轨迹移动，在移动AR设备时，通过UWB网络中传输的UWB信号计算AR设备与物联网设备之间的距离参数；在移动AR设备时，通过AR设备建立SLAM地图；通过距离参数生成物联网设备在SLAM地图中的坐标信息；通过AR设备基于坐标信息控制物联网设备。但是在该方案中，依赖单一UWB距离测量进行定位，容易受环境影响产生较大误差。在复杂环境中，UWB信号易受遮挡和多径效应影响，距离测量误差会增大。因此，在复杂环境中机器人的远程控制精度有待进一步的提高。

发明内容

针对现有技术中存在的复杂环境中机器人的远程控制精度低的问题，本发明提供了一种AR摄像头结合物联网系统的远程定位方法，通过AR技术和深度学习算法等，提高了机器人在复杂环境中的远程控制精度。

本发明的目的通过以下技术方案实现。

本说明书实施例提供一种AR摄像头结合物联网系统的远程定位方法，用于控制机器人，包括：建立AR摄像头与机器人之间的UWB网络通信连接；当机器人在预设工作空间内时，控制AR摄像头移动并采集预设工作空间内的图像数据，并采集AR摄像头的运动数据；其中，建立AR摄像头与机器人之间的UWB网络通信连接，作为机器人接收控制指令的通道；应用卷积神经网络等深度学习算法提取图像数据的语义信息，构建图像语义特征；将提取的图像语义特征与AR摄像头的运动数据进行匹配和融合，构建预设工作空间的初始特征地图；根据构建的特征地图，统计计算机器人在工作空间内的坐标信息；AR摄像头通过UWB网络，将计算出的机器人坐标信息发送给机器人，实现对机器人的远程定位；AR摄像头基于机器人坐标，经UWB网络向机器人发送控制指令，驱动机器人实现指定的工作。

使用深度学习算法提取图像数据的图像语义信息，并将提取的图像语义信息与采集的运动数据进行融合，构建预设工作空间的特征地图；其中，应用卷积神经网络等深度学习模型，作为语义分割算法，对输入的图像数据进行处理。卷积神经网络包含编码器和解码器结构。编码器通过卷积层提取图像的多层次语义特征。解码器受编码器输出的特征图控制，计算不同语义特征之间的相关性权重。根据特征图和权重参数，解码器输出图像的像素级语义信息，即图像语义分割信息。解析AR摄像头图像数据的元信息，提取图像语义信息的时间戳序列A。解析AR摄像头采集的运动数据，提取运动数据的时间戳序列B。建立Seq2Seq模型，以时间戳序列A和B为输入，输出匹配的时间索引序列。根据时间索引序列，匹配运动数据和对应的图像语义信息。将匹配的图像语义信息和运动数据作为节点，构建初始工作空间特征地图。

根据构建的预设工作空间的特征地图，获取机器人在预设工作空间内的坐标信息；AR摄像头基于获取的坐标信息，通过UWB网络向机器人发送控制指令。其中，在构建完成预设工作空间的特征地图后，确定地图内各个特征点的坐标。分析机器人当前图像，检测出机器人周围的特征点。将机器人周围特征点与特征地图进行匹配，统计计算匹配特征点的坐标。根据匹配特征点坐标的集中分布情况，计算机器人在地图坐标系内的具体坐标信息。AR摄像头获取到机器人的坐标信息后，根据运动控制算法规划机器人的目标路径。AR摄像头将控制指令中包含机器人目标路径点的坐标信息，通过UWB网络发送给机器人。机器人收到控制指令后，解析获得目标路径的坐标点信息。机器人按照控制指令移动到目标路径点上，实现精准定位和导航。

进一步地，构建预设工作空间的特征地图，还包括如下步骤：构建卷积神经网络作为语义分割网络，语义分割网络包含编码器和解码器；编码器对输入的图像数据进行卷积操作，提取图像特征，输出图像特征图；将图像特征图输入解码器，解码器通过构建二次核矩阵，计算特征之间的权重；解码器根据编码器输出的图像特征图和计算的权重，对图像特征图进行语义分割，生成图像语义信息。

其中，在本申请中，语义信息可以明确描述环境中不同对象类别，如过道、门口、架子等。这些关键对象对机器人导航和定位起着重要作用。利用语义信息可以提取这些关键场景元素作为特征点。特征点构成初始地图，可大幅提升机器人在复杂环境中的定位精度。语义信息还可以用于路径规划，避开障碍，实现智能导航。相比于传统视觉特征，语义信息与机器人任务更相关，更有利于知识表达。

进一步地，通过照度传感器采集预设工作空间的环境光照信息；将图像语义信息作为输入，其中图像语义信息包含每个像素的RGB值；建立图像语义信息的RGB值和环境光照信息之间的高斯过程回归模型；通过奇异值分解算法对高斯过程回归模型的协方差矩阵进行低秩逼近；利用低秩逼近后的高斯过程回归模型，结合环境光照信息，预测图像语义信息中每个像素的RGB值，生成调整后的图像语义信息。

其中，在本申请中，仓库内光照条件复杂多变，直接使用原始图像语义容易受光照影响。调整后语义可过滤环境光变化的影响，增强语义信息的鲁棒性。有利于从不同时段和位置获取的图像中提取可靠稳定的语义信息。使语义分割和特征提取更准确，减少光照变化引起的误差。基于调整后的语义可构建高精度的特征地图。有利于机器人在复杂光照条件下的持续精确定位。光照调整提高了语义信息在复杂环境中的适用性。使机器人能够在室内外等不同光照中可靠工作。

进一步地，生成调整后的图像语义信息，还包括：使用标定板采集不同光照值下图像数据中各像素的RGB值，建立光照值与RGB值之间的对应关系；计算每个像素的RGB值与对应的光照值之间的高斯过程回归系数；建立基于深度学习的条件Pixel CNN模型，学习每个像素的光照响应先验知识；将高斯过程回归系数和光照响应先验知识作为输入，通过高斯过程回归模型，预测每个像素的RGB值；根据预测的RGB值，调整图像语义信息中每个像素的RGB值，生成调整像素后的图像语义信息。

其中，使用标定板采集不同光照条件下的图像，建立光照值与图像RGB值之间的对应关系。计算每个像素的RGB响应与对应光照值之间的高斯过程回归系数。构建基于PixelCNN的深度学习模型，学习像素对光照的响应先验知识。Pixel CNN通过掩蔽卷积建模像素间依赖关系，输出光照响应的先验概率分布。将高斯过程回归系数和Pixel CNN学习到的先验知识作为高斯过程回归模型的输入。高斯过程回归模型结合两者，输出每个像素在新光照下的RGB值高斯概率分布。根据RGB概率分布对每个像素采样，生成光照调整后的RGB值。将调整后的RGB值赋值给图像语义信息中对应的像素，完成图像的光照自适应调整。最终输出针对环境光照调整的图像语义信息。

进一步地，将提取的图像语义信息与采集的运动数据进行融合，包括：通过解析图像数据的元信息，提取图像语义信息的时间戳序列A；通过解析运动数据的时间戳，提取运动数据的时间戳序列B；建立基于LSTM的Seq2Seq模型，将时间戳序列A和时间戳序列B作为输入，输出匹配后的时间索引序列；根据时间索引序列，匹配图像语义信息和运动数据的时间序列。

其中，在图像采集时，相机自动在图像文件中写入拍摄的时间元信息。读取图像文件，解析图像头信息，提取到图像的拍摄时间。对每张输入到语义分割网络的图像，都可以解析出一个唯一的拍摄时间。语言语义分割生成的图像语义信息，与对应的源图像时间信息相绑定。按时间顺序，组织所有图像语义信息的时间信息，形成时间戳序列A。时间戳序列A中，每个时间戳与一个图像语义信息对应。时间戳序列A反映了图像语义信息随时间的变化顺序。时间戳序列A将与运动时间序列B对齐，用于匹配语义信息和运动数据。

其中，运动数据来源于机器人上的惯性传感器，如加速度计、陀螺仪等。这些传感器以一定频率持续采集机器人的运动数据。在运动数据采集模块中，配合传感器采样，持续记录数据的时间戳。时间戳使用系统时钟生成，精确到毫秒级。将每个运动数据样本与其采集时间时间戳对应绑定。按时间顺序组织所有运动数据时间戳，构成时间序列B。时间序列B中每个时间戳对应一次运动数据采样。时间序列B反映了机器人运动数据随时间的变化。时间序列B与图像时间序列A对齐，用于匹配运动和语义信息。

进一步地，还包括：利用匹配后的时间索引序列，获取对应时间索引的图像语义信息；将获取的对应时间索引的图像语义信息输入IMM运动模型，预测对应图像采集时刻的运动位置；将预测的运动位置与对应时间索引的图像语义信息，通过建立匹配表进行配对。其中，输入经Seq2Seq模型匹配后的时间索引序列I。根据每个时间索引Ii，在对齐后的图像语义序列中取出对应图像语义信息ai。构建IMM（互动多模型）算法的运动预测模型。IMM模型集成多个运动动力学模型和数据驱动模型。输入时间索引Ii到IMM模型，预测该时刻的运动状态和位置pi。利用匹配时间索引Ii，建立表格，匹配语义信息ai和预测位置pi。重复该匹配过程，得到全部时间索引对应的图像语义信息和运动预测。最终得到匹配表，每行为一个时间索引，对应的语义信息与运动预测。匹配表整合了图像语义理解和运动预测的时空信息。

进一步地，在预测对应图像采集时刻的运动位置之后，还包括：获取与预测的运动位置通过匹配表配对的对应的图像语义信息；将获取的图像语义信息和对应的预测的运动位置作为节点，构建八叉树进行最近邻搜索；遍历搜索八叉树，选择节点间欧式距离最小的图像特征和运动位置进行对齐融合；其中，已构建匹配表，存储图像语义信息ai和对应预测运动位置pi。输入待匹配的新图像语义信息an和运动位置预测pn。在匹配表中搜索语义信息an的最近邻ai，得到配对的位置pi。利用an和pi构建一个新节点，插入到八叉树中。在八叉树中，节点特征为图像语义信息向量。从新插入节点开始，遍历八叉树进行最近邻搜索。计算新节点与已有节点之间的特征欧式距离。选择与新节点欧式距离最小的已有节点。取出该最近邻节点存储的图像语义和对应运动位置。将最近邻图像语义和运动位置与新节点的an和pn进行融合。最终得到与新数据匹配的图像语义和运动规划信息。

进一步地，在选择节点间欧式距离最小的图像特征和运动位置进行对齐融合之后，还包括：获取选择的图像特征的像素坐标作为特征点；根据特征点和对应的运动位置，构建扩展卡尔曼滤波EKF SLAM模型；设置扩展卡尔曼滤波EKF SLAM模型的状态变量包含机器人的位置和特征点的位置；根据扩展卡尔曼滤波EKF SLAM模型的预测更新，迭代优化特征点的位置，生成预设工作空间的初始特征地图。

其中，已选择图像特征最小欧式距离的节点，获得图像语义特征和对应运动位置。从语义特征中提取像素坐标作为特征点。构建EKF SLAM模型，状态变量包含机器人位置和所有特征点位置。运动模型预测机器人位置，测量模型根据特征观测更新特征点位置。设置观测矩阵根据当前特征点对其他特征点的相对观测。EKF按时间顺序迭代进行预测和更新，优化所有特征点位置。利用匹配到的语义特征和运动轨迹作为EKF的先验输入。迭代EKFSLAM后得到初始特征地图，表示环境特征点分布。后续可继续增量优化地图，用于机器人自主导航。

进一步地，在生成初始特征地图之后，还包括：构建递归贝叶斯滤波模型，以初始特征地图为观测输入；将初始特征地图中每个像素坐标作为递归贝叶斯滤波模型的状态变量；根据递归贝叶斯滤波模型的预测方程和更新方程，迭代优化每个状态变量；输出迭代优化后的状态变量构成的最终的特征地图。

其中，输入已构建的初始特征地图，包含特征点的位置分布。构建递归贝叶斯滤波模型，状态变量为地图中的每个特征点。预测方程根据现有地图特征预测特征点位置分布。更新方程融合实际特征观测，修改预测的特征点状态。将初始地图特征作为递归滤波的第一轮输入。迭代递归预测和更新过程，逐步优化每个特征点状态。优化目标是减小特征点位置的方差，提高定位精度。重复迭代直到特征点状态足够稳定。最终迭代得到的特征点状态构成优化后的最终特征地图。地图作为知识表示，可支持机器人的自主任务与决策。

进一步地，递归贝叶斯滤波模型采用一阶马尔可夫过程。其中，一阶马尔可夫过程（First-order Markov process）：一种随机过程，其中未来状态只依赖当前状态，与过去状态无关。具有无后效性的性质。具体地，递归贝叶斯滤波假设状态转移具有马尔可夫性质。即特征点的下一时刻状态仅依赖当前状态。在预测步骤中，根据当前特征点状态计算转移概率。生成下一时刻特征点位置的预测分布。在更新步骤中，根据最新观测修正预测分布。依次递归进行预测和更新过程。利用马尔可夫假设简化递归运算。最终输出优化后的特征点状态构建地图。

相比于现有技术，本发明的优点在于：

（1）通过构建卷积神经网络进行图像语义分割，提取图像的语义信息，提高了图像信息的表达能力，为后续特征地图的构建提供了丰富的语义特征描述，这避免了传统方法直接使用图像像素信息导致的语义不明确的问题；

（2）利用递归贝叶斯滤波模型对初始特征地图进行优化，设置每个像素坐标为状态变量，根据预测和更新方程迭代优化，提高了特征地图的精度，这克服了普通滤波方法无法有效消除特征地图累积误差的缺点；

（3）借助八叉树近邻搜索算法，实现图像语义信息和对应的运动数据的最优匹配，避免了全局搜索造成的大量计算量，这解决了图像和运动数据时间序列匹配的低效问题；

综上所述，本申请通过深度学习算法提取图像语义信息，将图像语义信息与机器人运动数据进行融合，构建工作空间特征地图，再利用该特征地图实时定位机器人，并通过物联网网络发送控制指令，从而实现了机器人在复杂环境中的精确远程定位和控制。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的一种AR摄像头结合物联网系统的远程定位方法的示例性流程图；

图2是根据本说明书一些实施例所示的生成图像语义信息的示例性子步骤流程图；

图3是根据本说明书一些实施例所示的调整图像语义信息的示例性子步骤流程图；

图4是根据本说明书一些实施例所示的图像数据和运动数据融合的示例性子步骤流程图；

图5是根据本说明书一些实施例所示的生成特征地图的示例性子步骤流程图。

具体实施方式

下面结合附图对本说明书实施例提供的方法和系统进行详细说明。

图1是根据本说明书一些实施例所示的一种AR摄像头结合物联网系统的远程定位方法的示例性流程图，如图1所示，一种AR摄像头结合物联网系统的远程定位方法，用于控制机器人，包括：S100建立AR摄像头与机器人之间的UWB网络通信连接；S200当机器人在预设工作空间内时，控制AR摄像头移动并采集预设工作空间内的图像数据，并采集AR摄像头的运动数据。

具体地，AR摄像头指增强现实摄像头（Augmented Reality Camera）。它是一种可综合显示虚拟图像和真实环境图像的摄像设备。AR摄像头通过视频捕捉实景，再通过图像处理渲染虚拟内容，实现虚实结合和注册匹配，形成增强现实效果。在本申请中，AR摄像头移动采集预设工作空间内的图像数据，获取环境真实信息；AR摄像头自带传感器，可同步采集自身的运动参数数据；AR摄像头可连接物联网，与机器人形成通信网络；AR摄像头可基于图像识别算法获取机器人在工作空间中的坐标信息；AR摄像头可向机器人发送控制指令，实现遥控。

更具体地，UWB网络指超宽带网络（Ultra Wide band Network），在本申请中，UWB网络通信连接指超宽带网络通信连接。它利用宽占用频带（大于500MHz或20%以上的相对带宽）的短距离无线技术，实现高速率低功耗的无线通信。在本申请中，在AR摄像头与机器人之间建立UWB通信网络；UWB网络具有抗干扰能力强、点对点通信速率高等优点；AR摄像头通过UWB网络向机器人发送机器人坐标等控制信息；机器人接收到AR摄像头的控制指令后，通过UWB网络反馈执行状态；UWB网络实现AR摄像头与机器人之间高速、低延时、高可靠的无线通信。利用UWB网络进行远程通信控制，解决了机器人遥控指令可靠传输的问题。

具体地，图像数据，指AR摄像头拍摄采集的预设工作空间内的图片或视频图像信息。它记录了工作空间内的视觉特征。在机器人工作时，用AR摄像头采集工作空间内的图像数据。对图像数据进行语义分割，提取图像的语义信息。将图像语义信息与运动数据相结合，用于构建特征地图。具体地，运动数据，指AR摄像头自身在采集图像时的运动参数信息，包括位置、速度、加速度等数据。它记录了AR摄像头的运动轨迹。AR摄像头采集工作空间图像信息时，同步采集自身的运动数据。将运动数据与对应的图像语义信息进行匹配。运动数据为构建特征地图提供AR摄像头自身的运动位置信息。

更具体地，应用本申请的某智能仓库中，图像数据可以包含：智能仓库货架区域的图像，包含货架编号、存储商品等视觉信息。堆垛机、自动导引车等搬运机器人的图像信息。储存货物的容器、托盘、箱子等的图像信息。储存环境中灯光条件、标识符号等图像信息。仓库员工及其操作环境的图像信息。运动数据可以包含：搬运机器人的行进轨迹和路径数据。搬运机器人的位置坐标变化数据。搬运机器人的运动速度和加速度数据。搬运机器人的机械臂位置、抓取状态的数据。搬运机器人的系统运行状态、报警标志等数据。搬运任务的起止时间、执行状态等运动控制数据。

S300使用深度学习算法提取图像数据的图像语义信息，并将提取的图像语义信息；S400将提取的图像语义信息与采集的运动数据进行融合；S500构建预设工作空间的特征地图；其中，应用卷积神经网络等深度学习模型，作为语义分割算法，对输入的图像数据进行处理。卷积神经网络包含编码器和解码器结构。编码器通过卷积层提取图像的多层次语义特征。解码器受编码器输出的特征图控制，计算不同语义特征之间的相关性权重。根据特征图和权重参数，解码器输出图像的像素级语义信息，即图像语义分割信息。解析AR摄像头图像数据的元信息，提取图像语义信息的时间戳序列A。解析AR摄像头采集的运动数据，提取运动数据的时间戳序列B。建立Seq2Seq模型，以时间戳序列A和B为输入，输出匹配的时间索引序列。根据时间索引序列，匹配运动数据和对应的图像语义信息。将匹配的图像语义信息和运动数据作为节点，构建初始工作空间特征地图。

S600根据构建的预设工作空间的特征地图，获取机器人在预设工作空间内的坐标信息；AR摄像头基于获取的坐标信息，通过UWB网络向机器人发送控制指令。其中，在构建完成预设工作空间的特征地图后，确定地图内各个特征点的坐标。分析机器人当前图像，检测出机器人周围的特征点。将机器人周围特征点与特征地图进行匹配，统计计算匹配特征点的坐标。根据匹配特征点坐标的集中分布情况，计算机器人在地图坐标系内的具体坐标信息。AR摄像头获取到机器人的坐标信息后，根据运动控制算法规划机器人的目标路径。AR摄像头将控制指令中包含机器人目标路径点的坐标信息，通过UWB网络发送给机器人。机器人收到控制指令后，解析获得目标路径的坐标点信息。机器人按照控制指令移动到目标路径点上，实现精准定位和导航。

具体地，特征地图（Feature Map）：指包含环境空间特征信息的数字化地图，它以提取的图像视觉特征和运动位置数据为基础，表示环境的几何结构和语义知识。在本申请中，使用深度学习算法提取图像数据的语义信息。将图像语义信息与AR摄像头采集的运动数据进行匹配。融合匹配的图像语义信息和运动数据构建预设工作空间的特征地图。特征地图充分融合环境视觉信息和自主移动位置信息。根据构建的特征地图，计算机器人在工作空间中的坐标信息。实现机器人根据特征地图进行精确自主定位和导航。

更具体地，在本申请的具体实施例中，在智能仓库中，已构建包含各特征点坐标的地图，如入口、过道、拐角、装运区等。机器人摄像头拍摄当前景象，通过语义分割检测出周围的特征点。将检测到的特征描述与地图数据库中的进行匹配比较。统计特征匹配点的坐标分布，以确定机器人相对地图的坐标信息。AR系统根据当前定位结果，规划机器人下一个路点的目标坐标。AR系统通过UWB网络发送控制指令，包含目标点的坐标数据。机器人UWB模块接收指令，解析出导航的坐标信息。机器人运动控制系统驱动机器人平移和转向到达导航点。依次导航完成整条路径，实现机器人在仓库环境中的自动搬运。通过闭环反馈不断更新定位，实现持续精准导航。

图2是根据本说明书一些实施例所示的生成图像语义信息的示例性子步骤流程图，如图2所示，S310构建卷积神经网络作为语义分割网络，语义分割网络包含编码器和解码器；S320编码器对输入的图像数据进行卷积操作，提取图像特征，输出图像特征图；S330将图像特征图输入解码器，解码器通过构建二次核矩阵，计算特征之间的权重；S340解码器根据编码器输出的图像特征图和计算的权重，对图像特征图进行语义分割，生成图像语义信息。

具体地，二次核矩阵（Quadratic Kernel Matrix）：它是解码器中用于计算不同特征图之间相关性权重的矩阵。核矩阵中的每个元素表示特征图中两个特征间的相似度。在本申请中，解码器接收来自编码器的图像特征图。构建一个二次核矩阵K，矩阵中元素Kij表示特征图中特征i和特征j的相似度。应用高斯核函数计算特征相似度，得到二次核矩阵。将特征图multiplied转化为新特征空间，新的特征相互正交。根据二次核矩阵K，可以得到特征图中每个特征的权重。解码器利用特征权重，对特征图进行语义分割。输出含语义信息的图像，用于构建特征地图。二次核矩阵计算了特征图中特征间的相关性权重，为后续的语义分割提供依据。

具体地，图像语义信息：指对图像内容进行语义理解后生成的知识表达，它给图像中的目标、场景等元素赋予语义描述和含义。在本申请中，编码器输出图像的特征图。解码器根据特征图和计算的特征权重，进行语义分割。语义分割将图像像素分类到不同语义概念中，如人、车、道路等。对每个图像元素进行语义理解，得到图像语义信息。图像语义信息表征了环境目标的语义属性，如人的姿态、车的类型等。图像语义信息将与运动信息结合，构建语义丰富的特征地图。帮助机器人更好地分析和理解复杂环境。

具体地，在本申请的具体实施例中，构建卷积神经网络作为语义分割模型，包含编码器和解码器。编码器接收仓库场景图像作为输入，使用不同卷积核提取货架、机器人、货物等多尺度语义特征。解码器包含上采样层将编码器输出特征图恢复分辨率。解码器构建二次高斯核矩阵，计算货架编号、货物类别等特征间的权重。卷积层基于特征权重，过滤不相关特征，输出仓库场景的语义分割图像。在分割图像中，不同语义被分类到不同的像素值中，如货架、地面、货物等。为每类目标生成语义概念，得到场景的语义信息。语义信息识别了仓库目标的语义属性，对搬运机器人进行语义定位和导航。通过模型训练优化参数，提高在仓库复杂场景下的语义分割和理解能力。最终输出包含丰富语义信息的仓库场景图像。

S350获取环境光照信息，根据环境光照信息调整语义信息中的RGB值。不同光照条件下拍摄的图像，其RGB值会有较大差异。直接应用原始RGB语义信息，会由于光照变化而影响后续处理的效果。根据光照信息调整RGB值，可以消除光照变化带来的影响。使得在不同光照下提取的语义信息更加统一和可靠。有利于构建稳定和鲁棒的语义地图。提高了语义信息在复杂光照环境下的适用性。使语义分割和特征提取更加准确，减少光照误差。最终可以提升基于语义信息的任务效果，如定位、导航等。总体来说，有利于增强方案的鲁棒性，扩大适用范围。

图3是根据本说明书一些实施例所示的调整图像语义信息的示例性子步骤流程图，，如图3所示，S351通过照度传感器采集预设工作空间的环境光照信息；S352将图像语义信息作为输入，其中图像语义信息包含每个像素的RGB值；S353建立图像语义信息的RGB值和环境光照信息之间的高斯过程回归模型；S354通过奇异值分解算法对高斯过程回归模型的协方差矩阵进行低秩逼近；S355利用低秩逼近后的高斯过程回归模型，结合环境光照信息，预测图像语义信息中每个像素的RGB值，生成调整后的图像语义信息。

具体地，高斯过程回归模型（Gaussian Process Regression Model）是一种基于Bayesian框架的非参数回归模型。它利用高斯过程来描述函数的先验分布，并基于数据进行概率推理。在本申请中，构建图像语义信息RGB值和环境光照信息之间的联合高斯过程模型。模型假设目标函数符合高斯过程，按高斯分布给出先验函数分布。基于获得的观测数据对后验分布进行Bayesian推断。使用奇异值分解降低协方差矩阵秩，减少计算复杂度。给定新的光照输入，模型输出图像语义信息RGB值的高斯概率分布。根据输出的概率分布，预测图像语义信息中每个像素的RGB值。生成经光照调整后的图像语义信息。综上，高斯过程回归模型利用贝叶斯思想建模，进行光照自适应调整，提高场景理解的鲁棒性。

具体地，奇异值分解算法（Singular Value Decomposition，SVD）：一种矩阵分解方法，可以将矩阵分解为若干个奇异值和对应左右奇异向量的乘积形式。在本申请中，对高斯过程回归模型的协方差矩阵进行奇异值分解。通过奇异值的大小选择主要奇异值，舍弃较小的奇异值。只保留主要奇异值和对应左右奇异向量，采用低秩矩阵逼近原协方差矩阵。低秩逼近降低了协方差矩阵的维数和计算复杂度。基于低秩逼近的协方差矩阵，进行高斯过程回归模型的概率推理。提高了模型在预测图像语义信息时的计算效率。综上，奇异值分解算法通过低秩逼近降维的方式，减小了高斯过程回归模型的计算复杂度。

具体地，在本申请的具体实施例中，构建低秩逼近的高斯过程回归模型，模型输入为环境光照信息，输出为图像语义信息的RGB值。给定一组新输入的环境光照信息变量X*。计算X与模型观测数据间的高斯过程核比例k。将k*与低秩逼近的协方差矩阵相乘，得到预测的协方差矩阵。计算X*与模型训练输出的高斯过程核比例k，得到回归值的高斯分布。对每个图像像素，根据回归值的高斯分布，采样生成RGB值的高斯概率预测。对全部图像像素采样，得到整幅图像语义信息调整后的RGB值。生成针对输入光照调整后的图像语义信息。不断积累样本进行模型在线更新，提高预测准确性。

更具体地，低秩逼近（Low Rank Approximation）：一种矩阵分解技术，将高维矩阵逼近表示为低秩矩阵的乘积形式。通过降低矩阵的秩，可以减少存储和计算量。在本申请的具体实施例中，对语义分割生成的图像进行矩阵表示。使用低秩逼近技术来降维这个图像矩阵。采用SVD等方法，分解为两个低秩矩阵的乘积。低秩表示可以减少后续处理的计算量。将环境光照信息也进行低秩表达。在低秩空间中，应用高斯过程回归来预测像素RGB值。最后重构出生成调整后的高分辨图像。加速了利用光照信息进行图像色彩调整的过程。

进一步地，使用标定板采集不同光照值下图像数据中各像素的RGB值，建立光照值与RGB值之间的对应关系；计算每个像素的RGB值与对应的光照值之间的高斯过程回归系数；建立基于深度学习的条件Pixel CNN模型，学习每个像素的光照响应先验知识；将高斯过程回归系数和光照响应先验知识作为输入，通过高斯过程回归模型，预测每个像素的RGB值；根据预测的RGB值，调整图像语义信息中每个像素的RGB值，生成调整像素后的图像语义信息。

具体地，标定板（Calibration Board）：一种用来标定摄像设备参数的标准测试物体，上面印制有已知尺寸和位置的特征图案。标定板印有标准颜色图块和灰度图案。摄像头拍摄标定板在不同光照条件下的图像。通过标定板上的颜色图块，建立光照值和图像像素RGB值之间的映射关系。灰度图案用来标定摄像头的内参和失真参数。光照值与RGB值的映射关系用于构建光照自适应模型。摄像头的内参和失真参数有助于图像处理与分析。最终帮助实现对图像语义信息进行准确的光照自适应调整。标定板为建立光照响应模型提供了准确的光照-RGB映射样本。

具体地，在本申请中，构建高斯过程回归模型，输入为光照值，输出为像素RGB响应。假设高斯过程函数f服从零均值高斯分布，表达像素对光照的映射关系。计算高斯过程的核函数K，表示输入间的相似度。这里可以采用RBF核。根据已有的光照-RGB对应样本数据，计算核矩阵K。利用核矩阵K与响应变量之间的关系，求解高斯过程回归方程。求解过程中会计算响应变量与核矩阵的相关系数β。该相关系数即为高斯过程回归中的回归系数。对每个像素分别计算光照值与其RGB响应之间的回归系数β。最终得到描述整个图像光照响应的回归系数β。

具体地，在本申请中，Pixel CNN模型，一种基于卷积神经网络的图像生成模型，通过掩蔽卷积显式建模像素之间的条件依赖关系。Pixel CNN包含掩蔽卷积层，每个像素只依赖于上下左侧先前生成的像素。模型输入光照条件，输出每个像素的RGB响应概率分布。通过Localized卷积核学习像素邻域内光照响应的先验知识。捕获各个位置的像素对光照变化的依赖关系。输出卷积特征图表示像素级光照响应的空间先验概率。作为高斯过程回归模型的先验知识，提升光照适应的准确率。最终用于预测图像在新光照下每个像素的概率分布。综上，Pixel CNN通过建模像素依赖关系学习光照响应先验，为高斯过程回归提供有效先验。

更具体地，在本申请的具体实施例中，构建高斯过程回归模型，输入为像素的回归系数和Pixel CNN学习得到的光照响应先验知识。模型输出每个像素在新光照条件下的RGB值概率分布预测。对仓库场景图像的每个像素位置，依次进行高斯过程回归，得到RGB预测分布。根据RGB预测分布对每个像素位置进行采样，生成新的RGB值。将采样生成的RGB值更新到原图像语义信息中相应的像素位置。对所有像素位置重复该更新过程，得到全图像调整后的新RGB值。最终得到针对仓库光照变化调整后的图像语义信息。该图像语义信息可以更准确表达新光照下仓库目标的语义信息。为后续的机器人精确定位与导航提供支持。

图4是根据本说明书一些实施例所示的图像数据和运动数据融合的示例性子步骤流程图，如图4所示，S410通过解析图像数据的元信息，提取图像语义信息的时间戳序列A；S420通过解析运动数据的时间戳，提取运动数据的时间戳序列B；S430建立基于LSTM的Seq2Seq模型，将时间戳序列A和时间戳序列B作为输入，输出匹配后的时间索引序列；S440根据时间索引序列，匹配图像语义信息和运动数据的时间序列。

具体地，LSTM（Long Short Term Memory）：一种循环神经网络结构，能有效学习长序列中时间相关的特征，并存储历史状态。Seq2Seq（Sequence to Sequence），一种端到端的编码器和解码器结构，将定长序列映射到定长序列，可用于时间序列的匹配。在本申请中，编码器端使用LSTM网络，输入时间戳序列A和B。LSTM提取时间序列的时序特征，学习时间关联信息。解码器端使用LSTM网络，输出时间匹配的索引序列。Seq2Seq端到端地将两时间序列映射到同一个匹配后的时间索引上。利用LSTM历史状态的存储，有效匹配两个异步时间序列。输出的时间索引序列匹配图像语义和运动数据的时间对应关系。最终用于时间对齐图像语义信息和运动数据。

具体地，构建Seq2Seq模型，输入为时间戳序列A和B，输出为匹配的时间索引序列。编码器端采用双层LSTM，分别输入时间戳A和B的特征序列。LSTM学习时间戳序列的时序依赖关系，输出时间特征。将两个LSTM的时间特征在每个时间步连接成一个联合特征作为解码器的输入。解码器端也使用LSTM结构，根据联合时间特征，逐步输出时间索引。输出索引与输入时间序列长度一致，表示匹配的时间对应关系。训练模型通过匹配成对的时间戳样本，调整LSTM权重。最终模型学习匹配函数，可以直接输出不成对时间戳的匹配索引。索引指向输入时间序列中匹配的时间位置。

具体地，在本申请中，输入经过时间对齐的图像语义信息序列A和运动数据序列B。输入生成的匹配时间索引序列I。根据时间索引Ii，在序列A中取出对应时间戳的图像语义信息ai。同时在序列B中取出索引Ii对应的运动数据bi。将匹配的图像语义信息ai和运动数据bi组合，作为第i个匹配的时序样本。重复该过程，通过时间索引I中所有元素，匹配序列A和B中的所有数据。最终得到完全对齐的图像语义信息和运动数据的时间序列数据。该匹配后的时间序列反映机器人运动过程对应的视觉信息。可用于构建描述环境与运动的数据集，供后续建模使用。

S450利用匹配后的时间索引序列，获取对应时间索引的图像语义信息；将获取的对应时间索引的图像语义信息输入IMM运动模型，预测对应图像采集时刻的运动位置；将预测的运动位置与对应时间索引的图像语义信息，通过建立匹配表进行配对。其中，输入经Seq2Seq模型匹配后的时间索引序列I。根据每个时间索引Ii，在对齐后的图像语义序列中取出对应图像语义信息ai。构建IMM（互动多模型）算法的运动预测模型。IMM模型集成多个运动动力学模型和数据驱动模型。输入时间索引Ii到IMM模型，预测该时刻的运动状态和位置pi。利用匹配时间索引Ii，建立表格，匹配语义信息ai和预测位置pi。重复该匹配过程，得到全部时间索引对应的图像语义信息和运动预测。最终得到匹配表，每行为一个时间索引，对应的语义信息与运动预测。匹配表整合了图像语义理解和运动预测的时空信息。

具体地，IMM（Interacting Multiple Model，互动多模型）运动模型，一种概率性的数据驱动建模方法，通过集成和互动调节多个子模型的方式进行运动预测。在本申请中，IMM集成了运动学模型、粒子滤波模型等多个子模型。运动学模型基于机器人动力学方程进行确定性预测。粒子滤波模型进行非线性非高斯分布下的贝叶斯预测。模型互动模块根据模型概率权重进行模型输出的融合。通过时间索引输入驱动IMM模型进行运动状态预测。输出预测结果包括对应时刻的位置、速度等。匹配时间索引对应的图像语义信息和运动预测输出。IMM模型融合确定性和概率方法，提高了运动预测的鲁棒性。

具体地，数据采集中获得的是机器人的运动数据，包括加速度、角速度等传感信息。而IMM模型中的运动位置是通过积分加速度信息等方式预测得到的，是相对于起始位置的坐标偏移信息。所以两者是不同但相关的概念，运动数据是原始传感信息，运动位置是对其进行处理积分得到的位置估计。IMM模型中的运动位置预测需要依赖数据采集中中获取的运动数据信息。运动数据提供了预测运动位置所需要的运动学模型的输入。预测得到的运动位置与匹配的图像语义信息作为节点构建八叉树，进行后续的融合处理。总体来说，运动数据是运动位置预测的输入，两者通过数据处理相关联。

具体地，在本申请中建立匹配表可以通过：将匹配表以CSV格式存储，每行包含时间索引、图像语义、运动位置。可以用Python中的CSV模块读写CSV匹配表。在数据库如SQLite中创建匹配表，将数据插入表中。可以用Python中的sqlite3模块操作SQLite匹配表。用NumPy数组存储匹配表，每行为一个匹配项。可以对数组进行索引切片等操作。用Pandas中的Data Frame表示匹配表，带有时间索引，方便查询。用字典存储匹配表，键为时间索引，值为含语义和位置的元组。以JSON格式存储匹配表，便于网络传输和跨语言使用。

更具体地，在本申请的具体实施例中，输入时间索引序列I，图像语义序列A，运动预测位置序列P。创建空的匹配数据表，包括3列：时间索引、图像语义、运动预测位置。遍历时间索引I，每取一个时间索引Ii：在序列A中找到Ii对应的图像语义ai，在序列P中找到对应位置pi。将Ii，ai，pi作为一行，加入匹配表中。重复该过程，直到所有Ii均遍历完成。最终得到每行为一个时间索引，对应该时刻的图像语义和运动位置的匹配表。保存匹配表为CSV数据文件或数据库表。也可以直接用Python字典生成匹配表，键为时间索引，值为（图像语义，运动位置）。后续可以根据时间索引快速查询匹配表，获取对应的数据。

S460在预测对应图像采集时刻的运动位置之后，还包括：获取与预测的运动位置通过匹配表配对的对应的图像语义信息；将获取的图像语义信息和对应的预测的运动位置作为节点，构建八叉树进行最近邻搜索；遍历搜索八叉树，选择节点间欧式距离最小的图像特征和运动位置进行对齐融合；其中，已构建匹配表，存储图像语义信息ai和对应预测运动位置pi。输入待匹配的新图像语义信息an和运动位置预测pn。在匹配表中搜索语义信息an的最近邻ai，得到配对的位置pi。利用an和pi构建一个新节点，插入到八叉树中。在八叉树中，节点特征为图像语义信息向量。从新插入节点开始，遍历八叉树进行最近邻搜索。计算新节点与已有节点之间的特征欧式距离。选择与新节点欧式距离最小的已有节点。取出该最近邻节点存储的图像语义和对应运动位置。将最近邻图像语义和运动位置与新节点的an和pn进行融合。最终得到与新数据匹配的图像语义和运动规划信息。

具体地，八叉树（Octree）：一种树形数据结构，利用空间划分来组织点云数据，使其可以高效地存储和访问空间数据。它与二叉树类似，不同的是八叉树每个节点最多有8个子节点。在本申请中，定义八叉树节点，包含图像语义特征向量、对应的运动位置坐标。计算图像语义特征向量的中心位置，作为分割空间的原点。递归地将空间等分成8个八分子空间，构建八叉树。将图像语义特征向量根据所在子空间插入对应的叶子节点。对每个非叶节点，存储其范围内的最大最小坐标。构建过程直到达到设置的最大深度或叶子节点数。最后得到以图像语义特征向量为点云的八叉树。八叉树节点同时保存运动位置，便于后续最近邻搜索与数据匹配。

具体地，最近邻搜索（Nearest Neighbor Search）：一种在特征空间中搜索样本最相近（距离最小）的邻居样本的算法。常用于搜索空间中与给定查询样本最相似的已知样本。在本申请中，已构建含图像语义特征的八叉树。输入一个新的图像语义特征向量作为查询样本。在八叉树中，计算查询向量与所有节点特征向量的距离，如欧式距离。返回距离查询向量最近的节点特征向量。该最近邻节点对应的图像语义信息，与输入查询样本最为相似。取出最近邻节点的运动位置，作为输入图像语义的匹配运动信息。实现快速搜索到与输入图像语义信息最相近的匹配内容。

具体地，欧式距离（Euclidean Distance）：两点间直线距离的度量，等于两点坐标差的平方和的平方根。在多维空间中，可以表示两点特征向量之间的相似度距离。在本申请中，计算新图像语义特征向量与八叉树中各节点的欧式距离。选择与新特征向量欧式距离最小的节点作为最近邻。取出该最近邻节点存储的图像语义信息和对应运动位置。对两者的语义特征向量进行拼接融合。对两者的运动位置坐标进行加权平均融合。权重按两者欧式距离的倒数分配，距离越近权重越大。经融合后得到与新数据更相似的特征表示和运动位置。作为对新数据的匹配调整结果。

图5是根据本说明书一些实施例所示的生成特征地图的示例性子步骤流程图，如图5所示，S510获取选择的图像特征的像素坐标作为特征点；S520根据特征点和对应的运动位置，构建扩展卡尔曼滤波EKF SLAM模型；S530设置扩展卡尔曼滤波EKF SLAM模型的状态变量包含机器人的位置和特征点的位置；S540根据扩展卡尔曼滤波EKF SLAM模型的预测更新，迭代优化特征点的位置，生成预设工作空间的初始特征地图。其中，已选择图像特征最小欧式距离的节点，获得图像语义特征和对应运动位置。从语义特征中提取像素坐标作为特征点。构建EKF SLAM模型，状态变量包含机器人位置和所有特征点位置。运动模型预测机器人位置，测量模型根据特征观测更新特征点位置。设置观测矩阵根据当前特征点对其他特征点的相对观测。EKF按时间顺序迭代进行预测和更新，优化所有特征点位置。利用匹配到的语义特征和运动轨迹作为EKF的先验输入。迭代EKF SLAM后得到初始特征地图，表示环境特征点分布。后续可继续增量优化地图，用于机器人自主导航。

具体地，扩展卡尔曼滤波EKF SLAM（Extended Kalman Filter SimultaneousLocalization and Mapping）,一种递归的概率过滤方法，同时进行机器人自身定位和环境地图构建。它线性化非线性系统，进行预测和更新，估计机器人和特征点的位置分布。状态变量（State Variable）：描述系统状态的变量，表示需要估计的状态量。如EKF SLAM中需要估计的机器人和地图特征点的位置。在本申请中，状态变量包含机器人位置和环境特征点位置。运动模型预测机器人位置，测量模型根据特征观测更新特征点位置。EKF递归地进行状态预测和更新，优化机器人和特征点的位置分布。利用匹配得到的特征和运动信息进行EKF的先验初始化。通过EKF迭代优化特征点位置，生成环境地图。地图表示环境特征的位置分布知识，可用于机器人导航。

更具体地，特征点（Feature Point）,环境中具有代表性和区分度的点，如图像角点、边缘点等，可用于SLAM构建环境地图。具有较稳定的特征。在本申请中，从匹配的图像语义中提取像素坐标作为特征点。将特征点位置加入EKF SLAM的状态变量中。运动模型预测机器人位置，测量模型根据特征点观测更新特征点位置分布。迭代EKF SLAM优化特征点位置，生成环境特征地图。特征点构成地图的节点，表示环境的特征模式。地图知识可用于机器人导航和自主探索。

更具体地，初始化EKF SLAM，状态变量包含机器人位姿和提取的特征点位置。进行时间步k的预测,用运动模型预测机器人的新位姿，传播特征点位置的先验估计和协方差矩阵；当有特征点观测时，进行更新：计算观测预测和残差，利用卡尔曼增益更新状态变量，包括特征点位置，重复预测和更新步骤，迭代EKF SLAM过程，每次更新都会优化特征点位置分布的后验估计，迭代终止时，当前所有特征点位置估计构成初始特征地图，地图包含环境中特征点的位置与分布信息，即得到预设工作空间内的初始特征表示，后续可继续优化地图，并用于导航、定位等。

S550构建递归贝叶斯滤波模型，以初始特征地图为观测输入；将初始特征地图中每个像素坐标作为递归贝叶斯滤波模型的状态变量；S560根据递归贝叶斯滤波模型的预测方程和更新方程，迭代优化每个状态变量；输出迭代优化后的状态变量构成的最终的特征地图。其中，输入已构建的初始特征地图，包含特征点的位置分布。构建递归贝叶斯滤波模型，状态变量为地图中的每个特征点。预测方程根据现有地图特征预测特征点位置分布。更新方程融合实际特征观测，修改预测的特征点状态。将初始地图特征作为递归滤波的第一轮输入。迭代递归预测和更新过程，逐步优化每个特征点状态。优化目标是减小特征点位置的方差，提高定位精度。重复迭代直到特征点状态足够稳定。最终迭代得到的特征点状态构成优化后的最终特征地图。地图作为知识表示，可支持机器人的自主任务与决策。

具体地，递归贝叶斯滤波（使用Bayesian Filtering）,一类递归地进行预测和更新的概率过滤算法，利用贝叶斯法则实现对动态系统状态进行在线估计。在本申请中，以初始特征地图为输入观测。每个特征点位置作为递归滤波的状态变量。预测方程基于当前状态预测特征点的位置分布。更新方程利用新观测结果修改状态的预测分布。递归地进行预测和更新，优化特征点位置分布。通过迭代使特征点定位更准确。最终输出优化后的特征点状态，构成精炼的特征地图。该地图知识可支持机器人自主任务与决策。

具体地，状态变量（State Variable）：描述系统状态的变量，需要使用贝叶斯滤波模型对其进行在线估计。如地图中的每个特征点的位置状态。在本申请中，初始化特征点状态变量，设置初始值和协方差矩阵。进行时刻k的预测步骤：根据运动和测量模型预测特征点状态先验值和协方差矩阵。当有特征点新观测时，进行更新步骤，计算Kalman增益，更新状态后验估计值和协方差矩阵。递归重复预测和更新过程。每次更新都会减小状态变量的协方差，增强估计精度。通过递归迭代，状态变量随着新观测被持续优化。终止递归时，输出优化后的状态变量。

具体地，在本申请中，构建递归贝叶斯滤波模型，状态变量为初始特征地图中的每个特征点。根据预测和更新方程迭代进行优化，经过多轮递归运算。每轮递归运算会更新特征点状态变量，提升定位精度。设置递归终止条件，如达到指定迭代轮数，或状态变化小于阈值。当递归结束时，收集所有特征点的当前状态变量值。将每个特征点的经优化后的坐标位置作为顶点。使用优化坐标重新构建二维网格地图或点云地图。栅格化地图中，每个像素由最终优化的特征描述。最终生成精炼的特征环境地图作为机器人感知世界的知识表示。

更具体地，在本申请的具体实施例中，在智能仓库中布置摄像头，获取环境图像信息。通过语义分割提取图像中的特征点，如门口、过道、架子等。构建一阶马尔可夫递归贝叶斯滤波模型。每个特征点位置状态作为滤波状态变量。根据当前特征点状态，预测下一时刻的特征点位置分布。融合新观测，更新特征点状态，进行递归优化。利用马尔可夫性质简化多步骤预测运算。递归终止时，收集所有特征状态变量生成地图。利用优化的特征地图进行机器人在仓库的精确定位。运用地图实现机器人的自主导航与路径规划。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：荆州双宇星晨装饰有限公司;

上一篇：信号处理方法、光通信接收机、通信设备、介质和产品
下一篇：一种患者隐私数据加密保护方法、系统、设备及介质