一种模型构建方法、位姿估计方法及物体拣取装置

文献发布时间：2023-06-19 11:35:49

技术领域

本发明涉及图像处理技术领域，具体涉及一种模型构建方法、位姿估计方法及物体拣取装置。

背景技术

在当今的制造业中，装配过程所用的时间、所花费的资金都比较多，为了提高生产效率，降低人力成本，人们开始探索利用机器人实现自动化装配。零件识别与抓取位置规划作为自动化装配过程中不可缺少的重要环节，对装配的质量有至关重要的影响，基于视觉的零件位姿判定与抓取位置规划可以明显提高产品装配的自动化程度、灵活度，减少耗时并降低成本，从而提高生产制造效率。机器人自动化装配涉及两项关键技术：零件识别与自动抓取。

计算机视觉技术在机器人非结构化场景感知中占据重要的地位。视觉图像是获取真实世界信息的有效手段，通过视觉感知算法提取对应任务的特征，如物体位置、角度、姿态等信息，从而使机器人能够执行对应操作，完成指定作业任务。对于工业机器人分拣而言，虽然能够利用视觉传感器获取场景数据，但如何从场景中识别目标物体，并估计其位置和姿态，从而计算工业机器人的抓取位置和抓取路径则成为核心问题。近几年，随着深度学习技术的快速发展，基于深度学习的位姿估计技术已经成为位姿估计领域的主流算法，但现有的基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息，对于工业上低纹理、具有反光表面的零件识别效果较差，对实现高效的零件自动化分拣产生一定的阻碍。

目前，比较成熟的基于人工智能的机器视觉抓取方法是依据相机采集的二维图像来预测工件位姿，但此方法往往缺失工件的立体三维信息，只能实现二维的位姿估计。传统强化学习方法在求解高维度状态和动作空间问题时，有较大的局限性，在有限样本和计算单元条件下对复杂函数的表示能力有限，实际应用中的表现往往不是很理想。同时，传统深度强化学习算法需要提供大量的数据进行训练，在训练过程中，机器人需要不断抓取试错，才有可能可以获得稳定的拣取能力；这种训练方法周期长、效率低，在实际训练过程中有安全隐患，往往无法满足工业生产应用的需求。

发明内容

本发明主要解决的技术问题是：如何提高机器视觉拣取的准确度。为解决上述技术问题，本申请提供一种模型构建方法、位姿估计方法及物体拣取装置。根据第一方面，一种实施例中提供一种位姿估计模型的构建方法，其包括：获取目标物体的密集融合数据；所述密集融合数据由目标物体的二维图像数据和三维点云数据通过异源融合而得到；根据所述密集融合数据对预设的网络模型进行训练，学习得到网络权重参数；根据所述网络权重参数配置形成所述目标物体的位姿估计模型。

所述网络模型包括骨干节点层和头节点层，所述头节点层包含分类层和回归层；所述骨干节点层用于根据所述密集融合数据构建所述目标物体的高级语义信息；所述高级语义信息包括所述目标物体的表面各特征点的坐标和特征向量；所述头节点层中的分类层用于处理所述高级语义信息以判定所述目标物体的类别和分值，所述头节点层中的回归层用于处理所述高级语义信息以预测所述目标物体的位姿和置信度。

对于所述网络模型中的回归层，根据所述高级语义信息中各特征点的坐标预测所述目标物体的一个或多个位姿，根据所述高级语义信息中各特征点的特征向量计算预测的各个位姿的置信度，以及比较各个位姿的置信度，确定最高置信度对应的位姿为最优位姿；建立针对所述网络模型的总损失函数，且表示为

L＝L

其中，L

所述根据所述高级语义信息中各特征点的坐标预测所述目标物体的一个或多个位姿，包括：获取所述高级语义信息中各特征点的坐标且表示为x

其中，M为选取的若干个特征点的数目，j为M范围内的遍历序号，

所述根据所述高级语义信息中各特征点的坐标预测所述目标物体的一个或多个位姿，包括：获取所述高级语义信息中各特征点的坐标且表示为x

其中，M为选取的若干个特征点的数目，j、k均为M范围内的遍历序号，

所述根据所述高级语义信息中各特征点的特征向量计算预测的各个位姿的置信度，包括：获取所述高级语义信息中各特征点的特征向量且表示为p

其中，p

所述根据所述密集融合数据对预设的网络模型进行训练，学习得到网络权重参数，包括：将所述密集融合数据输入所述网络模型，通过反向传播优化所述总损失函数，以及在所述总损失函数收敛时得到网络权重参数。

根据第二方面，一种实施例中提供一种目标物体的位姿估计方法，其包括：获取目标物体的场景图像；根据上述第一方面中配置形成的所述目标物体的位姿估计模型对所述场景图像进行处理，通过位姿估计得到所述目标物体的类别信息和位姿信息；输出所述目标物体的类别信息和位姿信息；

根据第三方面，一种实施例中提供一种用于目标物体的获取装置，其包括：传感器，用于采集目标物体的场景图像；处理器，与所述传感器连接，用于通过上述第二方面中所述的位姿估计方法对所述场景图像进行处理，以输出所述目标物体的类别信息和位姿信息；控制器，与所述传感器和所述处理器连接，用于控制所述传感器对所述目标物体进行取像，以及根据所述目标物体的类别信息和位姿信息控制一运动机构捕获所述目标物体。

根据第四方面，一种实施例中提供一种计算机可读存储介质，其特征在于，所述介质上存储有程序，所述程序能够被处理器执行以实现上述第一方面中所述的构建方法，以及实现上述第二方面中所述的位姿估计方法。

本申请的有益效果是：

依据上述实施例的一种模型构建方法、位姿估计方法及物体拣取装置，其中的模型构建方法包括：获取目标物体的密集融合数据；根据密集融合数据对预设的网络模型进行训练，学习得到网络权重参数；根据网络权重参数配置形成目标物体的位姿估计模型；其中的网络模型包括骨干节点层和头节点层，且头节点层包含分类层和回归层，骨干节点层用于根据密集融合数据构建目标物体的高级语义信息，头节点层中的分类层用于处理高级语义信息以判定目标物体的类别和分值，头节点层中的回归层用于处理高级语义信息以预测目标物体的位姿和置信度。一方面，由于位姿估计模型采用骨干节点层和头节点层对目标物体的密集融合数据进行了深度学习处理，那么可实现密集融合数据的深度分析，提高位姿估计模型对背景复杂、较强干扰的检测场景的全景信息重构能力，从而提高目标物体位姿检测的性能；另一方面，构建完成的位姿估计模型为目标物体的位姿估计提供了可能，只需要将目标物体的场景图像输入至模型即可通过提取物体特征来准确输出目标物体的类别信息和位姿信息，那么据此能够控制运动机构的运动路径，从而实现对目标物体的自适应抓取操作，特别是提高机器人对于散乱零件场景的分类拣取能力。

附图说明

图1为本申请中目标物体的位姿估计方法的流程图；

图2为网络模型的结构示意图；

图3为分类层和回归层的原理示意图；

图4为位姿估计的原理示意图；

图5为本申请中位姿估计模型的构建方法的流程图；

图6为训练网络模型的流程图；

图7为建立总损失函数的流程图；

图8为预测目标物体的位姿的流程图；

图9为本申请中用于目标物体的获取装置的结构示意图；

图10为处理器和控制器的结构示意图；

图11为一种实施例中位姿识别装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

中国作为全球五大工业机器人消费国之一，在2019年安装机器人数量同比增长59％，消费体量已经超过了欧洲和美国的总和，智能化的工业机器人需求量巨大。搬运及上下料的机器人应用占比超过三分之二，对其进行智能化升级所带来的附加价值明显。随着人工智能的发展，技术将逐渐侧重于基于人工智能技术工件抓取位姿估计，利用预先训练过的深度强化学习网络对图像进行数据降维和特征提取，根据特征提取结果得出机器人的控制策略，机器人利用控制策略来控制运动路径和机械手臂的位姿，从而实现目标的自适应拣取操作。

基于人工智能的机器视觉抓取方法是依据相机采集的二维图像来预测工件位姿，但此方法往往缺失工件的立体三维信息，只能实现二维的位姿估计。依据工件三维点云信息来估计工件位姿的人工智能方法还比较少，目前常用的是采用深度强化学习方法来实现的。然而，传统强化学习方法在求解高维度状态和动作空间问题时，有较大的局限性，在有限样本和计算单元条件下对复杂函数的表示能力有限，实际应用中的表现往往不是很理想。同时，传统深度强化学习算法需要提供大量的数据进行训练，在训练过程中，机器人需要不断抓取试错，才有可能可以获得稳定的拣取能力；这种训练方法周期长、效率低，在实际训练过程中有安全隐患，往往无法满足工业生产应用的需求。因此，本发明研究通过二维图像与深度信息相结合的方式对真实场景进行模拟，建立基于深度学习的位姿估计网络和多模态数据融合网络，构建相应的数据集通过不断迭代得到物体位姿估计算法，以提高机器人对于散乱零件场景的分拣能力。

下面结合实施例对本申请技术方案进行具体说明。

实施例一、

请参考图1，本申请公开一种目标物体的位姿估计方法，其包括步骤 S110-S130，下面分别说明。

步骤S110，获取目标物体的场景图像。

需要说明的是，本实施例中的目标物体可以是工业流水线上的产品、物件箱内的机械零件、操作台上的工具等，例如图9的工具箱内不规则形状的机械零件。那么，可以通过相机、视觉传感器等取像设备来获取目标物体的场景图像。

可以理解，目标物体的场景图像是指目标物体在一个简单或复杂场景中的二维取像结果和三维取像结果，比如RGB-D数据(即彩色图和深度图的配准数据)，场景图像中不仅包括目标物体，还可能包含有一些其它物体和背景，场景图像在内的视觉图像是获取目标物体所处场景的有效手段，通过视觉感知算法提取对应任务的特征，如物体位置、角度、姿态等信息，从而使机器人能够执行对应操作并完成指定作业任务。当然，目标物体的场景图像还可以单指目标物体在场景中的二维图像或者三维图像，只不过采用单一图像会降低物体某些特征的表达能力，影响到后续物体位姿估计的准确度。

步骤S120，根据预设的目标物体的位姿估计模型对场景图像进行处理，通过位姿估计得到目标物体的类别信息和位姿信息。

对于工业机器人分拣而言，利用视觉传感器获取场景数据，但如何从场景中识别目标物体并估计其位置和姿态，从而计算工业机器人的抓取位置和抓取路径则成为核心问题。基于深度学习的位姿估计技术已成为位姿估计的一种算法实现手段，以往基于深度学习的主流位姿估计算法大都依赖于物体表面的颜色、纹理等信息，对于工业上低纹理、具有反光表面的零件识别效果较差，对实现高效的零件自动化分拣产生一定的阻碍。在本实施例中，利用二维图像与深度信息相结合的方式对真实场景进行模拟，建立基于深度学习的位姿估计网络和多模态数据融合网络，构建相应的数据集通过不断迭代得到物体位姿估计算法(即位姿估计模型)，从而提高机器人对于散乱零件场景的分拣能力。那么，在利用已经构建好的位姿估计模型对场景图像进行位姿估计处理时，能够从场景图像中识别出目标物体并单独估计它的位姿，最终给出目标物体的类别信息和位姿信息。

步骤S130，输出目标物体的类别信息和位姿信息。目标物体的类别信息反映的是目标物体的属性，比如瓶子、果品、桌子、工具箱等，这与位姿估计模型的训练样本和标签属性有关，只要是训练好的模型则将能够输出物体类别。此外，目标物体的位姿信息反映的是目标物体的空间姿态，比如摆放位置、外表形状、姿态朝向等，这与位姿估计模型的估计算法有关，对于本申请中的位姿估计模型将准确估计出目标物体的空间姿态。

涉及的位姿估计模型是由一个网络模型经过样本训练学习而得到，那么位姿估计模型与该网络模型一样具有相同的网络结构。在一个具体实施例中，参见图2，网络结构具体包括骨干节点层100和头节点层200，其中的头节点层200 可包含分类层201和回归层202。

其中，骨干节点层100用于根据目标物体的场景图像构建目标物体的高级语义信息；这里的高级语义信息包括目标物体的表面各特征点的坐标和特征向量。头节点层200用于处理骨干节点层输出的高级语义信息，分析得到目标物体的类别和位姿。

其中，头节点层200中的分类层201用于处理高级语义信息以判定目标物体的类别和分值，头节点层200中的回归层202用于处理高级语义信息以预测目标物体的位姿和置信度。分类层201和回归层202都可采用图3中的全连接 +ReLU的网络结构方式，比如分类层201使用一层的全连接+ReLU，回归层202 采用两层的全连接+ReLU，一路高级语义信息经过一层全连接+ReLU之后即可运算得到目标物体的类别和分值，另一路高级语义信息经过另外两层的全连接 +ReLU之后即可运算得到目标物体的位姿和置信度。

需要说明的是，利用分类层201对高级语义信息进行处理时，会判断目标物体属于哪一个类别的可能性并通过类别对应的分值来进行数值化表示，分值越高则属于某个类别的可能性就越大，优选地选取最大分值对应的类别作为最终的类别判定结果即可。同样的，利用回归层202对高级语义信息进行处理时，会判断目标物体处于哪一种位姿的可能性并通过预测位姿的置信度来进行数值化表示，置信度越高则处于某种位姿的可能性就越大，优选地选取最大置信度对应的预测位姿作为最终的位姿判定结果即可。

在本实施例中，回归层202的主要作用是目标物体的位姿预测和置信度表示，那么回归层202的工作原理可用图4进行表示。高级语义信息(包含目标物体的特征向量和特征点坐标)输入至回归层，由回归层输出旋转矩阵R

参见图3，对于分类层，高级语义信息的特征向量和特征点坐标经过一个“全连接+ReLU”运算后可得到目标物体的类别数目和每个类别对应的分值，若目标物体可分为的类别数为n+1类(n为物体类别，1为背景)，那么经过分类层的全连接处理后，将得到n+1个分值。

参见图3和图4，对于回归层，高级语义信息的特征向量和特征点坐标经过两个“全连接+ReLU”运算后得到对应的位置估计

能够理解，本实施例中涉及的位姿估计模型是指是一种神经网络，其功能部件与模型本身的结构有关，还与模型的训练学习过程有关，所以为清楚的理解位姿估计模型的构建过程，将通过一构建方法进行具体说明，并且在下文的实施例二中详细说明位姿估计模型的构建方法。

实施例二、

请参考图5，本实施例中公开一种位姿估计模型的构建方法，其包括步骤 S210-S230，下面分别说明。

步骤S210，获取目标物体的密集融合数据，这里的密集融合数据由目标物体的二维图像数据和三维点云数据通过异源融合而得到。二维图像数据和三维点云数据是位于不同特征空间中的异构数据，因此可利用异构网络分别处理这两种数据，以便同时保留这两种数据本身的结构，充分利用物体深度信息和物体图像信息各自的优点，借助密集融合数据对目标物体的表面特征点进行准确表示。

需要说明的是，这里的目标物体可以是工业流水线上的产品、物件箱内的机械零件、操作台上的工具等。那么，可以通过相机、摄像机等光学取像部件采集目标物体的二维图像并生成二维图像数据；并且，可以通过诸如接触式或非接触式的扫描设备(如激光扫描设备)来获取目标物体的三维点云数据，甚至采用三维制图软件导出目标物体的三维点云数据，这里的三维点云数据可以是目标物体表面的一部分外观形状数据。在一个具体实施例中，为得到目标物体的二维图像数据和三维点云数据，可使用2D相机和3D相机配合进行取像，利用2D相机能够采集目标物体的二维图像，利用3D相机能够采集目标物体的三维点云；当然，也可采用RGB-D数据的3D相机来采集目标物体的三维图像和二维图像，从而由深度和彩色信息构成三维点云数据和二维图像数据。

步骤S220，根据密集融合数据对预设的网络模型进行训练，学习得到网络权重参数。

在一个具体实施例中，参见图2和图3，网络模型可包括骨干节点层100 和头节点层200，其中头节点层200包含分类层201和回归层202。并且，骨干节点层100用于根据密集融合数据构建目标物体的高级语义信息，高级语义信息包括目标物体的表面各特征点的坐标和特征向量。头节点层200中的分类层 201用于处理高级语义信息以判定目标物体的类别和分值，头节点层200中的回归层202用于处理高级语义信息以预测目标物体的位姿和置信度。关于网络模型中分类层201和回归层202的具体作用可参考实施例一中的相关说明。

需要说明的是，这里的密集融合数据作为训练样本输入至网络模型，通过迭代计算和网络反向传播算法优化网络，从而学习得到网络权重参数。

步骤S230，根据网络权重参数配置形成目标物体的位姿估计模型。将网络模型的各层参数配置为最终学习得到的网络权重参数，即可构建形成位姿估计模型。

在本实施例中，上述的步骤S210主要涉及获取目标物体的密集融合数据，下面将具体说明如何根据目标物体的二维图像数据和三维点云数据通过异源融合得到密集融合数据。

(1)获取目标物体的二维图像数据和三维点云数据。比如采用RGB-D数据的3D相机来采集相关数据，同时输出彩色图和深度图，此时RGB图像和Depth 图像是配准的，因而像素点之间具有一对一的对应关系。当然，某些情况下也可以采用2D相机和3D相机分别对应的数据，利用2D相机能够采集目标物体的二维图像，利用3D相机能够采集目标物体的三维点云。

(2)提取二维图像数据的语义信息以得到颜色空间特征，以及提取三维点云数据的点云特征以得到几何空间特征。

二维图像数据对应的图像内往往包含丰富的语义，比如图像语义的三个层次：低级语义、中级语义和高级语义；其中，低级语义为像素的颜色、纹理等，中级语义为图像块的粗糙度、对比度、紧凑性等，高级语义为图像或图像区域所包含对象的类别等。那么，提取二维图像数据的语义信息就可视为语义分割，主要是利用语义信息对图像进行分割处理，分割处理时可根据实际需要而选择哪些语义作为分割对象，既要考虑扩大感受野，也要考虑提高特征抽象。比如，提取二维图像数据的语义信息时，希望语义信息既包含高级语义，也包括低级语义，由于高级语义具备很好的抽象能力且低级语义具备很好的位置性，那么将二者有效的结合起来则能够在颜色空间上很好的表达物体，从而得到颜色空间特征。在一个具体实施例中，为得到颜色空间特征，可首先对二维图像数据所对应图像的感兴趣区域进行分割，获得掩膜数据；二维图像分割就是把图像分成若干个特定的、具有独特类别的区域并提出感兴趣目标的过程，它是由图像处理到图像分析的关键步骤，比如采用图像处理的二值化方法、基于深度学习的实例分割和语义分割，本发明优选地采用基于深度学习的语义分割方法。在本发明采用卷积神经网络进行语义分割时，可具体使用SegNet、FCN等分割网络。然后，根据掩膜数据通过裁剪二维图像数据所对应的图像，得到区域图像，以及将区域图像中的各像素点映射到颜色空间，得到低级的语义信息和/或高级的语义信息；由于掩膜数据对二维图像数据所对应图像的感兴趣区域有屏蔽作用，则可仅对感兴趣区域作处理，在感兴趣区域形成包围盒，从而裁剪出包围盒内的图像图，由此形成区域图像。接下来，根据低级的语义信息和/或高级的语义信息得到颜色空间特征；由于高级语义具备很好的抽象能力且低级语义具备很好的位置性，那么将二者有效的结合起来则能够在颜色空间上很好的表达物体，则优选地结合低级的语义信息和高级的语义信息以得到颜色空间特征。

三维点云数据是指目标物体在一个三维坐标系统中的一组向量的集合，以数据点的形式记录，每一个点包含有三维坐标。随着三维点云数据在众多领域的应用越来越广泛，三维点云数据的特征提取作为点云数据处理中的一项关键技术，是区域分割、曲面重建等后续工作的基础，影响着三点云数据的应用效果。三维点云数据的点云特征主要是指数据点的三维坐标向量，具体可为3D几何特征(比如半径、高程差、高程标准差、点密度)和3D局部形状特征(比如线性特征、平面特征、散乱特征、总方差、各向异性、特征值、法向量、曲率)，当然还可以包括颜色信息(如R、G、B)、反射强度信息(Intensity)。在本实施例中，希望通过三维点云数据建立高维特征，也就是要通过连续函数的拟合来表达三维点云数据的点云特征，由于点云也具备旋转特性，所以不论点云在怎样的坐标系下呈现，网络都能正确的识别出；为了提取三维点云数据的点云特征，提取过程可包括：首先将输入的三维点云数据映射到高维空间中，可以叫做特征提取层，然后将高维特征进行对称运算处理以获取特征提取层输出的局部不变性的特征信息，比如采用最大池化或平均池化等运算操作，最后将获取的特征进行组合运算以得到最终的点云特征；那么将点云特征在几何空间中得以表达之后，就可够得到几何空间特征。在一个具体实施例中，得到二维图像数据对应的掩膜数据的情况下，可将掩膜数据对应的像素点映射到几何空间，并在几何空间内与三维点云数据进行数据匹配，得到点云掩膜数据；比如在判断三维点云数据为有序点云的情况下，获取掩膜数据对应的像素点映射到几何空间的像素索引，根据像素索引确定三维点云数据映射到几何空间的数据索引，利用数据索引从三维点云数据中获取点云掩膜数据；或比如在判断三维点云数据为无序点云的情况下，获取掩膜数据对应的像素点映射到几何空间的像素坐标，根据预设的相机内参矩阵对像素坐标进行数值转换，得到点云坐标，利用点云坐标从三维点云数据中获取点云掩膜数据。然后，对点云掩膜数据进行特征变换，得到局部的点云特征和全局的点云特征。这里的特征变换是将输入数据通过一定的非线性变换生成一组新的高维度特征向量，从而得到不同维度特性的点云特征。最后，通过结合局部的点云特征和全局的点云特征得到几何空间特征。

(3)将颜色空间特征和几何空间特征进行融合处理，得到像素级融合特征。比如，将颜色空间特征中每个像素点的颜色特征和几何空间特征中与该像素点对应的点云特征进行通道上的拼接，从而得到像素级的融合特征。

(4)通过对像素级融合特征进行池化处理得到全局特征。比如，可以通过一卷积神经网络(CNN)对像素级融合特征进行全局平均池化处理或最大池化处理，处理后得到像素级融合特征对应的全局特征。比如，将像素级融合特征的一个副本送进CNN中进行信息整合，并利用一个全局平均池化或者最大池化获得全局特征；平均池化或者最大池化是为了解决点云的无序性问题，它是一个对称函数且输出的数值不取决于输入变量的顺序。

全局特征是指图像的整体属性，通常包括颜色特征、纹理特征和形状特征。由于全局特征是像素级的低层可视特征，因此全局特征具有良好的不变性、计算简单、表示直观等特点，但也具有特征维数高、计算量较大的特点。与全局特征相比，像素级融合特征具有局部图像特征的特性，在图像中蕴含数量丰富、特征间相关度小，即便遮挡情况下也不会因为部分特征的消失而影响其他特征的检测。此外，这里通过一个卷积神经网络进行池化处理来得到全局特征，能够增加算法对位置、尺度等变化特征的适应性，将全局特征与像素级融合特征进行组合，获取密集融合数据，可使得密集融合数据不仅具备了图像的局部特征信息和点云的局部特征信息，还具备像素级融合特征的全局特征信息，由此将低维特征通过非线性变换映射为可以反映物体信息的高维全局特征信息。

(5)对像素级融合特征和全局特征进行拼接，得到密集融合数据。这里的密集融合数据用于目标物体的表面特征点检测。比如，可将全局特征在通道上拼接到像素级融合特征的后面，得到一组具有上下文信息的融合特征，由于其是像素级的，因此也称为密集融合数据。

以上是利用目标物体的二维图像数据和三维点云数据通过异源融合得到目标物体的密集融合数据的过程，在得到密集融合数据的情况下，就可依此作为训练样本来对网络模型进行训练。

需要说明的是，一个密集融合数据可对应一个预测位姿，即第i个旋转矩阵 R和平移向量t，所以最终的输出是一组预测姿态。本实施例中可通过自监督的方式选择其中最优的预测姿态，并且对于每个预测姿态都对应输出一个置信度作为判断依据。可理解，网络模型对于姿态预测和置信度计算是通过对损失函数的设计来在训练优化中实现的，所以下面将对建立如何建立损失函数以及如何训练模型进行详细说明。

在本实施例中，参见图6，上述的步骤S220主要涉及网络模型的训练学习过程，具体可以包括步骤S221-S223，分别说明如下。

步骤S221，根据密集融合数据构建目标物体的高级语义信息，这里的高级语义信息包括目标物体的表面各特征点的坐标和特征向量。在一个具体实施例中，参见图2，利用网络模型中的骨干节点层100对密集融合数据进行处理，从而构建目标物体的高级语义信息。高级语义信息是指哪些具有很好的抽象能力且能够反映物体表面纹理、形状、轮廓特征的特征信息。

步骤S222，根据高级语义信息判定目标物体的类别和分值。在一个具体实施例中，参见图2，利用头节点层200中的分类层201处理高级语义信息以判定目标物体的类别和分值；比如判断目标物体属于哪一个类别的可能性并通过类别对应的分值来进行数值化表示，分值越高则属于某个类别的可能性就越大。

步骤S223，根据高级语义信息预测目标物体的位姿和置信度。在一个具体实施例中，参见图2，利用头节点层200中的回归层202处理高级语义信息以预测目标物体的位姿和置信度；比如判断目标物体处于哪一种位姿的可能性并通过预测位姿的置信度来进行数值化表示，置信度越高则处于某种位姿的可能性就越大。

例如图7，上述的步骤S223主要涉及预测目标物体的位姿和置信度的过程，具体可以包括步骤S310-S340，分别说明如下。

步骤S310，根据高级语义信息中各特征点的坐标预测目标物体的一个或多个位姿。由于目标物体的形状分为对称结构和非对称结构，所以需要根据情况而建立不同的损失函数来预测目标物体的位姿，所以步骤S310可具体包括步骤 S311-S314，具体内容可参考图8。

步骤S311，获取高级语义信息中各特征点的坐标和特征向量。比如，获取高级语义信息中各特征点的坐标且表示为x

步骤S312，判断目标物体的形状是否为非对称结构，若是非对称结构则进入步骤S313，若不是非对称结构(即为对称结构)则进入步骤S314。

步骤S313，在目标物体的形状为非对称结构的情况下，建立针对第i个位姿的第一损失函数，且表示为

其中，M为选取的若干个特征点的数目，j为M范围内的遍历序号，

那么，接下来可通过迭代计算并在总损失函数收敛时计算得到R和t，其中总损失函数的构建将在下面的步骤S340中说明。参见图2和图3，将高级语义信息(包含目标物体的特征向量和特征点坐标)输入至回归层，由回归层在迭代计算的过程中输出旋转矩阵R

需要说明的是，使用第一损失函数的目的就是最小化网络模型上的采样点在标记姿态下的坐标与在预测姿态下的坐标之间的欧氏距离的均值。当然，对于由不同的密集融合数据预测出的不同姿态，都有一个如上的损失函数。

需要说明的是，第一损失函数使用的对象为形状非对称的目标物体。若对象为形状对称的物体，则存在有多个不同的位姿可作为解，满足最优化问题。对于比如球型的对称物体，甚至存在有无限个位姿可作为最优化问题的解，因此上面的第一损失函数将变得模棱两可，这不利于网络模型的训练。

步骤S314，在目标物体的形状为对称结构的情况下，建立针对第i个位姿的第二损失函数，且表示为

其中，M为选取的若干个特征点的数目，j、k均为M范围内的遍历序号，

那么，接下来通过迭代计算并在总损失函数收敛时得到R和t，其中总损失函数的构建将在下面的步骤S340中说明。参见图2和图3，将高级语义信息(包含目标物体的特征向量和特征点坐标)输入至回归层，由回归层在迭代计算的过程中输出旋转矩阵R

需要说明的是，使用第二损失函数的目的就是对于每个在预测姿态下的网络模型采样点，都去寻找它在标注姿态下的网络模型采样点中的最近点，并计算这对采样点之间的距离，然后对这些距离的均值求最小值。这个第二损失函数在优化计算的过程中，会逐渐使得标注姿态信息和预测姿态信息的模型的各个对应的点都贴合在一起，最终只能收敛出一个最优值，它避免了以对称的分布去贴合物体的形状就可以成为优化目标的可行解情况，而是需要逐点贴合才可以成为优化目标的可行解。

步骤S320，根据高级语义信息中各特征点的特征向量计算预测的各个位姿的置信度。在一个具体实施例中，若高级语义信息中各特征点的特征向量表示为p

其中，p

步骤S330，比较各个位姿的置信度，确定最高置信度对应的位姿为最优位姿。可以理解，置信度越高则处于某种位姿的可能性就越大，那么选取最大置信度对应的预测位姿作为最终的位姿判定结果可保证预测结果的准确性。

步骤S340，在得到第一损失函数L

L＝L

其中，L

需要说明的是，这里得到的总损失函数L用于在网络模型进行训练时起到迭代计算的作用，那么，可将密集融合数据输入网络模型，通过反向传播优化总损失函数L，以及在总损失函数L收敛时得到网络权重参数。在得到网络模型的网络权重参数之后，就可配置形成用于目标物体的姿态估计模型。

本领域的技术人员能够理解，本申请实施例二介绍了位姿估计模型的构建方法，在构建好姿态估计模型之后即可用作对目标物体的姿态估计操作。本实施例一介绍了目标物体的位姿估计方法，只需要将场景图像作为输入，通过位姿估计模型的位姿估计处理，不仅可输出目标物体的类别信息(即目标物体最可能属于哪一类物体)，还可输出目标物体的位姿信息(即目标物体最可能处于哪一种预测姿态)。

实施例三、

请参考图9，本实施例中公开一种用于目标物体的获取装置，其主要包括传感器41、处理器42、控制器43和运动机构44，下面分别说明。

传感器41用于采集目标物体的场景图像，关于场景图像的说明可参考上文实施例一中的相关内容。这里的传感器41可以是一些具有图像采集功能的视觉传感器，如摄像设备、激光扫描设备。这里的目标物体可以是工业流水线上的产品、物件箱内的机械零件、操作台上的工具等，不做具体限定。

处理器42与传感器连接。处理器42用于通过实施例一中公开位姿估计方法输出目标物体的类别信息和位姿信息。关于处理器42使用的提取方法可以参见实施例一中的步骤S110-S130。

控制器43与传感器41和处理器42连接。控制器43用于控制传感器41采集目标物体的场景图像，比如可设置传感器41的图像采集时间、采集间隔、采集位置等参数。此外，控制器43还用于根据处理器42输出的目标物体的类别信息和位姿信息控制运动机构44捕获目标物体。比如在图9中，控制器43可以根据处理器42输出的类别信息和位姿信息输出运动指令至运动机构44，使得运动机构抓取工具箱内的目标物体45。

在本实施例中，运动机构44为具有机械臂的夹爪或者吸盘；该运动机构44 用于接收控制器43发出的控制指令并在机械臂的运动范围内对目标物体进行抓取或者吸取操作。如果通过类别信息确定目标物体为圆柱体，则运动机构44对圆柱体采取抓取操作；如果通过类别信息确定目标物体为平面体或球体，则运动机构44对平面体或球体采取吸取操作；如果通过位姿信息确定平面体处于倾斜状态，则运动机构44转动吸盘至倾斜吸取角度。可以理解，运动机构44采用适配的操作方式可以增强对目标物体的获取作业效果。

在一个具体实施中，参见图10，处理器42可以包括图像获取模块421、位姿估计模块422。其中，图像获取模块421用于获取目标物体的场景图像，比如直接从传感器41获取RGB-D数据，从而得到同时具有彩色和深度信息的场景图像；位姿估计模块422和图像获取模块421连接，用于对目标物体进行类别判定和位姿估计，从而得到目标物体的类别信息和位姿信息。

在一具体实施例中，参见图10，控制器43包括优化模块431和控制模块 432。其中，优化模块431和处理器42中的位姿估计模块422连接，用于根据目标物体相对于传感器41的位姿信息规划运动机构44的运动路线和抓取/吸取位置。其中，控制模块432与优化模块431连接，用于输出控制指令，一方面控制运动机构44按照规划的运动路线和抓取位置对目标物体进行抓取/吸取，另一方面控制模块432还输出控制指令来控制传感器41采集目标物体的图像。

本领域的技术人员可以理解，本实施例中公开的目标物体拣取装置能够使得控制器根据处理器输出的位姿信息控制运动机构准确地抓取/吸取目标物体，在保证执行效率的同时还能有效地提高抓取/吸取的准确度，增强装置在应用过程中的实用性能。

实施例四、

请参考图11，本实施例公开一种用于目标物体的位姿估计装置，其可以包括存储器51和处理器52，下面分别说明。

存储器51作为计算机可读存储介质，用于存储程序，该程序可以是实施例一中位姿估计方法S110-S130对应的程序代码。

当然，存储器52还可以存储一些网络权重参数、网络训练过程数据，还可以存储二维图像数据、三维点云数据、训练样本数据、类别信息、位姿信息等数据。

处理器52与存储器51连接，用于执行存储器51中存储的程序以实现相应的位姿估计方法。在一个具体实施例中，处理器52实现的功能可以概括为：从传感器获取目标物体的场景图像；根据配置形成的目标物体的位姿估计模型对场景图像进行处理，通过位姿估计得到目标物体的类别信息和位姿信息；向控制器输出目标物体的类别信息和位姿信息。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨洋;
专利申请人：深圳市华汉伟业科技有限公司;

上一篇：一种用于电力物联网的云边数据协同方法
下一篇：异面结构硅片及其制备方法、太阳电池及其制备方法