一种图协同单目实例三维重建方法

文献发布时间：2023-06-19 19:28:50

技术领域

本发明涉及一种基于图组合的单目实例三维重建方法，属于计算机视觉的实例物体三维重建技术领域。

背景技术

在智能制造领域，有大量生产场景需要对目标对象的加工件进行三维模型重建，以用于机器人后续的智能操控和生产，比如智能抓取、路径规划、智能打磨和安装等等。

基于扫描的三维重建设备精度高，但是价格却非常昂贵。同时现有三维模型重建方法存在诸多难点，比如：双目多线激光的误匹配点难以剔除，双目视差受到环境光的干扰影响比较大。空间编码的结构光方法只需一对图像就可以三维重建，但是易受光照等因素导致编码信息缺失且精度较低。基于单目加工件二维图像的三维重建通常仍需要几何监督。最新神经辐射场单视图方法输入时通常需要加工件额外的几何结构信息，且对复杂场景的监督学习代价昂贵。

发明内容

本发明所要解决的技术问题是：在智能制造生产场景加工件的三维模型重建过程中，解决单目单视图二维图像输入产生的新视图与深度合成中的遮挡问题、对于加工件额外的几何结构信息的依赖问题，以及其他算法对算力的巨大需求而导致的建模时延的问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种图协同单目实例三维重建方法，包括如下步骤：

S1、构建一个由多个二维图像序列组成的图像数据集，作为训练集；

S2、以图像序列中的每个序列第一帧作为输入条件，计算图像中目标物体实例的神经表征，神经表征在所有序列之间共享，并由其他帧进行递归学习优化；

S3、在神经表征基础上，构建神经表征映射场进行序列间映射场泛化；

S4、提取给定序列第一帧目标物体实例的像素语义特征量，预测输入帧中的像素点密度和颜色；

S5、根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子，合成和更新深度视图；

S6、根据像素的图协同因子构建图协同群组；

S7、在更新的深度视图基础上，采用图协同群组方法实现单目二维图像到三维的重建。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S1中，该训练集由

其中，

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S2中，训练集

其中，

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S3中，构建神经表征映射场

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S4具体包括：

S401、在序列间映射场泛化基础上，给定序列的第一帧

S402、接着选择其他帧中的每行抽取一帧

其中

S403、将每个采样三维点

S404、预测输入帧中的像素点密度ξ和RGB颜色Hue。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S5具体包括：

S501、根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子

其中

S502、在源图像

其中

S503、将步骤S502中所述损失函数用于训练并计算得到图协同因子，进而合成和更新深度视图。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S6具体包括：

步骤S601、根据图协同因子构建图协同群组：由于一个三维点

步骤S602、构造图协同单目架构实现实例的三维重建，对每个单独的

其中

步骤603、使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子；一组由图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组表示为：

表示图协同算子、/>

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S7具体包括：

步骤701、设图协同网络架构是由N个堆叠的图协同群组组成，根据

步骤702、匹配选择和位姿计算，计算相机位姿匹配置信度得分

代表了二维到三维映射的预测，其中函数sigmod(x)＝1/(1+exp(-x))，物体在相机坐标中的姿态通过透视点算法计算得到；

步骤703、在相机位姿匹配置信度得分

其中

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明基于图协同群组算法显著节约了算力消耗，实现实时在线三维模型重建。使得在智能制造生产场景中，加工件的三维重建与操控实时性需求的问题得到有效解决。

附图说明

图1是本发明的方法总体步骤示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提出一种图协同单目实例三维重建方法，构建一个由多个二维图像序列组成的图像数据集作为训练集，图协同单目方法学习从单个单目RGB图像推断场景几何，以递归学习方式使用图像条件神经辐射场进行模型训练。在神经表征基础上，构建神经表征映射场进行序列间映射场泛化。提取给定序列第一帧目标物体实例的像素语义特征量，预测像素点密度和颜色。根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子，合成和更新深度视图。根据像素的图协同因子构建图协同群组。在更新的深度视图基础上，采用图协同群组方法实现单目二维图像到三维的重建。

如图1所示，本发明所提出的方法实施步骤如下：

步骤1:构建一个图像数据集作为训练集，该训练集由

其中

步骤2:从单个单目RGB图像

步骤3:在神经表征基础上，构建神经表征映射场

步骤4:在序列间映射场泛化基础上，给定序列的第一帧

中的每行抽取一帧(共计

步骤5:根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子

其中

步骤6:根据上述步骤获得的图协同因子构建图协同群组。

步骤7:在合成和更新的深度视图基础上，采用上述步骤构建的图协同群组方法实现单目二维图像到三维的重建。

作为本发明的一个具体实施例，上述总体步骤6具体如下：

步骤一、根据图协同因子构建图协同群组。直接的二维到三维映射需要三维特征描述算子，由于一个三维点

步骤二、构造图协同单目架构实现实例的三维重建，对每个单独的

其中

步骤三、在图协同算子之后进一步使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子。一组图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组

作为本发明的一个具体实施例，上述总体步骤7具体如下：

步骤一、所提出的图协同网络架构是由N个堆叠的图协同群组组成。根据

步骤二、匹配选择和位姿计算，计算相机位姿匹配置信度得分

代表了二维到三维映射的预测，其中函数sigmod(x)＝1/(1+exp(-x))，物体在相机坐标中的姿态通过透视点算法计算得到。

步骤三、在相机位姿匹配置信度得分

(其中

本发明提出的创新算法，除了不使用CAD模型或额外的网络训练外，OnePose的单次拍摄设置与现有的实例或类别级姿态估计方法相比有很多优势。

在映射阶段，OnePose将物体的简单视频扫描作为输入，并建立物体几何形状的特定实例三维表示。与CAD模型在实例级方法中的作用类似，物体的三维几何形状对于恢复具有度量尺度的物体姿势至关重要。

在定位阶段，OnePose中学习到的局部特征匹配可以处理视角、光照和尺度的巨大变化，使该系统与类别级方法相比更加稳定和稳健。基于局部特征的管道还允许姿势估计模块与基于特征的跟踪模块自然耦合，以实现高效和稳定的姿势跟踪。

本发明所提出的基于图协同单目架构实现的实例三维重建，相比于现有其他同类方法，显著节约了算力消耗，实现了在线实时的三维重建。

图协同单目模块只接受稀疏的关键帧图像作为输入。为了智能制造生产场景中获得稳定的物体三维模型，本发明为图协同单目架构配备了基于特征的图协同群组，该群组处理测试序列中的每一帧，在线重建三维模型并维护其自身的关键帧池。在每个时间点，跟踪采用紧密耦合的方法，依靠预先建立的图协同因子和在线建立的三维映射来寻找二维三维对应关系并解决六维位姿估计问题。

由于图协同模块在线构建的三维映射中保留了测试序列的二维和三维信息，本发明比现有其他SOTA方法更加稳定(见下表，基于我们构建的智能制造生产场景加工件三维模型重建数据集)。图协同模块有助于在线三维重建失效时进行重载初始化，显著提升了算法鲁棒性。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：曹东;
专利申请人：无锡东如科技有限公司;

上一篇：三维模型的云渲染系统、方法、装置、设备、介质及产品
下一篇：含硫并环类衍生物抑制剂、其制备方法和应用