掌桥专利:专业的专利平台
掌桥专利
首页

一种基于混合注意力机制的双向金字塔结构的三维点云补全方法

文献发布时间:2023-06-19 19:30:30


一种基于混合注意力机制的双向金字塔结构的三维点云补全方法

技术领域

本发明涉及三维点云补全领域,尤其涉及一种基于混合注意力机制的双向金字塔结构的三维点云补全方法。

背景技术

三维重建技术可以对各种三维场景进行自动构建,从而减少人工设计费用以及缩短设计周期等,为社会生活创造巨大的经济效益。点云是数字化时代最具代表性的三维数据,是现实世界映射到数字世界的最精准的表现形式。点云数据由于具有空间细节丰富、采集方便等优点,成为许多场景理解相关应用的首选表示。

在真实的扫描环境中,直接从三维传感器获取的点云往往因为传感器分辨率的限制或者一些物体遮挡等因素导致生成的点云是稀疏的、不完整的。点云模型的不完整性会对后续应用产生严重的影响。因此,点云缺失数据的补全成为了三维模型研究与应用的关键。点云补全技术可应用于以下领域:

(一)智慧城市:利用激光扫描与倾斜摄影测量城市三维点云数据,通过点云补全技术可以更全面、更精细、更实时、更真实地可视化与定量化城市三维模型。

(二)文物推广:利用三维扫描设备采集陶艺等作品的三维彩色点云数据,通过点云补全等方法得到完整的优化彩色点云信息,从而进行数字化的推广与宣传。

(三)医学影像分析:基于医学点云数据的补全、分类、分割、配准、目标检测等任务可以辅助医生进行更为准确的诊断和治疗,在临床医学以及个性化医疗器械辅助设计与3D打印有着重要的应用价值。

(四)机器人&工业自动化:使用三维点云进行补全、聚类、分割后将结果融合到SLAM(即时定位与地图构建)中,进行智能导航。

得益于3D采集技术的蓬勃发展,包括各种类型的3D扫描仪、激光雷达和RGB-D相机在内的3D传感器正在以更低的成本迅速普及,用于展现更加丰富的几何、形状和尺度信息。现阶段3D数据广泛应用于多个领域,包括但不限于自动驾驶、机器人、遥感和医疗等。同时在展现形式上,3D数据也拥有深度图像、点云、网格和体积网格等多种格式。其中,点云作为一种常用的格式,在不进行任何离散化的情况下,保留了三维空间中原始的几何信息。因此,点云数据得到广泛应用。

但在实际的采集数据过程中,由于视线遮挡或技术人员操作不当等原因,获取到的点云模型会存在形状不完整的问题。点云模型的不完整性会对后续应用产生严重的影响。因此,对点云缺失数据进行补全成为了三维重建以及三维数据识别、检测等应用的关键。

相关点云补全技术中,模型结构比较简单,提取点云数据的特征不够丰富、区分度不足,因此对于不同类别的补全点云精确度不高、细节信息不够完整,无法满足高精度点云补全的需求及后续三维数据识别、检测等应用。

发明内容

本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,以克服上述技术问题。

一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,包括,

步骤一、获取三维物体的三维点云;

步骤二、将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,

所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F

步骤三、将输出特征向量F

优选地,所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。

优选地,所述分别根据混合注意力模块将Z

S31、通过通道注意力模块对向量Z

CA=W

CA为通道注意力模块的输出向量,Z

S32、通过点注意力模块对向量Z

PA=W′

其中,PA为点注意力模块的输出向量,pool’是点平均池化层,W'

S33、根据公式(3)对Z

F′

其中,σ为Sigmoid函数,

S34、分别对Z

优选地,所述双向注意力金字塔结构的多级补全损失函数为公式(4),

其中,

d

一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,

获取模块,用于获取三维物体的三维点云;

特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F

预测模块,用于将输出特征向量F

本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明方法流程图;

图2是本发明含有注意力机制的多层感知机结构;

图3是本发明混合注意力模块结构图;

图4是本发明ShapeNet-55的定性结果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明方法流程图,如图1所示,本实施例的方法可以包括:

步骤一、获取三维物体的三维点云;

步骤二、将所述三维点云输入点云编码器,三维点云经过点云编码器处理后得到输出特征向量,

所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F

所述含有注意力机制的多层感知机包括第一层感知机、第二层感知机、第三层感知机、第四层感知机、第五层感知机、第一层池化层、第二层池化层、第三层池化层、第四层池化层以及通道注意力模块,第一层感知机的神经元大小为64,第二层感知机的神经元大小为128,第三层感知机的神经元大小为256,第四层感知机的神经元大小为512,第五层感知机的神经元大小为1024,通过第一池化层获取第二层感知机输出的全局特征,其维度为128,通过第二池化层获取第三层感知机输出的全局特征,其维度为256,通过第三层池化层获取第四层感知机输出的全局特征,其维度为512,通过第四层池化层获取第五层感知机输出的全局特征,其维度为1024,将获取的全局特征通过连接操作横向拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量。将获取的全局特征通过连接操作拼接为一个1920维的特征向量,通过通道注意力模块将特征向量转换为一个多层次特征向量,多层感知机的不同维度可以提取低、中、高级特征,每一级特征都包含丰富的点云信息,含有注意力机制的多层感知机结构如图2所示。

步骤三、将输出特征向量F

分别根据混合注意力模块将Z

所述分别根据混合注意力模块将Z

S31、通过通道注意力模块对向量Z

CA=W

CA为通道注意力模块的输出向量,Z

S32、通过点注意力模块对向量Z

PA=W′

其中,PA为点注意力模块的输出向量,pool’是点平均池化层,应用点平均池化层得到一个大小为1×L的全局特征向量,W′

S33、根据公式(3)对Z

F′

其中,σ为Sigmoid函数,可以将注意力权重归一化到[0,1]区间。通过以上操作,可以使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,

S34、分别对Z

本实施例在传统金字塔结构基础上,不仅添加了自底向上的路径聚合网络,还添加了跨层级连接。通过充分融合具有丰富全局信息的高级特征和具有几何细节信息的低级特征,网络可以更准确的预测点云的缺失结构。同时,引入混合注意模块来学习不同层级特征之间的重要性,进行有选择地融合特征,从而提升点云补全精确度。

将输出特征向量F'

其中,双向注意力金字塔结构包括第六全连接层、第七全连接层、第一卷积层、第二卷积层、第三卷积层、第一混合注意力模块、第二混合注意力模块、第三混合注意力模块以及第四混合注意力模块,第六全连接层用于提取特征向量F'

所述双向注意力金字塔结构的多级补全损失函数为公式(4),

其中,

d

一种基于混合注意力机制的双向金字塔结构的三维点云补全装置,包括,

获取模块,用于获取三维物体的三维点云;

特征提取模块,用于将所述三维点云输入点云编码器,所述三维点云经过点云编码器处理后得到输出特征向量,所述点云编码器包括含有注意力机制的多层感知机、第一全连接层以及第二全连接层,所述含有注意力机制的多层感知机包括M层感知机、M-1层池化层以及通道注意力模块,分别通过第i层池化层获取第i+1层感知机输出的全局特征,M-1≥i>0,将获取的M-1个全局特征通过连接操作拼接为一个特征向量,所述拼接为将各个全局特征进行横向叠加,通过通道注意力模块从特征向量中提取的特征信息,根据提取的特征信息构建多层次特征向量,通过第二全连接层将多层次特征向量转换为输出特征向量F

预测模块,用于将输出特征向量F

比较了本实施例中的方法和其他方法在ShapeNet-13和ShapeNet-55两个公开数据集的预测F

其中,d

(一)ShapeNet-13数据集结果。比较了本实施例提出的模型与实施例在13个类别上的倒角距离优于其他方法。表明,该方法能较好地生成缺失点云,准确率更好。

表1本实施例与其他方法在ShapeNet-13数据集上的比较结果

成对数字为倒角距离×10

(二)ShapeNet-55数据集结果。比较了本实施例的模型与PF-Net在ShapeNet-55数据集的结果,如表2所示。根据数据集中55个类别的数量将其分为简单等级、中等等级和较难等级。超过2500个数据的类别定义为简单等级。少于80个数据的类别定义为较难等级。处于二者之间属于中等等级。表中数据说明,本实施例的三个等级倒角距离和55个类别的平均倒角距离均小于PF-Net方法。此外,还比较了PF-Net和本实施例可训练参数的数量,本实施例在更少的网络参数情况下具有更优的性能。

表2本实施例与PF-Net在ShapeNet-55数据集上的比较结果

同时,展示了Shapenet-55数据集中三个等级的定性结果,如图4所示。每个等级展示了三个示例。对于各种类别,本实施例可以以更高的精度和更多的细节实现缺失点云的补全。

整体的有益效果:

本发明提供一种基于混合注意力机制的双向金字塔结构的三维点云补全方法,通过通道注意力模块生成具有更多细节的点云结构,通过混合注意力模块使卷积神经网络从不完整的点云结构中提取有利于推断缺失点云区域的特征,从而得到更有效的几何信息,通过双向注意力金字塔结构可以更准确的预测点云的缺失结构,能较好地生成缺失点云,准确率更好,同时在更少的网络参数情况下具有更优的性能。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120115936135