掌桥专利:专业的专利平台
掌桥专利
首页

基于图拓扑的三维网格模型分类方法、装置和存储介质

文献发布时间:2023-06-19 11:32:36


基于图拓扑的三维网格模型分类方法、装置和存储介质

技术领域

本发明涉及智能信息处理技术领域,尤其是一种基于图拓扑的三维网格模型分类方法。

背景技术

虽然二维图像领域的技术已经较为成熟,但是现有技术关于三维模型的理解和处理方法仍处于比较低水平的状态。三维模型理解能力的提升必然会使现阶段的自动驾驶、机器人和增强现实等领域的相关技术产生重大突破。三维模型的表达方式多种多样,最常见的表达方式有点云表示、体素表示和三角网格表示等。其中三维模型的三角网格表示的使用相当广泛。然而其极度不规则的特性使得三维网格模型的理解变得十分困难。因此,如何更好地对三维网格模型建模、提取有效的特征表示以优化下游任务的性能是一项十分有意义的任务。

三维网格模型的建模方式对于提取特征的有效性有着至关重要的影响。现有的三维网格模型算法往往以网格作为基本单元(如MeshNet),此类方法考虑网格的中心点、端点和法向量,其本质上还是对顶点的加工处理,此类方法包含过多冗余信息,也丢失了部分原始信息,不利于三维网格特征的有效提取;有些方法以相邻网格对作为基本单元(如MeshCNN),此类方法要求三维网格模型必须是水密(watertight)的,而这样的约束在很多情况下是难以满足的,因此此类算法的普适性不足。

发明内容

为了解决上述背景技术中存在的问题和现有技术的缺陷,本发明设计了一种更好的三维网格模型的建模方式,提出一种基于图拓扑的三维网格模型分类方法,包含以下步骤:

采用网格简化算法对输入的三维网格模型进行简化;

提取所述三维网格模型的图拓扑结构;获取上述图拓扑结构的节点和连边;

通过节点特征编码器对上述节点的坐标进行特征编码,得到第一特征向量;通过连边特征编码器对上述连边进行特征编码,得到第二特征向量;

将上述第二特征向量池化为单一特征,并将上述单一特征和上述第一特征向量拼接、共同编码并获得完整的节点特征;

结合上述图拓扑结构,利用图卷积神经网络将每个上述节点的邻居节点的特征融合到上述节点自身的特征;

对上述三维网格模型的上述节点特征进行全局池化,得到上述三维网格模型的单一特征表示;

将上述单一特征表示输入到分类网络中,得到上述三维网格模型的各个类别的预估概率。

进一步地,上述采用网格简化算法对输入的三维网格模型进行简化这一步骤具体为:

根据自适应的顶点聚类算法,执行循环体;上述循环体为:若上述第一网格数小于上述预设阈值,则不进行网格化简;否则,根据第二网格数动态调整上述顶点聚类算法中顶点簇的尺寸,通过增大上述顶点簇的尺寸减小上述第二网格数或通过减小上述顶点簇的尺寸增大上述第二网格数;若上述第二网格数大于上述预设阈值,则增大一倍上述顶点簇的尺寸;若上述第二网格数小于上述预设阈值,且减小一倍上述顶点簇的尺寸后,上述第二网格数依然小于上述预设阈值,则减小一倍上述顶点簇的尺寸;上述循环体结束条件为:上述第二网格数小于上述预设阈值;

上述第一网格数为上述输入的三维网格模型的网格数;上述第二网格数为上述顶点聚类算法输出的调整后的上述三维网格模型的网格数。

进一步地,上述图拓扑结构的节点对应上述三维网格模型的顶点,上述连边对应上述三维网格模型的上述顶点互相连接形成的边。

进一步地,上述节点的特征为上述节点的三维坐标;上述连边的特征为上述节点指向另外节点的有向向量。

进一步地,上述节点特征编码器、上述连边特征编码器均为两层深度神经网络;上述两层深度神经网络包含第一层和第二层;上述第一层实现输入特征的3维到隐层特征256维的映射;上述第二层实现隐层特征到输出特征256维的映射,上述第一层和上述第二层均包含一个全连接层、批归一化层和ReLU激活层。

进一步地,上述结合上述图拓扑结构,利用图卷积神经网络将每个上述节点的邻居节点的特征融合到上述节点自身的特征这一步骤具体为:

根据上述图拓扑结构,提取每一个上述节点的自身坐标特征和用上述连边的特征多对一映射的节点特征并通过上述连边特征编码器进行特征编码后,将每一个上述节点的上述邻居节点的特征经过编码、池化和卷积后,和上述节点自身的特征拼接在一起。

进一步地,上述图卷积神经网络加入两个图卷积层;通过上述图卷积层,每个上述节点获取到至多两跳上述邻居节点的特征。

进一步地,上述将上述单一特征表示输入到分类网络中,得到上述三维网格模型的各个类别的预估概率这一步骤所用到的分类器采用深度神经网络,在训练时上述深度神经网络以交叉熵为优化目标,使用梯度下降算法进行端对端的训练。

另一方面,本发明还提供一种基于图拓扑的三维网格模型分类装置,包括存储器和处理器,上述存储器用于存储至少一个程序,上述处理器用于加载上述至少一个程序以执行上述的一种基于图拓扑的三维网格模型分类方法。

另一方面,本发明还提供一种计算机可读存储介质,该存储介质包括有计算机可执行指令,上述计算机可执行指令用于使计算机执行上述的一种基于图拓扑的三维网格模型分类方法。

本发明的有益效果是:本发明以顶点为节点构建三维网格模型的图拓扑结构,将每个节点到邻居节点的有向向量输入到连边编码器中编码,在通过池化层将其处理为单一特征;将单一特征和节点自身的特征相融合得到信息更丰富更有效的节点特征表示,从而获得更优秀的三维网格模型表示。同时在节点特征包含更丰富信息的基础上,本发明结合了图卷积算法,使得每个节点的信息在图上进行有效地传递,图上的每个节点都能够获取其一定跳数范围内的邻居节点的信息,进而使得每个节点不局限于只包含节点自身的信息,而是包含了更丰富的邻域信息。本发明充分保留并高效利用三维网格模型的信息,使得对所有节点进行特征的全局池化后得到的三维网格模型的全局特征表示在分类任务上能够取得更好的性能,大大提高了三维网格模型分类方法的泛化性和精准度。

附图说明

说明书附图1为本发明实施例一种基于图拓扑的三维网格模型分类方法的流程图;

说明书附图2为本发明实施例自适应的顶点聚类算法的流程图;

说明书附图3为本发明实施例节点自身特征和一跳邻居节点特征示意图;

说明书附图4为本发明实施例经过两层图卷积后节点的二跳邻居节点特征示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明:

实施例1

本发明提出一种基于图拓扑的三维网格模型分类方法,如图1所述,包含以下步骤:

S1.采用网格简化算法对输入的三维网格模型进行简化;

S2.提取所述三维网格模型的图拓扑结构;获取上述图拓扑结构的节点和连边;

S3.通过节点特征编码器对上述节点的坐标进行特征编码,得到第一特征向量;通过连边特征编码器对上述连边进行特征编码,得到第二特征向量;

S4.将上述第二特征向量池化为单一特征,并将上述单一特征和上述第一特征向量拼接、编码并获得完整的节点特征;

S5.结合上述图拓扑结构,利用图卷积神经网络将每个上述节点的邻居节点的特征融合到上述节点自身的特征;

S6.对上述三维网格模型的上述节点特征进行全局池化,得到上述三维网格模型的单一特征表示;

S7.将上述单一特征表示输入到分类网络中,得到上述三维网格模型的各个类别的预估概率。

使用CAD或其他三维制图软件制作出来的三维模型即是三维网格模型。由于三维网格模型具有渲染优势,其在多媒体、游戏等领域具有广泛的应用。而三维物体的分类则对机器人、增强现实、自动驾驶等领域具有很大的价值。

本实施例根据机器人来对本发明实施例所述的基于图拓扑的三维网格模型分类方法做进一步解释。

机器人通过摄像头和计算机视觉获取周围的三维物体,将周围的三维物体转化为三维网格模型并输入到机器人的中央处理器,中央处理器通过执行上述的基于图拓扑的三维网格模型分类方法来理解周围的三维物体或者对周围物体进行分类/识别,进而更好地控制机器人。

进一步作为优选的实施方式,上述S2.采用网格简化算法对输入的三维网格模型进行简化这一步骤具体为:

设定一个三维立方体(即顶点簇)的尺寸,将三维空间等分成若干个该尺寸的三维立方体,每个立方体中包含数量不等的顶点。接着对每个立方体合并其中所有顶点,产生一个新的顶点,并重新建立不同立方体所产生的的新顶点之间的连边关系。由此可知,设置的顶点簇的尺寸越大,则三维网格模型的简化程度就越高,相应的输出的调整后三维网格模型的网格数也就越少。

如图2所示,根据自适应的顶点聚类算法,执行循环体;上述循环体具体为:若第一网格数小于预设阈值,则不进行网格化简;否则,根据第二网格数动态调整上述顶点聚类算法中顶点簇的尺寸。若第二网格数大于预设阈值,则增大一倍上述顶点簇的尺寸;若第二网格数小于预设阈值,且减小一倍上述顶点簇的尺寸后,第二网格数依然小于上述预设阈值,则减小一倍上述顶点簇的尺寸;当第二网格数恰好小于预设阈值的时候,退出循环体。

上述第一网格数为上述输入的三维网格模型的网格数;上述第二网格数为上述顶点聚类算法输出的调整后的上述三维网格模型的网格数。

在本实施例中,把机器人输入的三维网格模型进行分析,获取三维网格模型的网格数,预设阈值设定为1024,顶点簇的初始尺寸对应于将三维网格模型划分为1000000个单元的尺寸,具体尺寸大小取三维网格模型长宽高各自极差的百分之一,通过上述顶点聚类算法对输入的三维网格模型进行化简,把周围的三维物体聚类为一个顶点簇。

可以预见,无论输入的三维网格模型的原始网格数是多少,随着顶点簇的大小不断成倍增长,其最终必然会被简化成唯一的顶点。反之,如果当前的三维模型网格数经过给定的顶点簇大小简化后输出的三维模型网格数小于给定阈值,那么随着顶点簇大小的不断成倍减小,相应的输出的三维模型的网格数必然不断增加,最终超过该给定阈值。

进一步地,上述图拓扑结构的节点对应上述三维网格模型的顶点,上述连边对应上述三维网格模型的上述顶点互相连接形成的边。

进一步地,上述节点的特征为上述节点的三维坐标;上述连边的特征为上述节点指向另外节点的有向向量。

进一步地,上述节点特征编码器、上述连边特征编码器采用相同的结构,均为两层深度神经网络(DNN);上述两层深度神经网络包含第一层和第二层;上述第一层实现输入特征的3维到隐层特征256维的映射;上述第二层实现隐层特征到输出特征256维的映射,上述第一层和上述第二层均包含一个全连接层、批归一化层和ReLU激活层。

S4.将上述第一特征向量和上述第二特征向量池化为单一特征,并将上述单一特征和上述节点自身的特征拼接、编码并获得完整的节点特征这一步骤具体为:

对于提取出的三维网格模型的图拓扑结构,其中每个节点的邻居节点数并不相同,因此与节点相连的连边数目也不相同。通过特征编码、池化的方式可以提取连边的高阶特征、实现多条连边特征到单一节点特征的多对一映射。

在本实施例中,一个节点的全部相邻连边特征通过最大池化层实现多对一的特征映射,将池化后的连边特征与该节点通过节点特征编码器的输出特征进行拼接,再经过一个两层深度神经网络进行特征融合,得到包含节点自身坐标信息和连边信息的节点特征表示。

如图3所示,节点①与节点②、节点③、节点④邻接,节点①的完整特征包括其坐标特征经过节点特征编码器得到的高阶坐标特征,以及有向节点对向量①②、①③、①④分别经过连边特征编码器得到的连边高阶特征经过最大池化后得到的单一特征拼接而成。

进一步地,上述S5.结合上述图拓扑结构,利用图卷积神经网络将每个上述节点的邻居节点的特征融合到上述节点自身的特征这一步骤具体为:

根据上述图拓扑结构,提取每一个上述节点的自身坐标特征和用上述连边的特征多对一映射的节点特征并通过上述连边特征编码器进行特征编码后,将每一个上述节点的上述邻居节点的特征经过编码、池化后和上述节点自身的特征拼接在一起,既可以保留节点自身的特征,也可以得到包含该节点邻居节点特征的局部邻居特征表示。

进一步地,上述图卷积神经网络加入两个图卷积层;通过上述图卷积层,每个上述节点获取到至多两跳上述邻居节点的特征。

如图4所示,节点②、③、④均为节点①的一跳邻居,节点⑤、⑥、⑦均为节点①的两跳邻居。先考虑与节点①相关的信息流动,在第一层图卷积时节点①和节点②、③、④相互产生了信息流动,在第二层图卷积时虽然节点①仍只和节点②、③、④产生信息流动,但由于节点②、③、④在第一层图卷积时便与节点⑤、⑥、⑦产生了信息流动,因此经过两层图卷积后节点①实际上也包含了两跳邻居节点⑤、⑥、⑦的信息。同理其他节点也至多包含两跳邻居节点的信息。

进一步地,上述S7.将上述单一特征表示输入到分类网络中,得到上述三维网格模型的各个类别的预估概率这一步骤所用到的分类器采用深度神经网络,在训练时上述深度神经网络以交叉熵为优化目标,使用梯度下降算法进行端对端的训练。在本实施例中,分类器可以采用带有0.1概率dropout的两层深度神经网络,梯度下降的优化器可以为adam。

简单来说,交叉熵用于计算两个函数或者概率之间的距离。交叉熵可在神经网络中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

在实际应用中,adam方法效果良好。与其他自适应学习率算法相比,其收敛速度更快,学习效果更好,而且可以纠正其他优化技术中存在的问题,如学习率消失,收敛过慢或高方差参数更新导致损失函数波动较大等问题。如果想使训练深度网络模型快速收敛或所构建的神经网络较为复杂,adam的实际效果往往比其他自适应技术的实际效果更优。

另一方面,本发明还提供一种基于图拓扑的三维网格模型分类装置,包括存储器和处理器,上述存储器用于存储至少一个程序,上述处理器用于加载上述至少一个程序以执行上述的一种基于图拓扑的三维网格模型分类方法步骤S1至S7。

另一方面,本发明还提供一种计算机可读存储介质,该存储介质包括有计算机可执行指令,上述计算机可执行指令用于使计算机执行上述的一种基于图拓扑的三维网格模型分类方法。上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

相关技术
  • 基于图拓扑的三维网格模型分类方法、装置和存储介质
  • 基于日志和图的动态网络拓扑图生成方法、系统、处理设备、存储介质
技术分类

06120112964934