一种3D物体的识别检索方法及系统

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及物体识别的技术领域，更具体地，涉及一种3D物体的识别检索方法及系统。

背景技术

三维(3D)物体多视图是通过不同视角的映射得到的图像，每个视角对应的视图包含一个本征特征和一个视角特征，且每个视角对应的视图的本征特征都有所不同，相邻的几个视角的本征特征之间具有较多的共同特征，而相隔较远的几个视图的本征特征之间具有的共同特征较少，通过各种方法来增加3D物体各个视角之间的联系，来让训练模型学习到更多有用信息，是当前的三维物体识别技术的主要研究方向。

现有技术提出一种三维物体识别方法，包括以下步骤：获取未知物体的多张图像，并通过人工智能模型对多张图像进行特征提取处理，得到多个二维视图特征；根据人工智能模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果；根据人工智能模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果；当正负例分数结果为正例分数时，以分类结果为依据确定未知物体的类别。该方法能够通过多个人工智能模型对多张图像进行三维的物体识别，从而提高物体识别的准确性和普适性，但该方法只考虑到了三维物体多视图的本征特征，没有考虑到三维物体多视图的视角特征，虽然一般认为视角特征是无需考虑的，但是视角特征也会影响三维物体的识别结果，该方法没有排除视角特征的影响，对三维物体识别的准确性影响较大。

发明内容

本发明为克服上述现有技术所述的没有排除视角特征的影响，对三维物体识别的准确性影响较大的缺陷，提供一种综合考虑三维物体的本征特征和视角特征，能够精确识别的3D物体的识别检索方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种3D物体的识别检索方法，其特征在于，包括以下步骤：

S1：获取未知的3D物体的所有视图，提取每一张视图对应的本征特征和视角特征；

S2：获取已知的3D物体的本征特征，并基于已知的3D物体的本征特征，将从未知的3D物体的提取出来的相邻视角本征特征之间的互信息最大化，得到互信息最大化后的本征特征；

S3：将互信息最大化后的本征特征与视角特征之间的互信息最小化，得到互信息处理后的本征特征和互信息处理后的视角特征；

S4：将每个互信息处理后的视角特征之间的互信息最小化，得到互信息最小化后的视角特征；

S5：将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征；

S6：获取已知的3D物体的融合本征特征，并基于已知的3D物体的融合本征特征，将未知的融合本征特征与互信息处理后的本征特征之间的互信息最大化，得到互信息处理后的融合本征特征；

S7：将互信息处理后的融合本征特征和互信息最小化的视角特征进行PoE融合，得到全局特征，并基于全局特征，迭代更新互信息处理后的融合本征特征，得到更新后的融合本征特征；

S8：利用更新后的融合本征特征对未知的3D物体进行分类识别或检索。

本发明还提出了一种3D物体的识别检索系统，用于实现上述的3D物体的识别检索方法，包括：

特征提取模块，获取未知的3D物体的所有视图，提取每一张视图对应的本征特征和视角特征；

互信息最大化模块，用于获取已知的3D物体的本征特征，并基于已知的3D物体的本征特征，将从未知的3D物体的提取出来的相邻视角本征特征之间的互信息最大化，得到互信息最大化后的本征特征；

互信息处理模块，用于将互信息最大化后的本征特征与视角特征之间的互信息最小化，得到互信息处理后的本征特征和互信息处理后的视角特征；

互信息最小化模块，用于将每个互信息处理后的视角特征之间的互信息最小化，得到互信息最小化后的视角特征；

特征融合模块，用于将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征；

融合特征互信息处理模块，用于获取已知的3D物体的融合本征特征，并基于已知的3D物体的融合本征特征，将未知的融合本征特征与互信息处理后的本征特征之间的互信息最大化，得到互信息处理后的融合本征特征；

融合特征更新模块，用于将互信息处理后的融合本征特征和互信息最小化的视角特征进行PoE融合，得到全局特征，并基于全局特征，迭代更新互信息处理后的融合本征特征，得到更新后的融合本征特征；

识别模块，用于利用更新后的融合本征特征对未知的3D物体进行分类识别或检索。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过最大化未知的3D物体的相邻视角提取出来的本征特征之间的互信息、最小化互信息最大化后的本征特征与视角特征之间的互信息，以及最小化每个互信息处理后的视角特征之间的互信息的操作，增强本征特征一致性的同时，减小视角特征对三维物体的识别结果的影响；通过将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征，从而获得对未知的3D物体的更全面的表示，并基于全局特征，迭代更新互信息处理后的融合本征特征，进一步排除视角特征对三维物体的识别结果的影响，从而达到精确识别未知的3D物体的目的。

附图说明

图1为实施例1的3D物体的识别检索方法的流程示意图；

图2为实施例1的利用更新后的融合本征特征进行分类识别或检索的示意图；

图3为实施例2的3D物体的识别检索系统的整体框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种3D物体的识别检索方法，图1为本实施例的3D物体的识别检索方法的流程示意图；

本实施例提出的3D物体的识别检索方法中，包括以下步骤：

S1：获取未知的3D物体的所有视图，提取每一张视图对应的本征特征和视角特征；

S3：将互信息最大化后的本征特征与视角特征之间的互信息最小化，得到互信息处理后的本征特征和互信息处理后的视角特征；

S4：将每个互信息处理后的视角特征之间的互信息最小化，得到互信息最小化后的视角特征；

S5：将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征；

S8：利用更新后的融合本征特征对未知的3D物体进行分类识别或检索。

作为示例性说明，在本实施例中，为未知的3D物体的每一张视图提供一个变分自编码的编码器(Enc)，在每个编码器中提取出一个本征特征和视角特征；获取已知的3D物体的本征特征的过程是先获取已知的3D物体的视图，然后利用变分自编码器的编码器提取每一视图对应的本征特征和视角特征；

在具体实施过程中，通过最大化未知的3D物体的相邻视角提取出来的本征特征之间的互信息、最小化互信息最大化后的本征特征与视角特征之间的互信息，以及最小化每个互信息处理后的视角特征之间的互信息的操作，增强本征特征一致性的同时，减小视角特征对三维物体的识别结果的影响；通过将互信息处理后的本征特征进行PoE(Product ofExperts，专家乘积)融合，得到未知的融合本征特征，从而获得对未知的3D物体的更全面的表示，并基于全局特征，迭代更新互信息处理后的融合本征特征，进一步排除视角特征对三维物体的识别结果的影响，从而达到精确识别未知的3D物体的目的。

在一可选实施例中，得到互信息最大化后的本征特征的过程包括：

基于已知的3D物体的本征特征，构建用于将提取出来的相邻视角本征特征之间的互信息最大化的本征特征互信息最大化模型；

其中，本征特征互信息最大化模型的表达式为：

C＝[c

式中，

c′

迭代求解本征特征互信息最大化模型，在目标函数A

作为示例性说明，基于MINE算法(Mutual Information Neural Estimator，基于KL散度对偶表示的神经网络方法)构建本征特征互信息最大化模型，并利用变分自编码器求解本征特征互信息最大化模型，从而得到互信息最大化后的本征特征；

在本可选实施例中，将相邻视角提取出来的本征特征之间的互信息最大化，能够减小视角变化对本征特征的影响，增强本征特征的一致性，进而提高识别未知的3D物体的准确度。

在一可选实施例中，得到互信息处理后的本征特征和互信息处理后的视角特征的步骤包括：

构建用于将互信息最大化后的本征特征与视角特征之间的互信息最小化的互信息处理模型；

其中，互信息处理模型的表达式为：

E＝[e

式中，||·||表示向量取模，

迭代求解互信息处理模型，在目标函数B

作为示例性说明，利用变分自编码器求解互信息处理模型，进而得到互信息处理后的本征特征和互信息处理后的视角特征；

在本可选实施例中，通过最小化线性相关性来提高本征特征和视角特征的独立性，从而使本征特征和视角特征的互信息最小化；将互信息最大化后的本征特征与视角特征之间的互信息最小化，使得到的互信息处理后的本征特征具有未知物体的更本质的表示，能够减小视角变化对3D物体识别产生的负面影响，进而提高识别未知的3D物体的准确度。

在一可选实施例中，得到互信息最小化后的视角特征的步骤包括：

构建用于将每个互信息处理后的视角特征之间的互信息最小化的视角特征互信息最小化模型；

其中，视角特征互信息最小化模型的表达式为：

式中，

迭代求解视角特征互信息最小化模型，在目标函数C

作为示例性说明，利用变分自编码器求解视角特征互信息最小化模型，进而得到互信息最小化后的视角特征；

在本可选实施例中，将每个互信息处理后的视角特征之间的互信息最小化，能够进一步排除视角特征对3D物体识别产生的负面影响，进而提高识别未知的3D物体的准确度。

在一可选实施例中，将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征F

X＝[x

式中，X表示互信息处理后的本征特征和互信息处理后的视角特征对应的视图，x

在本可选实施例中，将互信息处理后的本征特征进行PoE融合，使得到的未知的融合本征特征能够表示所有视图的本征特征，降低了特征的维度，减少了计算成本。

在一可选实施例中，得到互信息处理后的融合本征特征的步骤包括：

基于已知的3D物体的融合本征特征，构建将未知的融合本征特征与互信息处理后的本征特征之间的互信息最大化的融合本征特征互信息最大化模型；

其中，融合本征特征互信息最大化模型的表达式为：

式中，

迭代求解融合本征特征互信息最大化模型，在目标函数D

作为示例性说明，利用变分自编码器求解融合本征特征互信息最大化模型，得到互信息处理后的融合本征特征；

在本可选实施例中，将未知的融合本征特征与互信息处理后的本征特征之间的互信息最大化，使得到的互信息处理后的融合本征特征尽可能包含所有视图的本征特征，能够更全面地识别3D物体，进而提高识别3D物体的准确度。

在一可选实施例中，得到更新后的融合本征特征的步骤包括：

S7.1：将互信息处理后的融合本征特征和互信息最小化后的视角特征进行PoE融合，得到全局特征r；

其中，全局特征r的计算表达式为：

q(r|X)＝q(F

式中，q(r|X)表示已知X时观测全局特征r的条件概率密度函数，q(F

S7.2：基于全局特征r，构建融合本征特征更新模型；

其中，融合本征特征更新模型的表达式为：

式中，

迭代求解融合本征特征更新模型，在目标函数

作为示例性说明，编码器为变分自编码器的编码器；解码器为变分自编码器的解码器(Dec)，ELBO(Evidence Lower Bound，证据下界)函数为变分自编码器的ELBO函数；解码器能够利用全局特征重构出未知的3D物体的视图；

在本可选实施例中，基于全局特征，迭代更新互信息处理后的融合本征特征，得到更新后的融合本征特征，使得更新后的融合本征特征更贴近未知的3D物体的本质，从而更精准地表示未知的3D物体，进而达到精确识别3D物体的目的。

在一可选实施例中，图2为利用更新后的融合本征特征进行分类识别或检索的示意图，利用更新后的融合本征特征对未知的3D物体进行分类识别或检索之前，执行S1至S6步骤，获取与未知的3D物体同类别的另一3D物体M的更新后的融合本征特征M

将更新后的融合本征特征F

对未知的3D物体进行分类识别或检索时，利用更新后的融合本征特征FM进行分类识别或检索。

在本可选实施例中，将更新后的融合本征特征F

在一可选实施例中，利用更新后的融合本征特征对未知的3D物体进行分类识别时，在更新后的融合本征特征之后设置全连接层和归一化层，利用全连接层和归一化层计算得到未知的3D物体的分类识别结果；

利用更新后的融合本征特征对未知的3D物体进行检索时，计算更新后的融合本征特征与所有已知的3D物体的更新后的融合本征特征之间的欧氏距离，并将欧氏距离计算结果最小的已知3D物体作为未知的3D物体的检索结果。

实施例2

本实施例应用实施例1提出的3D物体的识别检索方法，提出以下性能比较示例：

本实施例使用ModelNet40、ModelNet10和ShapeNet55这三个数据集。

其中，ModelNet40由40个类别的12311个3D物体组成，包括9843个训练对象和2468个用于物体形状分类的测试对象，不同的类别中有不同数量的物体。而ModelNet10是ModelNet40的子集。ShapeNet55数据集包含51162个3D物体，被分成55个类204个子类。在51162个3D物体中，训练集、验证集和测试集分别为70％(35764个)、10％(5133个)和20％(10265个)。

(1)在ShapeNet55数据集上，将本实施例的方法(Ours)与基于视图的方法进行对比，其中对比的算法包括：RotationNet算法、View-GCN算法和CAR算法；对比结果分别包括微观平均(Micro)和宏观平均(Macro)上的精确度(P@N)、召回率(R@N)、F1值(F1@N)、平均精度(mAP)和归一化折现累积增益(NDCG@N)；宏观平均用于给出整个数据集的未加权平均值，得分以相同的权重平均；微观平均的查询和检索结果在类别之间被平等对待，因此结果是平均的，而不需要根据类别大小调整权重；也就是说，宏观平均是先求每一类的平均，然后再求平均；微观平均就是直接求总的平均。

比对结果如下表所示：

表1

从表1可看出，在ShapeNet55数据集上，本实施例的方法对比基于视图的方法各项指标差距不足0.05，足以说明本方法在理想条件下三维识别精度依然处于先进水平，方法依然可以完成精度优先的三维识别任务。

(2)在ModelNet40和ModelNet10数据集上，将本实施例的方法(Ours)与基于视图的方法进行对比，其中对比的算法包括：MHBN算法、CAR-Net算法和DAN算法；对比结果包括平均实例准确率(average instance accuracy)和检索平均准确率(Retrieval mAP)，还有平均分类准确度(average class accuracy)。

比对结果如表2和表3所示：

表2在modelnet40,12视图数据集上的比对结果

表3在modelnet10,12视图数据集上的比对结果

从表2和表3可看出，在ModelNet40和ModelNet10数据集上，本实施例的方法的分类准确率和检索平均准确率均很高，足以说明本模型在理想条件下三维识别精度依然处于先进水平，模型依然可以完成精度优先的三维识别任务。

实施例3

本实施例提出一种3D物体的识别检索系统，用于实现实施例1提出的一种3D物体的识别检索方法。

如图3所示，为本实施例的3D物体的识别检索系统的整体框架图。

所述3D物体的识别检索系统，包括：

特征提取模块，获取未知的3D物体的所有视图，提取每一张视图对应的本征特征和视角特征；

互信息处理模块，用于将互信息最大化后的本征特征与视角特征之间的互信息最小化，得到互信息处理后的本征特征和互信息处理后的视角特征；

互信息最小化模块，用于将每个互信息处理后的视角特征之间的互信息最小化，得到互信息最小化后的视角特征；

特征融合模块，用于将互信息处理后的本征特征进行PoE融合，得到未知的融合本征特征；

识别模块，用于利用更新后的融合本征特征对未知的3D物体进行分类识别或检索。

可以理解，本实施例的系统应用于上述实施例1的方法，上述实施例1中的可选项同样适用于本实施例，故在此不再重复描述。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广东工业大学;

上一篇：一种钠离子电池的回收再生方法
下一篇：一种基于静止卫星数据的闪电三维辐射源位置反演方法