导航：首页> 道路、铁路或桥梁的建筑>一种基于自主感知的图像分类方法、装置及智能终端

一种基于自主感知的图像分类方法、装置及智能终端

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及图像识别领域，具体涉及一种基于自主感知的图像分类方法、装置及智能终端。

背景技术

机器人视觉感知与处理技术是提高机器人智能水平的重要功能，可以帮助机器人平台实现空间导航、抓取目标等各种任务。作为计算机视觉图像解析技术的核心算法，图像语义分割算法根据图像本身的颜色与纹理分布特征，获得图像中的每一个像素点的语义类别。在计算机视觉和移动机器人控制领域，仅对二维图像进行图像解析的方法，会受到光照和噪声影响，存在一定的局限性。因此，对于环境中深度的感知在计算机视觉领域同样十分重要。因此一系列基于RGB-D图像的算法研究在机器人视觉领域得到广泛应用。

其中，通过结合深度信息来改善语义分割精度的方法是利用手工设计的特征，以及通过卷积神经网络模型（CNN）来提取融合RGB-D输入图像的语义和空间信息。但直接进行融合，由于训练过程中传播有意义的梯度信息较少，深度信息输入通道并没有为语义分割模型带来显著性能提升。因此需要设计信息融合模块，融合RGB信息与深度信息，通过多层级的融合特征进行学习，以获得更好的分割结果。然而深度学习模型的训练往往需要大量的标注数据。受到数据集的限制，模型往往泛化能力受限，只能检测到数据集中存在的类别，而现实场景中往往存在大量数据集中不存在的物体。此外，还有开放世界目标检测方法解决泛化问题，利用对比聚类方法，训练目标检测器可以识别出未知目标，并通过新的标签数据训练模型，逐渐学习未知目标。然而，回忆训练数据和重新训练模型成本较高。如果直接用增加数据集的方式来重新训练模型来完成对新物体的识别，增加数据集可能需要人工的重新标注，并且需要对网络的重新训练，会造成大量资源消耗，且重新标注的方法很难做到数据的实时更新，并不能做到最新物体的检测，无法适应新的识别任务和环境。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于自主感知的图像分类方法、装置及智能终端，旨在解决现有技术中模型泛化能力受限以及回忆训练数据和重新训练模型成本较高的问题。

本发明解决技术问题所采用的技术方案如下：

第一方面，本发明提供一种基于自主感知的图像分类方法，其中，所述方法包括：

获取训练过的深度图像分割模型；

将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；

将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；

根据所述文本信息进行分类，得到物体类别。

在一种实现方式中，所述获取训练过的深度图像分割模型之前，包括：

构建深度图像分割模型，其中所述深度图像分割模型包括特征提取模块、候选区域模块和掩模模块，所述特征提取模块包括深层残差网络和浅层残差网络，分别用于提取深层图像特征和浅层图像特征，所述候选区域模块用于根据获取到的候选区域的位置热力图、偏移坐标和目标长宽得到区域预测损失，所述掩模模块采用全卷积网络，并采用平均二值交叉损失熵作为整体损失函数；

根据所述区域预测损失训练所述候选区域模块，得到训练过的候选区域模块；

根据所述整体损失函数训练所述掩模模块，得到训练过的掩模模块；

根据所述特征提取模块、训练过的候选区域模块和训练过的掩模模块，得到所述训练过的深度图像分割模型。

在一种实现方式中，所述将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域，包括：

采集彩色图像和深度数据；

将所述彩色图像和深度数据进行配准，得到深度彩色图像；

将所述深度彩色图像输入所述特征提取模块进行特征提取，得到深层图像特征和浅层图像特征，并将所述深层图像特征和浅层图像特征进行跳跃连接和合并，得到图像特征；

将所述图像特征输入所述训练过的候选区域模块进行区域划分，得到物体区域信息；

将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到所述物体区域。

在一种实现方式中，所述将所述彩色图像和深度数据进行配准，得到深度彩色图像，包括：

将所述彩色图像和深度数据按照网格对齐；

若所述彩色图像中像素点在网格上，则获取和所述像素点对齐的深度数据，得到像素点坐标；

若所述彩色图像中像素点不在网格上，则采用差值计算获取所述像素点的深度值，得到像素点坐标；

根据所述像素点坐标，得到所述深度彩色图像。

在一种实现方式中，所述将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到所述物体区域，包括：

将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到二维掩模；

将所述二维掩模与所述深度彩色图像对齐，并通过sigmoid函数进行合并，得到二值化物体区域；

根据所述二值化物体区域中数值为1的像素点，得到分割区域；

根据所述分割区域进行剪裁，得到所述物体区域。

在一种实现方式中，所述将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息，包括：

将所述物体区域输入到互联网搜索引擎进行图片搜索，得到相似图像；

提取所述相似图像对应的文字描述信息，并根据所述文字描述信息，得到所述文本信息。

在一种实现方式中，所述根据所述文本信息，得到物体类别，包括：

根据所述文本信息中的中英文字符和数字，得到格式化文本；

将所述格式化文本输入BERT编码器进行关键词分析，得到关键词和非关键词；

为所述关键词赋予高置信度，为所述非关键词赋予低置信度，根据所述高置信度和低置信度，得到格式化文本的关键特征；

将所述格式化文本的关键特征输入到CLIP分类网络进行验证，得到初筛关键词和相应的置信度；

选取置信度最高的初筛关键词作为所述物体类别。

第二方面，本发明实施例还提供一种基于自主感知的图像分类装置，其中，所述装置包括：

模型获取模块，用于获取训练过的深度图像分割模型；

图像分割模块，用于将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；

搜索模块，用于将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；

分类模块，用于根据所述文本信息进行分类，得到物体类别。

第三方面，本发明实施例还提供一种智能终端，其中，所述智能终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于自主感知的图像分类程序，所述处理器执行所述基于自主感知的图像分类程序时，实现如以上任一项所述的基于自主感知的图像分类方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有基于自主感知的图像分类程序，所述基于自主感知的图像分类程序被处理器执行时，实现如以上任一项所述的基于自主感知的图像分类方法的步骤。

有益效果：与现有技术相比，本发明提供了一种基于自主感知的图像分类方法、装置及智能终端。首先获取训练过的深度图像分割模型。借助深度学习模型的分割能力，能够将深度图像分割成不同的图像区域和物体实例，自主获取疑似物体区域。然后，将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域。只需考虑物体的实例信息，无需考虑物体的类别，从而增强模型的泛化性能。接着，将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息，通过对搜索引擎的利用而使得整个模型更具备对新事物识别的能力以及物体识别的细粒度性。最后根据所述文本信息进行分类，得到物体类别。借助相关图像特征筛选出关键词提高了图像搜索结果的相关性，能够显著提高开放世界中物体识别的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于自主感知的图像分类方法流程示意图。

图2是本发明实施例提供的分割示意图。

图3是本发明实施例提供的剪裁示意图。

图4是本发明实施例提供的识别结果示意图。

图5是本发明实施例提供的基于自主感知的图像分类装置的原理框图。

图6是本发明实施例提供的智能终端的内部结构原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

深度学习模型的训练往往需要大量的标注数据。目前公开的标准大规模目标检测与识别的数据集，如Pascal VOC和MS-COCO等标注的类别的数量仍然相对较少，对未知类别的检测和识别需要模型具有很强泛化能力，或者使模型具有自学习能力能够自动更新对新引入类别的检测。受到数据集的限制，模型往往泛化能力受限，只能检测到数据集中存在的类别，而现实场景中往往存在大量数据集中不存在的物体。因此，一个重要的研究问题是：机器人如何能通过视觉轻松地识别出不属于数据集中类别的新物体？现有的基于深度学习、机器学习、样本标注、模型学习的物体识别方法固定物品种类的环境中通常有较好的效果，但是这些方法存在以下缺陷：

数据标注成本高：深度学习模型需要大量的标注数据才能获得较好的性能，但标注成本较高，需要专业的标注人员进行标注；

计算资源需求高：深度学习模型通常需要大量的计算资源来训练和推断，这对于一些资源受限的设备和场景来说是不可行的；

对小目标检测和遮挡物体识别困难：对于小目标和遮挡物体的识别，目前的深度学习模型仍然存在一定的困难，需要更多的数据和更高级的模型来解决这个问题；

模型泛化能力有限：现有的深度学习模型在新领域或场景中的泛化能力较差，在真实场景下可能无法识别出数据集中不存在的类别，或者类别过多难以训练的情况。

针对上述问题，本发明提出了一种新型的无需模型训练的机器人自主感知和识别物体的方法：借助网络搜索引擎，通过物体的深度彩色图像进行网络搜索，得到类似的图片及其文本信息，对文本信息进行推理，判别出物体的类别，实现无需数据集的物体检测和识别。本发明解决了开放世界中出现的各种新物体如果没有训练样本就无法被识别的问题，实现了直接通过网络搜索的信息进行综合文本推理来识别物体的目的。

示例性方法

本实施例提供一种基于自主感知的图像分类方法。如图1所示，所述方法包括如下步骤：

步骤S100、获取训练过的深度图像分割模型；

具体地，由于在网络搜索前，需要得到各个物体的实例信息，因此本实施例中通过深度学习训练了一个深度图像分割模型。为了尽可能的增强泛化性能，深度图像分割模型的训练只考虑物体的位置信息，忽略类别标签。通过这种方法，模型能够对输入图像中各个物体进行检测，得到尽可能多的疑似物体的区域。

在一种实现方式中，本实施例所述步骤S100之前包括如下步骤：

步骤S101、构建深度图像分割模型，其中所述深度图像分割模型包括特征提取模块、候选区域模块和掩模模块，所述特征提取模块包括深层残差网络和浅层残差网络，分别用于提取深层图像特征和浅层图像特征，所述候选区域模块用于根据获取到的候选区域的位置热力图、偏移坐标和目标长宽得到区域预测损失，所述掩模模块采用全卷积网络，并采用平均二值交叉损失熵作为整体损失函数；

步骤S102、根据所述区域预测损失训练所述候选区域模块，得到训练过的候选区域模块；

步骤S103、根据所述整体损失函数训练所述掩模模块，得到训练过的掩模模块；

步骤S104、根据所述特征提取模块、训练过的候选区域模块和训练过的掩模模块，得到所述训练过的深度图像分割模型。

具体地，在本实施例中构建的深度图像分割模型首先对输入的深度彩色图像提取图像特征。在提取图像的特征后，采用候选区域模块进行生成物体的区域，候选区域模块包含三个预测头，分别预测物体的位置热力图

，

掩模模块采用全卷积网络，用于生成物体目标的像素级位置信息区域，训练掩码模块时，整体损失函数定义为平均二值交叉损失熵。通过采取这样的方式，网络模型训练时只考虑物体的位置信息，忽略具体的语义类别信息，使得模型能够在真实场景下能够得到所有疑似物体区域的能力，以提升算法在现实场景下的效果。

步骤S200、将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；

具体地，本实施例中的训练过的深度图像分割模型能够将深度图像中分割成不同的图像区域和物体实例，得到物体区域。在分割模型的训练过程中，只考虑物体的实例信息，也就是是否是物体与其位置，不考虑物体的类别，从而增强模型的泛化性能。

在一种实现方式中，本实施例所述步骤S200包括如下步骤：

步骤S201、采集彩色图像和深度数据；

步骤S202、将所述彩色图像和深度数据进行配准，得到深度彩色图像；

具体地，本实施例中采用了微软Kinectv2深度相机来同时完成彩色图像和深度数据的采集，如图2所示。并对生成的深度数据对齐到彩色图像上，保证了彩色图像的完整性以及高分辨率，方便进行后续的裁剪以及搜索操作。

在一种实现方式中，本实施例所述步骤S202包括如下步骤：

步骤S2021、将所述彩色图像和深度数据按照网格对齐；

步骤S2022、若所述彩色图像中像素点在网格上，则获取和所述像素点对齐的深度数据，得到像素点坐标；

步骤S2023、若所述彩色图像中像素点不在网格上，则采用差值计算获取所述像素点的深度值，得到像素点坐标；

步骤S2024、根据所述像素点坐标，得到所述深度彩色图像。

具体地，彩色图像与深数据网格对齐操作保证了对齐之后的RGB图像中的所有像素点与深度图像中的所有像素点是对应的关系。首先获取RGB-D相机的RGB摄像头的内参矩阵、深度摄像头的内参矩阵和RGB 摄像头与深度摄像头的外参旋转矩阵和偏移矩阵，之后遍历深度数据中的每一个像素点坐标，通过得到对应彩色图像中的像素点的坐标。在对应位置非网格点的情况下，采用插值计算对应点的深度值，最后将二者进行对应，得到像素点坐标，所得像素点坐标和相应的像素进行排列，得到深度彩色图像。

步骤S203、将所述深度彩色图像输入所述特征提取模块进行特征提取，得到深层图像特征和浅层图像特征，并将所述深层图像特征和浅层图像特征进行跳跃连接和合并，得到图像特征；

具体地，在本实施例中对输入深度彩色图像用50层和101层的ResNet网络提取图像特征，并对不同尺度的特征进行跳跃连接与合并，合并深层特征和浅层特征得到图像特征来同时满足检测与分割的需求。

步骤S204、将所述图像特征输入所述训练过的候选区域模块进行区域划分，得到物体区域信息；

步骤S205、将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到所述物体区域。

具体地，生成的物体区域信息进作为掩码模块的输入进行预测，以生成各个图的掩码。掩码模块采用全卷积网络，生成物体目标的像素级位置信息区域，当像素属于目标的所有位置上时标识为1，其它位置标识为0，以判断给定像素是否是目标的一部分，从而实现像素级分割。

在一种实现方式中，本实施例所述步骤S205包括如下步骤：

步骤S2051、将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到二维掩模；

步骤S2052、将所述二维掩模与所述深度彩色图像对齐，并通过sigmoid函数进行合并，得到二值化物体区域；

步骤S2053、根据所述二值化物体区域中数值为1的像素点，得到分割区域；

具体地，对每一个物体的感兴趣区域预测一个m×m大小的掩码，这能保证掩码分支的每一层都明确的保持m×m目标的空间布局，不会坍塌成缺少空间维度的向量。将得到的m×m掩码，对其进行修改尺寸与原深度彩色图像对齐，经过一次sigmoid函数，最后按照0.5的阈值进行二值化，得到分割区域。

步骤S2054、根据所述分割区域进行剪裁，得到所述物体区域。

再对得到分割区域进行剪裁预处理，如图3所示，根据分割结果将不同颜色的物体区域边缘进行提取，并根据提取结果剪裁出每一个对应的物体生成最终的物体区域。通过采取这样的方式，网络模型训练时只考虑物体的位置信息，忽略具体的语义类别信息，使得模型能够在真实场景下能够得到所有疑似物体区域的能力，以提升算法在现实场景下的效果。

步骤S300、将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；

具体地，本实施例中利用谷歌的以图搜图功能，将剪裁后的每一个物体区域分别传到搜索网站进行搜索，得到相似图像，再利用开发者模式提取图片下方的文字描述信息。需要注意的是，本实施例中所述的互联网搜索引擎不限于谷歌，还包括所有根据一定的策略、运用特定的计算机程序从互联网上采集信息，在对信息进行组织和处理后，能够为用户提供检索服务，将检索的相关信息展示给用户的系统。

在一种实现方式中，本实施例所述步骤S300包括如下步骤：

步骤S301、将所述物体区域输入到互联网搜索引擎进行图片搜索，得到相似图像；

步骤S302、提取所述相似图像对应的文字描述信息，并根据所述文字描述信息，得到所述文本信息。

具体地，本实施例中采用的是谷歌的以图搜图网站，将图片上传后会得到搜索引擎反馈到的所有相似图片和描述。提取到描述性文字后就可以进行处理。最基本的操作是筛选高频词，出现的频率越高代表着查询到的相似结果越多，也代表着越有可能是和被搜索图片相同的物体。

步骤S400、根据所述文本信息进行分类，得到物体类别。

具体地，在搜索结果中，排序的标准是匹配程度，所以顺序越靠前的图片会越接近搜索物体的真实值。且在搜索过程中会出现高频率的无用词，例如，由于每张图片均来自于网络，所以几乎每张图片提取到的描述中都会出现来源，而来自同一个网站的搜索结果过多时，就会直接影响输出结果。因此，需要对文本信息进行进一步处理。本实施例首先只保留了中英文和数字，这样就筛除了一些难以处理的文字，然后给一串文字中的每个字进行编码，对于不重要的词和关键词有不同的赋值的方式，从而计算出出现频率最高的关键词。根据筛选过的关键词，就可以得到物体类别。

在一种实现方式中，本实施例所述步骤S400包括如下步骤：

步骤S401、根据所述文本信息中的中英文字符和数字，得到格式化文本；

具体地，本实施例中首先收集并保存搜索引擎返回的文本信息，对这些文本中非语言文字的符号进行剔除，得到基于英文字母、阿拉伯数字和语法中允许的标点符号的格式化文本。

步骤S402、将所述格式化文本输入BERT编码器进行关键词分析，得到关键词和非关键词；

具体地，本实施例中给格式化文本中的每个字进行编码，对于不重要的词和关键词有不同的赋值的方式，从而计算出出现频率最高的关键词。但格式化文本关键词提取的主要挑战之一是消除网页解析结果中不相关内容造成的干扰。但是，在关键字提取过程中，推理过程是纯正向的。从训练集学习到的知识直接应用于测试集。由于没有真实值，因此没有有效的机制来验证预测结果是否准确。所以本实施例采用由OPEN AI预先训练好的验证网络CLIP可以作为一个反馈模块来评估预测的准确性结果。根据图像内容，筛选出由BERT提取的无关关键词是合理的，可以表示图像内容，并将相关计算作为新的文本字段，对提高图像搜索结果的相关性有很好的作用。将格式化文本输入基于Transformer的双向编码器的关键词提取网络，该网络中的注意力机制会对文本中词语间的相似度进行计算，从而得出文本内部的关键词语。

步骤S403、为所述关键词赋予高置信度，为所述非关键词赋予低置信度，根据所述高置信度和低置信度，得到格式化文本的关键特征；

步骤S404、将所述格式化文本的关键特征输入到CLIP分类网络进行验证，得到初筛关键词和相应的置信度；

步骤S405、选取置信度最高的初筛关键词作为所述物体类别。

具体地，对关键词给予较高的置信度，对非关键词的词语置于低的置信度，从而获取到这段文本的关键特征。将格式化文本的关键特征输入CLIP分类网络得到初筛关键词与置信度。CLIP分类网络是用互联网上大量可用的具有各种各样自然语言监督的图像数据集训练的神经网络。通过设计可以用自然语言指导CLIP执行各种分类基准测试，而无需直接优化基准测试的性能。在本实施例中，由OPEN AI预先训练好的验证网络CLIP可以作为一个反馈模块来评估预测的准确性结果。最后，选取置信度最高的初筛关键词作为所述物体类别。如图4所示，最终的类别识别结果与实际物体类别是相符的。

示例性装置

如图5中所示，本实施例还提供一种基于自主感知的图像分类装置，所述装置包括：

模型获取模块10，用于获取训练过的深度图像分割模型；

图像分割模块20，用于将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；

搜索模块30，用于将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；

分类模块40，用于根据所述文本信息进行分类，得到物体类别。

在一种实现方式中，所述装置还包括：

模型构建单元，用于构建深度图像分割模型，其中所述深度图像分割模型包括特征提取模块、候选区域模块和掩模模块，所述特征提取模块包括深层残差网络和浅层残差网络，分别用于提取深层图像特征和浅层图像特征，所述候选区域模块用于根据获取到的候选区域的位置热力图、偏移坐标和目标长宽得到区域预测损失，所述掩模模块采用全卷积网络，并采用平均二值交叉损失熵作为整体损失函数；

候选区域模块训练单元，用于根据所述区域预测损失训练所述候选区域模块，得到训练过的候选区域模块；

掩模模块训练单元，用于根据所述整体损失函数训练所述掩模模块，得到训练过的掩模模块；

模型获取单元，用于根据所述特征提取模块、训练过的候选区域模块和训练过的掩模模块，得到所述训练过的深度图像分割模型。

在一种实现方式中，本实施例所述图像分割模块20包括：

图像和数据采集单元，用于采集彩色图像和深度数据；

配准单元，用于将所述彩色图像和深度数据进行配准，得到深度彩色图像；

在一种实现方式中，本实施例所述配准单元包括：

对齐子单元，用于将所述彩色图像和深度数据按照网格对齐；

第一像素点坐标获取子单元，用于若所述彩色图像中像素点在网格上，则获取和所述像素点对齐的深度数据，得到像素点坐标；

第二像素点坐标获取子单元，用于若所述彩色图像中像素点不在网格上，则采用差值计算获取所述像素点的深度值，得到像素点坐标；

深度彩色图像获取子单元，用于根据所述像素点坐标，得到所述深度彩色图像。

特征提取单元，用于将所述深度彩色图像输入所述特征提取模块进行特征提取，得到深层图像特征和浅层图像特征，并将所述深层图像特征和浅层图像特征进行跳跃连接和合并，得到图像特征；

区域划分单元，用于将所述图像特征输入所述训练过的候选区域模块进行区域划分，得到物体区域信息；

卷积运算单元，用于将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到所述物体区域。

在一种实现方式中，本实施例所述卷积运算单元包括：

二维掩模获取子单元，用于将所述物体区域信息输入所述训练过的掩模模块进行卷积运算，得到二维掩模；

二值化子单元，用于将所述二维掩模与所述深度彩色图像对齐，并通过sigmoid函数进行合并，得到二值化物体区域；

分割子单元，用于根据所述二值化物体区域中数值为1的像素点，得到分割区域；

剪裁子单元，用于根据所述分割区域进行剪裁，得到所述物体区域。

在一种实现方式中，本实施例所述搜索模块30包括：

搜索单元，用于将所述物体区域输入到互联网搜索引擎进行图片搜索，得到相似图像；

文本信息获取单元，用于提取所述相似图像对应的文字描述信息，并根据所述文字描述信息，得到所述文本信息。

在一种实现方式中，本实施例所述分类模块40包括：

格式化文本获取单元，用于根据所述文本信息中的中英文字符和数字，得到格式化文本；

关键词分析单元，用于将所述格式化文本输入BERT编码器进行关键词分析，得到关键词和非关键词；

关键特征提取单元，用于为所述关键词赋予高置信度，为所述非关键词赋予低置信度，根据所述高置信度和低置信度，得到格式化文本的关键特征；

关键词初筛单元，用于将所述格式化文本的关键特征输入到CLIP分类网络进行验证，得到初筛关键词和相应的置信度；

物体类别获取单元，用于选取置信度最高的初筛关键词作为所述物体类别。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图6所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于自主感知的图像分类方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图6中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，智能终端包括存储器、处理器及存储在存储器中并可在处理器上运行的基于自主感知的图像分类程序，处理器执行基于自主感知的图像分类程序时，实现如下操作指令：

获取训练过的深度图像分割模型；

将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；

将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；

根据所述文本信息进行分类，得到物体类别。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双运营数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

综上，本发明公开了一种基于自主感知的图像分类方法、装置及智能终端，所述方法包括：获取训练过的深度图像分割模型；将采集到的深度彩色图像输入到所述训练过的深度图像分割模型进行图像分割，得到物体区域；将所述物体区域输入到互联网搜索引擎进行搜索，得到相似图像的文本信息；根据所述文本信息进行分类，得到物体类别。本发明通过搜索引擎进行以图搜图识别，从而避免了数据集的有限性造成的新物体识别错误问题，提升了物体的细粒度识别能力，同时，借助相关图像特征筛选出关键词提高了图像搜索结果的相关性，能够显著提高开放世界中物体识别的性能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载