目标识别方法、装置、计算机设备和存储介质

文献发布时间：2023-06-19 12:00:51

技术领域

本发明属于图像处理技术领域，具体提供一种目标识别方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的不断发展，以及人们消费习惯的变化，电商直播市场十分火爆，一名带货主播在一场直播中可能需要展示数十种商品，如何在展示商品的同时，快速、准确地显示出商品链接，使消费者看到心仪的商品时，能够马上下单，成为了直播购物体验的重要一环。然而，目前的带货直播软件，商品的链接往往需要通过手动推送或集中展示的方式呈现给观众；并且，每场带货直播中被展示的商品是不确定的，甚至是临时增加的。人工确定商品类别，推送商品链接，一方面需要增加人力投入，提高了直播成本；另一方面，因为快节奏的直播互动，时常会出现工作人员的错误操作。

传统的目标识别方法通常基于大量样本训练的网络模型，但是在目标多变、样本数量少，并且需要快速得到目标识别结果的应用(包括但不限于直播场景)中，传统的目标识别方法已不能适应新的需求。如何针对多变的目标，在不固定的背景中，快速、准确地从图像中自动识别出所需的目标，成为一个函待解决的问题。

相应地，本领域需要一种新的方案来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决传统的基于大量样本训练数据的目标检测方法，在目标类别经常变化，样本数量少，并且目标所处场景不固定的情况下，无法快速、准确地识别目标的问题。在第一方面，本发明提出了一种目标识别方法，所述方法包括：

基于目标示例图像，得到每个所述目标示例图像对应的Support特征向量和全部所述目标示例图像对应的Attention向量，其中，每个所述目标示例图像中只包含一个目标；

将待识别图像和所述Attention向量输入区域生成模型，得到目标候选区域的坐标信息和置信度；

根据所述坐标信息和所述置信度在所述待识别图像中截取所述目标候选区域，得到Query图像；

将所述Query图像输入图像检索模型，得到Query特征向量；

对所述Query特征向量和所述Support特征向量进行相似性度量，得到相似度分值；

根据所述相似度分值确定所述待识别图像对应的目标类别。

在上述目标识别方法的一个实施方式中，“基于目标示例图像，得到每个所述目标示例图像对应的Support特征向量和全部所述目标示例图像对应的Attention向量”的步骤具体包括：

对所述目标示例图像进行第一预处理，得到第一Support图像；

将每个所述第一Support图像输入所述图像检索模型，得到其所对应的所述Support特征向量；

对所述目标示例图像进行第二预处理，得到第二Support图像；

将全部所述第二Support图像输入所述区域生成模型，得到所述Attention向量；

其中，所述第一预处理和所述第二预处理包括下列各项中的至少一种：图像缩放、图像填充、图像存储格式转换、归一化。

在上述目标识别方法的一个实施方式中，所述图像检索模型为下列卷积神经网络中的至少一种：VGGNet、ResNet、AlexNet、RepVGG；并且/或者

所述区域生成模型为Attention-RPN网络；并且/或者

所述相似性度量的方法包括下列方法中的至少一种：欧氏距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离。

在上述目标识别方法的一个实施方式中，“根据所述坐标信息和所述置信度在所述待识别图像中截取所述目标候选区域，得到Query图像”的步骤具体包括：

通过非极大值抑制法对所述置信度进行筛选；

根据所述置信度筛选结果所对应的所述坐标信息，在所述待识别图像中截取所述目标候选区域，得到所述Query图像。

在第二方面，本发明提出了一种目标识别装置，所述装置包括：

图像获取模块，所述图像获取模块被配置成获取目标示例图像和待识别图像；

数据初始化模块，所述数据初始化模块被配置成执行以下操作：

特征提取模块，所述特征提取模块被配置成执行以下操作：

将待识别图像和所述Attention向量输入区域生成模型，得到目标候选区域的坐标信息和置信度，

根据所述坐标信息和所述置信度在所述待识别图像中截取所述目标候选区域，得到Query图像，

将所述Query图像输入图像检索模型，得到Query特征向量；

目标匹配模块，所述目标匹配模块被配置成执行以下操作：

对所述Query特征向量和所述Support特征向量进行相似性度量，得到相似度分值，

根据所述相似度分值确定所述待识别图像对应的目标类别。

在上述目标识别装置的一个实施方式中，所述数据初始化模块具体执行以下操作：

对所述目标示例图像进行第一预处理，得到第一Support图像；

将每个所述第一Support图像输入所述图像检索模型，得到其所对应的所述Support特征向量；

对所述目标示例图像进行第二预处理，得到第二Support图像；

将全部所述第二Support图像输入所述区域生成模型，得到所述Attention向量；

其中，所述第一预处理和所述第二预处理包括下列各项中的至少一种：图像缩放、图像填充、图像存储格式转换、归一化。

在上述目标识别装置的一个实施方式中，所述图像检索模型为下列卷积神经网络中的至少一种：VGGNet、ResNet、AlexNet、RepVGG；并且/或者

所述区域生成模型为Attention-RPN网络；并且/或者

所述相似性度量的方法包括下列方法中的至少一种：欧氏距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离。

在上述目标识别装置的一个实施方式中，所述特征提取模块具体执行以下操作：

通过非极大值抑制法对所述置信度进行筛选；

根据所述置信度筛选结果所对应的所述坐标信息，在所述待识别图像中截取所述目标候选区域，得到所述Query图像。

在第三方面，本发明提出了一种计算机设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项方案所述的目标识别方法。

在第四方面，本发明提出了一种存储介质，所述存储介质适于存储多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项方案所述的目标识别方法。

本领域技术人员能够理解的是，根据本发明的目标识别的技术方案，首先基于目标示例图像，得到目标识别的基础数据，即每个目标所对应的Support特征向量和全部目标所对应的Attention向量，然后根据Attention向量应用区域生成模型提取待识别图像中作为目标候选区域的Query图像，再将Query图像输入目标检测网络得到Query特征向量，通过计算并比较Support特征向量和Query特征向量的相似度分值，即可确定目标类别。本发明的方法本质上是在小样本学习的基础上进行相似性度量，采用本发明的方法可以有效解决目标类别经常变化，样本数量少，并且目标所处场景不固定的情况下难于准确地进行目标识别的问题，并且基于该方法的应用系统操作简单，可以有效减轻相关人员的工作量，节约人工成本。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1是本发明的实施例的主要步骤流程图。

图2是本发明的获取Support特征向量和Attention向量的主要步骤流程图。

图3是本发明的实施例的目标识别模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。例如，尽管本发明的实施例是结合电商直播场景中商品识别来描述的，但是，本发明的保护范围不应受此限制，而是应该涵盖其他任何采用了本发明原理的情形。

首先参阅图1，图1是本发明的实施例的主要步骤流程图，如图1所示，本发明的目标识别方法包括：

步骤S101：基于目标示例图像，得到全部目标示例图像对应的Attention向量和每个目标示例图像对应的Support特征向量；

步骤S102：将待识别图像和Attention向量输入区域生成模型，得到目标候选区域的坐标信息和置信度；

步骤S103：根据所述坐标信息和置信度在所述待识别图像中截取所述目标候选区域，得到Query图像；

步骤S104：将Query图像输入图像检索模型，得到Query特征向量；

步骤S105：对Query特征向量和Support特征向量进行相似性度量，得到相似度分值；

步骤S106：根据相似度分值确定目标类别。

在步骤S101中，在本实施例中，目标示例图像为本次直播全部商品的图像。目标示例图像可以是直播前用户自行拍摄的商品实物的照片，或是商品宣传中的图像。需要说明的是，每个目标示例图像中应只包含一件商品，这样每个目标示例图像对应一个目标类别。并且如果用户自行拍摄商品照片，可使用统一的拍摄背景，并且当背景为单一颜色时，将会有助于提取图像中商品的特征。

为了满足用于获取Attention向量(注意力向量)的区域生成模型和用于获取Support特征向量(支持特征向量，即目标示例图像中目标的特征向量)的图像检索模型的输入要求，需先对目标示例图像进行预处理。

接下来结合图2，说明步骤S101的具体实现步骤。在步骤S201和步骤S203中，根据图像检索模型的输入要求，对目标示例图像进行第一预处理，得到第一Support图像；根据区域生成模型的输入要求，对目标示例图像进行第二预处理，得到第二Support图像。第一预处理和第二预处理的方法包括图像缩放、图像填充、图像存储格式转换、归一化等。

作为示例，图像检索模型的输入要求图像分辨率为224*224，输入的通道数为3。因此，首先通过比例缩放、填充等方法，将目标示例图像的尺寸转换成分辨率为224*224的第一中间图像；再将第一中间图像的格式转换成RGB格式，得到第二中间图像；为了加快图像检索模型的处理速度，将第二中间图像的每个像素的R、G、B的值进行归一化处理，得到第一Support图像。作为示例，归一化的方法可采用OpenCV中的NORM_L1方式或是其他方式。需要说明的是，第一预处理和第二预处理的方法可以相同，也可以不同，这取决于图像检索模型和区域生成模型对于输入图像的要求。本领域技术人员可根据实际情况选择合适的方法实现。

在步骤S202中，将第一Support图像输入图像检索模型，每输入一个第一Support图像得到该图中商品所对应的Support特征向量，每个Support特征向量对应一件商品。在本实施例中，直播商品为S件，拍摄了S个商品的目标示例图像，因此Support特征向量的数量也为S个，并对S个Support特征向量进行编码，每个编码对应一件商品。

图像检索模型，优选地，选用卷积神经网络，通过模型中的卷积层可以很好地提取图像中目标的颜色，纹理，边缘的特征。卷积神经网络，优选地，选用VGGNet、ResNet、AlexNet、RepVGG中的至少一种。在本实施例中，使用ResNet50网络作为图像检索模型，该网络使用重复残差块提取特征，可以有效避免深层网络的梯度消失和退化问题。本领域技术人员可根据实际情况选择合适的方法实现。

在步骤S204中，将全部第二Support图像按照编码顺序或随机地输入区域生成模型，得到本次直播自动识别商品所专用Attention向量。

区域生成模型，优选地，选用Attention-RPN网络，也就是通过Attention机制(注意力机制)向RPN引入支持信息，引导RPN网络生成目标相关的区域候选框，同时抑制其他信息的区域候选框。Attention-RPN网络为本领域公知的技术，具体技术细节可参考论文《Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector》或其它资料。在本实施例中，通过引入Attention向量，在提高获取直播商品区域候选框准确性的同时，还可以抑制直播背景的影响。

在步骤S102中，待识别图像的来源可以是互联网、监控视频中截取的图像、用户自己拍摄的照片或是其他渠道。在本实施例中，待识别图像来源为直播视频的截图。因为步骤S102中的区域生成模型和步骤S204中的区域生成模型为同一个网络模型，所以，同样原因，为了满足区域生成模型输入的需要，需要对直播视频的截图进行第二预处理，得到待识别图像。

将待识别图像和Attention向量输入区域生成模型，得到N个目标候选区域的坐标信息和置信度，其中，N为区域生成模型预设的参数，N的值可根据直播现场情况、目标识别的数量等因素综合确定，例如N的数量可以设置为需要目标识别数量的5倍。作为示例，候选区域通常用矩形框，目标候选区域可表示为Q

在步骤S103中，首先通过非极大值抑制法筛选那些目标候选区域中相互包含的或者大部分交叉的目标候选区域，去掉冗余的候选区域，保留置信度最高的一个，再根据设定的置信度阈值或TopK规则，筛选出符合设定规则的置信度，最后根据置信度所对应的坐标信息，在待识别图像中截取目标候选区域，得到Query图像(待查询图像)。在本实施例中，采用TopK规则，截取置信度较大的K个目标候选区域，得到K个Query图像。

由于目标候选区域矩形框的大小不一，因此需要对Query图像进行第一预处理，得到满足步骤S104中图像检索模型的K个Query图像。步骤S104中的图像检索模型和步骤S202中的图像检索模型为同一个网络模型。

在步骤S104中，将全部K个Query图像按一定顺序或随机地输入图像检索模型，得到K个Query特征向量。

在步骤S105中，对步骤S104得到的K个Query特征向量和步骤S202得到的S个Support特征向量进行相似性度量，得到K*S个相似度分值，K*S个结果可表示为K

相似性度量的方法包括下列方法中的至少一种：欧氏距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离。在本实施例中，采用余弦距离计算相似度分值，Query特征向量和Support特征向量之间的角度越小，角度的余弦值就越大，说明两者之间的相似度就越高。本领域技术人员可根据实际情况选择合适的方法实现。

在步骤S106中，根据相似度分值确定目标类别。在本实施例中，通常只需确定主播当前推荐的一件商品，因此可将目标识别结果的个数设置为1；并且为了保证目标识别的准确，可设置相似度阈值，此时，目标类别的判别条件为相似度分值大于或等于相似度阈值的，且相似度分值最大的一件商品。在目标类别判定时，不需要考虑是K个Query特征向量中的哪一个，目标类别由Support特征向量的编号决定。作为示例，K

需要说明的是，在目标类别识别和判定过程中，不需要关心S个Support特征向量和K个Query特征向量的具体内容，也就是说不需要像准备传统的样本库那样，对目标示例图像进行标注，可以直接使用原始图像。工作人员只需要准确完成目标示例图像的编号与商品的对应工作即可，这使得直播前期的准备工作十分简单。

需要说明的是，在实际应用中，步骤S101的任务是获取目标相关数据，为目标识别做准备工作，是应用的初始化工作，因此，通常只需要执行一次。每次目标识别的过程是从步骤S102至步骤S106实现的。如果在使用中，没有新的目标类别加入，则不需再执行步骤S101；如果有新目标类别加入时，则需要执行步骤S101的操作，更新Attention向量和Support特征向量。

进一步，本发明还提供了一种目标识别装置。如图3所示，本发明的目标识别装置3主要包括图像获取模块31、数据初始化模块32、特征提取模块33和目标匹配模块34。

图像获取模块31被配置成获取目标示例图像和待识别图像。数据初始化模块32被配置成执行步骤S101和图2中的操作。特征提取模块33被配置成执行步骤S102、步骤S103和步骤S104中的操作。目标匹配模块34被配置成执行步骤S105和步骤S106中的操作。

进一步，本发明还提供了一种计算机设备。在根据本发明的一个计算机设备包括处理器和存储装置，存储装置可以被配置成存储并执行上述方法实施例的目标识别方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的目标识别方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该目标识别设备可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种存储介质。根据本发明的存储介质可以被配置成存储执行上述方法实施例的目标识别方法的程序，该程序可以由处理器加载并运行来实现上述目标识别方法的方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该存储介质可以是包括各种电子设备形成的存储装置设备，可选地，本发明实施例中存储介质是非暂时性的计算机可读存储介质。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等序数词仅用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

需要说明的是，在本申请的描述中，术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张之楠;王忱;
专利申请人：广州云从人工智能技术有限公司;

上一篇：一种基于图像的眼动追踪方法和系统
下一篇：程序校验、签名方法及装置、SOC芯片