导航：首页> 电通信技术>对象识别方法、装置、计算机设备、存储介质和产品

对象识别方法、装置、计算机设备、存储介质和产品

文献发布时间：2023-06-19 19:32:07

技术领域

本申请涉及通信技术领域，具体涉及一种对象识别方法、装置、计算机设备、存储介质和产品。

背景技术

在对视频中的人物进行身份识别时，通常采用提取视频中人物的特征信息，根据人物的特征信息确定人物的身份，由于提取的特征信息来自视频帧包含的特征，可用于身份识别的特征较少，导致识别视频中人物身份的准确率低。

发明内容

本申请实施例提供一种对象识别方法、装置、计算机设备、存储介质和产品，可以提高对视频中对象的身份识别准确率。

本申请实施例提供的一种对象识别方法，包括：

获取待处理视频以及所述待处理视频对应的视频描述信息；

对所述待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；

对所述对象图像进行对象特征提取，得到所述目标对象的对象特征信息；

将所述对象特征信息和所述视频描述信息进行特征融合处理，得到所述目标对象对应的特征融合信息；

基于所述特征融合信息对所述目标对象进行身份识别，得到所述目标对象的身份信息。

相应的，本申请实施例还提供的一种对象识别装置，包括：

获取单元，用于获取待处理视频以及所述待处理视频对应的视频描述信息；

检测单元，用于对所述待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；

提取单元，用于对所述对象图像进行对象特征提取，得到所述目标对象的对象特征信息；

融合单元，用于将所述对象特征信息和所述视频描述信息进行特征融合处理，得到所述目标对象对应的特征融合信息；

识别单元，用于基于所述特征融合信息对所述目标对象进行身份识别，得到所述目标对象的身份信息。

在一实施例中，所述对象识别装置还包括：

信息获取单元，用于获取初始视频描述信息；

属性提取单元，用于对待处理视频进行内容属性提取，得到待处理视频对应的视频元信息；

处理单元，用于根据视频元信息对初始视频描述信息进行选择处理，得到待处理视频的视频描述信息。

在一实施例中，所述属性提取单元，包括：

文本获取子单元，用于获取待处理视频的视频文本信息；

筛选子单元，用于对视频文本信息进行筛选确定待处理视频的视频元信息。

在一实施例中，所述文本获取子单元，包括：

视频帧获取模块，用于获取待处理视频的关键视频帧；

文本识别模块，用于对关键视频帧进行文本内容识别，得到待处理视频对应的视频文本信息。

在一实施例中，所述筛选子单元，包括：

统计模块，用于对视频文本信息进行词频统计，得到视频文本信息中至少一个关键词的频率信息；

确定模块，用于根据频率信息从至少一个关键词中确定视频元信息。

在一实施例中，所述检测单元，包括：

视频筛选子单元，用于对待处理视频进行视频帧筛选处理，得到待处理视频对应的待处理视频帧；

位置检测子单元，用于针对待处理视频帧进行对象位置检测，得到待处理视频帧中对象目标对象所在的位置信息；

图像获取子单元，用于根据位置信息从待处理视频帧中获取包含对象目标对象的对象图像。

在一实施例中，所述融合单元，包括：

方式确定子单元，用于确定至少一种特征融合方式；

第一特征融合子单元，用于基于至少一种特征融合方式对对象特征信息和视频元信息进行特征融合处理，得到对象目标对象对应的至少一个子特征融合信息；

信息确定子单元，用于基于至少一个子特征融合信息确定特征融合信息。

在一实施例中，所述第一特征融合子单元，包括：

拼接模块，用于将对象特征信息和视频描述信息进行特征叠加处理，得到叠加特征信息；

交融模块，用于将对象特征信息和视频描述信息进行特征交融处理，得到交融特征信息。

在一实施例中，所述融合单元，包括：

维度转换子单元，用于对视频描述信息进行维度转换，得到与对象特征信息维度相同的处理后视频描述信息；

第二特征融合子单描述，用于将处理后视频描述信息和对象特征信息进行特征融合处理，得到目标对象对应的特征融合信息。

在一实施例中，所述识别单元，包括：

特征挖掘子单元，用于基于特征融合信息对目标对象的人物特征信息进行特征挖掘，得到目标对象的身份特征信息；

身份识别子单元，用于根据身份特征信息对目标对象进行身份识别，得到目标对象的身份信息。

在一实施例中，所述识别单元，包括：

预测子单元，用于针对每个对象身份，根据特征融合信息预测目标对象为对象身份的预测概率；

身份确定子单元，用于根据预测概率确定目标对象的身份信息。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种对象识别方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种对象识别方法。

相应的，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器加载以执行本申请实施例提供的任一种对象识别方法。

本申请实施例通过获取待处理视频以及待处理视频对应的视频描述信息；对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；对对象图像进行对象特征提取，得到目标对象的对象特征信息；将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息；基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息，该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的对象识别方法的场景图；

图2是本申请实施例提供的对象识别方法的流程图；

图3是本申请实施例提供的对象识别方法的另一流程图；

图4是本申请实施例提供的对象识别方法的身份识别模型结构示意图；

图5是本申请实施例提供的对象识别装置示意图；

图6是本申请实施例提供的终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种对象识别方法、装置、计算机设备和计算机可读存储介质。该对象识别装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、以及车载计算机等。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，如图1所示，计算机设备通过获取待处理视频以及待处理视频对应的视频描述信息；对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；对对象图像进行对象特征提取，得到目标对象的对象特征信息；将对象特征信息和视频描述信息进行特征融合处理，例如，进行特征叠加处理得到叠加特征信息，和特征交融处理得到交融特征信息，将叠加特征信息和交融特征信息进行拼接处理，将拼接处理后的特征信息作为目标对象对应的特征融合信息；基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从对象识别装置的角度进行描述，该对象识别装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

本申请实施例提供一种对象识别方法，如图2所示，该对象识别方法的具体流程可以如下：

101、获取待处理视频以及待处理视频对应的视频描述信息。

其中，待处理视频可以是需要进行对象身份识别的视频，例如，待处理视频可以是在一平台上发布的视频，还可以是存储在数据库中或者区块链中的视频。

其中，视频描述信息可以包括描述待处理视频内容属性的视频元信息，可以用于增强对象特征信息，比如，视频描述信息可以包括待处理视频的关键词，例如，历史、法律、家庭、以及传记等，视频描述信息也可以是待处理视频的视频元信息对应的元信息特征向量。

比如，具体可以是获取待处理视频，以及根据待处理视频的视频分类结果获取对应的视频描述信息，比如，待处理视频处于科教分类视频下的口语教学片，可以根据视频分类结果确定待处理视频的视频描述信息为科教以及口语教学等。可选的，还可以根据待处理视频的视频简介获取视频描述信息，或者是将待处理视频对应的预设关键词作为视频描述信息，预设关键词可以来自用户对该待处理视频添加的视频标签，可选的，可以从互联网上针对待处理视频进行检索，根据检索得到的数据获取与待处理视频对应的视频描述信息，或者是检索待处理视频的相似视频，根据相似视频对应的数据确定待处理视频对应的视频描述信息。

可选的，可以根据待处理视频的视频分类结果、视频间接或者是预设关键词确定待处理视频的视频元信息，根据视频元信息确定待处理视频的视频描述信息，例如，对视频元信息进行one-hot编码或者是embeddedding嵌入处理，得到视频描述信息。在一实施例中，可以对视频描述信息进行数据格式统一化，提高数据处理效率，即在步骤“获取待处理视频以及待处理视频对应的视频描述信息”之前，对象识别方法具体还可以包括：

获取初始视频描述信息；

对待处理视频进行内容属性提取，得到待处理视频对应的视频元信息；

根据视频元信息对初始视频描述信息进行选择处理，得到待处理视频的视频描述信息。

其中，初始视频描述信息可以包括预设的多个视频元信息，预设的多个视频元信息可以是通过对数据库中已知的视频元信息进行收集得到，比如，每个视频元信息可以对应有一个信息标识，初始视频描述信息可以是根据每个视频元信息的信息标识得到的信息。

其中，视频元信息可以是描述待处理视频的内容属性的信息，例如，历史、法律、家庭、以及传记等。

比如，具体可以是对待处理视频的封面、视频名称、字幕以及简介等进行内容属性提取，得到待处理视频的视频元信息。可以根据预设规则对初始视频描述信息对应预设的视频元信息进行排序，每个视频元信息对应有信息标识，该信息标识的初始值为0，根据每个预设的视频元信息的信息标识得到初始视频描述信息。将待处理视频的视频元信息与预设的视频元信息进行比较，若待处理视频的视频元信息与预设的视频元信息相同，则将初始视频描述信息对应位置的信息标识置1；根据初始视频描述信息包含的信息标识得到视频元信息。其中，待处理视频的封面、视频名称、字幕以及简介等与待处理视频相关的信息可以从数据库或者区块链中获取，也可以是在互联网对该待处理视频进行搜索，从搜索结果中提取待处理视频的封面、视频名称、字幕以及简介等相关信息。

可选的，通过对视频元信息进行收集得到视频元信息集合，视频元信息集合包含预设的视频元信息，可以根据预设规则对视频元信息集合中的视频元信息进行排序，视频元信息集合可以表示为KS＝{ks_1,ks_2,...,ks_k}，其集合大小为k，ks_i表示第i个视频元信息，其中，i＝1，2，3，……，k。

每个预设的视频元信息对应有信息标识，该信息标识的初始值为0，则可以得到初始视频描述信息为长度为k的零向量kw_0＝{0

视频元信息可以通过获取待处理视频的视频文本信息，根据视频文本信息进行筛选，提高视频元信息的准确性，从而提高对待处理视频中目标对象进行识别的准确性，即在一实施例中，步骤“对待处理视频进行内容属性提取，得到待处理视频对应的视频元信息”，具体可以包括：

获取待处理视频的视频文本信息；

对视频文本信息进行筛选确定待处理视频的视频元信息。

其中，视频文本信息可以包括与待处理视频相关的文本信息，比如，可以包括待处理视频的字幕、视频简介以及视频名称等，若待处理视频包含于文章中，则视频文本信息还可以包括该文章。

比如，具体可以是获取待处理视频的音频文件，将音频文本进行文字转换，得到音频文件对应的文本信息，以及获取待处理视频的视频简介以及视频名称等，将获取的不同文本信息作为视频文本信息。

有些视频可能存在不包含视频名称以及视频简介等信息，或者是音频文件丢失或者难以获取的情况，可以对视频相应的视频帧进行文本内容识别，得到待处理视频的视频文本信息，即步骤“获取待处理视频的视频文本信息”，具体可以包括：

获取待处理视频的关键视频帧；

对关键视频帧进行文本内容识别，得到待处理视频对应的视频文本信息。

其中，关键视频帧可以是待处理视频的所有视频帧，或者是待处理视频封面视的频帧，也可以是包含字幕的视频帧，还可以是包含视频名称的视频帧。

比如，具体可以是获取待处理视频的关键视频帧，对关键视频帧进行光学字符识别(Optical Character Recognition，OCR)，根据识别结果得到待处理视频的视频文本信息。

可选的，可以通过文字检测算法已经定位视频关键帧中的字幕所在位置，截取字幕所在的图像区域，得到字幕图像，对字幕图像进行图像卷积处理，得到关于字幕图像的图像卷积特征信息，通过LSTM网络对图像卷积特征信息进行文本特征提取处理，得到关于字幕图像的文本特征信息，根据文本特征信息识别字幕图像包含的文本内容，针对每个视频关键帧进行文本内容识别，可以得到待处理视频的视频文本信息。

对得到的视频文本信息进行筛选，将视频文本信息中出现次数较为频繁的词语作为待处理视频的视频元信息，比如，将出现次数最高的前五个词语作为待处理视频的视频元信息。

除了根据视频文本信息中词语出现的频率筛选视频元信息之外，还可以根据视频文本信息中的词语在其他视频文本信息中出现的次数作为筛选条件，从视频文本信息中筛选视频元信息，在该视频文本信息中出现次数较多，而较少出现在其他的视频文本信息中的词语更能体现该视频文本信息的特征，结合在其他视频文本信息的出现次数得到的视频元信息更能体现待处理视频的特征，即步骤“对关键视频帧进行文本内容识别，得到待处理视频对应的视频文本信息”，具体可以包括：

对视频文本信息进行词频统计，得到视频文本信息中至少一个关键词的频率信息；

根据频率信息从至少一个关键词中确定视频元信息。

其中，关键词可以是视频文本信息包含的词语。

比如，具体可以是通过TF-IDF(term frequency–inverse document frequency)算法计算每个关键词的频率信息，首先，获取视频文本信息的总词数，以及统计视频文本信息中每个关键词的出现次数，针对每个关键词，根据出现次数和总词数计算得到该关键词的词频，TF＝出现次数/总次数。然后，获取视频数据库中总视频数量，视频数据库包含待处理视频，根据视频数量和包含该关键词的视频文本信息对应的视频数量计算得到该关键词的逆文档频率，IDF＝log(总视频数量/包含该词语的视频数量+1)，根据该关键词的词频和逆文档频率计算该关键词的频率信息，TF-IDF＝TF·IDF。根据视频文本信息中每个关键词的TF-IDF值从视频文本信息中确定视频元信息，例如，将TF-IDF值最大的8个关键词作为待处理视频的视频元信息。

本申请实施例将待处理视频的关键词作为视频元信息融入识别待处理视频的目标对象身份信息的方法中，使得在识别目标对象的身份信息时可以根据视频元信息所提供的信息挖掘出重要的有关目标对象身份信息的特征信息，提高识别目标对象身份信息的精度。将该方法应用于视频审核业务，可以提高视频审核效率。

102、对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像。

其中，目标对象可以包括待处理视频中的对象、动物、以及其他物品等。

比如，具体可以是对待处理视频中的每帧视频帧进行对象检测，从待处理视频中获取到包含目标对象的视频帧，从视频帧中截取目标对象所在的区域，得到包含目标对象的对象图像。

可以理解的是，当视频帧中存在多个目标对象时，可以得到每个目标对象对应的对象图像，若多个视频帧中存在同个目标对象，则可以获取到该目标对象的多张对象图像，根据多张对象图像可以得到该目标对象的对象图像序列。

通常情况下，由于视频内容的连续性，视频在连续几帧的视频帧中对象不会发生较大的变化，因此对待处理视频的视频帧进行筛选，减少进行对象识别的视频帧的数量，从而减少识别所需要的时间，即步骤“对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像”，具体可以包括：

对待处理视频进行视频帧筛选处理，得到待处理视频对应的待处理视频帧；

针对待处理视频帧进行对象位置检测，得到待处理视频帧中对象目标对象所在的位置信息；

根据位置信息从待处理视频帧中获取包含对象目标对象的对象图像。

其中，位置信息可以是目标对象在视频帧中的位置的相关信息，例如，可以是坐标信息等。

比如，具体可以是对通过等间距的方式从待处理视频中抽取出多个视频帧，得到待处理视频帧，通过更快的区域卷积神经网络(Faster Region Convolutional NeuralNetworks，Faster-RCNN)逐帧检测待处理视频帧，得到待处理视频帧中目标对象所在的位置信息，根据位置信息从待处理视频帧中截取包含目标对象的图像区域，得到待处理视频对应的对象图像。

可选的，可以使用等间距的方式从待处理视频中抽取待处理视频帧得到视频序列帧VF＝{VF_1,VF_1,...,VF_n}，其中，例如，VF_i表示第i个待处理视频帧，每间隔a帧从待处理视频中抽取出一帧视频帧作为待处理视频帧，或者是每个时间b，从待处理视频中抽取出一帧视频帧作为待处理视频帧，得到视频序列帧。

103、对对象图像进行对象特征提取，得到目标对象的对象特征信息。

其中，对象特征信息可以包括标识目标对象特征的信息，对象特征信息可以包括对象特征向量。

比如，具体可以是对对象图像进行图像卷积处理、批数据归一化以及最大池化等处理，以得到目标对象的对象特征信息，可选的，可以通过残差神经网络50(ResNet50)对对象图像进行对象特征提取，得到目标对象的对象特征信息。

可以理解的是，当存在多个目标对象时，可以针对每个目标对象对应的对象图像进行对象特征提取，得到该目标对象的对象特征信息。

104、将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息。

比如，具体可以是将对象特征信息和视频描述信息融合处理，例如，将对象特征信息和视频描述信息相加以进行特征融合处理，或者是将对象特征信息和视频描述信息相乘以进行特征融合处理，还可以将对象特征信息和视频描述信息相减以进行特征融合处理，或者是将视频描述信息和对象特征信息进行拼接处理得到特征融合信息。

可以根据应用场景需要确定特征融合方式，根据特征融合方式对对象特征信息和视频描述信息进行特征融合处理，提高特征融合的灵活性，使得到的特征融合信息更具有表征性，即在一实施例中，步骤“将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息”，具体可以包括：

确定至少一种特征融合方式；

基于至少一种特征融合方式对对象特征信息和视频描述信息进行特征融合处理，得到对象目标对象对应的至少一个子特征融合信息；

基于至少一个子特征融合信息确定特征融合信息。

其中，特征融合方式可以包括特征拼接、特征叠加、以及特征交融等处理方式，特征拼接可以是将两个特征信息进行拼接，得到维度更多或者通道数更多的特征信息，特征叠加可以是增加每个维度下或者每个通道下的信息量，特征交融可以是将特征相乘，将对象特征信息映射到其他特征空间中。

比如，具体可以是根据对象特征信息的类型确定对应的特征融合方式，或者是根据预置的条件确定特征融合方式，根据特征融合方式将对象特征信息和视频描述信息进行特征融合处理，得到每个特征融合方式对应的子特征融合信息，将得到的至少一个子特征融合特征作为目标对应的特征融合信息。

在一实施例中，至少一种特征融合方式可以包括特征叠加和特征交融，分别得到对应的子特征融合信息为拼接特征信息和交融特征信息，步骤“基于至少一种特征融合方式对对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的至少一个子特征融合信息”，具体可以包括：

将对象特征信息和视频描述信息进行特征叠加处理，得到拼接叠加信息；

将对象特征信息和视频描述信息进行特征交融处理，得到交融特征信息。

比如，具体可以是将对象特征信息和视频描述信息进行特征叠加处理，得到叠加特征信息，以及将将对象特征信息和视频描述信息进行相乘以进行特征交融处理，得到交融特征信息，将叠加特征信息和交融特征信息进行拼接，得到特征融合信息。

不同的待处理视频对应的视频描述信息不同，且得到的对象特征信息也不同，可以对视频描述信息进行维度转化，使得视频描述信息和对象特征信息的维度相同，便于对二者进行计算以作特征融合处理，即步骤“将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息”，具体可以包括：

对视频描述信息进行维度转换，得到与对象特征信息维度相同的处理后视频描述信息；

将处理后视频描述信息和对象特征信息进行特征融合处理，得到目标对象对应的特征融合信息。

比如，具体可以是通过线性变换对视频描述信息进行维度转换，得到与对象特征信息维度相同的处理后视频描述信息；将处理后视频描述信息和对象特征信息进行特征融合处理，得到目标对象对应的特征融合信息。

105、基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。

其中，身份信息可以包括职业信息、角色信息等。

比如，具体可以是根据特征融合信息对目标对象进行识别，确定目标对象的身份信息。

可选的，可以根据特征融合信息预测目标对象为每个对象身份的概率，根据概率确定目标对象的身份信息，即步骤“基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息”，具体可以包括：

针对每个对象身份，根据特征融合信息预测目标对象为对象身份的预测概率；

根据预测概率确定目标对象的身份信息。

比如，具体可以是针对每个对象身份，根据特征融合信息预测目标对象为该对象身份的预测概率，将预测概率最高的对象身份作为该目标对象的身份信息。

可选的，在一实施例中，可以通过神经网络模型对特征融合信息进行挖掘处理，得到与目标对象更加相关的特征信息，更加准确地识别目标对象的身份信息，即步骤“基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息”，包括：

基于特征融合信息对目标对象的人物特征信息进行特征挖掘，得到目标对象的身份特征信息；

根据身份特征信息对目标对象进行身份识别，得到目标对象的身份信息。

其中，人物特征信息可以是对象特征信息中与身份信息相关的特征信息。

比如，具体可以是特征融合信息提供了身份信息的提示，视频描述信息为口语教学，则目标对象的身对份信息很可能为老师和学生等，因此神经网络模型可以基于特征融合信息对用于身份识别的人物特征进行特征挖掘，对于对象特征信息中与目标对象身份信息无关的特征信息进行弱化或者舍弃，得到目标对象的身份特征信息，根据身份特征信息对目标对象的身份进行识别，确定目标对象的身份信息。

由上可知，本申请实施例通过获取待处理视频以及待处理视频对应的视频描述信息；对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；对对象图像进行对象特征提取，得到目标对象的对象特征信息；将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息；基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息，该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

在上述实施例的基础上，下面将举例做进一步详细说明。

本实施例将从对象识别装置的角度进行描述，该对象识别装置具体可以集成在计算机设备中，该计算机设备可以是服务器。

本申请实施例提供的一种对象识别方法，如图3所示，该对象识别方法的具体流程可以如下：

201、获取训练样本集合对身份识别模型进行训练，得到训练后身份识别模型。

比如，训练样本集合中可以包括至少一个训练样本，每个训练样本包含视频样本、视频样本对应的视频元信息、以及对象身份标签三部分，例如，视频样本A对应的视频元信息为“剧情”、“历史”、以及“家庭”，对象身份标签为“工人”、“商人”以及“农民”；视频样本B对应的视频元信息为“发音”、“口语”以及“教学”，对象身份标签为“老师”、“学生”以及“校长”；视频样本C对应的视频元信息为“打工”、“上班”以及“剧情”，对象身份标签为“工人”、“老板”以及“经理”等。

服务器根据视频元信息可以得到视频描述信息，具体过程参考步骤101或者步骤202的相关描述，在此不做赘述。

服务器将视频样本和视频描述信息作为身份识别模型的输入，服务器通过身份识别模型根据视频样本和视频样本对应的视频描述信息预测视频样本中目标对象的身份信息，服务器根据对象身份标签以及预测的身份信息对身份识别模型进行训练，得到训练后身份识别模型。

身份识别模型训练好之后，进行视频目标对象身份识别的时候，只需要提供待处理视频和关于待处理视频的视频元信息，训练后身份识别模型会在进行目标对象身份识别的过程中引入视频元信息，该引入的视频元信息会增强训练后身份识别模型用于进行目标对象身份识别的对象特征信息，以此更精确地进行身份识别。

202、获取待处理视频和待处理视频对应的视频描述信息。

比如，具体可以是服务器获取待处理视频，对待处理视频的视频帧进行光学字符识别(Optical Character Recognition，OCR)提取待处理视频的字幕，根据识别结果得到待处理视频的视频文本信息，可选的，还可以获取待处理视频的音频文件，将音频文件进行文本转换，根据转换结果得到待处理视频的视频文本信息。

服务器通过TF-IDF(term frequency–inverse document frequency)算法计算视频文本信息中每个关键词的频率信息，首先，获取视频文本信息的总词数，以及统计视频文本信息中每个关键词的出现次数，针对每个关键词，根据出现次数和总词数计算得到该关键词的词频，TF＝出现次数/总次数。然后，获取视频数据库中总视频数量，视频数据库包含待处理视频，根据视频数量和包含该关键词的视频文本信息对应的视频数量计算得到该关键词的逆文档频率，IDF＝log(总视频数量/包含该词语的视频数量+1)，根据该关键词的词频和逆文档频率计算该关键词的频率信息，TF-IDF＝TF·IDF。根据视频文本信息中每个关键词的TF-IDF值从视频文本信息中确定视频元信息，例如，将TF-IDF值最大的8个关键词作为待处理视频的视频元信息。

通过对视频元信息进行收集得到视频元信息集合，视频元信息集合包含预设的视频元信息，可以根据预设规则对视频元信息集合中的视频元信息进行排序，视频元信息集合可以表示为KS＝{ks_1,ks_2,...,ks_k}，其集合大小为k，ks_i表示第i个视频元信息，其中，i＝1，2，3，……，k。

每个预设的视频元信息对应有信息标识，该信息标识的初始值为0，则可以得到初始视频描述信息为长度为k的零向量kw_0＝{0

或者使用Bag-word算法，基于视频元信息集合给定一个长度为k的的零向量kw_0，该待处理视频的视频元信息包含了哪些视频元信息集合中的视频元信息，在向量kw_0的对应位置上置1，由此可以获得关于该待处视频的视频描述信息特征向量kw。

服务器将待处理视频的视频元信息与预设的视频元信息进行比较，若待处理视频的视频元信息与预设的视频元信息相同，则将初始视频描述信息对应位置的信息标识置1，否则，置0，得到视频描述信息，视频描述信息记为kw＝{kw_1,kw_2,kw_3,…,kw_k-1,kw_k}，例如，视频描述信息可以是{0

视频元信息可以帮助身份识别模型理解待处理视频的视频内容，例如对于某一待处理视频的视频元信息是“教学”和“发音”，那么这些视频元信息向身份识别模型提供了一些隐含的提示信息：该视频中的人物职业可能是有老师、校长和学生等，这无疑增强了可用于进行身份识别的对象特征信息，基于这些增强的对象特征信息，身份识别模型能够更准确地进行待处理视频的目标对象进行身份识别。

203、对待处理视频进行视频帧序列化，得到视频序列帧。

比如，具体可以是服务器使用等间距的方式从待处理视频中抽取待处理视频帧得到视频序列帧VF＝{VF_1,VF_1,...,VF_n}，其中，例如，VF_i表示第i个待处理视频帧，每间隔a帧从待处理视频中抽取出一帧视频帧作为待处理视频帧，或者是每个时间b，从待处理视频中抽取出一帧视频帧作为待处理视频帧，得到视频序列帧。

204、通过训练后身份识别模型对视频序列帧进行对象检测，确定目标对象在视频序列帧中的位置信息。

比如，具体可以是服务器通过训练后身份识别模型使用Faster-RCNN网络结构对视频序列帧逐帧进行对象检测，确定目标对象在视频序列帧中的位置信息。

205、根据位置信息从视频序列帧中截取包含目标对象所在的图像区域，得到对象图像序列。

比如，具体可以是服务器根据位置信息从视频序列帧中截取包含目标对象所在的图像区域，若视频序列帧中的待处理视频帧不包含目标对象，则不进行截取，根据位置信息进行截取包含目标对象所在的图像区域，得到对象图像序列，记为person_list＝{person_1,person_2,...,person_m}，其中，person_i目标对象i的对象图像序列，person_i可以是根据包含对象i的对象图像进行转换得到的矩阵，例如，可以通过图像卷积处理得到。

206、通过训练后身份识别模型对对象图像序列进行对象特征提取，得到目标对象的对象特征信息。

比如，具体可以是服务器使用预训练好的即50层的残差网络(Residual Network50，ResNet50)对对象图像序列进行对象特征提取，得到目标对象的对象特征信息pv＝{pv_1,pv_2,...,pv_m}，其中，pv_i表示目标对象i的对象特征信息。

207、通过训练后身份识别模型将对象特征信息和视频描述信息进行特征融合处理，得到特征融合信息。

比如，具体可以是首先，服务器通过训练后身份识别模型基于全连接层(Full-connected layer，FC层)将视频描述信息进行维度转换，使得视频描述信息的维度和对象特征信息的维度相同，维度转换后的视频描述信息记为kw_d。

然后，将视频描述信息和对象特征信息通过特征相乘以及特征相加的方式进行特征融合处理，得到两个子特征融合信息，将两个子特征融合信息进行拼接得到特征融合信息，扩大对象特征信息的维度，使得对象特征信息包含的更多的信息，可以更加准确地识别目标对象的身份。

将视频描述信息和对象特征信息进行特征融合处理后得到的特征融合信息记为：

pv_s＝{pv_s_1,pv_s_2,...,pv_s_m}，其中，pv_s_i＝{pv_i*kw_d,pv_i+kw_d}，i＝1，2……m，pv_s_i表示目标对象i的特征融合信息。

208、通过训练后身份识别模型基于特征融合信息识别目标对象的身份信息。

比如，具体可以是服务器将特征融合信息输入全连接层，服务器通过训练后身份识别模型基于全连接层对输入的每个目标对象的特征融合信息进行非线性变换Y＝f(Wx+b)并输出。其中f为节点的激活函数，W为权重矩阵，b为偏置常量，全连接层可以包括多个节点，节点的数量为分类的类别个数，即对象身份的数量。

服务器通过训练后身份识别模型基于Softmax层针对每个目标对象的特征融合信息进行身份识别，该层将fc层的输出结果转化为各个对象身份的预测概率，计算方法如下。其中，z

在一实施例中，如图4所示，基于训练后身份识别模型的身份识别过程可以将身份识别模型分为三个模块：视频对象定位与特征提取模块，视频描述信息提取模块，视频元信息增强对象特征模块。视频对象定位与对象提取模块中，训练后身份识别模型需要对所要进行身份识别的目标对象进行定位，获取目标对象在视频帧序列的视频帧中的位置信息，并根据位置信息的指示从视频帧中截取对象图像，得到每个目标对象的对象图像，如图4中的对象图像1和对象图像2，对象图像1表示目标对象1对应的对象图像，对象图像2表示目标对象2对应的对象图像；对象图像序列进行对象特征信息提取，得到每个目标对象的对象特征信息，如图4中的对象特征信息1和对象特征信息2，对象特征信息1表示目标对象1对应的对象特征信息，对象特征信息2表示目标对象2对应的对象特征信息。视频描述信息提取模块中训练后身份识别模型需要对关于待处理视频的一些关键词集进行提取，得到待处理视频的视频元信息，并根据视频元信息得到待处理视频的视频描述信息。视频元信息增强对象特征模块中，使用基于视频元信息得到的视频描述信息对每个目标对象的对象特征信息进行融合增强，从而使得模型对于视频人物职业对每个目标对象的识别更精确。

由上可知，本申请实施例服务器通过获取训练样本集合对身份识别模型进行训练，得到训练后身份识别模型，获取待处理视频和待处理视频对应的视频描述信息，对待处理视频进行视频帧序列化，从待处理视频中筛选出待处理是视频帧，得到视频序列帧，通过训练后身份识别模型对视频序列帧进行对象检测，确定目标对象在视频序列帧中的位置信息，根据位置信息从视频序列帧中截取包含目标对象所在的图像区域，得到对象图像序列，通过训练后身份识别模型对对象图像序列进行对象特征提取，得到目标对象的对象特征信息，通过训练后身份识别模型将对象特征信息和视频描述信息进行特征融合处理，得到特征融合信息，通过训练后身份识别模型基于特征融合信息识别目标对象的身份信息。该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，提高了基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

为了便于更好地实施本申请实施例提供的对象识别方法，在一实施例中还提供了一种对象识别装置。其中名词的含义与上述对象识别方法中相同，具体实现细节可以参考方法实施例中的说明。

该对象识别装置具体可以集成在计算机设备中，如图5所示，该对象识别装置可以包括：获取单元301、检测单元302、提取单元303、融合单元304和识别单元305，具体如下：

(1)获取单元301：用于获取待处理视频以及待处理视频对应的视频描述信息。

可选的，对象识别装置还可以包括信息获取单元、属性提取单元和处理单元，具体地：

信息获取单元：用于获取初始视频描述信息；

属性提取单元：用于对待处理视频进行内容属性提取，得到待处理视频对应的视频元信息；

处理单元：用于根据视频元信息对初始视频描述信息进行选择处理，得到待处理视频的视频描述信息。

可选的，属性提取单元可以包括文本获取子单元和筛选子单元，具体地：

文本获取子单元：用于获取待处理视频的视频文本信息；

筛选子单元：用于对视频文本信息进行筛选确定待处理视频的视频元信息。

可选的，文本获取子单元可以包括视频帧获取模块和文本识别模块，具体地：

视频帧获取模块：用于获取待处理视频的关键视频帧；

文本识别模块：用于对关键视频帧进行文本内容识别，得到待处理视频对应的视频文本信息。

可选的，筛选子单元可以包括统计模块和确定模块，具体地：

统计模块：用于对视频文本信息进行词频统计，得到视频文本信息中至少一个关键词的频率信息；

确定模块：用于根据频率信息从至少一个关键词中确定视频元信息。

(2)检测单元302：用于对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像。

可选的，检测单元302可以包括视频筛选子单元、位置检测子单元和图像获取子单元，具体地：

视频筛选子单元：用于对待处理视频进行视频帧筛选处理，得到待处理视频对应的待处理视频帧；

位置检测子单元：用于针对待处理视频帧进行对象位置检测，得到待处理视频帧中对象目标对象所在的位置信息；

图像获取子单元：用于根据位置信息从待处理视频帧中获取包含对象目标对象的对象图像。

(3)提取单元303：用于对对象图像进行对象特征提取，得到目标对象的对象特征信息。

(4)融合单元304：用于将对象特征信息和视频元信息进行特征融合处理，得到目标对象对应的特征融合信息。

可选的，融合单元304可以包括方式确定子单元、第一特征融合子单元和信息确定子单元，具体地：

方式确定子单元：用于确定至少一种特征融合方式；

第一特征融合子单元：用于基于至少一种特征融合方式对对象特征信息和视频元信息进行特征融合处理，得到对象目标对象对应的至少一个子特征融合信息；

信息确定子单元：用于基于至少一个子特征融合信息确定特征融合信息。

可选的，第一特征融合子单元可以包括拼接模块和交融模块，具体地：

拼接模块：用于将对象特征信息和视频描述信息进行特征叠加处理，得到叠加特征信息；

交融模块：用于将对象特征信息和视频描述信息进行特征交融处理，得到交融特征信息。

可选的，融合单元304可以包括维度转换子单元和第二特征融合子单元，具体地：

维度转换子单元：用于对视频描述信息进行维度转换，得到与对象特征信息维度相同的处理后视频描述信息；

第二特征融合子单描述：用于将处理后视频描述信息和对象特征信息进行特征融合处理，得到目标对象对应的特征融合信息。

(5)识别单元305：用于基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。

可选的，识别单元305可以包括特征挖掘子单元和身份识别子单元，具体地：

特征挖掘子单元：用于基于特征融合信息对目标对象的人物特征信息进行特征挖掘，得到目标对象的身份特征信息；

身份识别子单元：用于根据身份特征信息对目标对象进行身份识别，得到目标对象的身份信息。

可选的，识别单元305可以包括预测子单元和身份确定子单元，具体地：

预测子单元：用于针对每个对象身份，根据特征融合信息预测目标对象为对象身份的预测概率；

身份确定子单元：用于根据预测概率确定目标对象的身份信息。

由上可知，本申请实施例对象识别装置通过获取单元301获取待处理视频以及待处理视频对应的视频描述信息；由检测单元302对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；由提取单元303对对象图像进行对象特征提取，得到目标对象的对象特征信息；通过融合单元304将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息；最后通过识别单元305基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

本申请实施例还提供一种计算机设备，该计算机设备可以是终端，也可以是服务器，如图6所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和计算机程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

计算机设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1001会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的计算机程序，从而实现各种功能，如下：

获取待处理视频以及待处理视频对应的视频元信息；

对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；对对象图像进行对象特征提取，得到目标对象的对象特征信息；

将对象特征信息和视频元信息进行特征融合处理，得到目标对象对应的特征融合信息；

基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由上可知，本申请实施例的计算机设备可以通过获取待处理视频以及待处理视频对应的视频描述信息；对待处理视频中的视频帧进行对象检测，得到包含目标对象的对象图像；对对象图像进行对象特征提取，得到目标对象的对象特征信息；将对象特征信息和视频描述信息进行特征融合处理，得到目标对象对应的特征融合信息；基于特征融合信息对目标对象进行身份识别，得到目标对象的身份信息。该方案将待处理视频的视频描述信息和目标对象的对象特征信息进行特征融合处理，通过特征融合处理视频描述信息增强了可用于身份识别的对象特征信息，基于特征融合处理得到的特征融合信息可以更加准确地识别目标对象的身份信息，提高识别待处理视频中目标对象身份信息的准确率。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质(也可以简称为存储介质)中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质(也称为计算机可读存储介质)，其中存储有计算机程序，该计算机程序，能够被处理器进行加载，以执行本申请实施例所提供的任一种对象识别方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种对象识别方法，因此，可以实现本申请实施例所提供的任一种对象识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种对象识别方法、装置、计算机设备、存储介质和产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李振阳;
专利申请人：腾讯科技(深圳)有限公司;

上一篇：一种基于自适应带宽阈值分割的GPU信道化接收方法
下一篇：一种木薯MeANR-VIGS系统及其应用