一种视频标签关联方法、装置和电子设备

文献发布时间：2023-06-19 19:07:35

技术领域

本申请涉及智能搜索的技术领域，尤其是涉及一种视频标签关联方法、装置和电子设备。

背景技术

当前，为了让用户在短时间内获知视频的内容，视频播放平台通常会为上传的视频制作对应的视频标签，其中，视频标签用来描述视频的特征，也可以用于视频的召回、推荐以及搜索等。视频标签越丰富，则能够更好地用于对视频进行分发和消费，同时，还可以提供给用户更加友好的搜索和推荐体验。

目前，为视频添加标签的方式有多种：一种是让观看视频的用户为视频添加标签，这种方式比较快捷，但是，视频添加标签的效率较低；一种是通过视频播放平台的管理人员手动添加标签，这种方式需要耗费相当大的人力物力，且由于管理人员的数量有限，导致为视频添加标签的效率太低。

因而，如何提高关联视频与视频标签的效率是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种视频标签关联方法、装置和电子设备，用于解决以上至少一项技术问题。

本申请的上述发明目的是通过以下技术方案得以实现的：

第一方面，本申请提供一种视频标签关联方法，采用如下的技术方案：

一种视频标签关联方法，所述方法包括：

获取目标视频的视频信息，其中，所述视频信息包括标题信息、音频信息、图像信息和字幕信息；

基于所述标题信息与本地标签库中所有本地视频标签进行匹配，得到所述标题信息对应的初始视频标签，其中，所述本地标签库中预先存储大量本地视频标签；

基于所述视频信息中的所述音频信息、所述图像信息和所述字幕信息进行特征词分析，得到各自对应的目标特征词；

将所述音频信息对应的目标特征词、所述图像信息对应的目标特征词和所述字幕信息对应的目标特征词进行整合处理，得到目标视频标签；

将所述初始视频标签和所述目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。

通过采用上述技术方案，基于标题信息与本地标签库进行匹配，确定初始视频标签，基于音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，并基于各自对应的目标特征词进行整合处理，得到目标视频标签，然后，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。基于目标视频的多方面的视频信息来自动确定目标视频的视频标签，以完成目标视频与视频标签的关联，极大地提高了关联目标视频与视频标签的效率。

本申请在一较佳示例中可以进一步配置为：所述基于所述视频信息中的所述音频信息、所述图像信息和所述字幕信息进行特征词分析，得到各自对应的目标特征词，包括：

将所述视频信息中的所述音频信息转化为文字信息，基于所述文字信息进行分词处理，得到多个音频分词；

基于每一音频分词的频次，从多个音频分词中确定音频特征词；

基于所述图像信息进行图像识别，确定若干实体对象和若干实体对象各自对应的表情；

针对每一实体对象，根据所述实体对象和所述实体对象对应的表情，确定实体对象对应的对象关键词；

基于每一对象关键词的频次，从所有对象关键词中确定图像特征词；

基于所述字幕信息进行语义字符提取，得到多个字幕关键词；

基于每一字幕关键词的频次，从多个字幕关键词中确定字幕特征词；

其中,所述音频特征词为所述音频信息对应的目标特征词,所述图像特征词为所述图像信息对应的目标特征词,所述字幕特征词为所述字幕信息对应的目标特征词。

通过采用上述技术方案，针对音频信息，将音频信息转化为文字信息后，对文字信息进行分词处理，得到多个音频分词，并将频次最高的音频分词作为音频特征词；针对图像信息，通过图像识别确定若干实体对象和若干实体对象各自对应的表情，并针对每一实体对象确定对应的对象关键词，将频次最高的对象关键词作为图像特征词；针对字幕信息进行语义字符提取，得到多个字幕关键词，并将频次最高的字幕关键词作为字幕特征词。基于目标视频的音频信息、图像信息和字幕信息分别进行特征词分析，能够使得各自对应的目标特征词与目标视频的贴切度更高。

本申请在一较佳示例中可以进一步配置为：所述将所述音频信息对应的目标特征词、所述图像信息对应的目标特征词和所述字幕信息对应的目标特征词进行整合处理，得到目标视频标签，包括：

利用特征词整合模型，将所述音频特征词、所述图像特征词和所述字幕特征词进行整合处理，得到目标视频标签，其中，所述特征词整合模型是基于大量的训练特征词组进行训练得到的。

通过采用上述技术方案，利用特征词整合模型，将所述音频特征词、所述图像特征词和所述字幕特征词进行整合处理，得到目标视频标签，整合多个目标特征词而确定的目标视频标签能够准确地标记目标视频，提高了目标视频标签与目标视频关联的准确性，且利用特征词整合模型，也能够提升确定目标视频标签的效率与精确度。

本申请在一较佳示例中可以进一步配置为：所述将所述初始视频标签和所述目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联之后，还包括：

基于所述初始视频标签与所述目标视频标签进行语义相似度匹配，得到匹配结果；

若所述匹配结果为匹配失败，则将所述目标视频的视频标签对应的数据项标记为异常。

通过采用上述技术方案，基于初始视频标签与目标视频标签进行语义相似度匹配，若匹配失败，表明初始视频标签和目标视频标签相似度较低，可能存在视频标签与目标视频不匹配的情况，则将目标视频的视频标签对应的数据项标记为异常，能够提醒视频播放平台的管理人员针对该视频标签进行人工审核，进一步保证了目标视频与视频标签关联的准确性。

本申请在一较佳示例中可以进一步配置为：所述将所述初始视频标签和所述目标视频标签作为目标视频的视频标签，包括：

基于所述初始视频标签和所述目标视频标签，确定各自对应的视频标签的分类项，其中，视频标签的分类项包括主题标签项、体裁标签项、适用状态标签项；

相应的，所述基于所述初始视频标签与所述目标视频标签进行语义相似度匹配，得到匹配结果，包括：

当所述初始视频标签与所述目标视频标签为视频标签的同一分类项时，则基于所述初始视频标签与所述目标视频标签进行语义相似度匹配，得到匹配结果。

通过采用上述技术方案，分别确定初始视频标签和目标视频标签各自对应的视频标签的分类项，当初始视频标签与目标视频标签为视频标签的同一分类项时，则基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果。通过这种方式，为视频标签划分不同的分类项，能够使得目标视频能够同时关联不同维度的视频标签，丰富了目标视频的视频标签，并针对目标视频的同一分类项内的初始视频标签与目标视频标签进行语义相似度匹配，使得语义相似度匹配的结果更加准确。

本申请在一较佳示例中可以进一步配置为：所述将所述目标视频的视频标签对应的数据项标记为异常之后，还包括：

当检测到异常处理指令后，基于所述异常处理指令确定异常处理类型，其中，所述异常处理类型包括：更新视频标签和更新数据项状态；

若异常处理类型为更新视频标签，则获取人工标签，并基于所述人工标签更新所述视频标签；

若异常处理类型为更新数据项状态，则将所述目标视频的视频标签对应的数据项标记为正常。

通过采用上述技术方案，当检测到异常处理指令后，基于异常处理指令确定异常处理类型，若异常处理类型为更新视频标签，则获取人工标签，并基于人工标签更新所述视频标签，以使得目标视频的视频标签更加贴合目标视频；若异常处理类型为更新数据项状态，则将目标视频的视频标签对应的数据项标记为正常，以避免多次对该目标视频的视频标签进行人工审核，降低了人工审核视频标签的工作量。

本申请在一较佳示例中可以进一步配置为：还包括:

获取预设时间段内目标视频的搜索量和播放情况，其中，所述搜索量为用户输入搜索关键词进行搜索时，目标视频数据在显示界面出现的次数，所述播放情况包括在显示界面内的目标视频的点击量、播放时长；

基于所述搜索量和所述播放情况为目标视频的视频标签打分，得到标签分数；

判断所述标签分数是否小于分数阈值，若小于，则修改目标视频的视频标签。

通过采用上述技术方案，获取预设时间段内目标视频的搜索量和播放情况，基于搜索量和播放情况为目标视频的视频标签打分，并修改标签分数小于分数阈值的目标视频的视频标签，使得目标视频与视频标签的关联准确。

本申请在一较佳示例中可以进一步配置为：所述基于所述标题信息与本地标签库中所有本地视频标签进行匹配，得到所述标题信息对应的初始视频标签，包括：

基于所述标题信息进行分词处理，得到多个标题分词；

基于所述多个标题分词进行分词清洗，得到多个目标分词；

针对每一目标分词，利用所述目标分词与本地标签库中每一本地视频标签进行匹配，得到目标分词对应的匹配结果；

基于所有匹配结果，确定所述标题信息对应的初始视频标签。

通过采用上述技术方案，基于标题信息进行分词处理，得到多个标题分词，然后进行分词清洗，得到多个目标分词，并针对每一目标分词，利用目标分词与本地标签库中每一本地视频标签进行匹配，确定所述标题信息对应的初始视频标签。通过这种方式，剔除了无实际语义的标题分词，使得初始视频标签与目标视频更加贴切。

第二方面，本申请提供一种视频标签关联装置，采用如下的技术方案：

一种视频标签关联装置，包括：

视频信息获取模块，用于获取目标视频的视频信息，其中，所述视频信息包括标题信息、音频信息、图像信息和字幕信息；

初始视频标签确定模块，用于基于所述标题信息与本地标签库中所有本地视频标签进行匹配，得到所述标题信息对应的初始视频标签，其中，所述本地标签库中预先存储大量本地视频标签；

特征词分析模块，用于基于所述视频信息中的所述音频信息、所述图像信息和所述字幕信息进行特征词分析，得到各自对应的目标特征词；

整合处理模块，用于将所述音频信息对应的目标特征词、所述图像信息对应的目标特征词和所述字幕信息对应的目标特征词进行整合处理，得到目标视频标签；

整合处理确定模块，用于将所述初始视频标签和所述目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述的方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行上所述的方法。

综上所述，本申请包括以下至少一种有益技术效果：

1.基于标题信息与本地标签库进行匹配，确定初始视频标签，基于音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，并基于各自对应的目标特征词进行整合处理，得到目标视频标签，然后，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。基于目标视频的多方面的视频信息来自动确定目标视频的视频标签，以完成目标视频与视频标签的关联，极大地提高了关联目标视频与视频标签的效率；

2.针对音频信息，将音频信息转化为文字信息后，对文字信息进行分词处理，得到多个音频分词，并将频次最高的音频分词作为音频特征词；针对图像信息，通过图像识别确定若干实体对象和若干实体对象各自对应的表情，并针对每一实体对象确定对应的对象关键词，将频次最高的对象关键词作为图像特征词；针对字幕信息进行语义字符提取，得到多个字幕关键词，并将频次最高的字幕关键词作为字幕特征词。基于目标视频的音频信息、图像信息和字幕信息分别进行特征词分析，能够使得各自对应的目标特征词与目标视频的贴切度更高。

附图说明

图1是本申请其中一实施例的一种视频标签关联方法的流程示意图。

图2是本申请其中一实施例的进行特征词分析的流程示意图。

图3是本申请其中一实施例的一种视频标签关联装置的结构示意图。

图4是本申请其中一实施例的一种电子设备的结构示意图。

具体实施方式

以下结合图1至图4对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

目前，为视频添加标签的方式有多种：一种是让观看视频的用户为视频添加标签，这种方式比较快捷，但是，添加的标签是否与视频内容相契合是无法把控的；一种是通过视频播放平台的管理人员手动添加标签，这种方式需要耗费相当大的人力物力，且由于管理人员的数量有限，导致为视频添加标签的效率太低。

因而，为了解决上述技术问题，本申请基于目标视频的标题信息、音频信息、图像信息和字幕信息自动为目标视频添加视频标签，以完成目标视频与视频标签的关联，提升了目标视频与视频标签关联的效率。

本申请实施例提供了一种视频标签关联方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括步骤S101、步骤S102、步骤S103、步骤S104以及步骤S105，其中：

步骤S101：获取目标视频的视频信息，其中，视频信息包括标题信息、音频信息、图像信息和字幕信息。

对于本申请实施例，获取目标视频的视频信息，视频信息包括但不限于：标题信息、音频信息、图像信息和字幕信息，其中，标题信息为目标视频播放时所显示的标题内容，音频信息为目标视频中的背景音和人物发出的声音，图像信息是目标视频的画面，包括目标视频中的每一帧画面，字幕信息是目标视频的视频画面中出现的字幕以及注释，能够通过OCR（Optical Character Recognition, 文字识别）的技术从视频画面中识别得到。

步骤S102：基于标题信息与本地标签库中所有本地视频标签进行匹配，得到标题信息对应的初始视频标签，其中，本地标签库中预先存储大量本地视频标签。

对于本申请实施例，本地标签库中预先存储大量本地视频标签，其中，获取本地标签库中的大量本地视频标签的方式有多种，在一种可实现的方式，可以基于数据爬取的方式获取现有视频标签，将爬取得到的现有视频标签作为本地标签库的本地视频标签；在另一种可实现的方式，可以基于观看视频的用户或视频播放平台的管理人员手动添加标签，并将手动添加的标签作为本地标签库的本地视频标签；当然，还可以通过对视频数据进行相应的处理自动生成视频标签，并将自动生成的视频标签作为本地标签库的本地视频标签。对于获取本地视频标签的方式，本申请实施例不再进行限定。

基于标题信息与本地标签库中所有本地视频标签进行匹配，得到标题信息对应的初始视频标签，具体的，将标题信息进行分词处理，以使得标题信息被划分成多个标题分词，优选的，可以对多个标题分词进行分词清洗，剔除一些无语义的分词，例如：的、你、我、吗等。然后，针对清洗后的每一标题分词，利用标题分词与本地标签库中每一本地视频标签进行匹配，得到匹配结果，其中，匹配结果可以包括标签匹配度，并将标签匹配度最高的本地视频标签作为标题信息对应的初始视频标签。当然，还可以在进行分词清洗处理后，获取每一清洗后标题分词的权重，并按照清洗后标题分词的权重从高至低的顺序逐一与本地标签库中所有本地视频标签进行匹配，并将匹配成功的清洗后标题分词作为标题信息对应的初始视频标签。

步骤S103：基于视频信息中的音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词。

对于本申请实施例，基于视频信息中的音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，具体的，针对音频信息，可以通过ASR（AutomaticSpeech Recognition，自动语音识别技术）的技术，将音频信息转换为文字信息，然后将文字信息进行分词处理，得到多个音频分词，并将出现频次最高的音频分词作为音频信息对应的目标特征词。针对图像信息，可以采用图像识别的技术，识别各个视频帧中包含的实体对象和实体对象对应的表情，其中，实体对象可以包括人物、动物等实体对象，实体对象对应的表情可以包括开心、苦恼、惊讶等表情；且，在识别出图像信息中包含的若干实体对象和若干实体对象各自对应的表情后，基于所有实体对象和所有实体对象各自对应的表情，确定出与图像信息对应的目标特征词。字幕信息是目标视频的视频画面中出现的字幕以及注释，且字幕信息可以通过OCR的技术从视频画面中识别得到，基于得到的字幕信息进行语义字符提取，得到多个字幕关键词，并基于每一字幕关键词的频次确定字幕信息对应的目标特征词。

当然，还可以将音频信息转换得到的文字信息、从视频画面中识别得到字幕信息和基于图像信息得到的若干实体对象和若干实体对象各自对应的表情一并作为待识别的文本，利用相同的文本处理方式，获取各自对应的目标特征词。

步骤S104：将音频信息对应的目标特征词、图像信息对应的目标特征词和字幕信息对应的目标特征词进行整合处理，得到目标视频标签。

对于本申请实施例，基于音频信息对应的目标特征词、图像信息对应的目标特征词和字幕信息对应的目标特征词进行整合处理，得到目标视频标签，综合多个目标特征词确定目标视频标签，以使得目标视频标签较为贴合目标视频。

基于多个目标特征词进行整合处理，得到目标视频标签的方式有很多，在一种可实现的方式中，利用特征词整合模型进行多个目标特征词进行整合处理，其中，特征词整合模型可以是基于大量训练特征词以及各自对应的训练视频标签进行训练得到的，进而，通过大量训练特征词以及各自对应的训练视频标签对卷积神经网络进行训练，以得到特征词整合模型，其中，卷积神经网络的结构用户可根据实际需求设置，本申请实施例不再进行限定。在另一种可实现的方式中，基于预设特征词整合信息表进行多个目标特征词的整合处理，其中，预设特征词整合信息表中预先存储有大量的多个目标特征词与目标视频标签的对应关系，因而，当获取到多个目标特征词时，能够基于预设特征词整合信息表快速确定出对应的目标视频标签。

步骤S105：将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。

对于本申请实施例，在完成了确定初始视频标签和目标视频标签后，将初始视频标签和目标视频标签均作为目标视频的视频标签，以形成目标视频与视频标签的对应关系，通过这种方式完成了目标视频与视频标签关联操作。进而，观看视频的用户能够基于视频标签快速搜索出相应的视频，且在一定程度上也方便了视频播放平台管理人员的管理工作，提高了关联目标视频与视频标签的效率。

可见，在本申请实施例中，基于标题信息与本地标签库进行匹配，确定初始视频标签，基于音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，并基于各自对应的目标特征词进行整合处理，得到目标视频标签，然后，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。基于目标视频的多方面的视频信息来自动确定目标视频的视频标签，以完成目标视频与视频标签的关联，极大地提高了关联目标视频与视频标签的效率。

进一步的，为了能够使得各自对应的目标特征词与目标视频的贴切度更高，在本申请实施例中，步骤S103：基于视频信息中的音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，如图2所示，包括步骤S1031、步骤S1032、步骤S1033、步骤S1034、步骤S1035、步骤S1036和步骤S1037，其中：

步骤S1031：将视频信息中的音频信息转化为文字信息，基于文字信息进行分词处理，得到多个音频分词；

步骤S1032：基于每一音频分词的频次，从多个音频分词中确定音频特征词；

对于本申请实施例，利用ASR的技术，将音频信息转换为文字信息，然后将文字信息进行分词处理，得到多个音频分词，其中，可以通过字符串匹配或者机器学习的方法对文字信息进行分词处理。具体的，在通过字符串匹配的方式进行分词处理时，可以通过正向/反向最大匹配、长词优先等原则对文字信息进行字符串扫描，并将扫描得到的字符串对应的词汇作为多个音频分词；在通过机器学习的方式进行分词处理时，可以采用序列标注模型对文字信息中可能出现的音频分词计算概率值，并根据概率值来确定多个音频分词，其中，常用的序列标注模型包括CRF(Conditional Random Field algorithm，条件随机场算法)模型、HMM(Hidden Markov Model，隐马尔可夫模型)等。

由于确定的多个音频分词中，可能会存在无实意的音频分词，例如，你、我、他等，将这些音频分词作为音频特征词是没有意义的，优选的，将确定的多个音频分词进行清洗，剔除无实意的音频分词，然后，基于清洗后的音频分词以及各自对应的频次，从多个清洗后的音频分词中选取频次最高的音频分词作为音频特征词。

步骤S1033：基于图像信息进行图像识别，确定若干实体对象和若干实体对象各自对应的表情；

步骤S1034：针对每一实体对象，根据实体对象和实体对象对应的表情，确定实体对象对应的对象关键词；

步骤S1035：基于每一对象关键词的频次，从所有对象关键词中确定图像特征词；

对于本申请实施例，基于图像信息进行图像识别，识别出各个视频帧中包含的实体对象和实体对象对应的表情，其中，实体对象可以包括人物、动物等实体对象，实体对象对应的表情可以包括开心、苦恼、惊讶等表情；且，在识别出图像信息中包含的若干实体对象和若干实体对象各自对应的表情后，基于所有实体对象和所有实体对象各自对应的表情，确定实体对象对应的对象关键词。例如，基于图像信息中的一视频帧进行图像识别处理，识别出实体对象为多个小朋友，实体对象对应的表情为开心，则确定图像信息中该视频帧的对象关键词为开心的小朋友。

针对图像信息中的每一视频帧均进行处理，得到图像信息对应的所有对象关键词，然后，基于所有对象关键词和各自对应的频次，从所有对象关键词中选取频次最高的对象关键词作为图像特征词。

步骤S1036：基于字幕信息进行语义字符提取，得到多个字幕关键词；

步骤S1037：基于每一字幕关键词的频次，从多个字幕关键词中确定字幕特征词；其中,音频特征词为音频信息对应的目标特征词,图像特征词为图像信息对应的目标特征词,字幕特征词为字幕信息对应的目标特征词。

对于本申请实施例，字幕信息是目标视频的视频画面中出现的字幕以及注释，且字幕信息可以通过OCR的技术从视频画面中识别得到，然后，基于得到的字幕信息进行语义字符提取，得到多个字幕关键词，并基于每一字幕关键词的频次，从多个字幕关键词中选取频次最高的字幕关键词作为字幕特征词。

值得注意的是，针对音频信息的步骤S1031、步骤S1032，针对图像信息的步骤S1033、步骤S1034、步骤S1035，针对字幕信息的步骤S1036、步骤S1037的执行顺序，本申请不再进行限定。

可见，在本申请实施例中，针对音频信息，将音频信息转化为文字信息后，对文字信息进行分词处理，得到多个音频分词，并将频次最高的音频分词作为音频特征词；针对图像信息，通过图像识别确定若干实体对象和若干实体对象各自对应的表情，并针对每一实体对象确定对应的对象关键词，将频次最高的对象关键词作为图像特征词；针对字幕信息进行语义字符提取，得到多个字幕关键词，并将频次最高的字幕关键词作为字幕特征词。基于目标视频的音频信息、图像信息和字幕信息分别进行特征词分析，能够使得各自对应的目标特征词与目标视频的贴切度更高。

进一步的，为了提高目标视频标签与目标视频关联的准确性，且提升确定目标视频标签的效率与精确度，在本申请实施例中，将音频信息对应的目标特征词、图像信息对应的目标特征词和字幕信息对应的目标特征词进行整合处理，得到目标视频标签，包括：

利用特征词整合模型，将音频特征词、图像特征词和字幕特征词进行整合处理，得到目标视频标签，其中，特征词整合模型是基于大量的训练特征词组进行训练得到的。

对于本申请实施例，将音频特征词、图像特征词和字幕特征词利用特征词整合模型进行整合处理，得到目标视频标签，其中，特征词整合模型是基于大量训练特征词组进行训练得到的。具体的，特征词整合模型的训练过程为：获取大量的训练特征词组，训练特征词组包括：整合处理前的多个特征词和整合处理后的一个特征词，大量的训练特征词组可以从网络、本地存储中获取。然后，利用大量的训练特征词组对卷积神经网络进行训练，得到特征词整合模型，以用于整合多个特征词得到目标视频标签。具体的，基于多组整合处理前的多个特征词通过卷积神经网络得到整合信息；针对每一组训练特征词组，确定整合信息和整合处理后的一个特征词的相似度；基于多组训练特征词组的相似度得到损失，将损失反向传播，以对卷积神经网络进行训练；对训练后的卷积神经网络的各损失进行加权求和，以得到总损失，当总损失满足设定损失阈值范围时，确定训练后的卷积神经网络为特征词整合模型。其中，本申请实施例中，卷积神经网络可以为各种卷积网络，例如，Resnet网络、yolov5网络。

进一步的，本申请实施例中，利用大量的训练特征词组对卷积神经网络进行训练，得到特征词整合模型，可以包括：利用大量的训练特征词组对卷积神经网络进行训练，得到第一特征词整合模型；利用大量的测试特征词组对第一特征词整合模型进行测试，以得到测试结果；当测试结果满足预设结果阈值时，则确定第一特征词整合模型为最终的特征词整合模型；当测试结果不满足预设结果阈值时，则利用大量的训练特征词组对第一特征词整合模型进行再训练，以得到第二特征词整合模型，并利用大量的测试特征词组对第二特征词整合模型进行测试，直至得到最终的符合预设结果阈值的电梯检测模型，其中，预设结果阈值用户可基于实际情况自行设定。进一步的，在利用大量的测试特征词组对训练的特征词整合模型进行测试后，可以将测试未通过的测试特征词组添加至大量的训练特征词组中，以更新大量的训练特征词组，能够有效提高训练效果。

可见，在本申请实施例中，利用特征词整合模型，将音频特征词、图像特征词和字幕特征词进行整合处理，得到目标视频标签，整合多个目标特征词而确定的目标视频标签能够准确地标记目标视频，提高了目标视频标签与目标视频关联的准确性，且利用特征词整合模型，也能够提升确定目标视频标签的效率与精确度。

进一步的，为了进一步保证目标视频与视频标签关联的准确性，在本申请实施例中，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联之后，还包括：

基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果；

若匹配结果为匹配失败，则将目标视频的视频标签对应的数据项标记为异常。

对于本申请实施例，初始视频标签是基于标题信息确定的，目标视频标签是基于音频信息、图像信息和字幕信息综合确定的，在实际情况中标题信息较短，仅基于标题信息确定的初始视频标签与目标视频可能会存在着一定的偏差，因而，将初始视频标签与目标视频标签进行语义相似度匹配，以保证视频标签更加贴合目标视频的内容。关于语义相似度匹配，可以使用LSTM-DSSM（Long Short Term Memory-Deep Structured SemanticModels，语义检索的召回模型）模型进行语义相似度匹配。LSTM-DSSM模型包括输入层、表示层及匹配层，其中，输入层用来把标签映射到一个向量空间里并输入到表示层的 DNN（DeepNeural Networks，深度神经网络）中；表示层采用LSTM模型的方式，来获取到文本的上下文信息，得到语义向量；匹配层通过计算两者的语义向量的余弦距离来得到匹配结果。

若匹配结果为匹配失败，则将目标视频的视频标签对应的数据项标记为异常，通过这种方式表征初始视频标签和目标视频标签相似度较低，然而，标记异常并不表示视频标签存在错误，也可能为初始视频标签与目标视频标签是分别针对目标视频进行不同维度的标记，但均能准确标识目标视频。因而，将目标视频的视频标签对应的数据项目标视频的视频标签对应的数据项标记异常，能够提醒视频播放平台的管理人员针对该视频标签进行人工审核，进一步保证了目标视频与视频标签关联的准确性。

可见，在本申请实施例中，基于初始视频标签与目标视频标签进行语义相似度匹配，若匹配失败，表明初始视频标签和目标视频标签相似度较低，可能存在视频标签与目标视频不匹配的情况，则将目标视频的视频标签对应的数据项标记为异常，能够提醒视频播放平台的管理人员针对该视频标签进行人工审核，进一步保证了目标视频与视频标签关联的准确性。

进一步的，为了丰富目标视频的视频标签，且使得语义相似度匹配的结果更加准确，在本申请实施例中，将初始视频标签和目标视频标签作为目标视频的视频标签，包括：

基于初始视频标签和目标视频标签，确定各自对应的视频标签的分类项，其中，视频标签的分类项包括主题标签项、体裁标签项、适用状态标签项；

相应的，基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果，包括：

当初始视频标签与目标视频标签为视频标签的同一分类项时，则基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果。

对于本申请实施例，视频标签的分类项包括主题标签项、体裁标签项、适用状态标签项，其中，主题标签项用于表示内容描述的对象，体裁标签项用于表示内容对应的需求点或作用，适用状态标签项用于表示内容对预设目标人群适用的时间段。针对视频标签的每一分类项均预先设定有规则或分类标签库，能够较为快速地确定初始视频标签和目标视频标签所属的分类项。例如，主题标签项对应的标签可以包括但不限于：生日、春节、圣诞节、春游、母爱等，以主题的展示形式；体裁标签项对应的标签可以包括但不限于：孕育知识、自述、求助、广告、小说等；适用状态标签项对应的标签可以包括但不限于：孕育的第5周到第34周、青少年、周岁。

当初始视频标签与目标视频标签为视频标签的同一分类项时，表明初始视频标签与目标视频标签是基于相同维度生成的标签，目标视频对应的同一分类项内的视频标签应相似，故基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果。若初始视频标签与目标视频标签为视频标签的不同分类项时，则不进行初始视频标签与目标视频标签的语义相似度匹配，由于初始视频标签与目标视频标签是基于不同维度生成的标签，因而，语义相似度较低也为正常情况。

可见，在本申请实施例中，分别确定初始视频标签和目标视频标签各自对应的视频标签的分类项，当初始视频标签与目标视频标签为视频标签的同一分类项时，则基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果。通过这种方式，为视频标签划分不同的分类项，能够使得目标视频能够同时关联不同维度的视频标签，丰富了目标视频的视频标签，并针对目标视频的同一分类项内的初始视频标签与目标视频标签进行语义相似度匹配，使得语义相似度匹配的结果更加准确。

进一步的，为了使得目标视频的视频标签更加贴合目标视频，且避免多次对异常标记的目标视频的视频标签进行人工审核，降低人工审核视频标签的工作量，在本申请实施例中，将目标视频的视频标签对应的数据项标记为异常之后，还包括：

当检测到异常处理指令后，基于异常处理指令确定异常处理类型，其中，异常处理类型包括：更新视频标签和更新数据项状态；

若异常处理类型为更新视频标签，则获取人工标签，并基于人工标签更新视频标签；

若异常处理类型为更新数据项状态，则将目标视频的视频标签对应的数据项标记为正常。

对于本申请实施例，将目标视频的视频标签对应的数据项标记为异常后，视频播放平台的管理人员会对标记异常的视频标签进行处理，以保证目标视频与视频标签关联的准确性。管理人员在显示界面对标记异常的目标视频的视频标签进行相应的异常处理，并生成异常处理指令。电子设备检测到异常处理指令后，基于异常处理指令确定异常处理类型，当异常处理类型为更新视频标签，则表明视频标签对应的标签内容与目标视频存在偏差，因而，获取管理人员审核目标视频后输入的人工标签，并基于人工标签更新视频标签，以使得目标视频的视频标签更加贴合目标视频；当异常处理类型为更新数据项状态，则表明视频标签对应的标签内容与目标视频较为符合，因而，将目标视频的视频标签对应的数据项标记为正常，以避免多次对该目标视频的视频标签进行人工审核，降低了人工审核视频标签的工作量。

可见，在本申请实施例中，当检测到异常处理指令后，基于异常处理指令确定异常处理类型，若异常处理类型为更新视频标签，则获取人工标签，并基于人工标签更新视频标签，以使得目标视频的视频标签更加贴合目标视频；若异常处理类型为更新数据项状态，则将目标视频的视频标签对应的数据项标记为正常，以避免多次对该目标视频的视频标签进行人工审核，降低了人工审核视频标签的工作量。

进一步的，为了使得目标视频与视频标签的关联准确，在本申请实施例中，还包括:

获取预设时间段内目标视频的搜索量和播放情况，其中，搜索量为用户输入搜索关键词进行搜索时，目标视频数据在显示界面出现的次数，播放情况包括在显示界面内的目标视频的点击量、播放时长；

基于搜索量和播放情况为目标视频的视频标签打分，得到标签分数；

判断标签分数是否小于分数阈值，若小于，则修改目标视频的视频标签。

对于本申请实施例，视频标签用来描述目标视频的特征，同时在用户搜索视频时也会用到视频标签，即，将搜索关键词与所有视频的视频标签进行匹配，并将匹配成功的所有视频作为与搜索关键词对应的若干目标视频。然而，在实际视频播放过程中，存在基于搜索关键词确定的若干目标视频在预设时间段内播放情况较差，这种情况表明目标视频与视频标签不匹配，进而导致用户希望播放的视频与基于搜索关键词展示的目标视频不相符，因而，需要修改与目标视频不相匹配的视频标签，以使得目标视频与视频标签的关联准确。

具体的，获取预设时间段内目标视频的搜索量和播放情况，其中，搜索量为用户输入搜索关键词进行搜索时，目标视频数据在显示界面出现的次数，播放情况包括但不限于：在显示界面内的目标视频的点击量、播放时长。然后，基于搜索量和播放情况为目标视频的视频标签打分，得到标签分数，具体的，若两个目标视频具有相同的搜索量，则播放情况好的目标视频对应的标签分数越高，播放情况好坏是基于目标视频的点击量、播放时长综合确定的，当然，还可以综合考虑用户的观看行为，其中，用户的观看行为可以包括：点赞、评论、收藏等。基于搜索量和播放情况为目标视频的视频标签打分的具体实现方式，本申请实施例不再进行限定，只要能够基于标签分数确定目标视频与用户的搜索期望匹配度即可，即，标签分数越高，目标视频与用户的搜索期望匹配度越高。然后，将标签分数与分数阈值进行比较，其中，分数阈值可以基于用户需求自行设定，若标签分数小于分数阈值，表明目标视频与视频标签不匹配，则修改目标视频的视频标签，其中，可以为目标视频的视频信息重新确定视频标签，当然还可以将视频标签对应的数据项标记异常，通过获取管理员输入的人工标签修改目标视频的视频标签；若标签分数不小于分数阈值，表明目标视频与视频标签匹配，则不再进行其余操作。

可见，在本申请实施例中，获取预设时间段内目标视频的搜索量和播放情况，基于搜索量和播放情况为目标视频的视频标签打分，并修改标签分数小于分数阈值的目标视频的视频标签，使得目标视频与视频标签的关联准确。

进一步的，为了使得初始视频标签与目标视频更加贴切，在本申请实施例中，基于标题信息与本地标签库中所有本地视频标签进行匹配，得到标题信息对应的初始视频标签，包括：

基于标题信息进行分词处理，得到多个标题分词；

基于多个标题分词进行分词清洗，得到多个目标分词；

针对每一目标分词，利用目标分词与本地标签库中每一本地视频标签进行匹配，得到目标分词对应的匹配结果；

基于所有匹配结果，确定标题信息对应的初始视频标签。

对于本申请实施例，基于标题信息进行分词处理，得到多个标题分词，其中，可以通过字符串匹配或者机器学习的方法对标题信息进行分词处理。得到的多个目标分词中会包括：你、我、他等一些无实际语义的标题分词，因而，进行分词清洗，以剔除无实际语义的标题分词，使得得到的多个目标分词均具有实际语义。然后，将每一目标分词均与本地标签库中每一本地视频标签进行匹配，得到目标分词对应的匹配结果，其中，目标分词对应的匹配结果至少包括：标签匹配度。基于所有目标分词各自对应的匹配结果中的标签匹配度，将标签匹配度最高的目标分词作为标题信息对应的初始视频标签。

可见，在本申请实施例中，基于标题信息进行分词处理，得到多个标题分词，然后进行分词清洗，得到多个目标分词，并针对每一目标分词，利用目标分词与本地标签库中每一本地视频标签进行匹配，确定标题信息对应的初始视频标签。通过这种方式，剔除了无实际语义的标题分词，使得初始视频标签与目标视频更加贴切。

上述实施例从方法流程的角度介绍一种视频标签关联方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种视频标签关联装置，具体详见下述实施例。

本申请实施例提供一种视频标签关联装置200，如图3所示，该视频标签关联装置200具体可以包括：

视频信息获取模块210，用于获取目标视频的视频信息，其中，视频信息包括标题信息、音频信息、图像信息和字幕信息；

初始视频标签确定模块220，用于基于标题信息与本地标签库中所有本地视频标签进行匹配，得到标题信息对应的初始视频标签，其中，本地标签库中预先存储大量本地视频标签；

特征词分析模块230，用于基于视频信息中的音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词；

整合处理模块240，用于将音频信息对应的目标特征词、图像信息对应的目标特征词和字幕信息对应的目标特征词进行整合处理，得到目标视频标签；

视频标签确定模块250，用于将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。

对于本申请实施例，基于标题信息与本地标签库进行匹配，确定初始视频标签，基于音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，并基于各自对应的目标特征词进行整合处理，得到目标视频标签，然后，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。基于目标视频的多方面的视频信息来自动确定目标视频的视频标签，以完成目标视频与视频标签的关联，极大地提高了关联目标视频与视频标签的效率。

本申请实施例的一种可能的实现方式，特征词分析模块230在执行基于视频信息中的音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，用于：

将视频信息中的音频信息转化为文字信息，基于文字信息进行分词处理，得到多个音频分词；

基于每一音频分词的频次，从多个音频分词中确定音频特征词；

基于图像信息进行图像识别，确定若干实体对象和若干实体对象各自对应的表情；

针对每一实体对象，根据实体对象和实体对象对应的表情，确定实体对象对应的对象关键词；

基于每一对象关键词的频次，从所有对象关键词中确定图像特征词；

基于字幕信息进行语义字符提取，得到多个字幕关键词；

基于每一字幕关键词的频次，从多个字幕关键词中确定字幕特征词；

其中,音频特征词为音频信息对应的目标特征词,图像特征词为图像信息对应的目标特征词,字幕特征词为字幕信息对应的目标特征词。

本申请实施例的一种可能的实现方式，整合处理模块240在执行将音频信息对应的目标特征词、图像信息对应的目标特征词和字幕信息对应的目标特征词进行整合处理，得到目标视频标签时，用于：

本申请实施例的一种可能的实现方式，视频标签关联装置200，还包括：

语义相似度匹配模块，用于基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果；

若匹配结果为匹配失败，则将目标视频的视频标签对应的数据项标记为异常。

本申请实施例的一种可能的实现方式，视频标签确定模块250在执行将初始视频标签和目标视频标签作为目标视频的视频标签时，用于：

基于初始视频标签和目标视频标签，确定各自对应的视频标签的分类项，其中，视频标签的分类项包括主题标签项、体裁标签项、适用状态标签项；

相应的，语义相似度匹配模块在执行基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果时，用于：

当初始视频标签与目标视频标签为视频标签的同一分类项时，则基于初始视频标签与目标视频标签进行语义相似度匹配，得到匹配结果。

本申请实施例的一种可能的实现方式，视频标签关联装置200，还包括：

异常处理模块，用于当检测到异常处理指令后，基于异常处理指令确定异常处理类型，其中，异常处理类型包括：更新视频标签和更新数据项状态；

若异常处理类型为更新视频标签，则获取人工标签，并基于人工标签更新视频标签；

若异常处理类型为更新数据项状态，则将目标视频的视频标签对应的数据项标记为正常。

本申请实施例的一种可能的实现方式，视频标签关联装置200，还包括：

修改视频标签模块，用于获取预设时间段内目标视频的搜索量和播放情况，其中，搜索量为用户输入搜索关键词进行搜索时，目标视频数据在显示界面出现的次数，播放情况包括在显示界面内的目标视频的点击量、播放时长；

基于搜索量和播放情况为目标视频的视频标签打分，得到标签分数；

判断标签分数是否小于分数阈值，若小于，则修改目标视频的视频标签。

本申请实施例的一种可能的实现方式，初始视频标签确定模块220在执行基于标题信息与本地标签库中所有本地视频标签进行匹配，得到标题信息对应的初始视频标签时，用于：

基于标题信息进行分词处理，得到多个标题分词；

基于多个标题分词进行分词清洗，得到多个目标分词；

针对每一目标分词，利用目标分词与本地标签库中每一本地视频标签进行匹配，得到目标分词对应的匹配结果；

基于所有匹配结果，确定标题信息对应的初始视频标签。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种视频标签关联装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图4所示，图4所示的电子设备300包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，本申请实施例，基于标题信息与本地标签库进行匹配，确定初始视频标签，基于音频信息、图像信息和字幕信息进行特征词分析，得到各自对应的目标特征词，并基于各自对应的目标特征词进行整合处理，得到目标视频标签，然后，将初始视频标签和目标视频标签作为目标视频的视频标签，以完成目标视频与视频标签的关联。基于目标视频的多方面的视频信息来自动确定目标视频的视频标签，以完成目标视频与视频标签的关联，极大地提高了关联目标视频与视频标签的效率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：周锋;
专利申请人：北京奇树有鱼文化传媒有限公司;

上一篇：一种消防头盔
下一篇：一种两极电机绕组端部整形方法及装置