导航：首页> 流体压力执行机构；一般液压技术和气动技术>基于机器学习的视频识别方法、装置、服务器和存储介质

基于机器学习的视频识别方法、装置、服务器和存储介质

文献发布时间：2023-06-19 18:35:48

技术领域

本申请涉及计算机领域，具体涉及一种基于机器学习的视频识别方法、装置、服务器和存储介质。

背景技术

为了起到幽默搞笑的效果，搞笑配音视频的视频作者会从原始视频中截取一段视频，并将该视频片段的原始配乐(Background Music，BGM)替换为其他搞笑的音频，比如替换为视频作者自己的方言配音、搞笑音效、搞笑配乐等。这类由视频作者二次创作的搞笑配音视频具有大量受众。

在向用户推送这些搞笑配音视频之前，需要预先在海量视频中识别出这类搞笑配音视频，然而，目前视频平台在识别搞笑配音视频时，主要通过人工方式进行人工识别与手动分类。该方式不仅效率低，识别成本高，且准确率难以保障，无法对大量的增量与存量视频进行快速有效的识别，因此，目前的视频识别方法效率低下。

发明内容

本申请实施例提供一种基于机器学习的视频识别方法、装置、服务器和存储介质，可以提升视频识别的效率。

本申请实施例提供一种基于机器学习的视频识别方法，包括：

获取目标视频；

获取所述目标视频对应的源视频，所述目标视频由所述源视频加工创作得到；

对所述目标视频和所述源视频进行内容对比，得到所述目标视频的内容类型；

当所述目标视频的内容类型为搞笑内容型时，对所述目标视频和所述源视频进行音频识别，确定所述目标视频的音频类型；

当所述目标视频的音频类型为搞笑配音型时，将所述目标视频确定为搞笑配音视频，以便为用户推送所述搞笑配音视频。

本申请实施例还提供一种基于机器学习的视频识别装置，包括：

获取单元，用于获取目标视频；

源单元，用于获取目标视频对应的源视频，目标视频由源视频加工创作得到；

内容单元，用于对目标视频和源视频进行内容对比，得到目标视频的内容类型；

音频单元，用于当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；

确定单元，用于当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

在一些实施例中，所述内容单元，包括：

内容识别子单元，用于对所述目标视频和所述源视频进行内容识别，得到所述目标视频的内容搞笑概率，以及所述源视频的内容搞笑概率；

内容类型子单元，用于基于所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率，确定所述目标视频的内容类型。

在一些实施例中，所述内容类型子单元，用于：

对所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率进行求差处理，得到内容搞笑概率差；

当所述内容搞笑概率差大于预设的差阈值，且所述目标视频的内容搞笑概率大于预设的内容搞笑概率阈值时，将所述目标视频的内容类型确定为搞笑内容型。

在一些实施例中，所述内容识别子单元，包括：

模型子模块，用于获取内容识别模型；

内容识别子模块，用于采用所述内容识别模型，对所述目标视频进行内容识别，得到所述目标视频的内容搞笑概率；

概率子模块，用于采用所述内容识别模型，对所述源视频进行内容识别，得到所述源视频的内容搞笑概率。

在一些实施例中，所述模型子模块，用于：

获取预设内容识别模型；

获取标注了内容类型的训练样本，所述内容类型包括但不限于搞笑内容型和不搞笑内容型，所述训练样本包括但不限于视频的视频片段、视频音频和视频字幕；

采用所述标注了内容类型的训练样本训练所述预设内容识别模型，直至所述预设内容识别模型收敛，得到内容识别模型。

在一些实施例中，所述内容识别模型包括特征提取层、特征融合层和输出层，所述特征提取层包括但不限于图像特征提取网络、音频特征提取网络和字幕特征提取网络，所述内容识别子模块，用于：

获取所述目标视频的视频片段、视频音频和视频字幕；

通过所述图像特征提取网络提取所述视频片段的图像特征；

通过所述音频特征提取网络提取所述视频音频的音频特征；

通过所述字幕特征提取网络提取所述视频字幕的字幕特征；

通过所述特征融合层对所述图像特征、音频特征和字幕特征进行特征融合处理，得到融合特征；

采用所述输出层，基于所述融合特征计算所述目标视频的内容搞笑概率。

在一些实施例中，音频单元，包括：

语音识别子单元，用于对所述目标视频和所述源视频进行语音识别，确定所述目标视频的音频类型，以及所述源视频的音频类型，所述音频类型包括但不限于非方言型和方言型；

音频类型子单元，用于当所述目标视频的音频类型为方言型，且所述源视频的音频类型为非方言型时，将所述目标视频的音频类型确定为搞笑配音型。

在一些实施例中，所述语音识别子单元，用于：

获取语音识别模型；

采用所述语音识别模型，对所述目标视频进行搞笑语音识别，得到所述目标视频的语音搞笑概率，并基于所述目标视频的语音搞笑概率确定所述目标视频的音频类型，所述音频类型包括但不限于非方言型和方言型；

采用所述语音识别模型，对所述源视频进行搞笑语音识别，得到所述源视频的语音搞笑概率，并基于所述源视频的语音搞笑概率确定所述源视频的音频类型。

在一些实施例中，所述音频类型包括但不限于搞笑背景音型和不搞笑背景音型，所述音频单元，用于：

对所述目标视频和所述源视频进行背景音识别，确定所述目标视频的背景音搞笑概率，以及所述源视频的背景音搞笑概率；

对所述目标视频的背景音搞笑概率和所述源视频的背景音搞笑概率进行求差处理，得到背景音搞笑概率差；

当所述背景音搞笑概率差大于预设的差阈值，且所述目标视频的背景音搞笑概率大于预设的背景音搞笑阈值时，将所述目标视频的音频类型确定为搞笑配音型。

在一些实施例中，所述源单元，包括：

检索特征子单元，用于获取所述目标视频的检索特征，所述检索特征包括但不限于图像特征和字幕特征；

查找子单元，用于基于所述检索特征，从检索库中查找所述目标视频对应的源视频。

在一些实施例中，所述检索特征子单元，用于：

对所述目标视频进行抽帧处理，得到多帧图像片段；

对于每帧所述图像片段，从所述图像片段中提取图像特征；

对于每帧所述图像片段，对所述图像片段进行字幕识别，得到字幕文本，并从所述字幕文本中提取字幕特征。

在一些实施例中，所述检索库中包括候选片段的检索特征，所述候选片段为候选视频的视频片段，所述检索特征子单元，用于：

对于每帧所述图像片段，基于所述图像片段对应的检索特征和所述候选片段的检索特征，确定所述图像片段和所述候选片段之间的相似度；

对于每帧所述图像片段，基于所述相似度，在所述检索库中确定与所述图像片段最相似的候选片段；

将所述最相似的候选片段进行拼接，得到所述目标视频对应的源视频。

本申请实施例还提供一种服务器，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种基于机器学习的视频识别方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种基于机器学习的视频识别方法中的步骤。

本申请实施例可以获取目标视频；获取目标视频对应的源视频，目标视频由源视频加工创作得到；对目标视频和源视频进行内容对比，得到目标视频的内容类型；当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

本申请实施例通过在视频的内容(比如图像内容和字幕内容等)和音频配乐等维度上与源视频对比，来判断目标视频是否在内容与音频上均比源视频更加幽默搞笑，从而识别出目标视频是否是由该源视频加工创作得到的搞笑配音视频。由此，本方案可以准确地从众多视频中识别出搞笑配音视频，提升了视频识别的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的基于机器学习的视频识别方法的场景示意图；

图1b是本申请实施例提供的基于机器学习的视频识别方法的流程示意图；

图1c是本申请实施例提供的基于机器学习的视频识别方法的检索示意图；

图1d是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图1e是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图1f是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图2a是本申请实施例提供的基于机器学习的视频识别方法应用在短视频推荐场景中的流程示意图；

图2b是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图2c是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图2d是本申请实施例提供的基于机器学习的视频识别方法的模型结构示意图；

图2e是本申请实施例提供的基于机器学习的视频识别方法应用在短视频推荐场景中的流程意图；

图3是本申请实施例提供的基于机器学习的视频识别装置的结构示意图；

图4是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种基于机器学习的视频识别方法、装置、服务器和存储介质。

其中，该基于机器学习的视频识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该基于机器学习的视频识别装置还可以集成在多个电子设备中，比如，基于机器学习的视频识别装置可以集成在多个服务器中，由多个服务器来实现本申请的基于机器学习的视频识别方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该电子设备可以是服务器，该服务器可以从视频数据库中获取目标视频，以及获取目标视频对应的源视频，该目标视频由源视频加工创作得到；然后，服务器可以对目标视频和源视频进行内容对比，得到目标视频的内容类型；当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户终端推送搞笑配音视频。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，计算机视觉(Computer Vision，CV)是利用计算机代替人眼对目标图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。比如，图像着色、图像描边提取等图像处理技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本实施例中，提供了一种涉及人工智能的基于机器学习的视频识别方法，如图1b所示，该基于机器学习的视频识别方法的具体流程可以如下：

101、获取目标视频。

其中，目标视频是指待识别的视频，获取目标视频的方法具有多种，例如，可以从视频数据库中获取，也可以从客户端获取，还可以在本地内存中读取等等。

目标视频可以是搞笑配音视频，也可以是其他的普通视频，搞笑配音视频一般是从原创的长视频中截取出原创视频片段，创作者采用自己的配音或搞笑音效来替换原创视频片段的背景音，从而形成的二次创作视频，这类视频通过配音强化了视频的搞笑效果，在视频平台上有大量的此类视频受众用户。

本方案通过步骤102～105可以识别出目标视频是否为搞笑配音视频。

102、获取目标视频对应的源视频，目标视频由源视频加工创作得到。

通过步骤102可以自动地查找目标视频对应的源视频，即上述原创长视频中的原创视频片段。

若无法找到目标视频对应的源视频，则可以直接判定该目标视频不是搞笑配音视频；若找到了目标视频对应的源视频，则可以执行步骤103，来对目标视频是否为搞笑配音视频做进一步的判断。

在一些实施例中，步骤102可以包括如下步骤：

(1)获取目标视频的检索特征，检索特征包括但不限于图像特征和字幕特征；

(2)基于检索特征，从检索库中查找目标视频对应的源视频。

其中，检索库中保存有多个候选视频片段的检索特征，检索库中候选视频片段的检索特征可以预先构建。

在一些实施例中，检索特征包括图像特征和字幕特征，检索库包括图像帧检索和字幕文本检索库。

例如，参考图1c，先将候选的长视频按照预设时长切片，例如，按时长3秒对视频进行切片，得到多个候选视频片段，然后构建每个候选视频片段的图像特征和字幕特征，可以将候选视频片段的图像特征保存在图像帧检索库中，将候选视频片段的字幕特征保存在字幕文本检索库中，当检索时，可以基于目标视频的检索特征，从图像帧检索和字幕文本检索库中查找目标视频对应的源视频。

可选的，不论是目标视频还是源视频，构建其检索特征的方法类似，其中，构建图像特征的方法可以是对目标视频/源视频进行抽帧处理，提取每帧图像片段的图像特征；构建字幕特征的方法可以是对每帧图像片段进行字幕识别，得到字幕文本，并从字幕文本中提取字幕特征。

例如，在一些实施例中，步骤(1)获取目标视频的检索特征可以包括如下步骤：

对目标视频进行抽帧处理，得到多帧图像片段；

对于每帧图像片段，从图像片段中提取图像特征；

对于每帧图像片段，对图像片段进行字幕识别，得到字幕文本，并从字幕文本中提取字幕特征。

其中，对于每帧图像片段，从图像片段中提取图像特征的方法可以是通过图像特征提取网络来实现，该图像特征提取网络可以是卷积神经网络(Convolutional NeuralNetwork，CNN)如EfficientNet，例如：

通过EfficientNet抽取出图像片段深度的特征向量，即将图像片段的像素值输入EfficientNet，输出该图像片段的图像特征。

其中，对于每帧图像片段，对图像片段进行字幕识别方法可以是通过OCR(OpticalCharacter Recognition，光学字符识别)技术来实现，例如，通过将图像片段输入字符识别网络，输出字幕文本。

该字幕文本可以直接作为字幕特征，也可以从该字幕文本中提取词义向量作为字幕特征。

检索库中的图像特征和字幕特征可以通过索引的方式与视频片段相互关联。例如，字幕文本检索库中的字幕特征可以通过搜索引擎构建字幕文本倒排索引，图像帧检索库中的图像特征可以通过搜索引擎构建向量检索索引。

在一些实施例中，检索库中可以包括候选片段的检索特征，候选片段可以为候选视频的视频片段，步骤(2)基于检索特征，从检索库中查找目标视频对应的源视频可以包括如下步骤：

对于每帧图像片段，基于图像片段对应的检索特征和候选片段的检索特征，确定图像片段和候选片段之间的相似度；

对于每帧图像片段，基于相似度，在检索库中确定与图像片段最相似的候选片段；

将最相似的候选片段进行拼接，得到目标视频对应的源视频。

例如，分别基于目标视频的图像特征与文本特征，在图像帧检索库与字幕文本检索库中查询，找到最相似的、连续的候选片段，并将这些连续的候选片段拼接成源视频，作为当前目标视频的出处。

其中，在检索库中确定与图像片段最相似的候选片段时，要求图像片段与候选片段的相似度满足一定阈值。该相似度可以是余弦(Cosin)距离。

其中，本方案可以通过杰卡德相似系数(Jaccardsimilarity coefficient)来基于相似度在检索库中确定与图像片段最相似的候选片段。

其中，杰卡德相似系数是指两个集合A和B交集元素的个数在A、B并集中所占的比例，杰卡德相似系数是衡量两个集合相似度的一种指标，其值越大则相似度越高。

103、对目标视频和源视频进行内容对比，得到目标视频的内容类型。

其中，视频内容可以包括视频的图像、音频、字幕、标题等内容，内容类型可以包括搞笑内容型和不搞笑内容型。搞笑内容型是指目标视频的内容幽默搞笑，而不搞笑内容型指目标视频的内容不幽默搞笑。

在一些实施例中，步骤103可以包括如下步骤：

(1)对目标视频和源视频进行内容识别，得到目标视频的内容搞笑概率，以及源视频的内容搞笑概率；

(2)基于目标视频的内容搞笑概率和源视频的内容搞笑概率，确定目标视频的内容类型。

由于一个视频是否幽默搞笑是比较主观的概念，需要由人来判断。因此，在本申请实施例中，可以由人工标注的训练样本来训练一个内容识别模型，从而采用内容识别模型来判断目标视频是否幽默搞笑。

其中，训练样本可以是网络视频，可以人工观看该网络视频，并在观看后为其添加标注，标注可以包括但不限于“内容幽默搞笑”和“内容不幽默搞笑”。

因此，在一些实施例中，步骤(1)对目标视频和源视频进行内容识别，得到目标视频的内容搞笑概率，以及源视频的内容搞笑概率可以包括如下步骤：

(1.1)获取内容识别模型；

(1.2)采用内容识别模型，对目标视频进行内容识别，得到目标视频的内容搞笑概率；

(1.3)采用内容识别模型，对源视频进行内容识别，得到源视频的内容搞笑概率。

在一些实施例中，步骤(1.1)获取内容识别模型可以包括如下步骤：

获取预设内容识别模型；

获取标注了内容类型的训练样本，内容类型包括但不限于搞笑内容型和不搞笑内容型，训练样本包括但不限于视频的视频片段、视频音频和视频字幕；

采用标注了内容类型的训练样本训练预设内容识别模型，直至预设内容识别模型收敛，得到内容识别模型。

以下将介绍内容识别模型的内部结构：

在一些实施例中，内容识别模型可以包括特征提取层、特征融合层和输出层，特征提取层可以包括但不限于图像特征提取网络、音频特征提取网络和字幕特征提取网络，步骤(1.2)采用内容识别模型，对目标视频进行内容识别，得到目标视频的内容搞笑概率可以包括如下步骤：

获取目标视频的视频片段、视频音频和视频字幕；

通过图像特征提取网络提取视频片段的图像特征；

通过音频特征提取网络提取视频音频的音频特征；

通过字幕特征提取网络提取视频字幕的字幕特征；

通过特征融合层对图像特征、音频特征和字幕特征进行特征融合处理，得到融合特征；

采用输出层，基于融合特征计算目标视频的内容搞笑概率。

例如，参考图1d，内容识别模型可以包括特征提取层、特征融合层和输出层，特征提取层可以包括图像特征提取网络、音频特征提取网络和字幕特征提取网络。其中，图像特征提取网络可以包括图像特征提取模块和编码模块，音频特征提取网络可以包括音频特征提取模块和编码模块，字幕特征提取网络可以包括字幕特征提取模块和编码模块，这些模块可以是人工神经网络，例如，编码模块可以是Transformer Encoder(一种编码网络)，图像特征提取模块可以是EfficientNet(一种可用于图像特征提取的网络)，音频特征提取模块可以是VGGish(一种可用于音频特征提取的网络)，字幕特征提取模块可以是Albert(一种可用于文本特征提取的网络)。

在一些实施例中，可以直接根据目标视频的内容搞笑概率来确定目标视频的内容类型，例如：

当目标视频的内容搞笑概率属于预设阈值范围时，将目标视频的内容类型确定为搞笑内容型；

当目标视频的内容搞笑概率不属于预设阈值范围时，将目标视频的内容类型确定为不搞笑内容型。

为了进一步提升判断准确度，可以根据目标视频的内容搞笑概率和源视频的内容搞笑概率来进行判断，当目标视频的内容足够幽默搞笑，并且目标视频的内容比源视频更加幽默搞笑时，才会将目标视频的内容类型确定为搞笑内容型。

例如，在一些实施例中，步骤(2)基于目标视频的内容搞笑概率和源视频的内容搞笑概率，确定目标视频的内容类型可以包括如下步骤：

对目标视频的内容搞笑概率和源视频的内容搞笑概率进行求差处理，得到内容搞笑概率差；

当内容搞笑概率差大于预设的差阈值，且目标视频的内容搞笑概率大于预设的内容搞笑概率阈值时，将目标视频的内容类型确定为搞笑内容型。

比如，假设目标视频的内容搞笑概率为P_L1，源视频的内容搞笑概率为P_L2，则当P_L1大于内容搞笑概率阈值K_L，且P_L1-P_L2大于内容搞笑概率差K_Ld时，将目标视频的内容类型确定为搞笑内容型；否则，将目标视频的内容类型确定为不搞笑内容型。

如果目标视频的内容类型是不搞笑内容型，则可以直接判定目标视频不是搞笑配音视频；如果目标视频的内容类型是搞笑内容型，则可以确定目标视频的内容足够搞笑幽默，但是还无法确定该目标视频的音频是否是二次创作的配音，因此，在步骤104可以从音频的角度来识别目标视频是否是配音的视频：

104、当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型。

其中，由于搞笑配音视频的配音既可以是方言配音，也可以是搞笑的背景音，因此，在一些实施例中，可以通过识别目标视频的视频音频中是否有方言来判断目标视频是否是搞笑配音视频，在另一些实施例中，也可以通过判断目标视频的背景音是否比源视频更加幽默搞笑，来从侧面识别目标视频是否为搞笑配音视频。

因此，以下将分别为方言情景和背景音情景进行具体介绍：

(一)方言情景。

在方言的识别情景中，目标视频的音频类型包括但不限于非方言型和方言型。方言是指语言的地方变体，一种语言中跟标准语(如普通话)有区别的、只通行于一个地区的话。

比如，方言可以包括四川话、粤语、东北话等。非方言可以包括普通话、非人声音频等。

在一些实施例中，步骤104可以包括如下步骤：

(1)对目标视频和源视频进行语音识别，确定目标视频的音频类型，以及源视频的音频类型，音频类型包括但不限于非方言型和方言型；

(2)当目标视频的音频类型为方言型，且源视频的音频类型为非方言型时，将目标视频的音频类型确定为搞笑配音型。

其中，可以采用语音识别模型，对目标视频进行搞笑语音识别，该语音识别模型可以为人工神经网络，在训练阶段，训练样本可以被人工标注有“有人声”、“方言人声”。

因此，在一些实施例中，步骤(1)对目标视频和源视频进行语音识别，确定目标视频的音频类型，以及源视频的音频类型可以包括如下步骤：

获取语音识别模型；

采用语音识别模型，对目标视频进行搞笑语音识别，得到目标视频的语音搞笑概率，并基于目标视频的语音搞笑概率确定目标视频的音频类型，音频类型包括但不限于非方言型和方言型；

采用语音识别模型，对源视频进行搞笑语音识别，得到源视频的语音搞笑概率，并基于源视频的语音搞笑概率确定源视频的音频类型。

其中，语音识别模型的内部结构可以参考图1e，可以包括音频特征提取网络、编码网络和输出层。其中，输出层可以输出视频音频中含有人声的概率，以及含有方言人声的概率，根据该概率的数值大小，即可确定视频音频中是否含有人声，以及是否含有方言人声，例如，如表1所示：

表1

如果目标视频中不包含方言人声或者不包含人声，则可以将该目标视频直接确定为非搞笑配音视频；如果目标视频中包含了方言人声，则可以将该目标视频的音频类型确定为搞笑配音型，且该目标视频确定为搞笑配音视频。

(二)背景音情景。

由于在一些实施例中，音频类型包括但不限于搞笑背景音型和不搞笑背景音型，步骤104可以包括如下步骤：

对目标视频和源视频进行背景音识别，确定目标视频的背景音搞笑概率，以及源视频的背景音搞笑概率；

对目标视频的背景音搞笑概率和源视频的背景音搞笑概率进行求差处理，得到背景音搞笑概率差；

当背景音搞笑概率差大于预设的差阈值，且目标视频的背景音搞笑概率大于预设的背景音搞笑阈值时，将目标视频的音频类型确定为搞笑配音型。

其中，可以采用背景音识别模型来对目标视频和源视频进行背景音识别。在背景音识别模型的训练阶段，训练样本可以由人工标注为“背景音搞笑”和“背景音不搞笑”。

其中，语音识别模型的内部结构可以参考图1f，可以包括音频特征提取网络、编码网络和输出层。其中，输出层可以输出视频音频的背景音搞笑概率。

通过对比目标视频和源视频的背景音搞笑概率，可以确定目标视频的音频类型。

比如，假设目标视频的背景音搞笑概率P_B1，源视频的背景音搞笑概率为P_B2，则当P_B1大于背景音搞笑阈值K_B，且P_B1-P_B2大于差阈值K_Bd时，将目标视频的音频类型确定为搞笑配音型；否则，将目标视频的内容类型确定为不搞笑配音型。

在一些实施例中，为了使得判定更加准确，除了背景音搞笑概率差大于预设的差阈值，且目标视频的背景音搞笑概率大于预设的背景音搞笑阈值，同时还需要源视频的背景音搞笑概率小于另一阈值时才能将目标视频的音频类型确定为搞笑配音型。

105、当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

综上所述，只有在满足如下全部条件时，才可以将目标视频确定为搞笑配音视频：

(1)目标视频具有对应的源视频；

(2)目标视频的内容类型为搞笑内容型；

(3)目标视频的音频类型为搞笑配音型；

否则，只要不满足任一条件，都将目标视频确定为不搞笑配音视频。

由上可知，本申请实施例可以获取目标视频；获取目标视频对应的源视频，目标视频由源视频加工创作得到；对目标视频和源视频进行内容对比，得到目标视频的内容类型；当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

由此，本申请实施例可以准确地从众多视频中识别出搞笑配音视频，提升了视频识别的效率。

根据上述实施例所描述的方法，以下将作进一步详细说明。

本申请实施例提供的方案可以应用在各种视频推送场景中。比如，以下以搞笑配音短视频为例，对本申请实施例的方法进行详细说明。

如图2a所示，一种基于机器学习的视频识别方法具体流程如下：

201、获取目标视频。

在获取目标视频之后，可以在检索库中查找目标视频对应的源视频。

搞笑配音类短视频通常是对长视频某个片段进行重配音，增强搞笑效果，首先需要为目标视频寻找到源视频(即长视频某个片段)，本实施例通过图像与文本特征来寻找原出处视频。

首先需要对平台的长视频构建检索特征。对每个长视频进行时间片切片，如按时长3秒对视频进行切片，为每个切片构建检索特征：

图像特征：通过对视频片段抽取多个图像帧，图像帧通过EfficientNet(一种用于图像特征提取的人工神经网络)抽取出深度特征。该深度特征通过ElasticFaiss(一种搜索引擎)构建向量检索索引。

文本特征：对长视频片段通过OCR识别字幕，将字幕文本分词，为文本分词构建倒排索引，如通过ElasticSearch(一种搜索引擎)构建字幕文本倒排索引。

首先通过抽帧并经过EfficientNet构建多个图像帧特征，基于OCR识别出字幕文本，构建文本特征。然后分别基于图像特征与文本特征，到长视频图像帧特征与字幕文本特征检索库查询，找到最相似的几个连续长视频片段，将多个连续片段拼接成一个短视频，作为当前目标视频的源视频。要求当前短视频与源视频相似性满足一定阈值，相似性计算中，图像帧特征可通过Cosin距离，文本特征可通过杰卡德相似系数计算。

202、若查找到目标视频对应的源视频则进入步骤203，否则进入步骤207。

搞笑配音短视频要求短视频需要具备搞笑，同时要求经过创作者配音后的短视频，要比步骤201查找到的源视频具备更高的搞笑效果。

因此，在本申请实施例中，可以通过如图2b所示模型，来判断视频的搞笑情况，通过在预先构建好的搞笑、非搞笑类视频数据集，对模型进行训练，通过将视频的文本、视频、音频特征输入模型，对比模型输出的搞笑概率与数据集的标注情况进行差异计算，并更新模型参数，使模型具备输入视频的特征，输出视频内容的搞笑概率的能力。

其中，如图2b所示，该模型的编码模块可以是Transformer-Encoder(一种编码网络)，图像特征提取模块可以是EfficientNet(一种特征提取模型)，音频特征提取模块可以是VGGish(一种特征提取模型)，字幕特征提取模块可以是Albert(一种特征提取模型)。

通过对目标视频内容计算搞笑情况概率P_L1，同时对源视频内容计算搞笑情况概率P_L2，目标视频内容的搞笑概率P_L1满足一定的阈值，同时要求P_L1–P_L2大于一定的阈值。如果上述条件满足，则将目标视频的内容类型确定为搞笑内容型，并继续进行后续计算，否则判定此短视频不是搞笑配音短视频。

203、若目标视频的内容类型为搞笑内容型则进入步骤204，否则进入步骤207。

搞笑配音一般有两种类型，一种是对视频人声进行其他方言语种的搞笑重配音，另一种是背景音乐替换为其他搞笑背景音乐。

其中，对视频人声进行其他方言语种的搞笑重配音识别：

对短视频识别是否有人声，如果原源视频是非方言人声，目标视频的人声为方言人声，则判定当前短视频为搞笑配音短视频。

通过如图2c所示，可以采用所示的模型对视频音频是否包含人声，以及是否为方言人声类型进行判断。

其中，如图2c，该模型的编码模块可以是Transformer-Encoder，音频特征提取模块可以是VGGish。

在预先构建好的如下视频音频数据集上进行训练，模型具备输入视频音频，输出是否包含人声，以及人声是否是方言的概率。

可选的，一些短视频的标题中会出现”方言配音”、“四川话版”等特征，可通过规则对待识别的短视频标题进行挖掘，与上述音频特征模型联合判断目标视频是否是方言配音。

其中，背景音乐替换为其他搞笑背景音乐识别：

可以采用如图2d所示的模型提取短视频的背景音，对背景音进行搞笑识别，该模型在预先构建好的音频与搞笑情况数据集上进行模型训练，模型具备输入视频背景音，输出背景音搞笑情况。

其中，如图2d，该模型的编码模块可以是Transformer-Encoder，音频特征提取模块可以是VGGish。

分别对目标视频的背景音与源视频的背景音分别识别其搞笑情况，如果目标视频的背景音搞笑概率满足一定阈值，源视频背景音搞笑概率低于一定阈值，并且它们的背景音的搞笑情况有较大差异，则将目标视频的内容类型确定为搞笑内容型，并继续进行后续计算，否则判定此短视频不是搞笑配音短视频。

204、若目标视频的音频类型为搞笑配音型则进入步骤205，否则进入步骤207。

通过上述步骤实现对短视频识别是否是搞笑配音，可为搞笑配音资源池丰富资源，为搞笑配音视频推荐分发提供数据基础。

205、将目标视频确定为搞笑配音视频。

206、向用户推送搞笑配音视频。

207、将目标视频确定为不搞笑配音视频。

参考图2e，本实施例提出的搞笑配音视频智能识别实施例可以应用于短视频领域，比如，通过结合当前短视频的原出处配音，对当前短视频的配音情况进行比对识别，同时结合视频的搞笑识别情况，自动识别搞笑配音识别，提升搞笑配音类视频的识别效率，实现高效对视频平台的大量增量与存量视频进行智能自动识别，降低人工识别成本，丰富搞笑配音类视频资源池，增强此类视频的推荐分发效果，满足平台受众用户的个性化播放需求。

由上可知，本申请实施例可以准确地从众多视频中识别出搞笑配音视频，提升了视频识别的效率。

为了更好地实施以上方法，本申请实施例还提供一种基于机器学习的视频识别装置，该基于机器学习的视频识别装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以基于机器学习的视频识别装置具体集成在服务器中为例，对本申请实施例的方法进行详细说明。

例如，如图3所示，该基于机器学习的视频识别装置可以包括、获取单元301、源单元302、内容单元303以及音频单元304和确定单元305，如下：

(一)获取单元301，用于获取目标视频。

(二)源单元302，用于获取目标视频对应的源视频，目标视频由源视频加工创作得到。

在一些实施例中，源单元302可以包括检索特征子单元以及查找子单元，如下：

检索特征子单元可以用于获取目标视频的检索特征，检索特征可以包括但不限于图像特征和字幕特征；

查找子单元可以用于基于检索特征，从检索库中查找目标视频对应的源视频。

在一些实施例中，检索特征子单元可以用于：

对目标视频进行抽帧处理，得到多帧图像片段；

对于每帧图像片段，从图像片段中提取图像特征；

对于每帧图像片段，对图像片段进行字幕识别，得到字幕文本，并从字幕文本中提取字幕特征。

在一些实施例中，检索库中可以包括候选片段的检索特征，候选片段为候选视频的视频片段，检索特征子单元可以用于：

对于每帧图像片段，基于图像片段对应的检索特征和候选片段的检索特征，确定图像片段和候选片段之间的相似度；

对于每帧图像片段，基于相似度，在检索库中确定与图像片段最相似的候选片段；

将最相似的候选片段进行拼接，得到目标视频对应的源视频。

(三)内容单元303，用于对目标视频和源视频进行内容对比，得到目标视频的内容类型。

在一些实施例中，内容单元303，可以包括内容识别子单元及内容识别子单元，如下：

内容识别子单元，可以用于对目标视频和源视频进行内容识别，得到目标视频的内容搞笑概率，以及源视频的内容搞笑概率；

内容识别子单元，可以用于基于目标视频的内容搞笑概率和源视频的内容搞笑概率，确定目标视频的内容类型。

在一些实施例中，内容类型子单元可以用于：

对目标视频的内容搞笑概率和源视频的内容搞笑概率进行求差处理，得到内容搞笑概率差；

当内容搞笑概率差大于预设的差阈值，且目标视频的内容搞笑概率大于预设的内容搞笑概率阈值时，将目标视频的内容类型确定为搞笑内容型。

在一些实施例中，内容识别子单元，可以包括模型子模块、内容识别子模块以及概率子模块，如下：

模型子模块可以用于获取内容识别模型；

内容识别子模块可以用于采用内容识别模型，对目标视频进行内容识别，得到目标视频的内容搞笑概率；

概率子模块可以用于采用内容识别模型，对源视频进行内容识别，得到源视频的内容搞笑概率。

在一些实施例中，模型子模块，可以用于：

获取预设内容识别模型；

获取标注了内容类型的训练样本，内容类型可以包括但不限于搞笑内容型和不搞笑内容型，训练样本可以包括但不限于视频的视频片段、视频音频和视频字幕；

采用标注了内容类型的训练样本训练预设内容识别模型，直至预设内容识别模型收敛，得到内容识别模型。

在一些实施例中，内容识别模型可以包括特征提取层、特征融合层和输出层，特征提取层可以包括但不限于图像特征提取网络、音频特征提取网络和字幕特征提取网络，内容识别子模块，可以用于：

获取目标视频的视频片段、视频音频和视频字幕；

通过图像特征提取网络提取视频片段的图像特征；

通过音频特征提取网络提取视频音频的音频特征；

通过字幕特征提取网络提取视频字幕的字幕特征；

通过特征融合层对图像特征、音频特征和字幕特征进行特征融合处理，得到融合特征；

采用输出层，基于融合特征计算目标视频的内容搞笑概率。

(四)音频单元304，用于当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型。

在一些实施例中，音频单元304可以包括语音识别子单元以及音频类型子单元，如下：

语音识别子单元可以用于对目标视频和源视频进行语音识别，确定目标视频的音频类型，以及源视频的音频类型，音频类型可以包括但不限于非方言型和方言型；

音频类型子单元可以用于当目标视频的音频类型为方言型，且源视频的音频类型为非方言型时，将目标视频的音频类型确定为搞笑配音型。

在一些实施例中，语音识别子单元可以用于：

获取语音识别模型；

采用语音识别模型，对目标视频进行搞笑语音识别，得到目标视频的语音搞笑概率，并基于目标视频的语音搞笑概率确定目标视频的音频类型，音频类型可以包括但不限于非方言型和方言型；

采用语音识别模型，对源视频进行搞笑语音识别，得到源视频的语音搞笑概率，并基于源视频的语音搞笑概率确定源视频的音频类型。

在一些实施例中，音频类型可以包括但不限于搞笑背景音型和不搞笑背景音型，音频单元304可以用于：

对目标视频和源视频进行背景音识别，确定目标视频的背景音搞笑概率，以及源视频的背景音搞笑概率；

对目标视频的背景音搞笑概率和源视频的背景音搞笑概率进行求差处理，得到背景音搞笑概率差；

当背景音搞笑概率差大于预设的差阈值，且目标视频的背景音搞笑概率大于预设的背景音搞笑阈值时，将目标视频的音频类型确定为搞笑配音型。

(五)确定单元305，用于当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的基于机器学习的视频识别装置由获取单元，用于获取目标视频；由源单元获取目标视频对应的源视频，目标视频由源视频加工创作得到；由内容单元对目标视频和源视频进行内容对比，得到目标视频的内容类型；当目标视频的内容类型为搞笑内容型时，由音频单元对目标视频和源视频进行音频识别，确定目标视频的音频类型；当目标视频的音频类型为搞笑配音型时，由确定单元将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。由此，本申请实施例可以准确地从众多视频中识别出搞笑配音视频，提升了视频识别的效率。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标视频；

获取目标视频对应的源视频，目标视频由源视频加工创作得到；

对目标视频和源视频进行内容对比，得到目标视频的内容类型；

当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；

当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本方案可以准确地从众多视频中识别出搞笑配音视频，提升了视频识别的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种基于机器学习的视频识别方法中的步骤。例如，该指令可以执行如下步骤：

获取目标视频；

获取目标视频对应的源视频，目标视频由源视频加工创作得到；

对目标视频和源视频进行内容对比，得到目标视频的内容类型；

当目标视频的内容类型为搞笑内容型时，对目标视频和源视频进行音频识别，确定目标视频的音频类型；

当目标视频的音频类型为搞笑配音型时，将目标视频确定为搞笑配音视频，以便为用户推送搞笑配音视频。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中提供的视频识别方面或者视频推送方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种基于机器学习的视频识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种基于机器学习的视频识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种基于机器学习的视频识别方法、装置、服务器和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载