导航：首页> 乐器；声学>字幕识别方法、装置、设备、存储介质及程序产品

字幕识别方法、装置、设备、存储介质及程序产品

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及图像处理技术领域，具体涉及一种字幕识别方法、装置、设备、存储介质及程序产品。

背景技术

随着互联网技术的发展，视频越来越受用户的欢迎，用户在观看视频时，会同时观看视频上的字幕，以便更好地了解视频的内容。

为了对视频进行分析，会对视频进行字幕识别，视频的字幕识别指将视频中的图像文字识别为纯文本文字的技术。然而，目前视频的字幕识别的方法的准确度较低。

发明内容

本申请实施例提供一种字幕识别方法、装置、设备、存储介质及程序产品，可以解决字幕识别的方法的准确度较低的技术问题。

本申请实施例提供一种字幕识别方法，包括：

获取待识别视频，以及获取上述待识别视频的待识别音频；

对上述待识别视频进行视觉特征提取，得到上述待识别视频的视觉模态特征，以及对上述待识别音频进行声觉特征提取，得到上述待识别视频的声觉模态特征；

根据上述视觉模态特征和上述声觉模态特征中至少一种模态特征，确定上述待识别视频的文本模态特征；

对上述视觉模态特征、上述声觉模态特征以及上述文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征；

根据上述多模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的字幕识别结果。

相应地，本申请实施例提供一种字幕识别装置，包括：

获取模块，用于获取待识别视频，以及获取上述待识别视频的待识别音频；

提取模块，用于对上述待识别视频进行视觉特征提取，得到上述待识别视频的视觉模态特征，以及对上述待识别音频进行声觉特征提取，得到上述待识别视频的声觉模态特征；

确定模块，用于根据上述视觉模态特征和上述声觉模态特征中至少一种模态特征，确定上述待识别视频的文本模态特征；

融合模块，用于对上述视觉模态特征、上述声觉模态特征以及上述文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征；

识别模块，用于根据上述多模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的字幕识别结果。

可选地，确定模块具体用于执行：

根据上述视觉模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的视觉字幕识别结果；

根据上述声觉模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的声觉字幕识别结果；

对上述视觉字幕识别结果进行文本特征提取，得到第一文本模态特征，以及对上述声觉字幕识别结果进行文本特征提取，得到第二文本模态特征；

根据上述第一文本模态特征和上述第二文本模态特征，确定上述待识别视频的文本模态特征。

可选地，融合模块具体用于执行：

对上述视觉模态特征、上述声觉模态特征以及上述文本模态特征分别进行掩码操作，得到掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征；

对上述掩码视觉模态特征、上述掩码声觉模态特征以及上述掩码文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征。

可选地，融合模块具体用于执行：

获取上述待识别视频的模态编码特征；

根据上述模态编码特征，对上述视觉模态特征、上述声觉模态特征以及上述文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征。

可选地，融合模块具体用于执行：

确定上述视觉模态特征在上述待识别视频中对应的视频帧，得到目标视频帧；

根据上述目标视频帧，确定上述视觉模态特征对应的帧数编码特征；

对上述帧数编码特征和上述视觉模态特征进行加法融合处理，得到帧数视觉模态特征；

对上述帧数视觉模态特征、上述声觉模态特征以及上述文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征。

可选地，融合模块具体用于执行：

根据上述视觉模态特征和上述声觉模态特征，确定上述视觉模态特征和上述声觉模态特征之间的相似度；

根据上述相似度，从上述视觉模态特征和上述声觉模态特征筛选出模态特征组，上述模态特征组包括声觉模态特征和至少一个视觉模态特征；

对上述模态特征组中视觉模态特征、上述模态特征组中声觉模态特征以及上述文本模态特征进行特征融合处理，得到上述待识别视频的多模态特征。

可选地，融合模块具体用于执行：

根据上述视觉模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的视觉字幕识别结果；

根据上述声觉模态特征，对上述待识别视频进行字幕识别，得到上述待识别视频的声觉字幕识别结果；

确定上述视觉字幕识别结果和上述声觉字幕识别结果之间的编辑距离；

根据上述编辑距离，确定上述视觉模态特征和上述声觉模态特征之间的相似度。

可选地，提取模块具体用于执行：

对上述待识别视频进行视觉特征提取，得到上述待识别视频的多个候选视觉模态特征；

获取上述待识别视频对应的字幕属性信息；

根据上述字幕属性信息，从上述候选视觉模态特征中筛选出上述待识别视频的视觉模态特征。

可选地，提取模块具体用于执行：

根据上述候选视觉模态特征，确定上述待识别视频的多条候选字符串；

根据上述字幕属性信息，从上述候选字符串中筛选出上述待识别视频的视觉字幕识别结果；

将上述视觉字幕识别结果对应的候选视觉模态特征，作为上述待识别视频的视觉模态特征。

可选地，上述字幕属性信息包括预设时间，相应地，提取模块具体用于执行：

确定上述候选字符串在上述待识别视频的延续时间；

将小于上述预设时间的延续时间对应的候选字符串作为上述待识别视频的视觉字幕识别结果。

可选地，上述字幕属性信息包括预设位置信息，相应地，提取模块具体用于执行：

确定上述候选字符串在上述待识别视频的位置信息；

将满足上述预设位置信息的位置信息对应的候选字符串作为上述待识别视频的视觉字幕识别结果。

可选地，提取模块具体用于执行：

对上述待识别音频进行声觉特征提取，得到上述待识别音频对应的音频特征；

根据上述音频特征，对上述待识别音频进行分段，得到包含与上述待识别视频的内容关联的分段音频；

根据上述分段音频的音频特征，得到上述待识别视频的声觉模态特征。

可选地，提取模块具体用于执行：

根据上述音频特征，确定上述待识别音频中存在对象声音的衡量参数；

根据上述衡量参数，确定上述对象声音在上述待识别音频中的起始时刻和终止时刻；

根据上述起始时刻和上述终止时刻，对上述待识别音频进行分段，得到包含与上述待识别视频的内容关联的分段音频。

此外，本申请实施例还提供一种电子设备，包括处理器和存储器，上述存储器存储有计算机程序，上述处理器用于运行上述存储器内的计算机程序实现本申请实施例提供的字幕识别方法。

此外，本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序适于处理器进行加载，以执行本申请实施例所提供的任一种字幕识别方法。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，上述计算机程序被处理器执行时实现本申请实施例所提供的任一种字幕识别方法。

在本申请实施例中，获取待识别视频，以及获取待识别视频的待识别音频；对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征；根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征；对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征；根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果，实现通过多模态特征得到待识别视频的字幕识别结果，提高字幕识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的字幕识别过程的场景示意图；

图2是本申请实施例提供的字幕识别方法的流程示意图；

图3是本申请实施例提供的待识别音频的划分方法的示意图；

图4是本申请实施例提供的多模态特征的示意图；

图5是本申请实施例提供的视频帧的示意图；

图6是本申请实施例提供的编辑距离的示意图；

图7是本申请实施例提供的字幕识别模型的训练方法的流程示意图；

图8是本申请实施例提供的另一种字幕识别模型的训练方法的流程示意图；

图9是本申请实施例提供的Transformer模型的示意图；

图10是本申请实施例提供的字幕识别模型的应用方法的的流程示意图；

图11是本申请实施例提供的另一种字幕识别方法的示意图；

图12是本申请实施例提供的字幕识别装置的结构示意图；

图13是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种字幕识别方法、装置、设备、存储介质及程序产品，其中，设备可以为电子设备，存储介质可以为计算机存储介质，程序产品可以为计算机程序产品。该字幕识别装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

并且，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，如图1所示，终端获取待识别视频，并将待识别视频发送至服务器，服务器获取到待识别视频之后，从待识别视频中提取出待识别视频的待识别音频。服务器再对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征，根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征，根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果，并将字幕识别结果返回至终端。

另外，本申请实施例中的“多个”指两个或两个以上。本申请实施例中的“第一”和“第二”等用于区分描述，而不能理解为暗示相对重要性。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、语音技术以及机器学习等技术，具体通过如下实施例进行说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

在本实施例中，将从字幕识别装置的角度进行描述，为了方便对本申请的字幕识别方法进行说明，以下将以字幕识别装置集成在终端中进行详细说明，即以终端作为执行主体进行详细说明。

请参阅图2，图2是本申请一实施例提供的字幕识别方法的流程示意图。该字幕识别方法可以包括：

S201、获取待识别视频，以及获取待识别视频的待识别音频。

待识别视频指静态影像组成的集合，待识别视频的待识别音频指待识别视频包含的声波。

终端可以从本地存储空间获取待识别视频和待识别视频的待识别音频，或者，终端也可以从其他设备中获取待识别视频和待识别视频的待识别音频，本申请实施例在此不做限定。

待识别音频可以存储在待识别视频中，终端可以在获取到待识别视频之后，再从待识别视频中提取出待识别音频，或者，或者，待视频音频也可以独立于待识别视频存在，然后终端可以直接获取到待识别视频和待识别音频。

S202、对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征。

对待识别视频进行视觉特征提取，可以理解为对待识别视频中视频帧进行视觉特征提取。其中，可以是对待识别视频中所有视频帧进行视觉特征提取，或者，也可以是对待识别视频中部分视频帧进行视觉特征提取。

当对待识别视频中部分视频帧进行视觉特征提取时，对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征的过程可以为：

按照预设时间区间，对待识别视频进行划分，得到时长为预设时间区间的分段视频；

从分段视频中筛选出预设数量的视频帧，预设数量少于分段视频中包含的视频帧的帧数；

对预设数量的视频帧进行视觉特征提取，得到待识别视频的视觉模态特征。

比如，预设时间区间设置为1秒，每个分段视频包括30帧视频帧，预设数量为5，则分段视频的时长为1秒，从30帧视频帧中筛选出5帧视频帧，对5帧视频帧进行视觉特征提取。

在本申请实施例中，按照预设时间区间，对待识别视频进行划分，得到时长为预设时间区间的分段视频，从分段视频中筛选出预设数量的视频帧，预设数量少于分段视频中包含的视频帧的帧数，对预设数量的视频帧进行视觉特征提取，得到待识别视频的视觉模态特征，减少视觉特征提取的视频帧的帧数，从而减少视觉特征提取的计算量，进而提高视觉特征提取的速度。

可选地，终端可以通过第一神经网络模型对待识别视频进行视觉特征提取，从而得到待识别视频的视觉模态特征。其中，第一神经网络模型可以根据实际情况进行选择，比如，可以采用图像卷积神经网络模型或Faster-RCNN模型作为本申请实施例中的第一神经网络模型，本申请实施例在此不做限定。

在一些实施例中，对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，包括：

对待识别视频进行视觉特征提取，得到待识别视频的多个候选视觉模态特征；

从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

由于待识别视频中可能包括台标、时间、广告标语或背景杂乱文字，因此，对待识别视频进行视觉特征提取，得到待识别视频的多个候选视觉模态特征可能不是字幕的特征，如果直接根据候选视觉模态特征对待识别视频进行识别，得到的候选字符串可能不是待识别视频的字幕，因此，在本申请实施例中，在得到待识别视频的多个候选视觉模态特征之后，从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

其中，从候选视觉模态特征中筛选出待识别视频的视觉模态特征的过程可以为：

确定待识别视频中不同视频帧之间的候选视觉模态特征之间的特征相似度；

将特征相似度小于预设特征相似度的候选视觉模态特征，作为待识别视频的视觉模态特征。

因为台标、广告标语或背景杂乱文字可能在待识别视频中长时间存在，即待识别视频中较多视频帧包括台标、广告标语和背景杂乱文字，使得待识别视频中不同视频帧存在相同的候选视觉模态特征，所以，在本申请实施例中，可以根据不同视频帧之间的候选视觉模态特征之间的特征相似度，从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

或者，从候选视觉模态特征中筛选出待识别视频的视觉模态特征的过程也可以为：

获取待识别视频对应的字幕属性信息；

根据字幕属性信息，从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

待识别视频的字幕属性信息指表明待识别视频的字幕的特性的信息，字幕属性信息也可以成为先验信息，其可以包括待识别视频的字幕的预设位置信息、预设时间、预设字体信息、预设颜色信息、预设置信度以及预设尺寸信息中至少一种。

在本申请实施例中，在得到候选视觉模态特征之后，根据待识别视频对应的字幕属性信息，从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

其中，根据字幕属性信息，从候选视觉模态特征中筛选出待识别视频的视觉模态特征的过程可以为：

根据候选视觉模态特征，确定待识别视频的多条候选字符串；

根据字幕属性信息，从候选字符串中筛选出待识别视频的视觉字幕识别结果；

将视觉字幕识别结果对应的候选视觉模态特征，作为待识别视频的视觉模态特征。

可选地，当字幕属性信息包括预设时间时，根据字幕属性信息，从候选字符串中筛选出待识别视频的视觉字幕识别结果，包括：

确定候选字符串在待识别视频的延续时间；

将小于预设时间的延续时间对应的候选字符串作为待识别视频的视觉字幕识别结果。

由于当候选字符串在待识别视频中长时间出现时，该候选字符串为干扰字符串的概率较大，当候选字符串在待识别视频中出现的时间较短时，该候选字符串为字幕的概率较大，因此，在本申请实施例中，将小于预设时间的延续时间对应的候选字符串作为待识别视频的视觉字幕识别结果，将等于或大于预设时间的延续时间对应的候选字符串作为干扰字符串。

比如，当该候选字符串在待识别视频中大于8秒的连续视频帧均出现，则可以确定该候选字符串为干扰字符串，不是字幕。

可选地，为了提高判断候选字符串是否为字幕的准确度，在确定候选字符串在待识别视频的延续时间之前还可以包括：

确定候选字符串在待识别视频中不同视频帧中的位置；

此时，确定候选字符串在待识别视频的延续时间的过程为：

如果候选字符串在待识别视频中不同视频帧中的位置相同，则确定该候选字符串在待识别视频的延续时间。

在本申请实施例中，将在待识别视频中不同视频帧中的位置相同且等于或大于预设时间的延续时间对应的候选字符串作为干扰字符串，提高判断干扰字符串的准确度，从而提高判断候选字符串是否为视觉字幕识别结果的准确度。

可选地，当字幕属性信息包括预设位置信息时，根据字幕属性信息，从候选字符串中筛选出待识别视频的视觉字幕识别结果，包括：

确定候选字符串在待识别视频的位置信息；

将满足预设位置信息的位置信息对应的候选字符串作为待识别视频的视觉字幕识别结果。

由于视频的字幕通常位于视频中视频帧的下半部分，如果候选字符串的位置不在视频中视频帧的下半部分，则确定该候选字符串不是字幕，即不是视觉字幕识别结果，如果候选字符串的位置在视频中视频帧的下半部分，则确定该候选字符串是字幕，即是视觉字幕识别结果，因此，在本申请实施例中，可以根据候选字符串的位置信息确定候选字符串是否为视觉字幕识别结果。

可选地，当字幕属性信息包括预设置信度时，根据字幕属性信息，从候选字符串中筛选出待识别视频的视觉字幕识别结果，包括：

确定候选字符串的置信度；

将等于或大于预设置信度的置信度对应的候选字符串作为待识别视频的视觉字幕识别结果。

比如，预设置信度可以设置为0.7，如果候选字符串的置信度为0.5，则该候选字符串不是字幕，如果候选字符串的置信度为0.9，则该候选字符串是字幕，所以，将候选字符串作为待识别视频的视觉字幕识别结果。

可选地，对待识别音频进行声觉特征提取，可以理解为对待视频音频中与待识别视频的内容有关的声音进行声觉特征提取，或者，也可以理解为对待视频音频中所有声音进行声觉特征提取，得到待识别音频对应的音频特征，然后再根据音频特征，确定与待识别视频的内容有关的声音的声觉模态特征。

当对待视频音频中所有声音进行声觉特征提取时，对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征，包括：

对待识别音频进行声觉特征提取，得到待识别音频对应的音频特征；

根据音频特征，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频；

根据分段音频的音频特征，得到待识别视频的声觉模态特征。

音频特征可以为时域特征，或者，音频特征也可以为频域特征。当音频特征为时域特征时，音频特征可以为过零率、短时能量以及自相关程度中至少一种。当音频特征为频域特征时，音频特征可以为频谱质心(Spectral Centroid)、频谱平坦度(SpectralFlatness)以及频谱通量(Spectral Flux)中至少一种。

在本申请实施例中，将包含与待识别视频的内容关联的分段音频的音频特征，作为待识别视频的声觉模态特征，避免待识别视频的声觉模态特征中包括与待识别视频的内容无关的特征，即包括干扰声音(干扰声音比如可以为背景音乐)的特征，提高后续根据声觉模态特征进行字幕识别，得到的字幕识别结果的准确度。

在另一些实施例中，根据音频特征，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频，包括：

根据音频特征，确定待识别音频中存在对象声音的衡量参数；

根据衡量参数，确定对象声音在待识别音频中的起始时刻和终止时刻；

根据起始时刻和终止时刻，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频。

衡量参数用于衡量该声音为对象声音的概率，其可以是一个字符串，字符串可以包括数字、字母、特殊符号以及标点符号中的至少一种。当字符串只包括数字时，衡量参数也可以称为分数。

当该衡量参数等于或大于预设参数时，表示该音频特征对应的声音为对象声音，当该声音为对象声音时，表示该声音为与待识别视频的内容有关的声音，当该衡量参数小于预设参数时，表示该声音不是对象声音。

所以，当衡量参数等于或大于预设参数时，将该音频特征对应的声音在待识别视频中的位置作为起始时刻，当衡量参数小于预设参数时，将该音频特征对应的声音在待识别视频中的位置作为终止时刻，然后，再根据起始时刻和终端时刻，对待视频音频进行分段，从而得到包含与待识别视频的内容关联的分段音频。

比如，如图3所示，从t＝0开始遍历待识别音频，时刻t1的声音的音频特征的衡量参数大于预设参数，则将时刻t1作为对象声音的起始时刻，在时刻t1之后，时刻t2的声音的音频特征为第一个衡量参数小于预设参数的音频特征，因此，将时刻t2作为终止时刻，接着，在时刻t2之后，时刻t3的声音的音频特征为第一个衡量参数大于预设参数的音频特征，因此，将时刻t3作为起始时刻，循环该过程，从而得到对象声音在待识别音频的起始时刻分别为t1、t3和t5，对象声音在待识别音频的终止时刻分别为t2、t4和t6，则分段音频可以分别为时刻t1到时刻t2之间的音频、时刻t3到时刻t4之间的音频和时刻t5到时刻t6之间的音频。

需要说明的是，为了加快后续对分段音频特征进行处理的速度，可以将时长小于预设时长的分段音频与相邻分段音频进行合并，得到合并后音频，并将合并后音频作为分段音频。

比如，分段音频包括分段音频s1、分段音频s2和分段音频s3，分段音频s1和分段音频3均为分段音频s2的相邻分段音频，分段音频s2的时长小于预设时长，则将分段音频s2与分段音频s1合并，或者，将分段音频s2与分段音频s3合并。

应理解，当时长小于预设时长的分段音频的相邻分段音频存在多个时，可以将从多个相邻分段音频中任意筛选出一个相邻分段音频与时长小于预设时长的分段音频进行合并，或者，也可以将时长较少的相邻分段音频与时长小于预设时长的分段音频进行合并，本申请实施例在此不做限定。

在本申请实施例中，根据音频特征，确定待识别音频中存在对象声音的衡量参数，然后根据衡量参数，确定对象声音在待识别音频中的起始时刻和终止时刻，以便根据起始时刻和终止时刻，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频。

对分段音频进行声觉特征提取的方法可以根据实际情况进行选择，比如，可以选择短时傅里叶变换法、梅尔频谱法或者第二神经网络模型对分段音频进行声觉特征提取，本申请实施例在此不做限定。

其中，第二神经网络模型的类型可以根据实际情况进行设置，比如，第二神经网络模型可以为声觉卷积网络模型或VAD模型，本申请实施例在此不做限定。

S203、根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征。

对待识别视频中视频帧进行视觉特征提取，得到的均是待识别视频的视觉模态特征，对待识别音频进行声觉特征提取，得到的均是待识别音频的声觉模态特征，为了提高字幕识别的准确度，在本申请实施例中，先根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征，以便后续可以根据文本模态特征、视觉模态特征和声觉模态特征确定字幕识别结果，提高字幕识别结果的准确度。

当根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征为根据视觉模态特征确定待识别视频的文本模态特征时，确定待识别视频的文本模态特征的过程可以为：

根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果；

对视觉字幕识别结果文本特征提取，得到第一文本模态特征，将第一文本模态特征作为文本模态特征。

当根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征为根据声觉模态特征确定待识别视频的文本模态特征时，确定待识别视频的文本模态特征的过程可以为：

根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果；

对声觉字幕识别结果文本特征提取，得到第二文本模态特征，将第二文本模态特征作为文本模态特征。

当根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征为根据视觉模态特征和声觉模态特征确定待识别视频的文本模态特征时，确定待识别视频的文本模态特征的过程可以为：

根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果；

根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果；

对视觉字幕识别结果文本特征提取，得到第一文本模态特征，以及对声觉字幕识别结果文本特征提取，得到第二文本模态特征；

根据第一文本模态特征和第二文本模态特征，确定待识别视频的文本模态特征。

此时，可以将第一文本模态特征和第二文本模态特征进行特征融合处理，从而得到待识别视频的文本模态特征，或者，也可以直接第一文本模态特征和第二文本模态特征作为文本模态特征。

在一些实施例中，终端可以通过第三神经网络模型，根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果，通过第四神经网络模型，根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果。

其中，第三神经网络模型可以为CRNN模型或Softmax模型，第四神经网络模型可以为Wav2Vec模型或Softmax模型，本申请实施例在此不做限定。

S204、对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

其中，终端可以直接将视觉模态特征、声觉模态特征以及文本模态特征进行拼接，从而实现特征融合处理。比如，将视觉模态特征、声觉模态特征以及文本模态特征进行拼接后，得到的多模态特征可以如图4所示。

或者，终端也可以获取视觉模态特征的视觉权重、声觉模态特征的声觉权重以及文本模态特征对应的文本权重，然后根据视觉权重，对视觉模态特征进行调整，得到调整后视觉模态特征，根据声觉权重，对声觉模态特征进行调整，得到调整后声觉模态特征，根据文本权重，对文本模态特征进行调整，得到调整后文本模态特征，最后再将调整后视觉模态特征、调整后声觉模态特征和调整后文本模态特征进行拼接，得到待识别视频的多模态特征。

终端在对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理的过程中，可以根据视觉模态特征对应的时间戳、声觉模态特征对应的时间戳以及文本模态特征对应的时间戳，将视觉模态特征、声觉模态特征以及文本模态特征进行对齐，然后将对齐后的视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理。

需要说明的是，在将视觉模态特征、声觉模态特征以及文本模态特征进行对齐的过程中，可能出现一个声觉模态特征与多个视觉模态特征对齐的情况，此时，可以将多个视觉模态特征进行特征融合处理，得到融合后视觉模态特征，然后再将融合后视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理。

如果文本模态特征是根据视觉模态特征确定的模态特征，此时，也可以对多个视觉模态特征对应的视觉字幕识别结果进行拼接，得到拼接视觉字幕识别结果，然后再对拼接视觉字幕识别结果进行文本特征提取，得到文本模态特征。

比如，如图5所示，视频帧f1的字幕为：“其中的铝可以提取出来”，视频帧f1的字幕对应的视觉模态特征为c1，视频帧f2的字幕为：“制作相应的一些铝制品等等”，视频帧f2的字幕对应的视觉模态特征为c3，声觉模态特征对应的声觉字幕识别结果为“其中的铝可以提取出来制作相应的一些铝制品等等”。

此时，与声觉模态特征对齐的视觉模态特征包括c1和c2，所以，将c1和c2进行特征融合处理，得到c12，对视频帧f1的字幕和视频帧f2的字幕进行拼接，得到拼接视觉字幕识别结果，再对拼接视觉字幕识别结果进行文本特征提取，得到文本模态特征c3，最后将c12、c3和声觉模态特征进行特征融合处理。

在一些实施例中，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征，包括：

根据视觉模态特征和声觉模态特征，确定视觉模态特征和声觉模态特征之间的相似度；

根据相似度，从视觉模态特征和声觉模态特征筛选出模态特征组，模态特征组包括声觉模态特征和至少一个视觉模态特征；

对模态特征组中视觉模态特征、模态特征组中声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

因为一个声觉模态特征可能对应多个视觉模态特征，所以，在本申请实施例中，一个模态特征组可以包括一个声觉模态特征和至少一个视觉模态特征。

由于得到视觉模态特征可能不是字幕的特征，因此，在得到视觉模态特征之后，可以根据视觉模态特征和声觉模态特征之间的相似度，从视觉模态特征中筛选出是字幕的特征的视觉模态特征。如果视觉模态特征和声觉模态特征之间的相似度大于预设相似度，表明该视觉模态特征是字幕的特征的概率较大，则将相似度大于预设相似度的视觉模态特征和声觉模态特征作为模态特征组(或者，也可以将相似度最大的视觉模态特征和声觉模态特征作为模态特征组)。如果视觉模态特征和声觉模态特征之间的相似度小于或等于预设相似度，表明该视觉模态特征是字幕的特征的概率较小，则该视觉模态特征进行过滤。

其中，根据视觉模态特征和声觉模态特征，确定视觉模态特征和声觉模态特征之间的相似度的过程可以为：

计算视觉模态特征和声觉模态特征之间的特征距离，特征距离可以为欧式距离或余弦距离中的至少一种；

将特征距离作为视觉模态特征和声觉模态特征之间的相似度。

或者，根据视觉模态特征和声觉模态特征，确定视觉模态特征和声觉模态特征之间的相似度的过程也可以为：

根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果；

根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果；

确定视觉字幕识别结果和声觉字幕识别结果之间的编辑距离；

根据编辑距离，确定视觉模态特征和声觉模态特征之间的相似度。

编辑距离指将一个字符串转成另外一个字符串所需的最少操作数(操作可以为插入、删除或更改)，操作数越大，编辑距离越大，相似度越小，操作数越小，编辑距离越小，相似度越大。比如，将字符串“ab”转成字符串“ac”需要将“b”改成“c”，也即是操作一次即可以将字符串“ab”转成字符串“ac”，则字符串“ab”与字符串“ac”之间的编辑距离为1。

可选地，确定视觉字幕识别结果和声觉字幕识别结果之间的编辑距离的过程可以为：

从视觉字幕识别结果筛选出当前视觉字符和当前视觉字符在视觉字幕识别结果中对应的上一个视觉字符，以及从声觉字幕识别结果中筛选出当前声觉字符和当前声觉字符在声觉字幕识别结果中对应的上一个声觉字符；

确定当前视觉字符与上一个声觉字符之间的第一子编辑距离，以及确定当前声觉字符与上一个视觉字符之间的第二子编辑距离；

确定当前视觉字符与当前声觉字符之间的初始子编辑距离，以及确定上一个声觉字符与上一个视觉字符之间的第三子编辑距离；

根据第一子编辑距离、第二子编辑距离、第三子编辑距离以及初始子编辑距离确定前视觉字符与当前声觉字符之间的子编辑距离；

根据子编辑距离，确定视觉字幕识别结果和声觉字幕识别结果之间的编辑距离。

在本申请实施例中，根据当前视觉字符的上一个视觉字符和当前声觉字符的上一个声觉字符，确定前视觉字符与当前声觉字符之间的子编辑距离，如果当前视觉字符为视觉字幕识别结果中最后一个字符和当前声觉字符为声觉字幕识别结果中最后一个字符，则将前视觉字符与当前声觉字符之间的子编辑距离作为视觉字幕识别结果和声觉字幕识别结果之间的编辑距离，如果当前视觉字符不是视觉字幕识别结果中最后一个字符和/或当前声觉字符不是声觉字幕识别结果中最后一个字符，则返回从视觉字幕识别结果筛选出当前视觉字符的步骤。

其中，根据第一子编辑距离、第二子编辑距离、第三子编辑距离以及初始子编辑距离确定当前视觉字符与当前声觉字符之间的子编辑距离的过程可以为：

根据预设目标值和第一子编辑距离，确定第一操作数，根据预设目标值和第二子编辑距离，确定第二操作数；

将第三子编辑距离和初始子编辑距离相加，得到第三操作数；

将第一目操作数、第二操作数以及第三操作数中的最小值作为当前视觉字符与当前声觉字符之间的子编辑距离，也即是，此时子编辑距离与预设目标值、第一子编辑距离、第二子编辑距离、第三子编辑距离以及初始子编辑距离满足以下关系式：

其中，edit(i,j)表示第i个视觉字符与第j个声觉字符之间的子编辑距离，第i个视觉字符也可以称为当前视觉字符，第j个声觉字符也可以称为当前声觉字符，edit(i-1,j)表示第(i-1)个视觉字符与第j个声觉字符之间的子编辑距离，也即是表示第二子编辑距离，edit(i,j-1)表示第i个视觉字符与第(j-1)个声觉字符之间的子编辑距离，也即是表示第一子编辑距离，edit(i-1,j-1)表示第(i-1)个视觉字符与第(j-1)个声觉字符之间的子编辑距离，也即是表示第三子编辑距离，f(i,j)表示第i个视觉字符与第j个声觉字符之间的子编辑距离，也即是表示初始子编辑距离，当第i个视觉字符与第j个声觉字符不相同时，f(i,j)＝1，当第i个视觉字符与第j个声觉字符相同时，f(i,j)＝0，预设目标值为1。

比如，当视觉字幕识别结果为“各位同学好啊”，声觉字幕识别结果为“各位同事好”时，视觉字幕识别结果中字符和声觉字幕识别结果字符之间的子编辑距离可以如图6所示。

在另一些实施例中，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征，包括：

对视觉模态特征、声觉模态特征以及文本模态特征分别进行掩码操作，得到掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征；

对掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

掩码操作指将特征中预设数量个元素替换为掩码符号的操作，比如，可以随机将视觉模态特征中35％的元素替换为掩码符号，得到掩码视觉模态特征。

在本申请实施例中，对视觉模态特征、声觉模态特征以及文本模态特征分别进行掩码操作，得到掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征，然后再对掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征进行特征融合处理，得到待识别视频的多模态特征，以便后续在根据待识别视频的多模态特征进行字幕识别时，可以根据多模态特征中非掩码符号的元素，预测掩码符号对应的元素，实现学习掩码符号的上下文，提高根据待识别视频的多模态特征进行字幕识别得到的字幕识别结果的准确度。

在另一些实施例中，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到所述待识别视频的多模态特征，包括：

获取待识别视频的模态编码特征；

根据模态编码特征，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

模态编码特征指表明特征的模态的矩阵，比如，视觉模态特征的模态编码特征可以为视觉模态编码特征，声觉模态特征的模态编码特征可以为声觉模态编码特征，文本模态特征的模态编码特征可以为文本模态编码特征。

其中，文本模态编码特征还可以包括第一文本模态编码特征和第二文本模态编码特征，第一文本模态编码特征可以用于表明第一文本模态特征的模态，第二文本模态编码特征可以用于表明第二文本模态特征的模态。

可选地，根据模态编码特征，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征的过程可以为：

将视觉模态编码特征和视觉模态特征进行加法融合处理，得到初始视觉模态特征；

将声觉模态编码特征和声觉模态特征进行加法融合处理，得到初始声觉模态特征；

将文本模态编码特征和文本模态特征进行加法融合处理，得到初始文本模态特征；

对初始视觉模态特征、初始声觉模态特征以及初始文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

在本申请实施例中，根据模态编码特征，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，使得得到的待识别视频的多模态特征包含了模态编码特征，以便提高后续在根据待识别视频的多模态特征进行字幕识别得到的字幕识别结果的准确度。

在另一些实施例中，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征，包括：

确定视觉模态特征在待识别视频中对应的视频帧，得到目标视频帧；

根据目标视频帧，确定视觉模态特征对应的帧数编码特征；

对帧数编码特征和视觉模态特征进行加法融合处理，得到帧数视觉模态特征；

对帧数视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

比如，目标视频帧为待识别视频中第5帧视频帧和第6帧视频帧，则可以根据第5帧和第6帧确定视觉模态特征对应的帧数编码特征。

由于一个声觉模态特征可能对应多个视觉模态特征，因此，可以将视觉模态特征对应的帧数编码特征添加至视觉模态特征上，使得多模态特征中包含视觉模态特征对应的帧数编码特征，进而提高后续在根据待识别视频的多模态特征进行字幕识别得到的字幕识别结果的准确度。

S205、根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果。

终端在得到多模态特征之后，可以根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果，实现通过多模态特征，得到字幕识别结果，提高字幕识别结果的准确度。

其中，终端可以通过第五神经网络模型，根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果，第五神经网络模型可以为Transformer模型或Softmax模型，本申请实施例在此不做限定。

在一些实施例中，根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果的过程可以为：

根据多模态特征，确定多模态特征对应的注意力矩阵；

对注意力矩阵和多模态特征进行乘法融合处理，得到融合后多模态特征；

根据融合后多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果。

多模态特征对应的注意力矩阵包含多模态特征中不同子特征之间的注意力，使得在根据融合后多模态特征进行字幕识别时，可以同时根据某一个字符的子特征和其他字符的子特征预测字幕中的某一个字符，实现利用自回归方式预测字幕中字符，使得可以在进行字幕识别时可以挖掘字符的语义信息，对单模态识别错误的文字进行纠正。

所以，在本申请实施例中，根据多模态特征对应的注意力矩阵对多模态特征进行调整，得到融合后多模态特征，以便在根据融合后多模态特征，对待识别视频进行字幕识别时，可以提高得到的字幕识别结果的准确度。

由以上可知，在本申请实施例中，获取待识别视频，以及获取待识别视频的待识别音频；对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征；根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征；对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征；根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果，实现通过多模态特征得到待识别视频的字幕识别结果，提高字幕识别结果的准确度。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本申请实施例中，通过字幕识别模型对待识别视频进行字幕识别，字幕识别模型包括Faster-RCNN模型、CRNN模型、VAD模型、Wav2Vec模型以及Transformer模型，下面对字幕识别模型的训练过程和应用过程分别进行说明。

请参阅图7和图8，图7和图8为本申请实施例提供的字幕识别模型的训练方法的流程示意图，其中，图7为Faster-RCNN模型、CRNN模型、VAD模型以及Wav2Vec模型的训练方法流程示意图，图8为Transformer模型的训练方法流程示意图。

请参阅图7，该字幕识别模型的训练方法流程可以包括：

S701、终端获取训练样本集，训练样本级中包括多个样本视频以及每个样视频对应的样本音频。

S702、终端通过Faster-RCNN模型对样本视频中样本视频帧进行视觉特征提取和分类，得到每帧样本视频帧对应的多个样本视觉模态特征。

其中，通过Faster-RCNN模型对样本视频中样本视频帧进行视觉特征提取和分类，得到每帧样本视频帧对应的多个样本视觉模态特征的过程可以为：

通过Faster-RCNN中卷积层，对样本视频中样本视频帧进行视觉特征提取，得到样本视频帧对应的初始样本视觉模态特征；

通过Faster-RCNN中候选区域层(Region Proposal Network，RPN)，根据初始样本视觉模态特征，确定样本视频帧对应的候选框，并根据候选框，对初始样本视觉模态特征进行划分，得到各个子初始样本视觉模态特征；

通过Faster-RCNN中分类层，对各个子初始样本视觉模态特征进行分类，得到每帧样本视频帧对应的多个样本视觉模态特征。

S703、终端通过CRNN模型，根据每帧样本视频帧对应的多个样本视觉模态特征，确定每帧样本视频帧对应的样本候选字符串。

终端在得到每帧样本视频帧对应的多个样本视觉模态特征后，可以直接将每帧样本视频帧对应的多个样本视觉模态特征输入至CRNN模型进行识别，从而得到每帧样本视频帧对应的样本候选字符串。

或者，终端在得到每帧样本视频帧对应的多个样本视觉模态特征后，也可以根据多个样本视觉模态特征对样本视频帧进行划分，得到每个样本视觉模态特征对应的子图像，然后再将子图像输入至CRNN模型中特征提取和识别，得到每个样本视频帧的样本候选字符串。

S704、终端确定样本候选字符串在样本视频帧中的位置信息和样本候选字符串在样本视频的延续时间。

S705、终端将满足预设位置信息的位置信息且小于预设时间的延续时间对应的样本候选字符串作为样本视频的样本视觉字幕识别结果。

S706、终端根据样本视觉字幕识别结果和样本视频的真实字幕，确定第一损失函数值。

S707、终端根据第一损失函数值，对Faster-RCNN模型和CRNN模型进行训练，得到训练后Faster-RCNN模型和训练后CRNN模型。

如果第一损失函数值大于第一预设值，则根据第一损失函数值更新Faster-RCNN模型的模型参数和CRNN模型的模型参数，并返回执行步骤S702，如果第一损失函数值小于或等于第一预设值，则将Faster-RCNN模型作为训练后Faster-RCNN模型，将CRNN模型作为训练后CRNN模型。

S708、终端通过VAD模型，对样本音频进行声觉特征提取，得到样本音频对应的样本音频特征。

S709、终端通过VAD模型，根据样本音频特征确定样本音频中存在对象声音的分数。

S7010、终端将分数等于或大于预设分数的声音在样本音频中对应的时刻作为样本起始时刻，将分数小于预设分数的声音在样本音频中对应的时刻作为样本终止时刻。

S7011、终端根据样本起始时刻和样本终止时刻，对样本音频进行分段，得到包含与样本视频的内容关联的样本分段音频。

S7012、终端通过Wav2Vec模型，对样本分段音频进行声觉特征提取，得到样本音频对应的样本声觉模态特征，并根据样本声觉模态特征，对样本分段音频进行字幕识别，得到样本音频的样本声觉字幕识别结果。

S7013、终端根据样本声觉字幕识别结果和样本视频的真实字幕，确定第二损失函数值。

S7014、终端根据第二损失函数值，对VAD模型和Wav2Vec模型进行训练，得到训练后VAD模型和训练后Wav2Vec模型。

如果第二损失函数值大于第二预设值，则根据第二损失函数值更新VAD模型的模型参数和Wav2Vec模型的模型参数，并返回执行步骤S708，如果第二损失函数值小于或等于第二预设值，则将VAD模型作为训练后VAD模型，将Wav2Vec模型作为训练后Wav2Vec模型。

请参阅图8，该字幕识别模型的训练方法流程可以包括：

S801、终端通过训练后Faster-RCNN模型对样本视频中样本视频帧进行视觉特征提取和分类，得到每帧样本视频帧对应的多个目标样本视觉模态特征。

S802、终端通过训练后CRNN模型，根据每帧样本视频帧对应的多个目标样本视觉模态特征，确定每帧样本视频帧对应的目标候选字符串。

S803、终端根据目标候选字符串在样本视频帧中的位置信息和目标候选字符串在样本视频的延续时间。

S804、终端将满足预设位置信息的位置信息且小于预设时间的延续时间对应的目标候选字符串作为样本视频帧的样本视觉字幕。

S805、终端通过训练后VAD模型，对样本音频进行声觉特征提取，得到样本音频对应的目标样本音频特征。

S806、终端通过训练后VAD模型，根据目标样本音频特征确定样本音频中存在对象声音的目标分数。

S807、终端将目标分数等于或大于预设分数的声音在样本音频中对应的时刻作为目标起始时刻，将目标分数小于预设分数的声音在样本音频中对应的时刻作为目标终止时刻。

S808、终端根据目标起始时刻和目标终止时刻，对样本音频进行分段，得到包含与样本视频的内容关联的目标分段音频。

S809、终端通过训练后Wav2Vec模型，对目标分段音频进行声觉特征提取，得到样本音频对应的目标样本声觉模态特征，并根据目标样本声觉模态特征，对样本分段音频进行字幕识别，得到样本音频的目标声觉字幕识别结果。

其中，目标声觉字幕识别结果可以包括各个目标分段音频对应的样本声觉字幕。

S8010、终端确定目标声觉字幕识别结果中目标分段音频对应的样本声觉字幕和样本视觉字幕之间的编辑距离，并将最小的编辑距离对应的样本视觉字幕和样本音频字幕组成目标字幕组。

虽然先根据位置和时间，从目标候选字符串筛选出可能是字幕的样本视觉字幕，但是，得到的样本视觉字幕中还包括可能不是字幕的目标候选字符串，因此，在本申请实施例中，根据各个目标分段音频的样本声觉字幕与样本视觉字幕之间的编辑距离，从样本视觉字幕筛选出是字幕的样本视觉字幕。

可选地，终端可以先按照时间戳将目标分段音频的样本声觉字幕与样本视觉字幕对齐，此时，发现与样本声觉字幕对齐的样本视觉字幕存在多个，终端分别计算样本声觉字幕与样本声觉字幕对齐的多个样本视觉字幕之间的编辑距离，然后将对应同一帧样本视频帧的编辑距离最小的样本视觉字幕作为待识别视频的目标视觉字幕识别结果。

比如，如图5所所示，目标分段音频与视频帧f1和视频帧f2对齐，视频帧f1的样本视觉字幕包括“其中的铝可以提取出来”和“A书经典版”，视频帧f2的样本视觉字幕包括“制作相应的一些铝制品等等”和“企业人员”，目标分段音频的样本声觉字幕为“其中的铝可以提取出来制作相应的一些铝制品等等”。

计算样本声觉字幕与各个样本视觉字幕之间的编辑距离，针对视频帧f1，样本视觉字幕“其中的铝可以提取出来”与样本声觉字幕的编辑距离小于样本视觉字幕“A书经典版”与样本声觉字幕的编辑距离，则将样本视觉字幕“其中的铝可以提取出来”作为样本声觉字幕对应的字幕，针对视频帧f2，样本视觉字幕“制作相应的一些铝制品等等”与样本声觉字幕的编辑距离小于样本视觉字幕“企业人员”与样本声觉字幕的编辑距离，则将样本视觉字幕“制作相应的一些铝制品等等”作为样本声觉字幕对应的字幕，此时，目标字幕组包括样本视觉字幕“其中的铝可以提取出来”、样本视觉字幕“制作相应的一些铝制品等等”以及“其中的铝可以提取出来制作相应的一些铝制品等等”。

此时，可以先将样本视觉字幕“其中的铝可以提取出来”、样本视觉字幕“制作相应的一些铝制品等等”进行拼接，得到拼接后样本视觉字幕，以便目标字幕组包括一个视觉字幕和一个声觉字幕。

S8011、终端对目标字幕组中样本视觉字幕和样本声觉字幕分别进行文本特征提取，得到样本视觉字幕对应的第一样本文本模态特征和样本声觉字幕对应的第二样本文本模态特征。

S8012、终端对目标字幕组对应的目标样本声觉模态特征、目标字幕组对应的目标样本视觉模态特征、第一样本文本模态特征以及第二样本文本模态特征分别进行掩码操作，得到掩码目标样本声觉模态特征、掩码目标样本视觉模态特征、掩码第一样本文本模态特征以及掩码第二样本文本模态特征。

在本申请实施例中，通过对各个特征进行掩码操作，然后对掩码特征进行特征融合处理，可以防止模型出现过拟合的同时学习上下文中文语义，进而提高后续在应用模型进行字幕识别时的准确度。

S8013、终端获取视觉模态编码特征、目标字幕组对应的目标样本视觉模态特征的第一位置编码特征以及目标字幕组对应的目标样本视觉模态特征对应的帧数编码特征，并将视觉模态编码特征、第一位置编码特征、帧数编码特征和掩码目标样本视觉模态特征进行加法融合处理，得到融合后目标样本视觉模态特征。

S8014、终端获取第一文本模态编码特征和第一样本文本模态特征的第二位置编码特征，并将第一文本模态编码特征、第二位置编码特征、帧数编码特征和掩码第一样本文本模态特征进行加法融合处理，得到融合后第一样本文本模态特征。

S8015、终端获取声觉模态编码特征和目标字幕组对应的目标样本声觉模态特征的第三位置编码特征，并将声觉模态编码特征、第三位置编码特征和掩码目标样本声觉模态特征进行加法融合处理，得到融合后目标声觉模态特征。

S8016、终端获取第二文本模态编码特征和第二样本文本模态特征的第四位置编码特征，并将第一文本模态编码特征、第四位置编码特征和掩码第二样本文本模态特征进行加法融合处理，得到融合后第二样本文本模态特征。

S8017、终端将融合后目标样本视觉模态特征、融合后第一样本文本模态特征、融合后目标样本声觉模态特征以及融合后第二样本文本模态特征进行拼接，得到样本多模态特征。

比如，如图9所示，在对目标字幕组对应的目标样本视觉模态特征、目标字幕组对应的目标样本声觉模态特征、第一样本文本模态特征以及第二样本文本模态特征进行特征融合处理之前，进行掩码操作并添加模态编码特征、位置编码特征以及帧数编码特征，然后再进行特征融合处理，图9中灰色表示掩码符号。

S8018、终端通过Transformer模型，根据样本多模态特征，对样本视频进行字幕识别，得到样本视频对应的样本字幕识别结果。

Transformer模型可以包括至少一个多模态融合解码器和至少一个多模态融合编码器，其中，终端可以先通过多个多模态融合编码器可以计算样本多模态特征的编码注意力矩阵，然后根据编码注意力矩阵对样本多模态特征进行调整，得到调整后样本多模态特征，接着将调整后样本多模态特征输入至多个解码器中，通过多个多模态融合解码器可以计算调整后样本多模态特征的解码注意力矩阵，然后根据解码注意力矩阵对调整后样本多模态特征进行调整，得到调整后解码样本多模态特征，最后再根据调整后解码样本多模态特征，对样本视频进行字幕识别，得到样本视频对应的样本字幕识别结果。

S8019、终端根据样本字幕识别结果和样本视频对应的真实字幕，确定第三损失函数值。

S8020、终端根据第三损失函数值，对Transformer模型进行训练，得到训练后Transformer模型。

如果第三损失函数值大于第三预设值，则根据第三损失函数值更新Transformer模型的模型参数，并返回执行步骤S8018，如果第三损失函数值小于或等于第三预设值，则将Transformer模型作为训练后Transformer模型。

需要说明的是，上述步骤是先训练好Faster-RCNN模型、CRNN模型、VAD模型、Wav2Vec模型，再训练Transformer模型。

但是，终端也可以同时对Faster-RCNN模型、CRNN模型、VAD模型Wav2Vec模型以及Transformer模型进行训练，此时，可以不执行步骤S706-S707、S7013-S7014以及S801-S809，然后将步骤S8010-S8018中目标视觉字幕识别结果替换成样本视觉字幕识别结果，将目标声觉字幕识别结果替换成样本声觉字幕识别结果，如果第三损失函数值大于第三预设值，则根据第三损失函数值更新Faster-RCNN模型的模型参数、CRNN模型的模型参数、VAD模型的模型参数、Wav2Vec模型的模型参数以及Transformer模型的模型参数，并返回执行步骤S702和步骤S708，如果第三损失函数值小于或等于第三预设值，则将Faster-RCNN模型作为训练后Faster-RCNN模型、将CRNN模型作为训练后CRNN模型、将VAD模型作为训练后VAD模型、将Wav2Vec模型作为训练后Wav2Vec模型，将Transformer模型作为训练后Transformer模型。

请参照图10，字幕识别模型的应用方法可以包括：

S1001、终端获取待识别视频，以及获取待识别视频的待识别音频。

S1002、终端通过训练后Faster-RCNN模型对待识别视频中视频帧进行视觉特征提取和分类，得到每帧视频帧对应的多个候选视觉模态特征。

S1003、终端通过训练后CRNN模型，根据每帧视频帧对应的多个候选视觉模态特征，确定每帧视频帧对应的候选字符串。

S1004、终端根据候选字符串在待识别视频帧中的位置信息和候选字符串在待识别视频的延续时间。

S1005、终端将满足预设位置信息的位置信息且小于预设时间的延续时间对应的候选字符串作为待识别视频中视频帧的视觉字幕。

S1006、终端通过训练后VAD模型，对待识别音频进行声觉特征提取，得到待识别音频对应的音频特征。

S1007、终端通过训练后VAD模型，根据音频特征确定待识别音频中存在对象声音的分数。

S1008、终端将分数等于或大于预设分数的声音在待识别音频中对应的时刻作为起始时刻，将分数小于预设分数的声音在待识别音频中对应的时刻作为终止时刻。

S1009、终端根据起始时刻和终止时刻，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频。

S10010、终端通过训练后Wav2Vec模型，对分段音频进行声觉特征提取，得到待识别音频对应的声觉模态特征，并根据声觉模态特征，对分段音频进行字幕识别，得到待识别音频的声觉字幕识别结果。

其中，声觉字幕识别结果可以包括各个分段音频对应的声觉字幕。

S10011、终端确定视觉字幕和声觉字幕之间的编辑距离，并将最小的编辑距离对应的视觉字幕和声觉字幕组成字幕组。

也即是，各个编辑距离最小的视觉字幕组成待识别视频的视觉字幕识别结果。

S10012、终端将字幕组中视觉字幕识别结果对应的候选视觉模态特征作为字幕组中视觉字幕对应的视觉模态特征。

S10013、终端对字幕组中视觉字幕和声觉字幕分别进行文本特征提取，得到视觉字幕对应的第一文本模态特征和声觉字幕对应的第二文本模态特征。

S10014、终端对字幕组对应的声觉模态特征、字幕组对应的视觉模态特征、第一文本模态特征以及第二文本模态特征分别进行掩码操作，得到掩码声觉模态特征、掩码视觉模态特征、掩码第一文本模态特征以及掩码第二文本模态特征。

S10015、终端获取视觉模态编码特征、字幕组对应的视觉模态特征的第一位置编码特征以及字幕组对应的视觉模态特征的帧数编码特征，并将视觉模态编码特征、第一位置编码特征、帧数编码特征和掩码视觉模态特征进行加法融合处理，得到融合后视觉模态特征。

S10016、终端获取第一文本模态编码特征和第一文本模态特征的第二位置编码特征，并将第一文本模态编码特征、第二位置编码特征、帧数编码特征和掩码第一文本模态特征进行加法融合处理，得到融合后第一文本模态特征。

S10017、终端获取声觉模态编码特征和字幕组对应的声觉模态特征的第三位置编码特征，并将声觉模态编码特征、第三位置编码特征和掩码声觉模态特征进行加法融合处理，得到融合后声觉模态特征。

S10018、终端获取第二文本模态编码特征和第二文本模态特征的第四位置编码特征，并将第一文本模态编码特征、第四位置编码特征和掩码第二文本模态特征进行加法融合处理，得到融合后第二文本模态特征。

S10019、终端融合后视觉模态特征、融合后第一文本模态特征、融合后声觉模态特征以及融合后第二文本模态特征进行拼接，得到多模态特征。

S10020、终端通过训练后Transformer模型，根据多模态特征，对待识别视频进行字幕识别，得到待识别视频对应的字幕识别结果。

视频中经常包括台标，时间，广告标语或者背景杂乱文字，如果只根据光学字符识别法(Optical Character Recognition，OCR)，将视频中文字提取出来作为字幕，导致提取到的字幕的准确度较低。

并且，视频中通常会存在背景音乐，如果只根据自动语音识别技术(AutomaticSpeech Recognition，ASR)将视频中音频转换为字幕，提取到的字幕的准确度也较低。

在本申请实施例中，先通过单模态的方法分别得到视觉字幕识别结果和声觉字幕识别结果，然后对视觉字幕识别结果对应的第一文本模态特征、视觉字幕模态特征、声觉字幕识别结果对应的第二文本模态特征以及声觉字幕模态特征进行特征融合处理，得到多模态特征，并根据多模态特征进行字幕识别(比如，如图11所示)，实现对单模态得到的信息进行融合，通过多模态的丰富知识鲁棒地识别字幕，提高字幕识别的准确度。

本实施例中具体实现方式以及对应的有益效果，具体可以参照上述字幕识别方法实施例，本实施例在此不再赘述。

为便于更好的实施本申请实施例提供的字幕识别方法，本申请实施例还提供一种基于上述字幕识别方法的装置。其中名词的含义与上述字幕识别方法中相同，具体实现细节可以参考方法实施例中的说明。

例如，如图12所示，该字幕识别装置可以包括：

获取模块1201，用于获取待识别视频，以及获取待识别视频的待识别音频。

提取模块1202，用于对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征。

确定模块1203，用于根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征。

融合模块1204，用于对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

识别模块1205，用于根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果。

可选地，确定模块1203具体用于执行：

根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果；

根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果；

对视觉字幕识别结果进行文本特征提取，得到第一文本模态特征，以及对声觉字幕识别结果进行文本特征提取，得到第二文本模态特征；

根据第一文本模态特征和第二文本模态特征，确定待识别视频的文本模态特征。

可选地，融合模块1204具体用于执行：

对视觉模态特征、声觉模态特征以及文本模态特征分别进行掩码操作，得到掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征；

对掩码视觉模态特征、掩码声觉模态特征以及掩码文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

可选地，融合模块1204具体用于执行：

获取待识别视频的模态编码特征；

根据模态编码特征，对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

可选地，融合模块1204具体用于执行：

确定视觉模态特征在待识别视频中对应的视频帧，得到目标视频帧；

根据目标视频帧，确定视觉模态特征对应的帧数编码特征；

对帧数编码特征和视觉模态特征进行加法融合处理，得到帧数视觉模态特征；

对帧数视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

可选地，融合模块1204具体用于执行：

根据视觉模态特征和声觉模态特征，确定视觉模态特征和声觉模态特征之间的相似度；

根据相似度，从视觉模态特征和声觉模态特征筛选出模态特征组，模态特征组包括声觉模态特征和至少一个视觉模态特征；

对模态特征组中视觉模态特征、模态特征组中声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征。

可选地，融合模块1204具体用于执行：

根据视觉模态特征，对待识别视频进行字幕识别，得到待识别视频的视觉字幕识别结果；

根据声觉模态特征，对待识别视频进行字幕识别，得到待识别视频的声觉字幕识别结果；

确定视觉字幕识别结果和声觉字幕识别结果之间的编辑距离；

根据编辑距离，确定视觉模态特征和声觉模态特征之间的相似度。

可选地，提取模块1202具体用于执行：

对待识别视频进行视觉特征提取，得到待识别视频的多个候选视觉模态特征；

获取待识别视频对应的字幕属性信息；

根据字幕属性信息，从候选视觉模态特征中筛选出待识别视频的视觉模态特征。

可选地，提取模块1202具体用于执行：

根据候选视觉模态特征，确定待识别视频的多条候选字符串；

根据字幕属性信息，从候选字符串中筛选出待识别视频的视觉字幕识别结果；

将视觉字幕识别结果对应的候选视觉模态特征，作为待识别视频的视觉模态特征。

可选地，字幕属性信息包括预设时间，相应地，提取模块1202具体用于执行：

确定候选字符串在待识别视频的延续时间；

将小于预设时间的延续时间对应的候选字符串作为待识别视频的视觉字幕识别结果。

可选地，字幕属性信息包括预设位置信息，相应地，提取模块1202具体用于执行：

确定候选字符串在待识别视频的位置信息；

将满足预设位置信息的位置信息对应的候选字符串作为待识别视频的视觉字幕识别结果。

可选地，提取模块1202具体用于执行：

对待识别音频进行声觉特征提取，得到待识别音频对应的音频特征；

根据音频特征，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频；

根据分段音频的音频特征，得到待识别视频的声觉模态特征。

可选地，提取模块1202具体用于执行：

根据音频特征，确定待识别音频中存在对象声音的衡量参数；

根据衡量参数，确定对象声音在待识别音频中的起始时刻和终止时刻；

根据起始时刻和终止时刻，对待识别音频进行分段，得到包含与待识别视频的内容关联的分段音频。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施方式以及对应的有益效果可参见前面的方法实施例，在此不再赘述。

本申请实施例还提供一种电子设备，该电子设备可以是服务器或终端等，如图13所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器1301、一个或一个以上计算机可读存储介质的存储器1302、电源1303和输入单元1304等部件。本领域技术人员可以理解，图13中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1301是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1302内的计算机程序和/或模块，以及调用存储在存储器1302内的数据，执行电子设备的各种功能和处理数据。可选的，处理器1301可包括一个或多个处理核心；优选的，处理器1301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1301中。

存储器1302可用于存储计算机程序以及模块，处理器1301通过运行存储在存储器1302的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器1302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1302还可以包括存储器控制器，以提供处理器1301对存储器1302的访问。

电子设备还包括给各个部件供电的电源1303，优选的，电源1303可以通过电源管理系统与处理器1301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元1304，该输入单元1304可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器1301会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1302中，并由处理器1301来运行存储在存储器1302中的计算机程序，从而实现各种功能，比如：

获取待识别视频，以及获取待识别视频的待识别音频；

对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征；

根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征；

对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征；

根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果。

以上各个操作的具体实施方式以及对应的有益效果可参见上文对字幕识别方法的详细描述，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种字幕识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取待识别视频，以及获取待识别视频的待识别音频；

对待识别视频进行视觉特征提取，得到待识别视频的视觉模态特征，以及对待识别音频进行声觉特征提取，得到待识别视频的声觉模态特征；

根据视觉模态特征和声觉模态特征中至少一种模态特征，确定待识别视频的文本模态特征；

对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理，得到待识别视频的多模态特征；

根据多模态特征，对待识别视频进行字幕识别，得到待识别视频的字幕识别结果。

以上各个操作的具体实施方式以及对应的有益效果可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种字幕识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种字幕识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述字幕识别方法。

以上对本申请实施例所提供的一种字幕识别方法、装置、设备、存储介质及程序产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市腾讯计算机系统有限公司;中国科学院自动化研究所;

上一篇：混合动力汽车的热管理系统、混合动力汽车及热管理方法
下一篇：语音识别方法、装置、电子设备及存储介质