视频分类方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 19:58:26

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术

在互联网快速发展的时代，随着内容生产的门槛降低，视频上传量以指数级的速度增长。这些视频包括各种内容创作机构，比如自媒体和机构的PGC(ProfessionallyGenerated Content，专业生产内容)，UGC(User Generated Content，用户生成内容)等内容。

随着视频在信息流消费占比的快速增加，视频理解变得愈发重要，深刻精准的内容理解能够帮助信息流业务搭建内容和用户的桥梁。随时人工智能技术的发展，大型语言模型具备强大的自然语言处理能力和储备了非常丰富的知识，能够帮助理解上下文信息和语义关系。但视频中包括视觉、文本、音频等多模态特征，现有的模型往往无法有效的提取不同模态的视频特征，导致无法精准的进行视频表征，进而使得视频分类精准性较低等问题。

发明内容

本申请提供了一种视频分类方法、装置、设备、存储介质及计算机程序产品，可以。

一方面，本申请提供了一种视频分类方法，所述方法包括：

获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征；

将所述目标视觉特征和所述目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征，所述第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的，所述掩码预测损失表征所述第一对齐融合模型对视觉文本特征的表征性能，所述第一匹配损失表征所述第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能，所述帧时序预测损失表征所述第一对齐融合模型对视频中帧时序的预测性能，所述第二匹配损失表征所述第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能；

将所述目标音频特征和所述目标音频文本特征输入所述视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征，所述第二对齐融合模型是基于第三匹配损失训练得到的，所述第三匹配损失表征所述第二对齐融合模型对不同视频的音频文本特征的分辨性能；

将所述第一融合特征和所述第二融合特征输入所述视频分类模型中分类任务模型进行分类处理，得到所述待分类视频的目标分类信息。

另一方面提供了一种视频分类装置，所述装置包括：

视频特征获取模块，被配置为执行获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征；

第一对齐融合处理模块，被配置为执行将所述目标视觉特征和所述目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征，所述第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的，所述掩码预测损失表征所述第一对齐融合模型对视觉文本特征的表征性能，所述第一匹配损失表征所述第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能，所述帧时序预测损失表征所述第一对齐融合模型对视频中帧时序的预测性能，所述第二匹配损失表征所述第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能；

第二对齐融合处理模块，被配置为执行将所述目标音频特征和所述目标音频文本特征输入所述视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征，所述第二对齐融合模型是基于第三匹配损失训练得到的，所述第三匹配损失表征所述第二对齐融合模型对不同视频的音频文本特征的分辨性能；

第一分类处理模块，被配置为执行将所述第一融合特征和所述第二融合特征输入所述视频分类模型中分类任务模型进行分类处理，得到所述待分类视频的目标分类信息。

另一方面提供了一种电子设备，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的视频分类方法。

另一方面提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一视频分类方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的视频分类方法。

本申请提供的视频分类方法、装置、设备、存储介质及计算机程序产品，具有如下技术效果：

本申请获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征，作为分类识别的多模态视频特征，可以提升视频特征的多样性和丰富性；且将目标视觉特征和目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，该第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的，可以结合表征第一对齐融合模型对视觉文本特征表征性能的掩码预测损失，有效保证训练好的第一对齐融合模型对视觉文本的表征性能；且结合表征第一对齐融合模型对不同视频的视频帧特征以及视频文本特征分辨性能的第一匹配损失，有效保证训练好的第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能；且结合表征第一对齐融合模型对视频中帧时序预测性能的帧时序预测损失，有效保证训练好的第一对齐融合模型对视频中帧时序的预测性能；且结合表征第一对齐融合模型对不同视频的封面特征以及视频文本特征分辨性能的第二匹配损失，有效保证训练好的第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能，进而可以有效提升目标视觉特征和目标视频文本特征对齐融合后的第一融合特征对待分类视频的视觉文本的表征精准性；且将目标音频特征和目标音频文本特征输入视频分类模型中的第二对齐融合模型进行对齐融合处理，该第二对齐融合模型是基于第三匹配损失训练得到的，可以结合表征第二对齐融合模型对不同视频的音频文本特征分辨性能的第三匹配损失，有效保证训练好的第二对齐融合模型对不同视频的音频文本特征的分辨性能，进而可以有效提升目标音频特征和目标音频文本特征对齐融合后的第二融合特征对待分类视频的音频文本的表征精准性，实现对视频多模态特征的对齐融合，有效的避免视觉信息、时空复杂性信息丢失的问题，得到高效可学习的视频理解系统；接着，将所述第一融合特征和所述第二融合特征输入所述视频分类模型中分类任务模型进行分类处理，得到待分类视频的目标分类信息，可以有效保证视频分类精准性，进而也可以助力信息流内容系统的内容分发，在内容的运营，以及内容的推荐、搜索、聚类/打散方面发挥更大作用，从而提升内容分发的整体效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种视频分类方法的应用环境的示意图；

图2是本申请实施例提供的一种视频分类方法的流程示意图；

图3是本申请实施例提供的一种将目标视觉特征和目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征的流程示意图；

图4是本申请实施例提供的一种将目标音频特征和目标音频文本特征输入视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征的流程示意图；

图5是本申请实施例提供的一种基于视频分类模型进行分类处理的过程示意图；

图6是本申请实施例提供的一种训练视频分类模型的流程示意图；

图7是本申请实施例提供的一种基于第一样本融合特征进行掩码帧预测，得到掩码预测损失的流程示意图；

图8是本申请实施例提供的一种基于第一样本融合特征进行视觉文本匹配预测，得到第一匹配损失的流程示意图；

图9是本申请实施例提供的一种基于第一样本融合特征进行帧时序预测，得到帧时序预测损失的流程示意图；

图10是本申请实施例提供的一种基于第一样本融合特征进行视觉文本匹配预测，得到第二匹配损失的流程示意图；

图11是本申请实施例提供的一种基于第二样本融合特征进行音频文本匹配预测，得到第三匹配损失的流程示意图；

图12是本申请实施例提供的一种视频分类装置的结构示意图；

图13是本申请实施例提供的一种用于视频分类的电子设备的框图；

图14是本申请实施例提供的另一种用于视频分类的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的计算机视觉、语音处理技术、深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种视频分类方法的应用环境的示意图，该应用环境至少包括终端100和服务器200。

在一个可选的实施例中，终端100可以用于面向用户提供视频推荐、视频检索等服务，服务器200可以用于预先训练好视频分类模型，以便可以基于视频分类模型确定视频的分类信息，进而可以结合分类信息向终端100提供推荐的视频、或检索的视频等。

在一个具体的实施例中，终端100可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备、车载终端、智能电视等类别的电子设备；也可以为运行于上述电子设备的软体，例如应用程序、小程序等。本申请实施例中电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

在一个具体的实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

此外，需要说明的是，图1所示的仅仅是一种视频分类方法的应用环境，本说明书实施例并不以此为限。

本说明书实施例中，上述终端100和服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以下介绍本申请一种视频分类方法，图2是本申请实施例提供的一种视频分类方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，方法可以包括：

S201：获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征。

在一个具体的实施例中，上述待分类视频可以为需要进行分类的视频，具体的，可以为视频平台内的任一视频。上述目标视觉特征可以为待分类视频对应图像的表征信息；具体的，待分类视频对应的图像可以包括待分类视频的视频帧图像和待分类视频的封面图像；相应的，目标视觉特征包括目标视频帧特征(视频帧图像的表征信息)和目标封面特征(封面图像的表征信息)；可选的，待分类视频的视频帧图像可以包括待分类视频的全部视频帧图像；可选的，对于长度过长的视频，例如视频时长超过预设时长的视频，可以进行视频帧采样，抽取关键帧和场景切换帧作为用于提取目标视觉特征的图像，以有效减少和降低需要处理的视频内容计算量。

在一个具体的实施例中，可以结合预先训练好的视觉内容编码器来提取目标视觉特征，具体的，视觉内容编码器的具体层数和结构可以结合实际应用需求进行设置。

在一个具体的实施例中，待分类视频的目标音频特征可以为待分类视频对应音频的表征信息；具体的，待分类视频对应音频可以为从待分类视频中提取的音频；具体的，可以结合预先训练好的音频特征提取器从音频中提取目标音频特征。具体的，音频特征提取器的具体层数和结构可以结合实际应用需求进行设置。

在一个具体的实施例中，待分类视频的目标视频文本特征可以为待分类视频对应的视频描述文本的表征信息；具体的，待分类视频对应的视频描述文本可以为描述待分类视频的文本信息，具体的，视频描述文本可以包括短语描述文本和短文描述文本，短语描述文本可以包括视频的标题，从封面图像等视频对应图像中识别出的短语文本、用户发布标注的描述标签、关键词等；短文描述文本可以为视频的介绍短文。具体的，可以结合预先训练好的文本表征模型从待分类视频对应的视频描述文本中提取目标视频文本特征。具体的，文本表征模型的具体层数和结构可以结合实际应用需求进行设置。

在一个具体的实施例中，待分类视频的目标音频文本特征为待分类视频中音频的描述文本的表征信息；具体的，待分类视频中音频的描述文本可以为描述待分类视频中音频的文本信息，例如利用语音识别技术提取的音频文本信息，音频内容对应配乐歌词相关的描述文本信息等。具体的，可以结合预先训练好的文本表征模型从待分类视频中音频的描述文本中提取目标音频文本特征。具体的，文本表征模型的具体层数和结构可以结合实际应用需求进行设置。

上述实施例中，以视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征来进行视频表征，可以结合多维度视频特征，提升视频特征的多样性和丰富性。

S203：将目标视觉特征和目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征。

在一个具体的实施例中，第一对齐融合模型可以用于对目标视觉特征和目标视频文本特征进行对齐融合处理；相应的，第一融合特征可以为目标视觉特征和目标视频文本特征进行对齐融合处理后的特征；具体的，由于目标视觉特征可以包括目标视频帧特征和目标封面特征；相应的，第一融合特征可以包括目标视频帧文本特征和目标封面文本特征；目标视频帧文本特征可以为视频帧特征和目标视频文本特征进行对齐融合处理后的特征；目标封面文本特征可以为目标封面特征和目标视频文本特征进行对齐融合处理后的特征。

在一个具体的实施例中，上述第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的；掩码预测损失可以表征第一对齐融合模型对视觉文本特征的表征性能，第一匹配损失表征第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能，帧时序预测损失表征第一对齐融合模型对视频中帧时序的预测性能，第二匹配损失表征第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能。

在一个可选的实施例中，第一对齐融合模型可以包含两个transformer子模型，其中自注意力层是共享的。可选的，上述目标视频文本特征可以包括第一文本特征和第二文本特征；第一对齐融合模型包括：第一自注意力层、第一交叉注意力层、第一前馈学习层、第二前馈学习层和第一维度转换层；如图3所示，上述将目标视觉特征和目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征可以包括：

S2031：将第一文本特征和第二文本特征输入第一自注意力层进行自注意力学习，得到第一文本特征对应的第三文本特征和第二文本特征对应的第四文本特征；

S2033：将第三文本特征和目标视觉特征输入第一交叉注意力层进行交叉注意力学习，得到初始视频文本特征；

S2035：将初始视频文本特征输入第一前馈学习层进行前馈学习，得到视觉文本融合特征；

S2037：将第四文本特征输入第二前馈学习层进行前馈学习，得到目标文本特征；

S2039：将视觉文本融合特征和目标文本特征输入第一维度转换层进行维度转换，得到第一融合特征。

在一个具体的实施例中，上述第一文本特征可以为待分类视频的短语描述文本的表征信息；第二文本特征可以为待分类视频的短文描述文本的表征信息。具体的，第三文本特征可以为基于第一文本特征进行自注意力学习后的文本特征；第四文本特征可以为基于第二文本特征进行自注意力学习后的文本特征。

在一个具体的实施例中，初始视频文本特征可以为第三文本特征和目标视觉特征进行交叉注意力学习后的特征。视觉文本融合特征可以为基于初始视频文本特征进行前馈学习后的特征(也即第一文本特征和目标视觉特征对齐融合后的特征)。目标文本特征可以为基于第四文本特征进行前馈学习后的特征。

在一个具体的实施例中，上述第一维度转换层可以用于将视觉文本融合特征和目标文本特征融合为预设输入维度的特征，预设输入维度为分类任务模型中输入特征的维度。在一个具体的实施例中，上述第一维度转换层可以为线性的全连接层。

此外，需要说明的是，上述仅仅是第一对齐融合模型的一种示例，在实际应用中，还可以结合实际需求，设置更多，或更少的模型层。

上述实施例中，将第一文本特征和第二文本特征输入第一自注意力层进行自注意力学习，得到第三文本特征和第四文本特征后，将第三文本特征和目标视觉特征输入第一交叉注意力层进行交叉注意力学习，得到初始视频文本特征，再对初始视频文本特征和第四文本特征进行前馈学习，得到视觉文本融合特征和目标文本特征，并将视觉文本融合特征和目标文本特征输入第一维度转换层进行维度转换，得到第一融合特征，可以实现对目标视觉特征和目标视频文本特征的对齐融合，有效保证对视频的表征精准性，进而提升后续的视频分类准确性。

S205：将目标音频特征和目标音频文本特征输入视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征。

在一个具体的实施例中，第二对齐融合模型可以用于对目标音频特征和目标音频文本特征进行对齐融合处理；相应的，第二融合特征可以为目标音频特征和目标音频文本特征进行对齐融合处理后的特征。

在一个具体的实施例中，上述第二对齐融合模型是基于第三匹配损失训练得到的，第三匹配损失表征第二对齐融合模型对不同视频的音频文本特征的分辨性能。

在一个可选的实施例中，上述第二对齐融合模型可以包括：第二自注意力层、第二交叉注意力层、第三前馈学习层和第二维度转换层；如图4所示，上述将目标音频特征和目标音频文本特征输入视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征可以包括：

S2051：将目标音频文本特征输入第二自注意力层进行自注意力学习，得到第五文本特征；

S2053：将第五文本特征和目标音频特征输入第二交叉注意力层进行交叉注意力学习，得到音频文本融合特征；

S2055：将音频文本融合特征输入第三前馈学习层进行前馈学习，得到第三融合特征；

S2057：将所述第三融合特征输入所述第二维度转换层进行维度转换，得到所述第二融合特征。

在一个具体的实施例中，第五文本特征可以为基于目标音频文本特征进行自注意力学习后的文本特征；音频文本融合特征可以为第五文本特征和所述目标音频特征进行交叉注意力学习后的特征；第三融合特征可以为音频文本融合特征进行前馈学习后得到的特征。

在一个具体的实施例中，上述第二维度转换层可以用于将第三融合特征转换为预设输入维度的特征，预设输入维度为分类任务模型中输入特征的维度。在一个具体的实施例中，上述第二维度转换层可以为线性的全连接层。

此外，需要说明的是，上述仅仅是第二对齐融合模型的一种示例，在实际应用中，还可以结合实际需求，设置更多，或更少的模型层。

上述实施例中，将目标音频文本特征输入第二自注意力层进行自注意力学习，得到第五文本特征后，将第五文本特征和目标音频特征输入第二交叉注意力层进行交叉注意力学习，得到音频文本融合特征，再将音频文本融合特征输入第三前馈学习层进行前馈学习，得到第三融合特征，并将第三融合特征输入第二维度转换层进行维度转换，得到第二融合特征，可以实现对目标音频特征和目标音频文本特征的对齐融合，有效保证对视频的表征精准性，进而提升后续的视频分类准确性。

S207：将第一融合特征和第二融合特征输入视频分类模型中分类任务模型进行分类处理，得到待分类视频的目标分类信息。

在一个可选的实施例中，上述分类任务模型可以是基于大语言模型构建的。

上述实施例中，将对齐融合处理后的视频多模态特征(第一融合特征和第二融合特征)输入基于大语言模型构建的分类任务模型，可以便于结合大语言模型强大的自然语言处理能力，提升基于视频多模态特征进行视频分类的精准性。

在一个具体的实施例中，分类任务模型的输出可以为类别指标数据，具体的，类别指标数据可以表征待分类视频属于多种预设视频类别的概率，可选的，目标分类信息可以包括上述类别指标数据，进一步的，可以将概率大于预设阈值的预设视频类别作为待分类视频的分类结果(所属的视频类别)；相应的，目标分类信息还可以包括待分类视频的分类结果。

在视频内容理解时，对于视频内容的多级分类和多维度的标签是最基础的能力，其结果在视频内容的运营，以及内容的推荐、聚类/打散、搜索和其它内容算法中都有着重要应用。相关技术中，通常是采用传统的内容理解方法，针对每个具体业务场景构建不同的分类和标签模型和不同标签分类词表，同时通过人工针对各个不同的业务场景标记大量的内容样本，然后利用这些不同的内容样本来训练不同的模型再独立部署。且相关技术中视频内容理解主要以实体类标签为主，在泛化性，丰富性，成本和丰富度上都并不能很好的刻画用户兴趣点和内容标签特性。

在一个具体的实施例中，上述目标分类信息包括至少一级内容分类信息和/或至少一个情感分类标签；

在一个具体的实施例中，上述至少一级内容分类信息可以为视频内容维度的分类信息(分类结果)；可选的，以三级内容分类信息，且待分类视频为介绍某一手机的视频为例，一级分类信息可以是科技，二级分类信息可以是智能手机，三级分类是国内手机。

在一个具体的实施例中，至少一个情感分类标签可以为对视频对象的描述和情感倾向维度的分类信息(分类结果)。例如待分类视频为介绍某一手机的视频，可选的，至少一个情感分类标签可以包括xx(品牌)手机，拍照神器，美颜相机等等更加具体且带有情感倾向的描述。

上述实施例中，以至少一级内容分类信息和/或至少一个情感分类标签为视频的分类信息，可以实现对视频多级多维度的分类，提升视频分类的精准性和泛化性，可以结合一个视频分类模型进行视频内容维度的多级分类以及对视频对象的描述和情感倾向维度的分类，大大降低了视频分类模型训练的计算量和部署重复的问题，不需要为不同业务场景及不同理解类型的业务重复构建不同的模型，能够有效减少需要建模的模型数量，降低重复建模的成本，有效提升了研发的效率，实现融合的统一服务和公共词库及业务领域词库的分类建设，助力信息流内容系统的内容分发，在内容的运营，以及内容的推荐、搜索、聚类/打散方面发挥更大作用，从而提升内容分发的整体效率。

在一个具体的实施例中，如图5所示，图5是本申请实施例提供的一种基于视频分类模型进行分类处理的过程示意图。具体的，可以将待分类视频的目标视频文本特征中的第一文本特征和第二文本特征输入第一对齐融合模型中的第一自注意力层进行自注意力学习，得到第一文本特征对应的第三文本特征和第二文本特征对应的第四文本特征后，接着，将第三文本特征和待分类视频的目标视觉特征输入第一对齐融合模型中的第一交叉注意力层进行交叉注意力学习，得到初始视频文本特征，接着，将初始视频文本特征输入第一对齐融合模型中的第一前馈学习层进行前馈学习，得到视觉文本融合特征；另外，将第四文本特征输入第一对齐融合模型中的第二前馈学习层进行前馈学习，得到目标文本特征；接着，将视觉文本融合特征和目标文本特征输入第一对齐融合模型中的第一维度转换层进行维度转换，得到第一融合特征；另外，将待分类视频的目标音频文本特征输入第二对齐融合模型中的第二自注意力层进行自注意力学习，得到第五文本特征；接着，将第五文本特征和待分类视频的目标音频特征输入第二对齐融合模型中的第二交叉注意力层进行交叉注意力学习，得到音频文本融合特征；接着，将音频文本融合特征输入第二对齐融合模型中的第三前馈学习层进行前馈学习，得到第三融合特征；接着，将第三融合特征输入第二维度转换层进行维度转换，得到第二融合特征；接着，将第一融合特征和第二融合特征输入分类任务模型中进行分类处理，可以得到待分类视频的目标分类信息。

在一个可选的实施例中，如图6所示，上述视频分类模型可以采用下述方式训练得到：

S601：获取多个样本视频的样本视觉特征、样本音频特征、样本视频文本特征、样本音频文本特征和预设分类信息；

S603：将样本视觉特征和样本视频文本特征输入待训练视频分类模型中的第一待训练对齐融合模型进行对齐融合处理，得到第一样本融合特征；

S605：将样本音频特征和样本音频文本特征输入待训练视频分类模型中的第二待训练对齐融合模型进行对齐融合处理，得到第二样本融合特征；

S607：将第一样本融合特征和第二样本融合特征输入待训练视频分类模型中分类任务模型进行分类处理，得到多个样本视频的预测分类信息；

S609：基于第一样本融合特征进行掩码帧预测，得到掩码预测损失；

S611：基于第一样本融合特征进行视觉文本匹配预测，得到第一匹配损失；

S613：基于第一样本融合特征进行帧时序预测，得到帧时序预测损失；

S615：基于第一样本融合特征进行视觉文本匹配预测，得到第二匹配损失；

S617：基于第二样本融合特征进行音频文本匹配预测，得到第三匹配损失；

S619：在基于预测分类信息和预设分类信息间对应的分类损失训练待训练视频分类模型过程中，基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失对第一待训练对齐融合模型进行训练，以及基于第三匹配损失对第二待训练对齐融合模型进行训练，以得到视频分类模型。

在一个具体的实施例中，多个样本视频可以包括已分类视频；每个样本视频的样本视觉特征可以为该样本视频对应图像的表征信息；每个样本视频的样本音频特征可以为该样本视频对应音频的表征信息；每个样本视频的样本视频文本特征可以为该样本视频对应的视频描述文本的表征信息；每个样本视频的样本音频文本特征可以为该样本视频中音频的描述文本的表征信息。具体的，每个样本视频的预设分类信息可以包括该样本视频的分类结果以及该样本视频对应的预设类别指标数据；可选的，在某一样本视频属于某一预设视频类别的情况下，该样本视频对应的预设类别指标数据中该预设视频类别的类别指标数据可以为1，反之为0。

在一个具体的实施例中，获取多个样本视频的样本视觉特征、样本音频特征、样本视频文本特征、样本音频文本特征的具体细化，可以参见上述相关描述，在此不再赘述。

在一个具体的实施例中，上述S603、S605、S607的具体细化，可以参见上述相关描述，在此不再赘述。第一待训练对齐融合模型可以为待训练的第一对齐融合模型；第二待训练对齐融合模型可以为待训练的第二对齐融合模型。

在一个可选的实施例中，如图7所示，上述基于第一样本融合特征进行掩码帧预测，得到掩码预测损失可以包括：

S701：对每个样本视频对应的第一样本融合特征进行抽帧处理，得到每个样本视频对应的多个子样本融合特征；

S703：对多个子样本融合特征进行掩码处理，得到每个样本视频对应的多个掩码特征；

S705：基于每个掩码特征对应的子样本融合特征，构建每个掩码特征对应的第一正样本特征；

S707：基于每个掩码特征对应的其他融合特征，构建每个掩码特征对应的第一负样本特征；

S709：根据每个掩码特征、每个掩码特征对应的第一正样本特征和每个掩码特征对应的第一负样本特征，确定掩码预测损失。

在一个具体的实施例中，可以按照时序从第一样本融合特征中抽取多个子样本融合特征，具体的，每个样本视频对应的多个子样本融合特征覆盖该样本视频的第一样本融合特征。

在一个具体的实施例中，可以对每个样本视频对应的每个子样本融合特征进行随机掩码处理，得到每个样本视频对应的多个掩码特征；具体的，掩码的特征可以用0替换。

在一个具体的实施例中，上述其他融合特征可以为除每个掩码特征对应子样本融合特征以外的子样本融合特征。

在一个具体的实施例中，可以将每个掩码特征输入掩码帧预测模型进行掩码帧预测，得到每个掩码特征对应的预测掩码特征；接着，基于每个掩码特征对应的预测掩码特征；进一步的，可以对每个掩码特征对应的预测掩码特征、每个掩码特征对应的第一负样本特征进行映射处理，并将映射处理后的预测掩码特征、映射处理后的第一负样本特征和第一正样本特征代入第一预设损失函数，确定上述掩码预测损失。

在一个具体的实施例中，掩码帧预测模型可以为用于进行掩码帧预测(补全被掩码的特征)的任务处理模型，具体的，掩码帧预测模型具体的模型可以结合实际应用进行设置，例如基于Transformer模型中的解码器构建。

在一个具体的实施例中，第一预设损失函数可以结合实际应用进行设置，例如NCEloss(Noise Contrastive Estimation Loss，噪声对比估计损失)等对比损失函数。

结合上述掩码预测损失对第一待训练对齐融合模型进行训练，可以让模型学习到的掩码特征与原始的子样本融合特征相似度尽可能接近，和其他帧特征相似度尽可能降低。

在一个可选的实施例中，样本视觉特征可以包括样本视频帧特征(样本视频帧的表征信息)和样本封面特征(样本封面图像的表征信息)；相应的，第一样本融合特征可以包括样本视频帧文本特征和样本封面文本特征；样本视频帧文本特征可以为样本视频帧特征和样本视频文本特征进行对齐融合处理后的特征；样本封面文本特征可以为样本封面特征和样本视频文本特征进行对齐融合处理后的特征。

可选的，如图8所示，上述基于第一样本融合特征进行视觉文本匹配预测，得到第一匹配损失可以包括：

S801：基于第一样本视频的样本视频帧文本特征，构建第一样本视频对应的第二正样本特征，第一样本视频为多个样本视频中的每个样本视频；

S803：基于第一样本视频的样本视频帧文本特征和第一其他样本视频的样本视频帧文本特征，构建第一样本视频对应的第二负样本特征，第一其他样本视频为多个样本视频中除第一样本视频以外的任一视频；

S805：基于第二正样本特征和第二负样本特征进行视觉文本匹配预测，得到第一匹配损失。

在一个具体的实施例中，可以将第一样本视频的样本视频帧文本特征，作为第一样本视频对应的第二正样本特征。具体的，可以从第一其他样本视频的样本视频帧文本特征中随机采样部分特征，并用采样得到的部分特征替换第一样本视频的样本视频帧文本特征中的部分特征，以得到上述第一样本视频对应的第二负样本特征。

在一个具体的实施例中，可以将第二正样本特征和第二负样本特征分别输入第一匹配预测模型进行视觉文本匹配预测，得到第二正样本特征和第二负样本特征各自对应的预测匹配指标数据，具体的，预测匹配指标数据可以表征对应的样本特征(第二正样本特征或第二负样本特征)中特征(视觉和文本的特征)是否来源于同一视频；可选的，该预测匹配指标数据可以为表征对应的样本特征(第二正样本特征或第二负样本特征)中特征(视觉和文本的特征)来源于同一视频的概率。进一步的，第二正样本特征对应的预设匹配指标数据可以为1，第二负样本特征对应的预设匹配指标数据可以为0。进一步的，可以将第二正样本特征和第二负样本特征各自对应的预测匹配指标数据、第二正样本特征对应的预设匹配指标数据和第二负样本特征对应的预设匹配指标数据输入第二预设损失函数，以确定第一匹配损失。

在一个具体的实施例中，第一匹配预测模型可以为用于进行视觉文本匹配的任务处理模型，具体的，第一匹配预测模型的具体模型结构可以结合实际应用进行设置，例如基于Transformer模型中的解码器构建。

在一个具体的实施例中，第二预设损失函数可以结合实际应用进行设置，例如对数损失函数、交叉熵损失函数等。

结合上述第一匹配损失对第一待训练对齐融合模型进行训练，可以让模型能够有效区分不同视频的视频帧特征和文本特征。

在一个可选的实施例中，如图9所示，上述基于第一样本融合特征进行帧时序预测，得到帧时序预测损失可以包括：

S901：对每个样本视频的第一样本融合特征进行时序打乱处理，得到每个样本视频对应的乱序样本融合特征和乱序样本融合特征对应的目标时序信息；

S903：基于乱序样本融合特征进行帧时序预测，得到预测时序信息；

S905：根据目标时序信息和预测时序信息，确定帧时序预测损失。

在一个具体的实施例中，可以从每个样本视频的第一样本融合特征中，随机选取预设数量帧进行时序打乱处理，相应的，每个样本视频时序打断后的第一样本融合特征，可以为每个样本视频对应的乱序样本融合特征；乱序样本融合特征对应的目标时序信息可以为该乱序样本融合特征中特征对应的帧时序。

在一个具体的实施例中，可以将乱序样本融合特征输入帧时序预测模型进行帧时序预测，得到预测时序信息；具体的，预测时序信息可以为预测的乱序样本融合特征中特征对应的帧时序。

在一个具体的实施例中，可以将目标时序信息和预测时序信息输入第三预设损失函数，以确定帧时序预测损失。

在一个具体的实施例中，帧时序预测模型可以为用于进行帧时序预测的任务处理模型，具体的，帧时序预测模型具体的模型可以结合实际应用进行设置，例如基于全连接层构建构建。

在一个具体的实施例中，第三预设损失函数可以结合实际应用进行设置，例如对数损失函数、交叉熵损失函数等。

结合上述帧时序预测损失对第一待训练对齐融合模型进行训练，可以让模型学习到视频特征中的帧时序信息。

可选的，如图10所示，上述基于第一样本融合特征进行视觉文本匹配预测，得到第二匹配损失可以包括：

S1001：基于第二样本视频的样本封面文本特征，构建第二样本视频对应的第三正样本特征，第二样本视频为多个样本视频中的每个样本视频；

S1003：基于第二样本视频的样本封面文本特征和第二其他样本视频的样本封面文本特征，构建第二样本视频对应的第三负样本特征，第二其他样本视频为多个样本视频中除第二样本视频以外的任一视频；

S1005：基于第三正样本特征和第三负样本特征进行视觉文本匹配预测，得到第一匹配损失。

在一个具体的实施例中，可以将第二样本视频的样本封面文本特征，作为第二样本视频对应的第三正样本特征。具体的，可以从第二其他样本视频的样本封面文本特征中随机采样部分特征，并用采样得到的部分特征替换第二样本视频的样本封面文本特征中的部分特征，以得到上述第二样本视频对应的第三负样本特征。

在一个具体的实施例中，可以将第三正样本特征和第三负样本特征分别输入第二匹配预测模型进行视觉文本匹配预测，得到第三正正样本特征和第三正负样本特征各自对应的预测匹配指标数据，具体的，预测匹配指标数据可以表征对应的样本特征(第三正样本特征或第三负样本特征)中特征(视觉和文本的特征)是否来源于同一视频；可选的，该预测匹配指标数据可以为表征对应的样本特征(第三正样本特征或第三负样本特征)中特征(视觉和文本的特征)来源于同一视频的概率。进一步的，第三正样本特征对应的预设匹配指标数据可以为1，第三负样本特征对应的预设匹配指标数据可以为0。进一步的，可以将第三正样本特征和第三负样本特征各自对应的预测匹配指标数据、第三正样本特征对应的预设匹配指标数据和第三负样本特征对应的预设匹配指标数据输入第四预设损失函数，以确定第二匹配损失。

在一个具体的实施例中，第二匹配预测模型可以为用于进行视觉文本匹配的任务处理模型，具体的，第二匹配预测模型的具体模型结构可以结合实际应用进行设置，例如基于Transformer模型中的解码器构建。

在一个具体的实施例中，第四预设损失函数可以结合实际应用进行设置，例如Simsce(一种对比损失函数)等。

结合上述第二匹配损失对第一待训练对齐融合模型进行训练，可以让模型能够有效区分不同视频的封面特征和文本特征。

在一个可选的实施例中，如图11所示，上述基于第二样本融合特征进行音频文本匹配预测，得到第三匹配损失可以包括：

S1101：基于第三样本视频对应的第二样本融合特征，构建第三样本视频对应的第四正样本特征，第三样本视频为多个样本视频中的每个样本视频；

S1103：基于第三样本视频对应的第二样本融合特征和第三其他样本视频对应的第二样本融合特征，构建第三样本视频对应的第四负样本特征，第三其他样本视频为多个样本视频中除第三样本视频以外的任一视频；

S1105：基于第四正样本特征和第四负样本特征进行音频文本匹配预测，得到第三匹配损失。

在一个具体的实施例中，可以将第三样本视频的第二样本融合特征，作为第三样本视频对应的第四正样本特征。具体的，可以从第三其他样本视频的第二样本融合特征中随机采样部分特征，并用采样得到的部分特征替换第三样本视频的第二样本融合特征中的部分特征，以得到上述第三样本视频对应的第四负样本特征。

在一个具体的实施例中，可以将第四正样本特征和第四负样本特征分别输入第三匹配预测模型进行音频文本匹配预测，得到第四正样本特征和第四负样本特征各自对应的预测匹配指标数据，具体的，预测匹配指标数据可以表征对应的样本特征(第四正样本特征或第四负样本特征)中特征(音频和文本的特征)是否来源于同一视频；可选的，该预测匹配指标数据可以为表征对应的样本特征(第四正样本特征或第四负样本特征)中特征(视觉和文本的特征)来源于同一视频的概率。进一步的，第四正样本特征对应的预设匹配指标数据可以为1，第四负样本特征对应的预设匹配指标数据可以为0。进一步的，可以将第四正样本特征和第四负样本特征各自对应的预测匹配指标数据、第四正样本特征对应的预设匹配指标数据和第四负样本特征对应的预设匹配指标数据输入第五预设损失函数，以确定第三匹配损失。

在一个具体的实施例中，第三匹配预测模型可以为用于进行音频文本匹配的任务处理模型，具体的，第三匹配预测模型具体的模型可以结合实际应用进行设置，例如基于Transformer模型中的解码器构建。

在一个具体的实施例中，第五预设损失函数可以结合实际应用进行设置，例如对数损失函数、交叉熵损失函数等。

结合上述第三匹配损失对第二待训练对齐融合模型进行训练，可以让模型能够有效区分不同视频的音频特征和音频文本特征。

在一个具体的实施例中，分类损失可以表征待训练视频分类模型的分类性能；具体的，可以将预设分类信息中预设类别指标数据和预测分类信息中预测类别指标数据代入第六预设损失函数，以得到上述分类损失。具体的，在基于预测分类信息和预设分类信息间对应的分类损失训练待训练视频分类模型过程中，基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失对第一待训练对齐融合模型进行训练，以及基于第三匹配损失对第二待训练对齐融合模型进行训练，以得到视频分类模型可以包括：在基于分类损失更新待训练视频分类模型中的模型参数的过程中，基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失更新第一待训练对齐融合模型的模型参数，并基于第三匹配损失更新第二待训练对齐融合模型的模型参数；并基于更新后的待训练实现模型，重复上述S603至更新模型参数的训练迭代操作，直至满足预设收敛条件，并将满足预设收敛条件是的待训练视频分类模型作为视频分类模型。

在一个可选的实施例中，上述满足预设收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的，满足预设收敛条件也可以为交分类损失、掩码预测损失、第一匹配损失、帧时序预测损失、第二匹配损失和第三匹配损失均小于指定阈值等。本说明书实施例中，预设训练次数和指定阈值可以结合实际应用中对模型的训练速度和精准度预先设置。

在一个可选的实施例中，在将上述训练好的视频分类模型上线使用后，还可以结合线上反馈，对该视频分类模型进行微调，以更好的提升模型分类精准度，具体的，具体的，可以结合大规模预训练模型进行微调，大规模预训练模型可以是具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力的模型，例如LLaMA-13B(基于LLaMa的130亿参数的大规模预训练模型，LLaMa为一种开源大语言模型)等。具体的，核心方法是通过收集大量的视觉文本信息对针对视频分类模型中的第一对齐融合模型和第二对齐融合模型进行微调；具体的，除了可以收集线上开源的视频和文本描述信息以外，业务实际场景当中对视频和文本描述的内容也可以用于微调。

在实际应用中，基于本申请的视频分类模型实现对视频进行多个维度的分类后，可以结合分类信息和视频分类模型的内容理解能力(提取多模态特征信息的能力)进行多场景应用；可选的，可以结合视频分类模型进行内容要点提炼、详细描述处理，可选的，可以对信息流中的视频、图片、群聊中的聊天信息、帖子等内容进行内容要点提炼、详细描述处理，进而可以在各自对应的互动问答场景中，结合提炼的要点信息、详细描述信息实现互动问答过程中的内容理解以及问答处理；可选的，可以在搜索推荐场景中结合分类信息进行视频搜索推荐；可选的，还可以在内容特征提取、内容关怀、评论生成、社交图谱、同趣人推荐、智能助理等场景中结合本申请的视频分类模型，进行基于内容理解的特征提取、分类等处理。

由以上本说明书实施例提供的技术方案可见，本说明书获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征，作为分类识别的多模态视频特征，可以提升视频特征的多样性和丰富性；且将目标视觉特征和目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，该第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的，可以结合表征第一对齐融合模型对视觉文本特征表征性能的掩码预测损失，有效保证训练好的第一对齐融合模型对视觉文本的表征性能；且结合表征第一对齐融合模型对不同视频的视频帧特征以及视频文本特征分辨性能的第一匹配损失，有效保证训练好的第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能；且结合表征第一对齐融合模型对视频中帧时序预测性能的帧时序预测损失，有效保证训练好的第一对齐融合模型对视频中帧时序的预测性能；且结合表征第一对齐融合模型对不同视频的封面特征以及视频文本特征分辨性能的第二匹配损失，有效保证训练好的第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能，进而可以有效提升目标视觉特征和目标视频文本特征对齐融合后的第一融合特征对待分类视频的视觉文本的表征精准性；且将目标音频特征和目标音频文本特征输入视频分类模型中的第二对齐融合模型进行对齐融合处理，该第二对齐融合模型是基于第三匹配损失训练得到的，可以结合表征第二对齐融合模型对不同视频的音频文本特征分辨性能的第三匹配损失，有效保证训练好的第二对齐融合模型对不同视频的音频文本特征的分辨性能，进而可以有效提升目标音频特征和目标音频文本特征对齐融合后的第二融合特征对待分类视频的音频文本的表征精准性，实现对视频多模态特征的对齐融合，有效的避免视觉信息、时空复杂性信息丢失的问题，得到高效可学习的视频理解系统；接着，将第一融合特征和第二融合特征输入视频分类模型中分类任务模型进行分类处理，得到待分类视频的目标分类信息，可以有效保证视频分类精准性，进而也可以助力信息流内容系统的内容分发，在内容的运营，以及内容的推荐、搜索、聚类/打散方面发挥更大作用，从而提升内容分发的整体效率。

本申请实施例还提供了一种视频分类装置，如图12所示，上述装置包括：

视频特征获取模块1210，被配置为执行获取待分类视频的目标视觉特征、目标音频特征、目标视频文本特征和目标音频文本特征；

第一对齐融合处理模块1220，被配置为执行将所述目标视觉特征和所述目标视频文本特征输入视频分类模型中的第一对齐融合模型进行对齐融合处理，得到第一融合特征，所述第一对齐融合模型是基于掩码预测损失、第一匹配损失、帧时序预测损失和第二匹配损失训练得到的，所述掩码预测损失表征所述第一对齐融合模型对视觉文本特征的表征性能，所述第一匹配损失表征所述第一对齐融合模型对不同视频的视频帧特征以及视频文本特征的分辨性能，所述帧时序预测损失表征所述第一对齐融合模型对视频中帧时序的预测性能，所述第二匹配损失表征所述第一对齐融合模型对不同视频的封面特征以及视频文本特征的分辨性能；

第二对齐融合处理模块1230，被配置为执行将所述目标音频特征和所述目标音频文本特征输入所述视频分类模型中的第二对齐融合模型进行对齐融合处理，得到第二融合特征，所述第二对齐融合模型是基于第三匹配损失训练得到的，所述第三匹配损失表征所述第二对齐融合模型对不同视频的音频文本特征的分辨性能；

第一分类处理模块1240，被配置为执行将所述第一融合特征和所述第二融合特征输入所述视频分类模型中分类任务模型进行分类处理，得到所述待分类视频的目标分类信息。

在一个可选的实施例中，所述目标分类信息包括至少一级内容分类信息和/或至少一个情感分类标签；

其中，所述至少一级内容分类信息为视频内容维度的分类信息；所述至少一个情感分类标签为对视频对象的描述和情感倾向维度的分类信息。

在一个可选的实施例中，所述目标视频文本特征包括第一文本特征和第二文本特征；所述第一对齐融合模型包括：第一自注意力层、第一交叉注意力层、第一前馈学习层、第二前馈学习层和第一维度转换层；所述第一对齐融合处理模块1220包括：

第一自注意力学习单元，被配置为执行将所述第一文本特征和所述第二文本特征输入所述第一自注意力层进行自注意力学习，得到所述第一文本特征对应的第三文本特征和所述第二文本特征对应的第四文本特征；

第一交叉注意力学习单元，被配置为执行将所述第三文本特征和所述目标视觉特征输入所述第一交叉注意力层进行交叉注意力学习，得到初始视频文本特征；

第一前馈学习单元，被配置为执行将所述初始视频文本特征输入所述第一前馈学习层进行前馈学习，得到所述视觉文本融合特征；

第二前馈学习单元，被配置为执行将所述第四文本特征输入所述第二前馈学习层进行前馈学习，得到所述目标文本特征；

第一维度转换单元，被配置为执行将所述视觉文本融合特征和所述目标文本特征输入所述第一维度转换层进行维度转换，得到所述第一融合特征

在一个可选的实施例中，所述第二对齐融合模型包括：第二自注意力层、第二交叉注意力层、第三前馈学习层和第二维度转换层；所述第二对齐融合处理模块1230包括：

第二自注意力学习单元，被配置为执行将所述目标音频文本特征输入所述第二自注意力层进行自注意力学习，得到第五文本特征；

第二交叉注意力学习单元，被配置为执行将所述第五文本特征和所述目标音频特征输入所述第二交叉注意力层进行交叉注意力学习，得到音频文本融合特征；

第三前馈学习单元，被配置为执行将所述音频文本融合特征输入所述第三前馈学习层进行前馈学习，得到第三融合特征。

第二维度转换单元，被配置为执行将所述第三融合特征输入所述第二维度转换层进行维度转换，得到所述第二融合特征。

在一个可选的实施例中，所述视频分类模型采用下述模块训练得到：

样本数据获取模块，被配置为执行获取多个样本视频的样本视觉特征、样本音频特征、样本视频文本特征、样本音频文本特征和预设分类信息；

第三对齐融合处理模块，被配置为执行将所述样本视觉特征和所述样本视频文本特征输入待训练视频分类模型中的第一待训练对齐融合模型进行对齐融合处理，得到第一样本融合特征；

第四对齐融合处理模块，被配置为执行将所述样本音频特征和所述样本音频文本特征输入所述待训练视频分类模型中的第二待训练对齐融合模型进行对齐融合处理，得到第二样本融合特征；

第二分类处理模块，被配置为执行将所述第一样本融合特征和所述第二样本融合特征输入所述待训练视频分类模型中分类任务模型进行分类处理，得到所述多个样本视频的预测分类信息；

掩码帧预测模块，被配置为执行基于所述第一样本融合特征进行掩码帧预测，得到所述掩码预测损失；

第一匹配预测模块，被配置为执行基于所述第一样本融合特征进行视觉文本匹配预测，得到所述第一匹配损失；

帧时序预测模块，被配置为执行基于所述第一样本融合特征进行帧时序预测，得到所述帧时序预测损失；

视觉文本相似分析模块，被配置为执行基于所述第一样本融合特征进行视觉文本匹配预测，得到所述第二匹配损失；

第三匹配预测模块，被配置为执行基于所述第二样本融合特征进行音频文本匹配预测，得到所述第三匹配损失；

模型训练模块，被配置为执行在基于所述预测分类信息和所述预设分类信息间对应的分类损失训练所述待训练视频分类模型过程中，基于所述掩码预测损失、第一匹配损失、所述帧时序预测损失和所述第二匹配损失对所述第一待训练对齐融合模型进行训练，以及基于第三匹配损失对所述第二待训练对齐融合模型进行训练，以得到所述视频分类模型。

在一个可选的实施例中，所述掩码帧预测模块包括：

抽帧处理单元，被配置为执行对每个样本视频对应的所述第一样本融合特征进行抽帧处理，得到所述每个样本视频对应的多个子样本融合特征；

掩码处理单元，被配置为执行对所述多个子样本融合特征进行掩码处理，得到所述每个样本视频对应的多个掩码特征；

第一正样本特征对构建单元，被配置为执行基于每个掩码特征对应的子样本融合特征，构建所述每个掩码特征对应的第一正样本特征；

第二正样本特征对构建单元，被配置为执行基于所述每个掩码特征对应的其他融合特征，构建所述每个掩码特征对应的第一负样本特征，所述其他融合特征为除所述每个掩码特征对应子样本融合特征以外的子样本融合特征；

掩码预测损失确定单元，被配置为执行根据所述每个掩码特征、所述每个掩码特征对应的第一正样本特征和所述每个掩码特征对应的第一负样本特征，确定所述掩码预测损失。

在一个可选的实施例中，所述样本视觉特征包括样本视频帧特征；所述第一样本融合特征包括样本视频帧文本特征，所述样本视频帧特征为所述样本视频帧特征和所述样本视频文本特征对齐融合后的特征；所述第一匹配预测模块包括：

第一正样本特征构建单元，被配置为执行基于第一样本视频的所述样本视频帧文本特征，构建所述第一样本视频对应的第二正样本特征，所述第一样本视频为所述多个样本视频中的每个样本视频；

第一负样本特征构建单元，被配置为执行基于所述第一样本视频的所述样本视频帧文本特征和第一其他样本视频的所述样本视频帧文本特征，构建所述第一样本视频对应的第二负样本特征，所述第一其他样本视频为所述多个样本视频中除所述第一样本视频以外的任一视频；

第一匹配预测单元，被配置为执行基于所述第二正样本特征和第二负样本特征进行视觉文本匹配预测，得到所述第一匹配损失。

在一个可选的实施例中，所述帧时序预测模块包括：

时序打乱处理单元，被配置为执行对每个样本视频的所述第一样本融合特征进行时序打乱处理，得到所述每个样本视频对应的乱序样本融合特征和所述乱序样本融合特征对应的目标时序信息；

帧时序预测单元，被配置为执行基于乱序样本融合特征进行帧时序预测，得到预测时序信息；

帧时序预测损失确定单元，被配置为执行根据所述目标时序信息和所述预测时序信息，确定所述帧时序预测损失。

在一个可选的实施例中，所述样本视觉特征包括样本封面特征；所述第一样本融合特征包括样本封面文本特征，所述样本封面文本特征为所述样本封面特征和所述样本视频文本特征对齐融合后的特征；所述第二匹配预测模块包括：

第三正样本特征构建单元，被配置为执行基于第二样本视频的所述样本封面文本特征，构建所述第二样本视频对应的第三正样本特征，所述第二样本视频为所述多个样本视频中的每个样本视频；

第三负样本特征单元，被配置为执行基于所述第二样本视频的所述样本封面文本特征和第二其他样本视频的所述样本封面文本特征，构建所述第二样本视频对应的第三负样本特征，所述第二其他样本视频为所述多个样本视频中除所述第二样本视频以外的任一视频；

第二匹配预测单元，被配置为执行基于所述第三正样本特征和所述第三负样本特征进行视觉文本匹配预测，得到所述第一匹配损失。

在一个可选的实施例中，所述第三匹配预测模块包括：

第四正样本特征构建单元，被配置为执行基于第三样本视频对应的所述第二样本融合特征，构建所述第三样本视频对应的第四正样本特征，所述第三样本视频为所述多个样本视频中的每个样本视频；

第四负样本特征构建单元，被配置为执行基于所述第三样本视频对应的所述第二样本融合特征和第三其他样本视频对应的所述第二样本融合特征，构建所述第三样本视频对应的第四负样本特征，所述第三其他样本视频为所述多个样本视频中除所述第三样本视频以外的任一视频；

第三匹配预测单元，被配置为执行基于所述第四正样本特征和第四负样本特征进行音频文本匹配预测，得到所述第三匹配损失。

关于上述实施例中的装置，其中各个模型执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是本申请实施例提供的一种用于视频分类的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频分类方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图14是本申请实施例提供的另一种用于视频分类的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图14所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频分类方法。

本领域技术人员可以理解，图13或图14中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的视频分类方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的视频分类方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的视频分类方法。

可以理解的是，在本申请的具体实施方式中，涉及到用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载