视频处理方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 11:32:36

技术领域

本申请涉及人工智能技术，尤其涉及一种视频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用。

以视频处理为例，视频标识帧是指能够表征视频中的信息的主要视频帧，通过视频标识帧，能够快速确定视频中所表达的信息，进而对视频进行处理，例如对视频进行分类、将标识帧作为视频封面等。

相关技术从视频中提取视频的多个标识帧时，存在因局部信息相同而导致的标识帧的重复率高的问题，即提取到的标识帧的准确性较低，消耗了不必要的计算资源。

可见，对于如何准确高效地从视频中提取标识帧，相关技术尚无有效解决方案。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备及计算机可读存储介质，能够准确高效地从视频中提取标识帧。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频处理方法，包括：

从视频的第一视频帧提取第一视频帧特征，并从所述视频的第二视频帧提取第二视频帧特征；

将所述第一视频帧特征划分为多个第一视频帧子特征，并将所述第二视频帧特征划分为多个第二视频帧子特征；

基于所述多个第一视频帧子特征和所述多个第二视频帧子特征，确定所述第一视频帧和所述第二视频帧之间的相似度；

根据所述第一视频帧和所述第二视频帧之间的相似度，确定所述视频中的标识帧。

本申请实施例提供一种视频处理装置，包括：

提取模块，用于从视频的第一视频帧提取第一视频帧特征，并从所述视频的第二视频帧提取第二视频帧特征；

划分模块，用于将所述第一视频帧特征划分为多个第一视频帧子特征，并将所述第二视频帧特征划分为多个第二视频帧子特征；

相似度模块，用于基于所述多个第一视频帧子特征和所述多个第二视频帧子特征，确定所述第一视频帧和所述第二视频帧之间的相似度；

确定模块，用于根据所述第一视频帧和所述第二视频帧之间的相似度，确定所述视频中的标识帧。

在上述方案中，所述相似度模块，还用于针对每个第一视频帧子特征执行以下处理：在所述多个第二视频帧子特征中，选取与所述第一视频帧子特征对应相同位置的第二视频帧子特征，并确定所述第一视频帧子特征与选取的所述第二视频帧子特征之间的相似度；在所述多个第一视频帧子特征对应的相似度中，选取最小的相似度作为所述第一视频帧和所述第二视频帧之间的相似度。

在上述方案中，所述相似度模块，还用于将所述第一视频帧子特征和选取的所述第二视频帧子特征进行绝对值相减处理，得到视频帧差值特征；将所述视频帧差值特征映射为对应多个候选相似度的概率；将最大概率所对应的候选相似度确定为对应所述第一视频帧子特征的相似度。

在上述方案中，所述提取模块，还用于从所述第一视频帧提取第一图像特征，并从所述第二视频帧提取第二图像特征；从所述第一图像特征提取第一文本掩码特征，并从所述第二图像特征提取第二文本掩码特征；将所述第一文本掩码特征和所述第一图像特征进行融合处理，得到所述第一视频帧特征；将所述第二文本掩码特征和所述第二图像特征进行融合处理，得到所述第二视频帧特征。

在上述方案中，所述提取模块，还用于对所述第一图像特征进行升维处理，得到第一升维图像特征；确定所述第一升维图像特征中每个通道所对应的注意力权重；根据所述第一升维图像特征中每个通道所对应的注意力权重，对所述第一升维图像特征中每个通道中的数据进行加权求和，得到所述第一文本掩码特征。

在上述方案中，所述提取模块，还用于对所述第二图像特征进行升维处理，得到第二升维图像特征；确定所述第二升维图像特征中每个通道所对应的注意力权重；根据所述第二升维图像特征中每个通道所对应的注意力权重，对所述第二升维图像特征中每个通道中的数据进行加权求和，得到所述第二文本掩码特征。

在上述方案中，所述提取模块，还用于对所述第一图像特征进行卷积处理，得到第一卷积特征，并将所述第一卷积特征进行反卷积处理，得到第一反卷积特征；将所述第一图像特征和所述第一反卷积特征进行融合处理，得到第一融合特征；将所述第一融合特征和所述第一反卷积特征进行融合处理，得到所述第一升维图像特征。

在上述方案中，所述提取模块，还用于对所述第二图像特征进行卷积处理，得到第二卷积特征，并将所述第二卷积特征进行反卷积处理，得到第二反卷积特征；将所述第二图像特征和所述第二反卷积特征进行融合处理，得到第二融合特征；将所述第二融合特征和所述第二反卷积特征进行融合处理，得到所述第二升维图像特征。

在上述方案中，所述提取模块，还用于确定所述第一文本掩码特征和所述第一图像特征分别对应的权重；基于所述第一文本掩码特征和所述第一图像特征分别对应的权重，对所述第一文本掩码特征和所述第一图像特征进行加权求和，得到所述第一视频帧特征。

在上述方案中，所述提取模块，还用于确定所述第二文本掩码特征和所述第二图像特征分别对应的权重；基于所述第二文本掩码特征和所述第二图像特征分别对应的权重，对所述第二文本掩码特征和所述第二图像特征进行加权求和，得到所述第二视频帧特征。

在上述方案中，所述提取模块，还用于将所述第一视频帧划分为多个第一图像块，并针对每个第一图像块进行特征提取处理，得到与所述多个第一图像块一一对应的多个第一图像子特征；将所述多个第一图像子特征进行组合，得到所述第一图像特征。

在上述方案中，所述提取模块，还用于将所述第二视频帧划分为多个第二图像块，并针对每个第二图像块进行特征提取处理，得到与所述多个第二图像块一一对应的多个第二图像子特征；将所述多个第二图像子特征进行组合，得到所述第二图像特征。

在上述方案中，所述划分模块，还用于将所述第一视频帧特征对应每个通道的数据进行缩减处理，得到第一缩减特征；将所述第一缩减特征进行水平方向的降维处理，得到第一降维特征，并将所述第一降维特征按照所述水平方向划分为多个第一视频帧子特征。

在上述方案中，所述划分模块，还用于将所述第二视频帧特征对应每个通道的数据进行缩减处理，得到第二缩减特征；将所述第二缩减特征进行水平方向的降维处理，得到第二降维特征，并将所述第二降维特征按照所述水平方向划分为多个第二视频帧子特征。

在上述方案中，所述视频处理装置还包括：分类模块，用于从所述第一视频帧提取第一图像特征，并从所述第二视频帧提取第二图像特征；从所述第一图像特征提取第一文本掩码特征，并从所述第二图像特征提取第二文本掩码特征；对所述第一文本掩码特征进行分类处理，得到所述第一视频帧是否包含文本的分类结果，并对所述第二文本掩码特征进行分类处理，得到所述第二视频帧是否包含文本的分类结果。

在上述方案中，所述相似度模块，还用于当所述分类结果是所述第一视频帧包含文本、所述第二视频帧包含文本、且所述第一视频帧和所述第二视频帧之间的相似度不超过相似度阈值时，将所述第一视频帧和所述第二视频帧作为所述视频中的标识帧；当所述分类结果是所述第一视频帧包含文本、所述第二视频帧包含文本、且所述第一视频帧和所述第二视频帧之间的相似度超过相似度阈值时，将所述第一视频帧或所述第二视频帧作为所述视频中的标识帧；当所述分类结果是所述第一视频帧包含文本、且所述第二视频帧不包含文本时，将所述第一视频帧作为所述视频中的标识帧；当所述分类结果是所述第二视频帧包含文本、且所述第一视频帧不包含文本时，将所述第二视频帧作为所述视频中的标识帧。

在上述方案中，所述相似度模块，还用于当所述第一视频帧和所述第二视频帧之间的相似度超过相似度阈值时，将所述第一视频帧或所述第二视频帧作为所述视频中的标识帧；当所述第一视频帧和所述第二视频帧之间的相似度不超过相似度阈值时，将所述第一视频帧和所述第二视频帧作为所述视频中的标识帧。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的视频处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的视频处理方法。

本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的视频处理方法。

本申请实施例具有以下有益效果：

基于划分后第一视频帧子特征和第二视频帧子特征确定第一视频帧和第二视频帧之间的相似度，由于划分后的特征代表了视频帧中的局部信息，从而使得基于相似度识别出的标识帧能够从局部信息的层面进行有效地区分，提高了识别出的标识帧的效率和准确率。

附图说明

图1是本申请实施例提供的视频处理系统100的架构示意图；

图2是本申请实施例提供的服务器200的结构示意图；

图3是本申请实施例提供的视频处理方法的流程示意图；

图4是本申请实施例提供的视频处理方法的流程示意图；

图5是本申请实施例提供的机器学习模型的结构示意图；

图6是本申请实施例提供的视频处理方法的流程示意图；

图7是本申请实施例提供的孪生网络的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一/第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR，Optical Character Recognition)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

2)孪生神经网络(Siamese Neural Network)，又名双生神经网络，或称孪生网络，是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度(以下简称为相似度)。具体的，孪生神经网络包含两个子网络，子网络各自接收一个输入，将其映射至高维特征空间，并输出对应的表征。通过计算两个表征的距离，例如欧式距离，从而可以比较两个输入的相似程度。

3)视频标识帧，用于描述一个视频的图像帧，能够反映一个视频的主要内容。文本标识帧属于标识帧的一种，是指含有文本信息的标识帧。

4)采样率，是每秒钟的采样次数。视频的采样率相当于视频的帧数，例如，将采样到的多个静止画面以与采样率同样的速度回放时，看到的就是连续的画面。

视频标识帧检测技术是视频处理的重要技术分支，也是计算机视觉领域的重要研究热点。它的主要任务是选取视频中少量的视频帧或视频段来描述视频中发生的故事，这样能够有助于提高视频重要内容理解的效率。因此，随着互联网中视频数量的不断增加，视频标识帧检测技术得到了广泛的应用。一般来说，在利用视频标识帧检测技术获取视频中的视频标识帧时，通常采用机器学习实现。

比如，利用子集选取的处理方式从视频中选择视频帧/视频段，即通过子模块优化算法(Submodular Optimization)学习视频中的最优解，以得到视频标识帧。或者，采用目光注视跟踪技术检测视频中的视频标识帧，并利用子模块优化算法提升所得到的视频标识帧的相关性和多样性。

又比如，采用字典学习及稀疏编码提升视频标识帧的相关性，并根据视频标识帧的局部运动区域及其相关性提取得到视频标识帧。

再比如，基于深度学习技术获取视频标识帧，具体的，利用增强学习的策略，通过设置视频标识帧的多样性与表达性的奖励函数，实现有监督以及无监督的视频标识帧的检测。

还比如，利用序列到序列技术来确定视频的视频标识帧，具体的，利用构建的基于注意力的编码解码网络获取视频标识帧。或者，通过监督学习的策略来使用长短时记忆网络和行列式点过程(Determinantal Point Processes)自动地检测待处理视频中的视频标识帧。又或者，通过产生式对抗网络(Generative Adversarial Network)，并结长短时记忆网络对待处理视频中的扩张时序单元进行重构，通过重构误差实现待处理视频的视频标识帧的检测。

最后比如，将视频中的文字信息作为提取视频标识帧的因素，具体的，基于文本孪生网络的对相邻视频帧的相似度进行计算，同时加入注意力模块(Attention Block)对视频帧中是否含有文字进行识别，从而确定视频标识帧。

然而，虽然上述方案提出了将视频中的文字信息作为提取视频标识帧的因素，但由于视频标识帧的检测过程中，是针对整体视频帧的全局特征进行相似度比较，因此，针对视频中各视频帧之间的场景变化大而局部信息(例如文本信息或场景角色等)不变时，所提取得到的视频标识帧中存在因局部信息的重复率高而导致的视频标识帧的重复率高且召回率不稳定的问题；从而导致提取到的视频标识帧的准确性低。

针对上述技术问题，本申请实施例提供一种视频处理方法，能够准确高效地识别视频中具有代表性的标识帧。下面说明本申请实施例提供的视频处理方法的示例性应用，本申请实施例提供的视频处理方法可以由各种电子设备实施，例如，可以由终端单独实施，例如，终端借助自身的计算能力来确定视频中的标识帧，然后在终端中将标识帧作为视频的封面展示，并根据内容识别结果对视频进行分类或推荐；也可以由终端和服务器协同实施，例如终端借助服务器的计算能力来确定视频中的标识帧，然后在终端中将标识帧作为视频的封面展示，并根据内容识别结果对视频进行分类或推荐。

接下来，以由服务器和终端协同实施为例说明本申请实施例，参见图1，图1是本申请实施例提供的视频处理系统100的架构示意图。其中，视频处理系统100包括有：服务器200、网络300、以及终端400，将分别进行说明。

服务器200，是客户端410的后台服务器，用于根据视频的第一视频帧和第二视频帧之间的相似度，确定视频中的标识帧；还用于对视频中的标识帧进行内容识别，获得内容识别结果，并根据内容识别结果对视频进行分类，以获得视频分类列表；还用于响应于客户端410的视频分类列表获取请求，将视频分类列表发送至客户端410进行展示。

网络300，用于作为服务器200和终端400之间通信的媒介，可以是广域网或者局域网，又或者是二者的组合。

终端400，用于运行客户端410，客户端410是具备视频播放功能的客户端，例如视频客户端、短视频客户端等。

作为一个示例，可以用于视频列表的展示场景。客户端410用于响应于用户的视频列表查看操作，向服务器200发送视频分类列表获取请求；还用于接收服务器200发送的视频分类列表，并在人机交互界面进行展示；其中，视频分类列表中包括每个视频的标识帧，客户端410在人机交互界面中将视频的标识帧作为封面展示，从而帮助用户通过封面快速了解视频的内容。

作为另一个示例，可以用于视频的冷启动推荐的场景，例如新上线的视频，由于缺乏视频足够的信息，难以根据视频的特点进行精准推荐。此时，服务器200还可以获取客户端410发送的用户信息(例如用户画像、视频观看记录)，根据对标识帧进行内容识别获得的内容识别结果，在多个视频中选取与客户端410的用户信息匹配的视频，并向客户端410发送匹配的视频的推荐信息，从而提高视频推荐的效率。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

作为示例，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、车载终端、智能穿戴设备、笔记本电脑、台式电脑等各种类型的用户终端。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

接下来说明图1中的服务器200的结构。参见图2，图2是本申请实施例提供的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器240和至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统230。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。存储器440可选地包括在物理位置上远离处理器210的一个或多个存储设备。

在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块242，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，UniversalSerial Bus)等。

在一些实施例中，本申请实施例提供的视频处理装置可以采用软件方式实现，图2示出了存储在存储器240中的视频处理装置243，其可以是程序和插件等形式的软件，包括以下软件模块：提取模块2431、划分模块2432、相似度模块2433、以及确定模块2434。这些模块是可以是逻辑功能模块，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

下面，以由图1中的服务器200执行本申请实施例提供的视频处理方法为例说明。参见图3，图3是本申请实施例提供的视频处理方法的流程示意图，将结合图3示出的步骤进行说明。

在步骤S101中，从视频的第一视频帧提取第一视频帧特征，并从视频的第二视频帧提取第二视频帧特征。

在一些实施例中，在步骤S101之前还可以对视频进行解码，以获得多个视频帧，在多个视频帧中选取第一视频帧和第二视频帧。

作为示例，第一视频帧和第二视频帧不是两个特定的视频帧，第一视频帧和第二视频帧是相对而言的，仅用于区别不同的视频帧。第一视频帧和第二视频帧可以是视频中的任意两个视频帧，例如，第一视频帧和第二视频帧可以是视频中相邻的任意两个视频帧，也可以是视频中每间隔固定帧数的任意两个视频帧，还可以是视频中相邻的任意两个画面组(GOP，Group of Pictures)中的关键帧(即I帧)，还可以是每间隔固定数量的任意两个画面组中的关键帧。

举例来说，当视频的帧率是24帧/秒、且视频时长是3秒时，将视频可以解码为视频帧1、视频帧2、视频帧3、视频帧4、......、视频帧72。第一视频帧和第二视频帧可以是视频中相邻的任意两个视频帧，例如，视频帧1是第一视频帧，视频帧2是第二视频帧。第一视频帧和第二视频帧也可以是视频中间隔固定帧数的任意两个视频帧，以第一视频帧和第二视频帧间隔5个视频帧为例，视频帧1是第一视频帧，视频帧6是第二视频帧。

举例来说，当视频包括4个画面组(画面组1、画面组2、画面组3和画面组4)时，第一视频帧和第二视频帧可以是视频中相邻的任意两个画面组中的关键帧，例如，画面组1的I帧是第一视频帧，画面组2的I帧是第二视频帧。第一视频帧和第二视频帧也可以是间隔固定数量的任意两个画面组中的关键帧，例如，画面组1的I帧是第一视频帧，画面组3的I帧是第二视频帧。

在一些实施例中，参见图4，图4是本申请实施例提供的视频处理方法的流程示意图，基于图3，步骤S101可以包括步骤S1011至步骤S1014。

在步骤S1011中，从第一视频帧提取第一图像特征，并从第二视频帧提取第二图像特征。

在一些实施例中，将第一视频帧划分为多个第一图像块，并针对每个第一图像块进行特征提取处理，得到与多个第一图像块一一对应的多个第一图像子特征；将多个第一图像子特征进行组合，得到第一图像特征。

作为承接图5的示例，图5是本申请实施例提供的机器学习模型的结构示意图。通过第一卷积网络将第一视频帧划分为多个第一图像块，并针对每个第一图像块进行特征提取处理，得到与多个第一图像块一一对应的多个第一图像子特征；将多个第一图像子特征进行组合，得到第一图像特征。

举例来说，将多个第一图像子特征进行组合的方式可以是确定多个第一图像子特征对应的权重，根据多个第一图像子特征对应的权重，对多个第一图像子特征进行加权求和，得到第一图像特征。

在一些实施例中，将第二视频帧划分为多个第二图像块，并针对每个第二图像块进行特征提取处理，得到与多个第二图像块一一对应的多个第二图像子特征；将多个第二图像子特征进行组合，得到第二图像特征。

作为承接图5的示例，通过第二卷积网络将第二视频帧划分为多个第二图像块，并针对每个第二图像块进行特征提取处理，得到与多个第二图像块一一对应的多个第二图像子特征；将多个第二图像子特征进行组合，得到第二图像特征。

举例来说，将多个第二图像子特征进行组合的方式可以是确定多个第二图像子特征对应的权重，根据多个第二图像子特征对应的权重，对多个第二图像子特征进行加权求和，得到第二图像特征。

作为示例，第一卷积网络和第二卷积网络可以是具备相同参数的神经网络模型，也可以是具备不同参数的神经网络模型。神经网络模型可以包括各种类型，例如，卷积神经网络(CNN，Convolutional Neural Networks)模型、循环神经网络(RNN，Recurrent NeuralNetwork)模型、以及多层前馈神经网络模型等。

本申请实施例在提取视频帧的图像特征的过程中，将视频帧划分为多个图像块分别进行特征提取，相较于直接针对视频帧中的每个像素进行特征提取来说，计算难度较低，能够减少计算资源的消耗，提高图像特征的提取速度。

在步骤S1012中，从第一图像特征提取第一文本掩码特征，并从第二图像特征提取第二文本掩码特征。

在一些实施例中，对第一图像特征进行升维处理，得到第一升维图像特征；确定第一升维图像特征中每个通道所对应的注意力权重；根据第一升维图像特征中每个通道所对应的注意力权重，对第一升维图像特征中每个通道中的数据进行加权求和，得到第一文本掩码特征。

作为承接图5的示例，第一文本位置提取网络中包括频道注意力模块，具体的，通过第一文本位置提取网络对第一图像特征进行升维处理，得到第一升维图像特征；通过频道注意力模块确定第一升维图像特征中每个通道所对应的注意力权重；根据第一升维图像特征中每个通道所对应的注意力权重，对第一升维图像特征中每个通道中的数据进行加权求和，得到第一文本掩码特征。

举例来说，第一文本掩码特征中包括多个子掩码特征，每个子掩码特征对应一个图像块，每个子掩码特征包括一个0或者1的掩码，这个掩码代表对应的这个图像块里面是否含有文本，例如，0表征对应的这个图像块中无文本，1表征对应的这个图像块中有文本。

本申请实施例通过注意力机制对第一升维图像特征进行加权，能够使得第一文本掩码特征的重构准确性更高，且更具备分辨性，进而能够提高后续确定第一视频帧是否含有文本、以及第一视频帧和第二视频帧之间的相似度的准确性。

作为示例，对第一图像特征进行升维处理，得到第一升维图像特征可以包括：对第一图像特征进行卷积处理，得到第一卷积特征，并将第一卷积特征进行反卷积处理，得到第一反卷积特征；将第一图像特征和第一反卷积特征进行融合处理，得到第一融合特征；将第一融合特征和第一反卷积特征进行融合处理，得到第一升维图像特征。

本申请实施例通过反卷积处理和多次融合处理，能够实现更精准的特征重构，使得第一升维图像特征与第一视频帧之间的匹配性更高，从而提高后续从视频中提取标识帧的准确性。

在一些实施例中，对第二图像特征进行升维处理，得到第二升维图像特征；确定第二升维图像特征中每个通道所对应的注意力权重；根据第二升维图像特征中每个通道所对应的注意力权重，对第二升维图像特征中每个通道中的数据进行加权求和，得到第二文本掩码特征。

作为承接图5的示例，第二文本位置提取网络中包括频道注意力模块，具体的，通过第二文本位置提取网络对第二图像特征进行升维处理，得到第二升维图像特征；通过频道注意力模块确定第二升维图像特征中每个通道所对应的注意力权重；根据第二升维图像特征中每个通道所对应的注意力权重，对第二升维图像特征中每个通道中的数据进行加权求和，得到第二文本掩码特征。

举例来说，第二文本掩码特征中包括多个子掩码特征，每个子掩码特征对应一个图像块，每个子掩码特征包括一个0或者1的掩码，这个掩码代表对应的这个图像块里面是否含有文本，例如，0表征对应的这个图像块中无文本，1表征对应的这个图像块中有文本。

本申请实施例通过注意力机制对第二升维图像特征进行加权，能够使得第二文本掩码特征的重构准确性更高，且更具备分辨性，进而能够提高后续确定第二视频帧是否含有文本、以及第一视频帧和第二视频帧之间的相似度的准确性。

举例来说，第一文本位置提取网络和第二文本位置提取网络可以是具备相同参数的神经网络模型，也可以是具备不同参数的神经网络模型。神经网络模型可以包括各种类型，例如，卷积神经网络模型、循环神经网络模型、以及多层前馈神经网络模型等。

作为示例，对第二图像特征进行升维处理，得到第二升维图像特征可以包括：对第二图像特征进行卷积处理，得到第二卷积特征，并将第二卷积特征进行反卷积处理，得到第二反卷积特征；将第二图像特征和第二反卷积特征进行融合处理，得到第二融合特征；将第二融合特征和第二反卷积特征进行融合处理，得到第二升维图像特征。

本申请实施例通过反卷积处理和多次融合处理，能够实现更精准的特征重构，使得第二升维图像特征与第二视频帧之间的匹配性更高，从而提高后续从视频中提取标识帧的准确性。

在步骤S1013中，将第一文本掩码特征和第一图像特征进行融合处理，得到第一视频帧特征。

在一些实施例中，确定第一文本掩码特征和第一图像特征分别对应的权重；基于第一文本掩码特征和第一图像特征分别对应的权重，对第一文本掩码特征和第一图像特征进行加权求和，得到第一视频帧特征。

作为承接图5的示例，通过第一文本位置提取网络确定第一文本掩码特征和第一图像特征分别对应的权重；基于第一文本掩码特征和第一图像特征分别对应的权重，对第一文本掩码特征和第一图像特征进行加权求和，得到第一视频帧特征。

本申请实施例将表征第一视频帧的文字信息的第一文本掩码特征和表征第一视频帧的图像信息的第一图像特征进行融合，以便于后续根据视频帧的文字信息和图像信息提取标识帧，能够解决相关技术中当视频中各视频帧之间的场景变化大而文本信息不变时，所提取的标识帧中存在因标识帧中文本信息相同而导致的标识帧的重复率高的技术问题，从而提高了从视频中提取标识帧的准确性。

在步骤S1014中，将第二文本掩码特征和第二图像特征进行融合处理，得到第二视频帧特征。

在一些实施例中，确定第二文本掩码特征和第二图像特征分别对应的权重；基于第二文本掩码特征和第二图像特征分别对应的权重，对第二文本掩码特征和第二图像特征进行加权求和，得到第二视频帧特征。

作为承接图5的示例，通过第二文本位置提取网络确定第二文本掩码特征和第二图像特征分别对应的权重；基于第二文本掩码特征和第二图像特征分别对应的权重，对第二文本掩码特征和第二图像特征进行加权求和，得到第二视频帧特征。

本申请实施例将表征第二视频帧的文字信息的第二文本掩码特征和表征第二视频帧的图像信息的第二图像特征进行融合，以便于后续根据视频帧的文字信息和图像信息提取标识帧，能够解决相关技术中当视频中各视频帧之间的场景变化大而文本信息不变时，所提取的标识帧中存在因标识帧中文本信息相同而导致的标识帧的重复率高的技术问题，从而提高了从视频中提取标识帧的准确性。

在步骤S102中，将第一视频帧特征划分为多个第一视频帧子特征，并将第二视频帧特征划分为多个第二视频帧子特征。

在一些实施例中，将第一视频帧特征对应每个通道的数据进行缩减处理，得到第一缩减特征；将第一缩减特征进行水平方向的降维处理(例如池化处理)，得到第一降维特征，并将第一降维特征按照水平方向划分为多个第一视频帧子特征。

作为承接图5的示例，通过相似网络(例如孪生网络)将第一视频帧特征对应每个通道的数据进行缩减处理，得到第一缩减特征；将第一缩减特征进行水平方向的降维处理，得到第一降维特征，并将第一降维特征按照水平方向划分为多个第一视频帧子特征。

在一些实施例中，将第二视频帧特征对应每个通道的数据进行缩减处理，得到第二缩减特征；将第二缩减特征进行水平方向的降维处理(例如池化处理)，得到第二降维特征，并将第二降维特征按照水平方向划分为多个第二视频帧子特征。

作为承接图5的示例，通过相似网络将第一视频帧特征对应每个通道的数据进行缩减处理，得到第一缩减特征；将第一缩减特征进行水平方向的降维处理，得到第一降维特征，并将第一降维特征按照水平方向划分为多个第一视频帧子特征。

举例来说，将第一视频帧特征对应每个通道的数据进行缩减处理、以及将第二视频帧特征对应每个通道的数据进行缩减处理可以是将第一视频帧特征和第二视频帧特征中对应每个通道的数据同时减去一个相同的预设值，这样不改变第一视频帧特征和第二视频帧特征之间的相似性关系，并且能够减少后续计算相似度的复杂程度，提高相似度的确定速度。

在步骤S103中，基于多个第一视频帧子特征和多个第二视频帧子特征，确定第一视频帧和第二视频帧之间的相似度。

在一些实施例中，针对每个第一视频帧子特征执行以下处理：在多个第二视频帧子特征中，选取与第一视频帧子特征对应视频的相同位置的第二视频帧子特征，并确定第一视频帧子特征与选取的第二视频帧子特征之间的相似度；在多个第一视频帧子特征对应的相似度中，选取最小的相似度作为第一视频帧和第二视频帧之间的相似度。

作为承接图5的示例，通过相似网络针对每个第一视频帧子特征执行以下处理：在多个第二视频帧子特征中，选取与第一视频帧子特征对应视频的相同位置的第二视频帧子特征，并确定第一视频帧子特征与选取的第二视频帧子特征之间的相似度；在多个第一视频帧子特征对应的相似度中，选取最小的相似度作为第一视频帧和第二视频帧之间的相似度。

作为示例，确定第一视频帧子特征与选取的第二视频帧子特征之间的相似度可以包括：将第一视频帧子特征和选取的第二视频帧子特征进行绝对值相减处理，得到视频帧差值特征；将视频帧差值特征映射为对应多个候选相似度的概率；将最大概率所对应的候选相似度确定为对应第一视频帧子特征的相似度。

举例来说，将第一视频帧子特征和第二视频帧子特征进行绝对值相减处理可以是将第一视频帧子特征和第二视频帧子特征中对应每个通道的数据进行相减，并对相减后的结果取绝对值，得到视频帧差值特征，其中，视频帧差值特征的通道数量和第一视频帧子特征/第二视频帧子特征的通道数量相同。

本申请实施例将多个第一视频帧子特征对应的相似度中最小的相似度作为第一视频帧和第二视频帧之间的相似度，能够减小后续确定的标识帧的重复率。并且基于划分后的局部性的第一视频帧子特征和第二视频帧子特征确定第一视频帧和第二视频帧之间的相似度，相较于基于全局性的第一视频帧特征和第二视频帧特征确定相似度来说，确定的相似度的准确性更高，使得后续能够准确提取到拥有不同局部信息的标识帧，从而减少提取到的标识帧的重复率，提高从视频中提取标识帧的准确性。

在步骤S104中，根据第一视频帧和第二视频帧之间的相似度，确定视频中的标识帧。

在一些实施例中，当第一视频帧和第二视频帧之间的相似度超过相似度阈值时，将第一视频帧或第二视频帧作为视频中的标识帧；当第一视频帧和第二视频帧之间的相似度不超过相似度阈值时，将第一视频帧和第二视频帧作为视频中的标识帧。

作为示例，相似度阈值可以是在机器学习模型的训练过程中所获得的参数，也可以是用户、客户端或服务器设定的值。

第一视频帧和第二视频帧之间的相似度表征第一视频帧和第二视频帧相似的可能性，相似度越大表征第一视频帧和第二视频帧相似的可能性越小，相似度越小表征第一视频帧和第二视频帧相似的可能性越大。如此，在相似度超过相似度阈值的视频帧对(包括第一视频帧和第二视频帧)中选取任一个视频帧作为标识帧，能够减少提取到的标识帧的重复率，从而提高从视频中提取标识帧的准确性。

在一些实施例中，在步骤S104之前还可以包括：对第一视频帧进行分类处理，以获得第一视频帧是否包含文本的分类结果；对第二视频帧进行分类处理，以获得第二视频帧是否包含文本的分类结果。如此，步骤S104可以是根据分类结果、以及第一视频帧和第二视频帧之间的相似度，确定视频中的标识帧(或称文本标识帧)。

作为示例，对第一视频帧进行分类处理，以获得第一视频帧是否包含文本的分类结果可以包括：从第一视频帧提取第一图像特征，从第一图像特征提取第一文本掩码特征，对第一文本掩码特征进行分类处理，得到第一视频帧是否包含文本的分类结果。

作为承接图5的示例，通过第一分类网络对第一文本掩码特征进行分类处理，以获得第一视频帧是否包含文本的分类结果。

举例来说，当第一文本掩码特征中的掩码包括类型为1的掩码时，确定第一视频帧含有文本；当第一文本掩码特征中的掩码不包括类型为1的掩码时，确定第一视频帧不含有文本。

作为示例，对第二视频帧进行分类处理，以获得第二视频帧是否包含文本的分类结果可以包括：从第二视频帧提取第二图像特征，从第二图像特征提取第二文本掩码特征，对第二文本掩码特征进行分类处理，得到第二视频帧是否包含文本的分类结果。

作为承接图5的示例，通过第二分类网络对第二文本掩码特征进行分类处理，以获得第二视频帧是否包含文本的分类结果。

举例来说，当第二文本掩码特征中的掩码包括类型为1的掩码时，确定第二视频帧含有文本；当第二文本掩码特征中的掩码不包括类型为1的掩码时，确定第二视频帧不含有文本。

作为示例，根据分类结果、以及第一视频帧和第二视频帧之间的相似度，确定视频中的标识帧可以包括：当分类结果是第一视频帧包含文本、第二视频帧包含文本、且第一视频帧和第二视频帧之间的相似度不超过相似度阈值时，将第一视频帧和第二视频帧作为视频中的标识帧；当分类结果是第一视频帧包含文本、第二视频帧包含文本、且第一视频帧和第二视频帧之间的相似度超过相似度阈值时，将第一视频帧或第二视频帧作为视频中的标识帧；当分类结果是第一视频帧包含文本、且第二视频帧不包含文本时，将第一视频帧作为视频中的标识帧；当分类结果是第二视频帧包含文本、且第一视频帧不包含文本时，将第二视频帧作为视频中的标识帧。

举例来说，在确定视频中的标识帧后，还可以对标识帧进行文字识别处理，以获得得到文字识别结果；根据文字识别结果，对视频进行分类。

本申请实施例在相似度超过相似度阈值的视频帧对(包括第一视频帧和第二视频帧)中选取包含文本的视频帧作为文本标识帧，不仅能够减少提取到的文本标识帧的重复率，而且能够保证提取到的文本标识帧包含文本信息，能够便于后续针对文本标识帧进行处理，例如对视频进行分类等。

下面，以一个具体的应用场景为例说明本申请实施例提供的视频处理方法。

视频标识帧检测技术是选取视频中少量的视频帧或视频段来描述视频中发生的故事，这样能够有助于提高视频重要内容理解的效率。并且从视频中提取出的标识帧可以作为视频分类的依据，也可以将标识帧作为视频封面进行展示。本申请实施例能够检测视频中拥有不同文字的视频帧，能够有效地处理包含复杂文字场景(例如“街景文字”场景)的视频，且能够在多采样率的视频帧下，得到更稳定且更准确的标识帧。

参见图6，图6是本申请实施例提供的视频处理方法的流程示意图。在图6中，本申请实施例的视频处理方法可以分为三个阶段，第一阶段是通过视频流解码接口对视频进行分帧处理，第二阶段是使用图像分割技术及局部相似度匹配技术，通过孪生网络确定提取的视频帧的帧间相似性、以及提取的视频帧是否包含文字，第三阶段是根据提取的视频帧的帧间相似性、以及提取的视频帧是否包含文字，确定标识帧。

参见图7，图7是本申请实施例提供的孪生网络的结构示意图，将结合图7说明上述的三个阶段。

(一)使用视频解码工具(例如ffmpeg)将视频解码为连续的视频帧。

(二)提取相邻的第一视频帧和第二视频帧并组成视频帧对，将视频帧对作为孪生网络的输入，以确定第一视频帧和第二视频帧之间的相似度、以及第一视频帧和第二视频帧是否含有文本。

(1)确定第一视频帧和第二视频帧是否含有文本。

在一些实施例中，将这两个视频帧分别划分为28*28个图像块，并对每个图像块内是否含有文本进行预测。

作为示例，使用Resnet18网络作为模型框架，Resnet18网络的输入修改为448*448。不同于图像分割对像素级别的掩膜进行预测，本申请实施例只使用Resnet18网络中的第4_2卷积层的输出，生成大小为256*28*28的特征图(或称特征)。为了更准确地定位视频帧中的文本位置，图7中的文本位置提取网络首先使用上采样技术，完成Resnet18网络和文本位置提取网络输出的级联，然后通过小特征图(14*14)的反卷积实现更精准的特征重构，以此来更有效地定位视频帧中的文本位置。同时，文本位置提取网络中还引入频道(或称通道)注意力模块(Channel Attention Module)，频道注意力模块通过对生成的特征图的256个频道进行加权，以生成对应28*28的文本掩码区域(即上述的文本掩码特征)，其中，文本掩码区域相当于有28*28个小块，每一个小块对应一个图像块，每一个小块里面有一个0或者1的掩码，这个掩码代表对应的这个图像块里面是否有文本，例如，0表征这个图像块中无文本，1表征这个图像块中有文本。生成文本掩码区域的具体过程可以包括：(1)将28*28的特征图伸展为784维的向量，以得到256*784的特征图；(2)将256个784维的特征记为f

其中，W和b为文本位置提取网络可学习的参数，e为中间的编码向量，f

在一些实施例中，得到第一视频帧和第二视频帧的文本掩码区域后，即可确定第一视频帧和第二视频帧是否含有文本，例如，当第一视频帧的文本掩码区域中的掩码包括类型为1的掩码时，确定第一视频帧含有文本；当第一视频帧的文本掩码区域中的掩码不包括类型为1的掩码时，确定第一视频帧不含有文本；当第二视频帧的文本掩码区域中的掩码包括类型为1的掩码时，确定第二视频帧含有文本；当第二视频帧的文本掩码区域中的掩码不包括类型为1的掩码时，确定第二视频帧不含有文本。

(2)确定第一视频帧和第二视频帧之间的相似度。

在一些实施例中，为了计算第一视频帧和第二视频帧之间的相似度，本申请实施例引入局部相似度匹配技术及孪生网络。得到文本掩码区域后，将文本掩码区域与Resnet18网络中的第4_2卷积层的输出的256*28*28的特征图(即上述的图像特征)进行加权融合，得到对应的加权特征图(即上述的视频帧特征)。相似网络首先对加权特征图进行对应位置的相减处理，然后对处理过的256*28*28特征图使用水平方向的池化处理，将256*28*28的特征图池化为256*28*1的特征图，并将256*28*1的特征图按照水平方向平分成28份，分别对这28个水平方向的特征图进行相似度对比，以获得28个相似度得分，最后在这28个相似度得分中选择得分最低的相似度作为第一视频帧和第二视频帧之间的相似度。

在一些实施例中，孪生网络的输出包括两个任务，分别包括：确定第一视频帧和第二视频帧是否含有文本、以及确定第一视频帧和第二视频帧之间的相似度。本申请实施例可以通过多任务损失函数实现两种不同任务的联合训练，具体的，假设输入的数据包括：样本：第一图像x

其中，L

作为示例，可以使用Adam优化器对孪生网络进行训练，其中，起始的学习率可以设定为0.0005，每30个一代训练(Epoch)后可以将学习率降低为原来的0.1。小批量训练(Mini-Batch)的样本数量可以设置为64。在孪生网络的训练过程中，动量(Momentum)和权重衰减可以分别设置为0.9和0.0001。并且本申请实施例为了更有效地训练相似模块，可以将文本掩码模块的损失函数的权重与相似模块的损失函数的权重均设置为1。

(三)当第一视频帧和第二视频帧之间的相似度高于相似度阈值、且第一视频帧和第二视频帧含有文本时，将这两个视频帧合并为一帧(即随意舍弃掉其中的任意一帧)。

通过该策略，在过滤掉视频中不包含文本、且相似的视频帧后，剩下的就是视频的标识帧。

本申请实施例可以提取视频中的标识帧，使得后续可以使用标识帧代替视频中的所有视频帧进行帧内的文字检测与识别(例如，只对标识帧中的文字进行识别，识别出的结果可以作为视频的关键词，关键词可以作为视频的分类依据)，从而能够减少视频的处理时间。

下面结合图2说明本申请实施例提供的视频处理装置的实施为软件模块的示例性结构。

在一些实施例中，如图2所示，存储在存储器240的视频处理装置243中的软件模块可以包括：

提取模块2431，用于从视频的第一视频帧提取第一视频帧特征，并从视频的第二视频帧提取第二视频帧特征；划分模块2432，用于将第一视频帧特征划分为多个第一视频帧子特征，并将第二视频帧特征划分为多个第二视频帧子特征；相似度模块2433，用于基于多个第一视频帧子特征和多个第二视频帧子特征，确定第一视频帧和第二视频帧之间的相似度；确定模块2434，用于根据第一视频帧和第二视频帧之间的相似度，确定视频中的标识帧。

在上述方案中，相似度模块2433，还用于针对每个第一视频帧子特征执行以下处理：在多个第二视频帧子特征中，选取与第一视频帧子特征对应相同位置的第二视频帧子特征，并确定第一视频帧子特征与选取的第二视频帧子特征之间的相似度；在多个第一视频帧子特征对应的相似度中，选取最小的相似度作为第一视频帧和第二视频帧之间的相似度。

在上述方案中，相似度模块2433，还用于将第一视频帧子特征和选取的第二视频帧子特征进行绝对值相减处理，得到视频帧差值特征；将视频帧差值特征映射为对应多个候选相似度的概率；将最大概率所对应的候选相似度确定为对应第一视频帧子特征的相似度。

在上述方案中，提取模块2431，还用于从第一视频帧提取第一图像特征，并从第二视频帧提取第二图像特征；从第一图像特征提取第一文本掩码特征，并从第二图像特征提取第二文本掩码特征；将第一文本掩码特征和第一图像特征进行融合处理，得到第一视频帧特征；将第二文本掩码特征和第二图像特征进行融合处理，得到第二视频帧特征。

在上述方案中，提取模块2431，还用于对第一图像特征进行升维处理，得到第一升维图像特征；确定第一升维图像特征中每个通道所对应的注意力权重；根据第一升维图像特征中每个通道所对应的注意力权重，对第一升维图像特征中每个通道中的数据进行加权求和，得到第一文本掩码特征。

在上述方案中，提取模块2431，还用于对第二图像特征进行升维处理，得到第二升维图像特征；确定第二升维图像特征中每个通道所对应的注意力权重；根据第二升维图像特征中每个通道所对应的注意力权重，对第二升维图像特征中每个通道中的数据进行加权求和，得到第二文本掩码特征。

在上述方案中，提取模块2431，还用于对第一图像特征进行卷积处理，得到第一卷积特征，并将第一卷积特征进行反卷积处理，得到第一反卷积特征；将第一图像特征和第一反卷积特征进行融合处理，得到第一融合特征；将第一融合特征和第一反卷积特征进行融合处理，得到第一升维图像特征。

在上述方案中，提取模块2431，还用于对第二图像特征进行卷积处理，得到第二卷积特征，并将第二卷积特征进行反卷积处理，得到第二反卷积特征；将第二图像特征和第二反卷积特征进行融合处理，得到第二融合特征；将第二融合特征和第二反卷积特征进行融合处理，得到第二升维图像特征。

在上述方案中，提取模块2431，还用于确定第一文本掩码特征和第一图像特征分别对应的权重；基于第一文本掩码特征和第一图像特征分别对应的权重，对第一文本掩码特征和第一图像特征进行加权求和，得到第一视频帧特征。

在上述方案中，提取模块2431，还用于确定第二文本掩码特征和第二图像特征分别对应的权重；基于第二文本掩码特征和第二图像特征分别对应的权重，对第二文本掩码特征和第二图像特征进行加权求和，得到第二视频帧特征。

在上述方案中，提取模块2431，还用于将第一视频帧划分为多个第一图像块，并针对每个第一图像块进行特征提取处理，得到与多个第一图像块一一对应的多个第一图像子特征；将多个第一图像子特征进行组合，得到第一图像特征。

在上述方案中，提取模块2431，还用于将第二视频帧划分为多个第二图像块，并针对每个第二图像块进行特征提取处理，得到与多个第二图像块一一对应的多个第二图像子特征；将多个第二图像子特征进行组合，得到第二图像特征。

在上述方案中，划分模块2432，还用于将第一视频帧特征对应每个通道的数据进行缩减处理，得到第一缩减特征；将第一缩减特征进行水平方向的降维处理，得到第一降维特征，并将第一降维特征按照水平方向划分为多个第一视频帧子特征。

在上述方案中，划分模块2432，还用于将第二视频帧特征对应每个通道的数据进行缩减处理，得到第二缩减特征；将第二缩减特征进行水平方向的降维处理，得到第二降维特征，并将第二降维特征按照水平方向划分为多个第二视频帧子特征。

在上述方案中，视频处理装置243还包括：分类模块，用于从第一视频帧提取第一图像特征，并从第二视频帧提取第二图像特征；从第一图像特征提取第一文本掩码特征，并从第二图像特征提取第二文本掩码特征；对第一文本掩码特征进行分类处理，得到第一视频帧是否包含文本的分类结果，并对第二文本掩码特征进行分类处理，得到第二视频帧是否包含文本的分类结果。

在上述方案中，相似度模块2433，还用于当分类结果是第一视频帧包含文本、第二视频帧包含文本、且第一视频帧和第二视频帧之间的相似度不超过相似度阈值时，将第一视频帧和第二视频帧作为视频中的标识帧；当分类结果是第一视频帧包含文本、第二视频帧包含文本、且第一视频帧和第二视频帧之间的相似度超过相似度阈值时，将第一视频帧或第二视频帧作为视频中的标识帧；当分类结果是第一视频帧包含文本、且第二视频帧不包含文本时，将第一视频帧作为视频中的标识帧；当分类结果是第二视频帧包含文本、且第一视频帧不包含文本时，将第二视频帧作为视频中的标识帧。

在上述方案中，相似度模块2433，还用于当第一视频帧和第二视频帧之间的相似度超过相似度阈值时，将第一视频帧或第二视频帧作为视频中的标识帧；当第一视频帧和第二视频帧之间的相似度不超过相似度阈值时，将第一视频帧和第二视频帧作为视频中的标识帧。

在一些实施例中，可以将本申请实施例提供的视频处理方法的逻辑实现在智能合约中，由不同的节点通过调用各自节点的智能合约确定视频的标识帧，并通过取交集的方式确定最终的标识帧。本申请实施例通过多个节点之间的协同处理能够进一步提高从视频中提取标识帧的准确性。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的视频处理方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频处理方法，例如，图3和图4示出的视频处理方法，计算机包括智能终端和服务器在内的各种计算设备。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标注语言文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例基于划分后的局部性的第一视频帧子特征和第二视频帧子特征确定第一视频帧和第二视频帧之间的相似度，相较于基于全局性的第一视频帧特征和第二视频帧特征确定相似度来说，确定的相似度的准确性更高，使得后续能够准确提取到拥有不同局部信息的标识帧，从而减少提取到的标识帧的重复率，提高从视频中提取标识帧的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

完整全部详细技术资料下载