导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>视频特征提取、模型训练方法、装置、设备及存储介质

视频特征提取、模型训练方法、装置、设备及存储介质

文献发布时间：2023-06-19 19:27:02

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频特征提取、模型训练方法、装置、设备及存储介质。

背景技术

视频特征提取技术是指将一个视频图像序列映射成一个高维特征向量，并通过该高维特征向量表达视频画面内容。视频特征提取技术可以应用于较多场景，例如视频推荐场景或者视频搜索场景等。

目前，视频特征提取技术通常基于无监督的方式或者有监督的方式进行模型训练，从而得到能够提取视频特征的视频特征提取模型。但是，基于无监督的方式训练得到的视频特征提取模型的准确率较低。而基于有监督的方式训练得到的视频特征提取模型需要依赖于监督信息。这些监督信息通常需要人工标注，标注量较大，耗时较多，从而导致视频特征提取模型的训练效率较低。

因此，如何在保证视频特征提取模型准确度的情况下，提高视频特征提取模型的训练效率，是目前亟需解决的技术问题。

发明内容

本公开提供一种视频特征提取、模型训练方法、装置、设备及存储介质，不仅可以保证视频特征提取模型的准确度，还可以提高视频特征提取模型的训练效率。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种视频特征提取模型训练方法，该方法可以应用于电子设备。该方法可以包括：获取第一视频资源的视频特征和标签信息；

基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值；

获取第二视频资源的搜索词特征；

基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值；

基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

可选的，当第一视频资源的数量为多个，第二视频资源的数量为多个时，多个第一视频资源和多个第二视频资源中包括相同的视频资源和不同的视频资源；基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值，包括：

将第一类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第一分类目标；第一类视频资源用于表示多个第一视频资源和多个第二视频资源中相同的视频资源；

将第二类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第二分类目标；第二类视频资源用于表示多个第一视频资源和多个第二视频资源中不同的视频资源；

基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

可选的，基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值，包括：

基于第一分类目标，确定第一类特征集合；第一类特征集合用于表示第一类视频资源的视频特征和搜索词特征；

基于第二分类目标，确定第二类特征集合；第二类特征集合用于表示第二类视频资源的视频特征和搜索词特征；

根据第一类特征集合与第二类特征集合的差异信息，确定对比损失值。

可选的，获取第一视频资源的视频特征，包括：

获取第一视频资源的文本特征和图像特征；

基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征。

可选的，获取第一视频资源的文本特征和图像特征，包括：

基于图像特征提取算法，对第一视频资源的视频图像进行特征提取，以得到图像特征；

基于语音识别算法和文本检测算法，对第一视频资源进行文本检测，以得到文本信息；

基于文本特征提取算法，对文本信息进行特征提取，以得到文本特征。

可选的，视频特征提取模型训练方法还包括：

获取第一视频资源的初始视频特征，以及第二视频资源的初始搜索词特征；

对初始视频特征和初始搜索词特征进行正则化处理，以得到处理后的视频特征和处理后的搜索词特征；

将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征。

根据本公开实施例的第二方面，提供一种视频特征提取方法，该方法可以应用于电子设备。该方法可以包括：

获取待处理视频资源；

将待处理视频资源输入到视频特征提取模型中，以得到待处理视频资源的视频特征；视频特征提取模型为根据第一方面任一项的视频特征提取模型训练方法训练得到的。

根据本公开实施例的第三方面，提供一种视频特征提取模型训练装置，该装置可以应用于电子设备。该装置可以包括：获取单元和处理单元；

获取单元，用于获取第一视频资源的视频特征和标签信息；

处理单元，用于基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值；

获取单元，还用于获取第二视频资源的搜索词特征；

处理单元，还用于基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值；

处理单元，还用于基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

可选的，当第一视频资源的数量为多个，第二视频资源的数量为多个时，多个第一视频资源和多个第二视频资源中包括相同的视频资源和不同的视频资源；处理单元，具体用于：

基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

可选的，处理单元，具体用于：

基于第一分类目标，确定第一类特征集合；第一类特征集合用于表示第一类视频资源的视频特征和搜索词特征；

基于第二分类目标，确定第二类特征集合；第二类特征集合用于表示第二类视频资源的视频特征和搜索词特征；

根据第一类特征集合与第二类特征集合的差异信息，确定对比损失值。

可选的，获取单元，具体用于：

获取第一视频资源的文本特征和图像特征；

基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征。

可选的，获取单元，具体用于：

基于图像特征提取算法，对第一视频资源的视频图像进行特征提取，以得到图像特征；

基于语音识别算法和文本检测算法，对第一视频资源进行文本检测，以得到文本信息；

基于文本特征提取算法，对文本信息进行特征提取，以得到文本特征。

可选的，获取单元，还用于获取第一视频资源的初始视频特征，以及第二视频资源的初始搜索词特征；

处理单元，还用于对初始视频特征和初始搜索词特征进行正则化处理，以得到处理后的视频特征和处理后的搜索词特征；

处理单元，还用于将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征。

根据本公开实施例的第四方面，提供一种视频特征提取装置，该装置可以应用于电子设备。该装置可以包括：获取单元和处理单元；

获取单元，用于获取待处理视频资源；

处理单元，用于将待处理视频资源输入到视频特征提取模型中，以得到待处理视频资源的视频特征；视频特征提取模型为根据第一方面任一项的视频特征提取模型训练方法训练得到的。

根据本公开实施例的第五方面，提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行所述指令，以实现上述第一方面中任一种可选地视频特征提取模型训练方法，或者上述第二方面的视频特征提取方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中任一种可选地视频特征提取模型训练方法，或者上述第二方面的视频特征提取方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面中任一种可选地实现方式所述的视频特征提取模型训练方法，或者上述第二方面的视频特征提取方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于上述任一方面，本公开实施例提供一种视频特征提取模型训练方法，电子设备可以在获取第一视频资源的视频特征和标签信息后，基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值。然后，电子设备在获取第二视频资源的搜索词特征后，可以基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。后续，电子设备可以基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

由于分类损失值是根据分类结果与标签信息的差异信息得到的，对比损失值是根据视频特征和搜索词特征得到的，因此，基于分类损失值和对比损失值训练得到的视频特征提取模型，可以看作是基于包括标签信息和搜索词特征的有监督信息(无需人工标注监督信息)得到的视频特征提取模型。这样，视频特征提取模型在提取待处理视频的视频特征时，可以充分挖掘待处理视频的视频特征，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种视频特征提取模型训练系统的结构示意图；

图2示出了本公开实施例提供的一种视频特征提取模型训练方法的流程示意图；

图3示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图4示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图5示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图6示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图7示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图8示出了本公开实施例提供的又一种视频特征提取模型训练方法的流程示意图；

图9示出了本公开实施例提供的一种视频特征提取方法的流程示意图；

图10示出了本公开实施例提供的一种视频特征提取模型训练装置的结构示意图；

图11示出了本公开实施例提供的一种视频特征提取装置的结构示意图；

图12示出了本公开实施例提供的一种终端的结构示意图；

图13示出了本公开实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

通用技术中，视频特征提取技术通常基于无监督的方式或者有监督的方式进行模型训练，从而得到能够提取视频特征的视频特征提取模型。但是，基于无监督的方式训练得到的视频特征提取模型的准确率较低。而基于有监督的方式训练得到的视频特征提取模型需要依赖于监督信息。这些监督信息通常需要人工标注，标注量较大，耗时较多，从而导致视频特征提取模型的训练效率较低。

基于此，本公开实施例提供一种视频特征提取模型训练方法，电子设备可以在获取第一视频资源的视频特征和标签信息后，基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值。然后，电子设备在获取第二视频资源的搜索词特征后，可以基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。后续，电子设备可以基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

图1为本公开实施例提供的一种视频特征提取模型训练系统示意图，如图1所示，该视频特征提取模型训练系统中可以包括：服务器110和电子设备120，服务器110可以通过有线网络或无线网络与电子设备120之间建立连接。

其中，服务器110可以是一些多媒体资源服务平台的数据服务器，可以用于存储和处理多媒体资源。例如，多媒体资源服务平台可以是短视频应用服务平台、新闻服务平台、直播服务平台、购物服务平台、外卖服务平台、共享服务平台、功能性网站等。其中，短视频应用服务平台提供的多媒体资源可以为一些短视频作品，新闻服务平台提供的多媒体资源可以为一些新闻信息，直播服务平台提供的多媒体资源可以为直播作品等，其余不再一一赘述。本公开对多媒体资源服务平台的具体类型并不作限制。

本公开中，服务器110主要用于存储视频特征提取模型训练所需的数据，例如：第一视频资源、第一视频资源的视频特征和标签信息、第二视频资源、第二视频资源的搜索词特征等。服务器110可以在接收到电子设备120发送的数据获取请求时，将相应的数据发送给电子设备120。

一些实施例中，服务器110还可以包含有数据库或与数据库连接，多媒体资源服务平台的多媒体资源可以存储于数据库中。电子设备120可以通过服务器110实现对数据库中多媒体资源的访问操作。

电子设备120可以是服务器，也可以是终端，还可以是其他用于进行视频特征提取模型训练的电子设备，本公开对此不作限定。

当电子设备120为服务器时，电子设备120和服务器110可以是两个独立的服务器，也可以集成于同一服务器，本申请对此不作具体限定。

容易理解的是，当电子设备120和服务器110集成于同一服务器时，电子设备120和服务器110之间的通信方式为该服务器内部模块之间的通信。这种情况下，二者之间的通信流程与“电子设备120和服务器110相互独立的情况下，二者之间的通信流程”相同。

为了便于理解，本申请主要以电子设备120和服务器110独立设置为例进行说明。

上述服务器可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。

当电子设备120为终端时，电子设备120可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等可以安装并使用内容社区应用(如快手)的设备，本公开对该终端的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

可选地，上述图1所示的视频特征提取模型训练系统中，电子设备120可以与至少一个服务器110连接。本公开对服务器110的数量及类型均不作限制。

本公开实施例提供的视频特征提取模型训练方法可以应用于前述图1所示的应用场景中的电子设备120。

下面结合附图对本公开实施例提供的视频特征提取模型训练方法进行详细介绍。

如图2所示，当视频特征提取模型训练方法应用于电子设备时，该视频特征提取模型训练方法可以包括：

S201、电子设备获取第一视频资源的视频特征和标签信息。

其中，标签信息可以是第一视频资源的话题标签。

具体的，在训练得到视频特征提取模型时，为了提高视频特征提取模型的准确度，电子设备可以基于有监督的方式进行视频特征提取模型训练(基于有监督的方式训练得到的模型的准确度，高于基于无监督的方式训练得到的模型的准确度)。而基于有监督的方式进行视频特征提取模型训练时，需要依赖于监督信息。在这种情况下，电子设备可以获取第一视频资源的视频特征和标签信息。

由于标签信息是与第一视频资源匹配的标签信息，因此，电子设备可以将标签信息作为监督信息。这样，电子设备可以基于视频资源关联度较高的监督信息，训练得到准确度较高的视频特征提取模型。

示例性的，当第一视频资源为篮球视频时，第一视频资源的话题标签可以是“#体育”。

又一示例性的，当第一视频资源为音乐视频时，第一视频资源的话题标签可以是“#音乐”。

在一种可以实现的方式中，由于视频特征提取模型训练需要大量的训练数据作为依据，因此，本公开对于第一视频资源的数量不作限定。在实际应用中，第一视频资源的数量可以是1000个或者10000个。相应的，视频特征的数量，以及标签信息的数量也是多个，即电子设备可以获取每个第一视频资源对应的视频特征和标签信息。

在一种可以实现的方式中，电子设备可以从存储有视频特征提取模型训练所需数据的服务器(例如图1中的服务器110)中获取第一视频资源的视频特征和标签信息，也可以从存储有视频特征提取模型训练所需数据的数据库中获取第一视频资源和标签信息，然后基于特征提取算法确定第一视频资源的视频特征，本公开对此不作限定。

需要说明的是，上述数据库可以是电子设备的数据库，也可以是其他存储设备或者存储系统(例如分布式存储系统)中的数据库，本公开对此不作限定。

S202、电子设备基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值。

具体的，在获取第一视频资源的视频特征和标签信息后，为了得到用于训练视频特征提取模型的分类损失值，电子设备可以确定视频特征与标签信息的差异信息。但是，由于视频特征为特征向量，因此，电子设备可以基于分类模型确定第一视频资源的视频特征的分类结果。

电子设备可以根据已经分类好的类别数据对分类模型进行学习和训练，从而可以得到视频特征的分类结果。

在实际应用中，常见的分类模型包括：逻辑回归模型、决策树模型、支持向量机模型和朴素贝叶斯模型等。

可选的，分类模型可以是提前训练好的，用于确定视频特征的分类结果的模型。

可选的，电子设备还可以基于分类算法(例如k-近邻分类算法、决策树分类算法等)，确定第一视频资源的视频特征的分类结果。

在确定第一视频资源的视频特征的分类结果后，电子设备可以根据分类结果与标签信息的差异信息，确定分类损失值。

可选的，上述分类损失值可以是交叉熵函数值。

示例性的，当第一视频资源为篮球视频时，第一视频资源的话题标签可以是“#体育”。电子设备基于分类模型确定上述篮球视频的视频特征的分类结果为“篮球”。接着，电子设备可以根据“篮球”与“体育”的差异信息，确定分类损失值。

S203、电子设备获取第二视频资源的搜索词特征。

其中，搜索词特征可以是对第二视频资源执行搜索时的搜索词的特征。

由于搜索词特征是对第二视频资源执行搜索时的搜索词的特征，因此，电子设备可以将搜索词特征作为监督信息。这样，电子设备可以基于与视频资源关联度较高的监督信息，训练得到准确度较高的视频特征提取模型。

示例性的，当第二视频资源为篮球视频时，第二视频资源的搜索词可以是“篮球”。

又一示例性的，当第二视频资源为音乐视频时，第二视频资源的搜索词可以是“音乐”。

在一种可以实现的方式中，由于视频特征提取模型训练需要大量的训练数据作为依据，因此，本公开对于第二视频资源的数量不作限定。在实际应用中，第二视频资源的数量可以是1000个或者10000个。相应的，第二视频资源的搜索词特征的数量也是多个，即电子设备可以获取每个第二视频资源对应的搜索词特征。

在一种可以实现的方式中，电子设备可以从存储有视频特征提取模型训练所需数据的服务器(例如图1中的服务器110)中获取第二视频资源的搜索词特征，也可以从存储有视频特征提取模型训练所需数据的数据库中获取第二视频资源，然后基于特征提取算法确定第二视频资源的搜索词特征，本公开对此不作限定。

需要说明的是，上述数据库可以是电子设备的数据库，也可以是其他存储设备或者存储系统(例如分布式存储系统)中的数据库，本公开对此不作限定。

S204、电子设备基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

具体的，在获取第一视频资源的视频特征和第二视频资源的搜索词特征后，为了得到用于训练视频特征提取模型的对比损失值，电子设备可以于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

可选的，对比学习模型可以是提前训练好的，用于对不同特征进行对比学习，以得到疷损失值的模型。

可选的，电子设备还可以基于对比学习算法，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

可选的，上述对比损失值可以是交叉熵函数值。

S205、电子设备基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

可选的，电子设备可以将对比损失值和分类损失值进行相加，得到对应的联合损失，并基于该联合损失对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。由上可知，由于分类损失值是根据分类结果与标签信息的差异信息得到的，对比损失值是根据视频特征和搜索词特征得到的，因此，基于分类损失值和对比损失值训练得到的视频特征提取模型，可以看作是基于包括标签信息和搜索词特征的有监督信息(无需人工标注监督信息)得到的视频特征提取模型。这样，视频特征提取模型在提取待处理视频的视频特征时，可以充分挖掘待处理视频的视频特征，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

在一种可以实现的方式中，当第一视频资源的数量为多个，第二视频资源的数量为多个时，多个第一视频资源和多个第二视频资源中包括相同的视频资源和不同的视频资源。在这种情况下，结合图2，如图3所示，上述S204中，电子设备基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值的方法具体包括：

S301、电子设备将第一类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第一分类目标。

其中，第一类视频资源用于表示多个第一视频资源和多个第二视频资源中相同的视频资源。

S302、电子设备将第二类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第二分类目标。

其中，第二类视频资源用于表示多个第一视频资源和多个第二视频资源中不同的视频资源。

具体的，对比学习模型是一种机器学习技术，电子设备可以通过学习多个第一视频资源和多个第二视频资源中的相似、相同或不同的数据,进而确定对比损失值。

在对比学习模型中，需要提前设定好学习优化目标，使得训练数据可以向这个优化目标趋近，从而得到最终的高准确度的特征提取模型。

对于第一类视频资源，即多个第一视频资源和多个第二视频资源中相同的视频资源，电子设备可以确定相同视频资源的视频特征和搜索词特征是相似或者相同的。在这种情况下，相同视频资源的视频特征和搜索词特征的点积最大。因此，电子设备可以将第一类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第一分类目标。

相应的，对于第二类视频资源，即多个第一视频资源和多个第二视频资源中不同的视频资源，电子设备可以确定不同视频资源的视频特征和搜索词特征是不相似的。在这种情况下，不同视频资源的视频特征和搜索词特征的点积小于相同视频资源的视频特征和搜索词特征的点积。因此，电子设备可以将第二类视频资源的视频特征和搜索词特征的点积，确定为对比学习模型的第二分类目标。

示例性的，对于多个第一视频资源和多个第二视频资源，多个第一视频资源中的第i个第一视频资源和多个第二视频资源中的第i个第二视频资源是相同的。相应的，多个第一视频资源中的第j个第一视频资源和多个第二视频资源中的第j个第二视频资源也是相同的。

其中，i为正整数；j为正整数。

但是，多个第一视频资源中的第i个第一视频资源和多个第二视频资源中的第j个第二视频资源是不同的。相应的，多个第一视频资源中的第j个第一视频资源和多个第二视频资源中的第i个第二视频资源也是不同的。

在这种情况下，第i个第一视频资源的视频特征与第i个第而视频资源的搜索词特征的点积S

基于同样的道理，第j个第一视频资源的视频特征与第j个第而视频资源的搜索词特征的点积S

在这种情况下，电子设备可以将第i个第一视频资源的视频特征与第i个第而视频资源的搜索词特征的点积S

S303、电子设备基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

具体的，在确定第一分类目标和第二分类目标后，电子设备可以基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值，给出了一种确定对比损失值的具体实现方式，以便于后续根据对比损失值训练得到的视频特征提取模型，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

在一种可以实现的方式中，结合图3，如图4所示，上述S303中，电子设备基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值的方法具体包括：

S401、电子设备基于第一分类目标，确定第一类特征集合。

其中，第一类特征集合用于表示第一类视频资源的视频特征和搜索词特征。

具体的，在确定第一分类目标后，电子设备可以对多个第一视频资源的视频特征和多个第二视频资源的搜索词特征进行分类，以得到第一类视频资源的视频特征和搜索词特征。

由于第一分类目标用于表示多个第一视频资源和多个第二视频资源中相同视频资源的视频特征和搜索词特征的点积，因此，电子设备可以确定每个第一视频资源的视频特征与每个第二视频资源的搜索词特征的点积，以得到多个点积。然后，电子设备可以从多个点积中，确定相同视频资源视频特征和搜索词特征的点积，并将相同视频资源视频特征和搜索词特征组成的集合确定为第一类特征集合。

S402、电子设备基于第二分类目标，确定第二类特征集合。

其中，第二类特征集合用于表示第二类视频资源的视频特征和搜索词特征。

具体的，在确定第二分类目标后，电子设备可以对多个第一视频资源的视频特征和多个第二视频资源的搜索词特征进行分类，以得到第二类视频资源的视频特征和搜索词特征。

由于第二分类目标用于表示多个第一视频资源和多个第二视频资源中不同视频资源的视频特征和搜索词特征的点积，因此，电子设备可以确定每个第一视频资源的视频特征与每个第二视频资源的搜索词特征的点积，以得到多个点积。然后，电子设备可以从多个点积中，确定不同视频资源视频特征和搜索词特征的点积，并将不同视频资源视频特征和搜索词特征组成的集合确定为第二类特征集合。

S403、电子设备根据第一类特征集合与第二类特征集合的差异信息，确定对比损失值。

示例性的，多个第一视频资源包括第一视频资源A和第一视频资源B。多个第二视频资源包括第二视频资源1和第二视频资源2。其中，第一视频资源A和第二视频资源1是相同的视频资源，第一视频资源B和第二视频资源2也是相同的视频资源。第一视频资源A和第二视频资源2是不同的视频资源，第一视频资源B和第二视频资源1也是不同的视频资源。

在这种情况下，电子设备可以基于第一分类目标，得到2个第一类特征集合，一个第一类特征集合包括：第一视频资源A的视频特征和第二视频资源1的搜索词特征。另一个第一类特征集合包括：第二视频资源B的视频特征和第二视频资源2的搜索词特征。

相应的，电子设备可以基于第二分类目标，得到2个第二类特征集合，一个第二类特征集合包括：第一视频资源A的视频特征和第二视频资源2的搜索词特征。另一个第二类特征集合包括：第二视频资源A的视频特征和第二视频资源2的搜索词特征。

接着，电子设备可以确定每个第一类特征集合和每个第二类特征集合的差异信息，并根据得到的差异信息确定对比损失值。

其中，上述差异信息可以是对每个第一类特征集合中的特征向量进行加权求和，以得到每个第一类特征集合对应的第一向量，以及对每个第二类特征集合中的特征向量进行加权求和，以得到每个第二类特征集合对应的第二向量。然后，电子设备可以将每个第一向量和每个第二向量的差值确定为差异信息。

由上可知，在确定第一类特征集合和第二类特征集合后，电子设备可以根据第一类特征集合与第二类特征集合的差异信息，确定对比损失值，给出了一种确定对比损失值的具体实现方式，以便于后续根据对比损失值训练得到的视频特征提取模型，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

在一种可以实现的方式中，结合图4，如图5所示，上述S201中，电子设备获取第一视频资源的视频特征的方法具体包括：

S501、电子设备获取第一视频资源的文本特征和图像特征。

具体的，电子设备可以获取第一视频资源的文本特征和图像特征，以便于后续根据文本特征和图像特征得到第一视频资源的视频特征。

上述视频特征可以是特征向量，该特征向量用于表示第一视频资源的资源内容。

上述文本特征也可以是特征向量，该特征向量用于第一视频资源的文本内容，例如视频标题，视频中的字幕、语音转换后的文字等。

上述图像特征也可以是特征向量，该特征向量用于表示第一视频资源的图像内容，例如视频封面，视频帧等图像。

S502、电子设备基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征。

在获取第一视频资源的文本特征和图像特征后，由于第一视频资源的数量是巨大的，如果用两种特征确定分类损失值，可能会降低视频特征提取模型训练的效率。在这种情况下，电子设备可以于多模态算法，对文本特征和视频特征进行特征融合，以得到视频特征。这样，电子设备可以基于一种多模态特征(即视频特征)确定分类损失值，提高了视频特征提取模型训练的效率。

其中，多模态算法包括：多头注意力机制(Multi-headed Self-attention)算法。

在实际应用中，电子设备还可以通过其他多模态算法，对文本特征和视频特征进行特征融合，以得到视频特征，本公开对此不作限定。

由上可知，在获取第一视频资源的文本特征和图像特征后，电子设备可以基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征，给出了一种确定视频特征的具体实现方式，以便于后续根据视频特征确定分类损失值，进而根据分类损失值训练得到的视频特征提取模型，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

在一种可以实现的方式中，结合图5，如图6所示，上述S501中，电子设备获取第一视频资源的文本特征和图像特征的方法具体包括：

S601、电子设备基于图像特征提取算法，对第一视频资源的视频图像进行特征提取，以得到图像特征。

具体的，为了快速得到视频特征，电子设备可以基于图像特征提取算法，对第一视频资源的视频图像进行特征提取，以得到图像特征。

上述图像特征可以是特征向量。该特征向量用于表示第一视频资源的视频图像的图像内容。

在一种可以实现的方式中，第一视频资源的视频图像可以是第一视频资源中的封面图片、视频帧等。

在一种实施例中，电子设备可以对第一视频资源进行视频帧处理和获取第一视频资源的封面图片，从而得到第一视频资源的视频图像。

示例性的，当第一视频资源为篮球视频时，该篮球视频的视频图像可以是该篮球视频的封面图片：“一个篮球的图片”。

接着，电子设备可以利用图像特征提取算法，从该篮球视频的视频图像中提取到第一视频资源的图像特征。

可选的，图像特征提取算法可以是基于残差网络的特征提取算法(resnet-50)。

在实际应用中，电子设备还可以通过其他图像特征提取技术(例如图像特征提取模型等)，对第一视频资源的视频图像进行特征提取，以得到图像特征，本公开对此不作限定。

S602、电子设备基于语音识别算法和文本检测算法，对第一视频资源进行文本检测，以得到文本信息。

S603、电子设备基于文本特征提取算法，对文本信息进行特征提取，以得到文本特征。

具体的，为了快速得到视频特征，电子设备可以基于语音识别算法和文本检测算法，对第一视频资源进行文本检测，以得到文本信息，并基于文本特征提取算法，对文本信息进行特征提取，以得到文本特征。

上述文本特征可以是特征向量。该特征向量用于表示第一视频资源中文本信息的文本内容。

在一种可以实现的方式中，第一视频资源的文本信息可以是第一视频资源中的文字、标题、语音内容等。

示例性的，当第一视频资源为篮球视频时，该篮球视频的文本信息可以是该篮球视频的标题：“如何打篮球”。

可选的，文本特征提取算法可以是基于双向编码器的特征提取算法(Bidirectional Encoder Representation from Transformers，BERT)。

在实际应用中，电子设备还可以通过其他文本特征提取技术(例如文本特征提取模型等)，对第一视频资源的文本信息进行特征提取，以得到文本特征，本公开对此不作限定。

由上可知，电子设备可以基于各种特征提取算法，获取第一视频资源的文本特征和图像特征，给出了一种获取第一视频资源的文本特征和图像特征的具体实现方式，以便于后续根据第一视频资源的文本特征和图像特征确定视频特征，以及根据视频特征确定分类损失值，进而根据分类损失值训练得到的视频特征提取模型，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

在一种可以实现的方式中，如图7所示，该视频特征提取模型训练方法还包括：

S701、电子设备获取第一视频资源的初始视频特征，以及第二视频资源的初始搜索词特征。

S702、电子设备对初始视频特征和初始搜索词特征进行正则化处理，以得到处理后的视频特征和处理后的搜索词特征。

S703、电子设备将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征。

具体的，由于初始视频特征是第一视频资源的视频特征，初始搜索词特征是第二视频资源的搜索词特征，因此，为了保证确定对比损失值的视频特征和搜索词特征在同一纬度，因此，电子设备可以对初始视频特征和初始搜索词特征进行正则化处理，以得到处理后的视频特征和处理后的搜索词特征，并将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征。

在实际应用中，上述正则化可以是L2正则化。

由上可知，电子设备可以将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征，给出了一种获取第一视频资源的视频特征，以及第二视频资源的搜索词特征的具体实现方式，以便于后续对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值，进而根据对比损失值训练得到的视频特征提取模型，提高了目标特征提取模型的准确度的同时，还提高了视频特征提取模型的训练效率。

示例性的，图8示出了本申请实施例提供的一种视频特征提取模型训练方法的流程示意图。如图8所示，电子设备120可以从服务器110中获取第一视频资源的视频图像和文本信息。

相应的，电子设备120还可以从服务器110中获取第二视频资源的搜索词。

接着，电子设备120可以基于图像特征提取算法(或者图像编码器)，确定第一视频资源的视频图像的图像特征。

相应的，电子设备120可以基于文本特征提取算法(或者文本编码器)，确定第一视频资源的文本信息的文本特征。

相应的，电子设备120可以基于文本特征提取算法(或者文本编码器)，确定第二视频资源的搜索词的搜索词特征。

接着，电子设备120可以基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征。

接着，电子设备120可以基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值。

接着，电子设备120可以基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值；

接着，电子设备120可以基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

图9示出了本申请实施例提供的一种视频特征提取方法的流程示意图。如图9所示，该视频特征提取方法包括：

S901、电子设备获取待处理视频资源。

在一种可以实现的方式中，电子设备可以从各个需求方(需要确定资源特征的用户或者平台)对应的服务器获取处理视频资源。

S902、电子设备将待处理视频资源输入到视频特征提取模型中，以得到待处理视频资源的视频特征。

其中，视频特征提取模型为根据图2-图8中任一项的视频特征提取模型训练方法训练得到的。

上述视频特征可以是特征向量。该特征向量用于表示待处理视频资源的视频内容。

上述实施例提供的技术方案至少带来以下有益效果：由S901-S902可知，给出了一种电子设备使用目标特征提取模型确定待处理视频资源的视频特征的使用场景。通过目标特征提取模型可以快速、准确的得到待处理视频资源的视频特征。

在一种实施例中，当待处理视频资源包括第三视频资源和第四视频资源时，将待处理视频资源的资源特征输入到目标特征提取模型中，以得到视频特征之后，电子设备还可以根据第三视频资源的内容特征和第四视频资源的内容特征，确定第三视频资源和第四视频资源的相似度，从而为后续视频资源关联搜索提供重要依据。

可以理解的，在实际实施时，本公开实施例的终端/服务器可以包含有用于实现前述对应视频特征提取模型训练方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种视频特征提取模型训练装置，可以应用于电子设备。图10示出了本公开实施例提供的视频特征提取模型训练装置的结构示意图。如图10所示，该视频特征提取模型训练装置可以包括：获取单元1001和处理单元1002；

获取单元1001，用于获取第一视频资源的视频特征和标签信息；

处理单元1002，用于基于分类模型确定第一视频资源的视频特征的分类结果，并根据分类结果与标签信息的差异信息，确定分类损失值；

获取单元1001，还用于获取第二视频资源的搜索词特征；

处理单元1002，还用于基于对比学习模型，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值；

处理单元1002，还用于基于分类损失值和对比损失值，对待训练的视频特征提取模型进行训练，以得到视频特征提取模型。

可选的，当第一视频资源的数量为多个，第二视频资源的数量为多个时，多个第一视频资源和多个第二视频资源中包括相同的视频资源和不同的视频资源；处理单元1002具体用于：

基于第一分类目标和第二分类目标，对第一视频资源的视频特征和第二视频资源的搜索词特征进行对比学习，以得到对比损失值。

可选的，处理单元1002具体用于：

基于第一分类目标，确定第一类特征集合；第一类特征集合用于表示第一类视频资源的视频特征和搜索词特征；

基于第二分类目标，确定第二类特征集合；第二类特征集合用于表示第二类视频资源的视频特征和搜索词特征；

根据第一类特征集合与第二类特征集合的差异信息，确定对比损失值。

可选的，获取单元1001具体用于：

获取第一视频资源的文本特征和图像特征；

基于多模态算法，对文本特征和图像特征进行特征融合，以得到视频特征。

可选的，获取单元1001具体用于：

基于图像特征提取算法，对第一视频资源的视频图像进行特征提取，以得到图像特征；

基于语音识别算法和文本检测算法，对第一视频资源进行文本检测，以得到文本信息；

基于文本特征提取算法，对文本信息进行特征提取，以得到文本特征。

可选的，获取单元1001还用于获取第一视频资源的初始视频特征，以及第二视频资源的初始搜索词特征；

处理单元1002还用于对初始视频特征和初始搜索词特征进行正则化处理，以得到处理后的视频特征和处理后的搜索词特征；

处理单元1002还用于将处理后的视频特征确定为第一视频资源的视频特征，以及将处理后的搜索词特征确定为第二视频资源的搜索词特征。

图11示出了本公开实施例提供的视频特征提取装置的结构示意图。如图11所示，该视频特征提取装置可以包括：获取单元1101和处理单元1102；

获取单元1101用于获取待处理视频资源；

处理单元1102用于将待处理视频资源输入到视频特征提取模型中，以得到待处理视频资源的视频特征；视频特征提取模型为根据图2-图8中任意一项视频特征提取模型训练方法训练得到的。

如上所述，本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的视频特征提取模型训练装置或者视频特征提取装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

本公开实施例还提供一种终端，终端可以是手机、电脑等用户终端。图12示出了本公开实施例提供的终端的结构示意图。该终端可以是视频特征提取模型训练装置或者视频特征提取装置。该装置可以包括至少一个处理器61，通信总线62，存储器63以及至少一个通信接口64。

处理器61可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。作为一个示例，结合图10，电子设备中的处理单元1002实现的功能与图12中的处理器61实现的功能相同。

通信总线62可包括一通路，在上述组件之间传送信息。

通信接口64，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless localarea networks，WLAN)等。作为一个示例，

存储器63可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器63用于存储执行本公开方案的应用程序代码，并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器61可以包括一个或多个CPU，例如图12中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端可以包括多个处理器，例如图12中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信，可以以多种方式接受用户的输入。例如，输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信，可以以多种方式来显示信息。例如，输出设备61可以是液晶显示器(liquid crystal display，LCD)，发光二极管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图12中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供一种服务器。图13示出了本公开实施例提供的服务器的结构示意图。该服务器可以是视频特征提取模型训练装置或者视频特征提取装置。该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中，存储器72中存储有至少一条指令，至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的视频特征提取模型训练方法或者视频特征提取方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的视频特征提取模型训练方法或者视频特征提取方法。例如，计算机可读存储介质可以为包括指令的存储器63，上述指令可由终端的处理器61执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器72，上述指令可由服务器的处理器71执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行上述图2-图8任一附图所示的视频特征提取模型训练方法，或者执行上述图9所示的视频特征提取方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：沈栋;吴翔宇;
专利申请人：北京达佳互联信息技术有限公司;

上一篇：一种楔式垫片组合
下一篇：气泡发生器、反应器和环氧丙烷吸收二氧化碳制碳酸丙烯酯的方法