视频特征提取网络的训练方法及装置

文献发布时间：2023-06-19 16:09:34

技术领域

本说明书实施例涉及视频处理技术领域，特别涉及一种视频特征提取网络的训练方法、一种基于视频特征提取网络的视频分类方法。本说明书一个或者多个实施例同时涉及一种视频特征提取网络的训练装置、一种基于视频特征提取网络的视频分类装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着多媒体技术的应用与发展，越来越多的业务依赖于视频分类和视频理解等技术，通常而言，在训练与视频相关的算法模型时，需要准备大量的标注有标签的训练数据，而视频是一种重要的内容载体，视频中会包括有大量特征，因此大规模的进行人工标注业务领域视频，是费时费力的。因此，如何降低训练视频相关的算法模型的训练成本是目前亟需解决的问题。

发明内容

有鉴于此，本说明书实施例提供了一种视频特征提取网络的训练方法、一种基于视频特征提取网络的视频分类方法。本说明书一个或者多个实施例同时涉及一种视频特征提取网络的训练装置、一种基于视频特征提取网络的视频分类装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种视频特征提取网络的训练方法，包括：

获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；

将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；

获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；

将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；

根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。

根据本说明书实施例的第二方面，提供了一种基于视频特征提取网络的视频分类方法，包括：

获得待分类视频；

将所述待分类视频输入至通过视频特征提取网络的训练方法训练获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果；

将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。

根据本说明书实施例的第三方面，提供了一种视频特征提取网络的训练装置，包括：

获取模块，被配置为获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；

输入模块，被配置为将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；

第一计算模块，被配置为获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；

第二计算模块，被配置为将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；

调整模块，被配置为根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。

根据本说明书实施例的第四方面，提供了一种基于视频特征提取网络的视频分类装置，包括：

获取模块，被配置为获取待分类视频；

输入模块，被配置为将所述待分类视频输入至通过视频特征提取网络的训练方法训练获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果；

获得模块，被配置为将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。

根据本说明书实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

本说明书提供的视频特征提取网络的训练方法，包括：获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。

本说明书一实施例通过根据样本视频获得样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，根据待训练特征提取网络提取第一视频帧序列、第二视频帧序列，获得第一提取结果，参考特征提取模型提取第一视频帧序列、第二视频帧序列，获得第二提取结果，并基于比对编码结果、第一提取结果和第二提取结果计算第一损失值，根据乱序权重预测网络输出的序列乱序预测权重和序列乱序样本权重计算第二损失值，基于第一损失值和第二损失值调整视频特征提取网络的参数，获得训练好的视频特征提取网络。实现了在无大量标签数据的情况下，对视频特征提取网络进行训练，并且可以达到在少量标注数据下，达到较高准确率的目的。

附图说明

图1是本说明书一个实施例提供的一种视频特征提取网络的训练方法的流程图；

图2是本说明书一个实施例提供的一种基于视频特征提取网络的视频分类方法的处理过程流程图；

图3是本说明书一个实施例提供的一种视频特征提取网络的训练装置的结构示意图；

图4是本说明书一个实施例提供的一种基于视频特征提取网络的视频分类装置的结构示意图；

图5是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

自监督学习：一种能够在无标签数据上训练，并使得模型具备特征提取能力的训练方法。

特征学习：一种训练模型特征提取能力的方法，其目的是为了得到泛化能力强的特征提取模型，从而辅助下游任务的训练，一般可以是有监督式或者自监督式的。

对比学习：特征学习的一种形式，通过构造正样本对，负样本对集合，采用相似度对比的方式训练。

目前，越来越多的业务将依赖视频分类和视频理解等技术。通常而言，训练视频相关的算法模型，离不开大量标注过标签的训练数据，而大规模的人工标注业务领域视频，是费时费力的，导致训练数据的成本过高。因此，减少业务标注训练数据具有非常高的价值。

基于此在本说明书中，提供了一种视频特征提取网络的训练方法，采用自监督的训练策略学习视觉特征，得到视频特征提取网络；一种基于视频特征提取网络的视频分类方法。本说明书同时涉及一种视频特征提取网络的训练装置、一种基于视频特征提取网络的视频分类装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种视频特征提取网络的训练方法的流程图，包括步骤102至步骤110。

步骤102：获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同。

其中，样本视频可以理解为用于训练的视频，样本视频没有标注有对应的分类标签，在实际应用中，样本视频可以是风景视频、人物视频等；第一视频帧序列和第二视频帧序列可以理解为从同一个样本视频中采样获得的视频帧序列，第一视频帧序列和第二视频帧序列中包括有样本视频的视频帧；序列乱序样本权重可以理解为根据样本视频计算获得的权重，序列乱序样本权重实质上是指视频帧序列的帧序混乱程度分类权重，将序列乱序样本权重作为样本视频对应的混乱程度分类标签，用于后续在计算交叉熵损失函数。

在实际应用中，第一视频帧序列和第二视频帧序列的图像参数不同，是因为第一视频帧序列和第二视频帧序列是根据样本视频的视频帧序列通过不同方式的图像数据增强获得，从而导致第一视频帧序列和第二视频帧序列的图像参数不同。图像数据增强是在有限数据集上进行人工扩张产生更多等价的数据。它能有效弥补现有训练数据的不足，防止模型出现过拟合现象，增强模型的泛化能力。

在本说明书一实施例中，获取样本视频A，根据样本视频A获得样本视频的第一视频帧序列a1和第二视频帧序列a2以及序列乱序样本权重。

具体地，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，包括：

根据预设采样频率，对所述样本视频进行视频采样，生成初始视频帧序列；

打乱所述初始视频帧序列中的视频帧顺序，获得所述初始视频帧序列对应的乱序视频帧序列；

基于所处初始视频帧序列和所处乱序视频帧序列生成所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重。

其中，预设采样频率可以理解为预先设置的采样间隔，例如预设采样频率为2，即采样间隔设置为2。当样本视频为64帧的视频，根据预设采样频率进行间隔采样之后，可以获得一个长度为32的视频帧序列。乱序视频帧序列可以理解为将初始视频帧序列进行打乱之后获得的视频帧序列，例如初始视频帧序列中的视频帧按照[1-2-3……32]进行排序，对初始视频帧序列中的视频帧顺序进行随机打乱之后，获得的乱序视频帧序列中的视频帧顺序可以为[3-6-30……4]等。

在实际应用中，在获得初始视频帧序列和乱序视频帧序列之后，可以基于初始视频帧序列和乱序视频帧序列获得第一视频帧序列和第二视频帧序列，并通过编辑距离公式计算乱序视频帧序列和初始视频帧序列的不同程度，作为序列乱序样本权重，即混乱程度分类标签。需要注意的是，打乱方式需要保证编辑距离符合均匀分布，从而有利于视频帧帧序混乱程度分类的训练。

在本说明书一实施例中，沿用上例，预设采样频率为2，对样本视频A进行间隔采样，获得初始视频帧序列，初始视频帧序列的长度为16。随机打乱初始视频帧序列的顺序，获得乱序视频帧序列，再基于初始视频帧序列和乱序视频帧序列生成第一视频帧序列a1和第二视频帧序列a2，并计算出序列乱序样本权重。

具体地，基于所处初始视频帧序列和所处乱序视频帧序列生成所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，包括：

根据所述初始视频帧序列和所述乱序视频帧序列合成待增强视频帧序列；

根据第一预设增强规则调整所述待增强视频帧序列的图像参数，获得第一视频帧序列；

根据第二预设增强规则调整所述待增强视频帧序列的图像参数，获得第二视频帧序列；

根据所述初始视频帧序列和所述乱序视频帧序列计算所述样本视频对应的序列乱序样本权重。

其中，待增强视频帧序列可以理解为将初始视频帧序列和乱序视频帧序列按照时序合并到一起，获得的视频帧序列，待增强视频序列用于后续进行图像数据增强，从而获得第一视频帧序列和第二视频帧序列。调整待增强视频帧序列的图像参数可以理解为对待增强视频帧序列做数据增强，数据增强包括模糊、均衡化、颜色干扰、噪声等方式，随机选择两种不同的增强方式对待增强视频帧序列进行图像增强，从而获得第一视频帧序列和第二视频帧序列，由于第一视频帧序列和第二视频帧序列是通过不同的数据增强方式获得，从而第一视频帧序列和第二视频帧序列的图像参数不同。

在实际应用中，将初始视频帧序列和乱序视频帧序列通过时序合并到一起获得待增强视频帧序列之后，可以使用随机种子随机得到两组不同的图像数据增强参数，根据两组不同的图像数据增强参数对待增强视频帧序列做数据增强，获得第一视频帧序列和第二视频帧序列。

在本说明书一实施例中，沿用上例，将初始视频帧序列和乱序视频帧序列通过时序合并，获得待增强视频帧序列，使用随机中得到两组不同的图像数据增强参数，包括对待增强视频帧序列进行短边调整至128像素值，再调整比例剪切至112像素值，获得第一视频帧序列a1；对待增强视频序列进行水平方向翻转，获得第二视频帧序列a2。使用编辑距离公式计算初始视频帧序列和乱序视频帧序列的不同程度，将计算结果作为序列乱序样本权重，即混乱程度分类标签。

步骤104：将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果。

其中，待训练特征提取网络可以是3D卷积网络，参考特征提取模型可以是视频翻译模型(video transformer)。将第一视频帧序列和第二视频帧序列分别输入至待训练特征提取网络，可以获得待训练特征提取网络输出的第一提取结果，第一提取结果中包括有根据第一视频帧序列提取的结果和根据第二视频帧序列提取的结果；将第一视频帧序列和第二视频帧序列分别输入至参考特征提取模型，可以获得参考特征提取模型输出的第二提取结果，第二提取结果中包括有根据第一视频帧序列提取的结果和根据第二视频帧序列提取的结果。

在实际应用中，由于第一提取结果和第二提取结果都是根据同一个样本视频的视频帧序列提取获得，虽然待训练特征提取网络和参考特征提取模型的网络结构不同，即经过不同的提取形式，但是提取结果表示的语义信息是一致的，都表征为样本视频的视觉特征，因此第一提取结果和第二提取结果的相似度较高。

在本说明书一实施例中，沿用上例，将第一视频帧序列a1和第二视频帧序列a2分别输入至待训练特征提取网络中，获得待训练特征提取网络输出的第一提取结果；将第一视频帧序列a1和第二视频帧序列a2分别输入至参考特征提取模型中，获得参考特征提取模型输出的第二提取结果。

步骤106：获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值。

其中，比对编码结果可以理解为对第一视频帧序列和第二视频帧序列进行编码获得的编码结果，第一损失值可以理解为对比学习损失值，即通过对比学习损失函数计算获得的损失值。

在实际应用中，在根据样本视频进行训练的过程中，获取的比对编码结果可以是之前根据其他样本视频对应第一视频帧序列和第二视频帧序列进行编码获得的比对编码结果，并且在获取比对编码结果时，会获取到之前所有生成的编码结果作为本次训练所用到的训练数据，即比对编码结果。

在本说明书一实施例中，获取比对编码结果，基于比对编码结果、第一提取结果和第二提取结果计算对比学习损失值。

具体地，获取比对编码结果，包括：

读取比对编码结果队列；

从所述比对编码结果队列中获取比对编码结果。

其中，比对编码结果队列可以理解为保存每次训练迭代中编码获得的编码结果的队列，在每次训练迭代中，生成的编码结果都会保存在一个队列结构中，在之后的训练中，从比对编码结构队列中获取比对编码结果。

在实际应用中，本次训练过程中，对第一视频帧序列和第二视频帧序列进行编码获得本次训练的编码结果，将本次训练的编码结果保存在比对编码结果队列中，该比对编码结果队列采用先进先出原则，用新的以此迭代产生的编码结果替换旧的编码结果。

在本说明书一实施例中，读取比对编码结果队列，取出比对编码结果队列中的所有比对编码结果。

具体地，所述方法还包括：

将所述第一视频帧序列和所述第二视频帧序列输入至动态编码器中，获得所述动态编码器输出的所述样本视频对应的比对编码结果；

将所述样本视频对应的比对编码结果添加至比对编码结果队列。

其中，动态编码器(momentum encoder)可以理解为进行动量编码的编码器，将第一视频帧序列和第二视频帧序列输入至动态编码器中，动态编码器会分别输出特征向量，将获得的特征向量作为比对编码结果，并添加至比对编码结果队列中。

在实际应用中，将本次训练生成的比对编码结果添加至比对编码结果队列中，会替换掉比对编码结果队列中队列尾部的旧的比对编码结果，使得比对编码结果队列中的比对编码结果与本次训练的比对编码结果保持一致性。

在本说明书一实施例中，沿用上例，将第一视频帧序列a1和第二视频帧序列a2输入至动态编码器中，获得动态编码器输出的比对编码结果b，将比对编码结果b添加至比对编码结果队列中。

具体地，基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值，包括：

根据比对编码结果、所述第一提取结果和所述第二提取结果构建正样本对和负样本对集合；

根据所述正样本对和所述负样本对集合计算第一损失值。

其中，正样本对可以理解为根据第一提取结果和第二提取结果构建获得的，正样本对中包括有：第一提取结果中根据第一视频帧序列提取获得的特征向量和第二提取结果中根据第二视频帧序列提取获得的特征向量；负样本对可以理解为根据提取结果和比对编码结果构建获得的，负样本对中包括有：提取结果中根据视频帧序列提取获得的特征向量和比对编码结果中的特征向量。需要注意的是，同一组正样本对和负样本对中的提取结果中的特征向量相同,即包括由同一个视频帧序列提取获得的特征向量。在实际应用中，由于比对编码结果的数量可以有多个，因此，一个正样本对可以对应多个负样本对。

在本说明书一实施例中，沿用上例，根据从比对编码结果队列中获得的比对编码结果和第一提取结果和第二提取结果构建正样本对和负样本对集合，并根据正样本对和负样本对集合计算第一损失值。

具体地，根据比对编码结果、所述第一提取结果和所述第二提取结果构建正样本对和负样本对集合，包括：

根据所述第一提取结果和所述第二提取结果构建正样本对；

根据所述第一提取结果和比对编码结果构建所述第一提取结果对应的第一负样本对集合；

根据所述第二提取结果和比对编码结果构建所述第二提取结果对应的第二负样本对集合；

根据所述正样本对、所述第一负样本对集合、所述第二负样本对集合计算第一损失值。

在实际应用中，是根据第一提取结果和第二提取结果构建正样本对，根据第一提取结果和多个比对编码结果构建第一负样本对集合，根据第二提取结果和多个比对编码结果构建第二负样本对集合，根据正样本对和第一负样本对集合中的负样本对和第二负样本对集合中的负样本对计算第一损失值。

在本说明书一实施例中，根据第一提取结果和第二提取结果构建正样本对，根据第一提取结果和比对编码结果构建第一提取结果对应的第一负样本对集合，根据第二提取结果和比对编码结果构建第二提取结果对应的第二负样本对结合，基于正样本对、第一负样本对集合中的负样本对、第二负样本对集合中的负样本对计算对比学习函数，获得第一损失值。

具体地，根据所述正样本对、所述第一负样本对集合、所述第二负样本对集合计算第一损失值，包括：

将所述正样本对、所述第一负样本对集合、所述第二负样本对集合代入对比学习损失函数，获得第一损失值。

在实际应用中，将正样本对、第一负样本对集合中的负样本对、第二负样本对集合中的负样本对分别代入对比学习损失函数中，获得第一损失值。基于第一损失值可以进行后续对待训练特征提取网络的网络参数调整。

具体地，所述第一提取结果包括根据第一视频帧序列提取获得的第一特征向量和根据第二视频帧序列提取获得的第二特征向量，所述第二提取结果包括根据第一视频帧序列提取获得的第三特征向量和根据第二视频帧序列提取获得的第四特征向量；

根据所述第一提取结果和所述第二提取结果构建正样本对，包括：

根据所述第一特征向量和所述第三特征向量构建第一正样本对；

根据所述第二特征向量和所述第四特征向量构建第二正样本对。

在实际应用中，将第一视频帧序列和第二视频帧序列分别输入至待训练特征提取网络之后，待训练特征提取网络会输出2个特征向量，将第一视频帧序列和第二视频帧序列分别输入至参考特征提取模型之后，参考特征提取模型也会输出2个特征向量。在构建正样本对时，会根据同一个视频帧序列提取出的特征向量进行正样本对的构建，例如，将第一视频帧序列分别输入至待训练特征提取网络和参考特征提取模型，获得待训练特征提取网络输出的特征向量1、参考特征提取模型输出的特征向量2，将第二视频帧序列分别输入至待训练特征提取网络和参考特征提取模型，获得待训练特征提取网络输出的特征向量3、参考特征提取模型输出的特征向量4，则可以根据特征向量1和特征向量2构建一个正样本对，根据特征向量3和特征向量4构建一个正样本对。

在本说明书一实施例中，第一提取结果中包括根据第一视频帧序列a1提取获得的第一特征向量和根据第二视频帧序列a2获得的第二特征向量，第二提取结果中包括根据第一视频帧序列a1提取获得的第三特征向量和根据第二视频帧序列a2获得的第四特征向量。根据第一特征向量和第三特征向量构建第一正样本对，根据第二特征向量和第四特征向量构建第二正样本对。

具体地，根据所述第一提取结果和比对编码结果构建所述第一提取结果对应的第一负样本对集合，根据所述第二提取结果和比对编码结果构建所述第二提取结果对应的第二负样本对集合，包括：

根据所述第一特征向量、所述第三特征向量和比对编码结果构建第一负样本对集合；

根据所述第二特征向量、所述第四特征向量和比对编码结果构建第二负样本对集合。

其中，第一负样本对集合中的负样本对是根据第一特征向量和比对编码结果或第二特征向量和比对编码结果构建的样本对，由于比对编码结果的数量有多个，因此，第一、二特征向量可以和多个比对编码结果构建负样本对，同理，第二负样本对集合中的负样本对是根据第三特征向量和比对编码结果或第四特征向量和比对编码结果构建的样本对，第三、四特征向量可以和多个比对编码结果构建负样本对。

在实际应用中，根据正样本对、第一负样本对集合、第二负样本对集合计算第一损失值时，会使用由相同特征向量构建成的正样本和负样本对计算第一损失值，例如，特征向量1和特征向量2构建正样本对1，特征向量1和比对编码结果构建负样本对1，特征向量2和比对编码结果构建负样本对2，使用正样本对1和负样本对1或负样本对2进行对比学习损失值的计算。

在本说明书一实施例中，沿用上例，根据第一提取结果中的第一特征向量和多个比对编码结果构建多个第一负样本对，根据第二提取结果中的第三特征向量和多个比对编码结果构建多个第一负样本对，基于所有的第一负样本对构建第一负样本对集合；根据第一提取结果中的第二特征向量和多个比对结果构建多个第二负样本对，根据第二提取结果中的第四特征向量和多个比对编码结果构建多个第二负样本对，基于所有的第二负样本对构建第二负样本对集合。

步骤108：将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值。

其中，乱序权重预测网络可以为分类头(classification head)网络，乱序权重预测网络用于预测视频帧序列的序列乱序预测权重，即预测视频帧序列的打乱程度，并根据序列乱序样本权重，即可进行交叉熵损失函数的计算，从而获得第二损失值。

在实际应用中，将待训练特征提取网络输出的特征向量输入至分类头网络中，分类头网络中经过归一化处理(softmax)，输出序列乱序预测权重。

在本说明书一实施例中，沿用上例，将第一提取结果中的特征向量1和特征向量2输入至乱序权重预测网络，获得乱序权重预测网络输出的序列乱序预测权重，基于序列乱序预测权重和序列乱序样本权重计算第二损失值，基于第二损失值调整待训练特征提取网络的网络参数。

具体地，基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值，包括：

将所述序列乱序预测权重和所述序列乱序样本权重代入交叉熵损失函数，获得第二损失值。

在实际应用中，会将序列乱序预测权重和序列乱序样本权重代入交叉熵损失函数，获得第二损失函数。

在本说明书一实施例中，将乱序权重预测网络输出的序列乱序预测权重和序列乱序样本权重代入交叉熵损失函数中，计算获得第二损失值。

步骤110：根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。

其中，训练停止条件可以为第一损失值和第二损失值达到预设损失阈值、训练迭代次数达到预设轮次等，具体训练停止条件可以实际情况确定。训练好的视频特征提取网络可以理解为视频特征提取网络已经训练至模型网络收敛状态。

在实际应用中，每次训练获得第一损失值和第二损失值之后，根据第一损失值和第二损失值调整待训练特征提取网络的网络参数，当训练次数达到预设次数的情况下，停止训练视频特征提取网络，或者当第一损失值和第二损失值均达到对应的预设损失阈值，停止训练视频特征提取网络。

在本说明书一实施例中，根据第一损失值和第二损失值调整待训练特征提取网络的网络参数，在训练迭代轮次达到预设轮次之后停止训练，获得训练好的视频特征提取网络。

在本说明书另一实施例中，根据第一损失值和第二损失值调整待训练特征提取网络的网络参数，在第一损失值达到第一预设损失阈值并且第二损失值达到第二预设损失阈值时，停止训练并获得训练好的视频特征提取网络。

具体地，根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，包括：

根据所述第一损失值进行梯度回传，调整所处待训练特征提取网络的网络参数；

根据所述第二损失值调整所处待训练特征提取网络的网络参数。

在实际应用中，将第一损失值进行梯度回传，从而调整待训练特征提取网络的网络参数。

在本说明书一实施例中，将第一损失值进行梯度回传，调整待训练特征提取网络的网络参数，提高正样本对的相似度和降低负样本对的相似度，根据第二损失值调整待训练特征提取网络的网络参数，从而达到优化3D卷积网络参数的目的。

在训练迭代过程中，还会基于第一损失值和第二损失值调整参考特征提取模型的模型参数和动态编码器的模型参数，具体地，所述方法还包括：

根据所述第一损失值调整所述参考特征提取模型的模型参数和所述动态编码器的模型参数；

根据所述第二损失值调整所述乱序权重预测网络的网络参数。

在本说明书一实施例中，根据第一损失值调整参考特征提取模型的模型参数和动态编码器的模型参数，根据第二损失值调整乱序权重预测网络的网络参数。

本说明书提供的一种视频特征提取网络的训练方法，包括：获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。通过根据样本视频的第一视频帧序列和第二视频帧序列分别输入至待训练特征提取网络和参考特征提取模型中，并将对比学习和交叉熵学习两个训练任务结合起来，完成对待训练特征提取网络的训练。实现了由大量无标签的样本视频作为训练数据，采用自监督的训练策略学习视觉特征，获得训练好的视频特征提取网络，视频特征提取网络可以适用于下游的分类任务，能有效提高视频分类的准确率，也能直接用于视频特征提取再对视频进行检索。

下述结合附图2，以本说明书提供的基于视频特征提取网络的视频分类方法在视频分类的应用为例，对所述基于视频特征提取网络的视频分类方法进行说明。其中，图2示出了本说明书一个实施例提供的一种基于视频特征提取网络的视频分类方法的处理过程流程图，具体步骤包括步骤202至步骤206。

步骤202：获得待分类视频。

其中，待分类视频即为等待被分类的视频，可以是从互联网中获取，也可以是预先存储于设备中，获取待分类的视频。

步骤204：将所述待分类视频输入至通过上述任意一项视频特征提取网络的训练方法获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果。

在本说明书提供的实施例中，以待分类视频为风景视频为例，风景视频中包括大海中有一座岛屿，将风景视频输入至预先训练好的视频特征提取网络中，预先训练好的视频特征提取网络被训练与根据输入的风景视频，输出风景视频的视频特征。

步骤206：将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。

在本说明书提供的实施例中，将视频特征提取网络输出的目标特征提取结果输入至分类器中，由分类器确定风景视频的分类结果。

本说明书提供的一种基于视频特征提取网络的视频分类方法，包括：获得待分类视频，将所述待分类视频输入至通过上述任意一项视频特征提取网络的训练方法获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果，将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。通过训练好的视频特征提取网络提取待分类视频的分类特征向量，并将分类特征向量输入至分类器中，根据分类器输出的分类结果，确定待分类视频的类别。

与上述方法实施例相对应，本说明书还提供了视频特征提取网络的训练装置实施例，图3示出了本说明书一实施例提供的一种视频特征提取网络的训练装置的结构示意图。如图3所示，该装置包括：

获取模块302，被配置为获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；

输入模块304，被配置为将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；

第一计算模块306，被配置为获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；

第二计算模块308，被配置为将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；

调整模块310，被配置为根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。

可选地，所述获取模块302进一步被配置为：

根据预设采样频率，对所述样本视频进行视频采样，生成初始视频帧序列；

打乱所述初始视频帧序列中的视频帧顺序，获得所述初始视频帧序列对应的乱序视频帧序列；

基于所处初始视频帧序列和所处乱序视频帧序列生成所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重。

可选地，所述获取模块302进一步被配置为：

根据所述初始视频帧序列和所述乱序视频帧序列合成待增强视频帧序列；

根据第一预设增强规则调整所述待增强视频帧序列的图像参数，获得第一视频帧序列；

根据第二预设增强规则调整所述待增强视频帧序列的图像参数，获得第二视频帧序列；

根据所述初始视频帧序列和所述乱序视频帧序列计算所述样本视频对应的序列乱序样本权重。

可选地，所述第一计算模块306进一步被配置为：

读取比对编码结果队列；

从所述比对编码结果队列中获取比对编码结果。

可选地，所述第一计算模块306进一步被配置为：

根据比对编码结果、所述第一提取结果和所述第二提取结果构建正样本对和负样本对集合；

根据所述正样本对和所述负样本对集合计算第一损失值。

可选地，所述第一计算模块306进一步被配置为：

根据所述第一提取结果和所述第二提取结果构建正样本对；

根据所述第一提取结果和比对编码结果构建所述第一提取结果对应的第一负样本对集合；

根据所述第二提取结果和比对编码结果构建所述第二提取结果对应的第二负样本对集合；

根据所述正样本对、所述第一负样本对集合、所述第二负样本对集合计算第一损失值。

可选地，所述第一计算模块306进一步被配置为：

所述第一提取结果包括根据第一视频帧序列提取获得的第一特征向量和根据第二视频帧序列提取获得的第二特征向量，所述第二提取结果包括根据第一视频帧序列提取获得的第三特征向量和根据第二视频帧序列提取获得的第四特征向量；

根据所述第一特征向量和所述第三特征向量构建第一正样本对；

根据所述第二特征向量和所述第四特征向量构建第二正样本对。

可选地，所述第一计算模块306进一步被配置为：

根据所述第一特征向量、所述第三特征向量和比对编码结果构建第一负样本对集合；

根据所述第二特征向量、所述第四特征向量和比对编码结果构建第二负样本对集合。

可选地，所述调整模块310进一步被配置为：

根据所述第一损失值进行梯度回传，调整所处待训练特征提取网络的网络参数；

根据所述第二损失值调整所处待训练特征提取网络的网络参数。

可选地，所述装置还包括：添加模块被配置为：

将所述第一视频帧序列和所述第二视频帧序列输入至动态编码器中，获得所述动态编码器输出的所述样本视频对应的比对编码结果；

将所述样本视频对应的比对编码结果添加至比对编码结果队列。

可选地，所述装置还包括：调整子模块被配置为：

根据所述第一损失值调整所述参考特征提取模型的模型参数和所述动态编码器的模型参数；

根据所述第二损失值调整所述乱序权重预测网络的网络参数。

本说明书提供的一种视频特征提取网络的训练装置，包括：获取模块，被配置为获取样本视频，根据所述样本视频获得所述样本视频的第一视频帧序列、第二视频帧序列和序列乱序样本权重，其中，所述第一视频帧序列和所述第二视频帧序列的图像参数不同；输入模块，被配置为将所述第一视频帧序列和所述第二视频帧序列分别输入至待训练特征提取网络，获得所述待训练特征提取网络输出的第一提取结果，将所述第一视频帧序列和所述第二视频帧序列分别输入至参考特征提取模型，获得所述参考特征提取模型输出的第二提取结果；第一计算模块，被配置为获取比对编码结果，并基于所述比对编码结果、所述第一提取结果和所述第二提取结果计算第一损失值；第二计算模块，被配置为将所述第一提取结果输入至乱序权重预测网络，获得所述乱序权重预测网络输出的所述样本视频对应的序列乱序预测权重，并基于所述序列乱序预测权重和所述序列乱序样本权重计算第二损失值；调整模块，被配置为根据所述第一损失值和所述第二损失值调整所述待训练特征提取网络的网络参数，直至达到训练停止条件，获得训练好的视频特征提取网络。通过根据样本视频的第一视频帧序列和第二视频帧序列分别输入至待训练特征提取网络和参考特征提取模型中，并将对比学习和交叉熵学习两个训练任务结合起来，完成对待训练特征提取网络的训练。实现了由大量无标签的样本视频作为训练数据，采用自监督的训练策略学习视觉特征，获得训练好的视频特征提取网络，视频特征提取网络可以适用于下游的分类任务，能有效提高视频分类的准确率，也能直接用于视频特征提取再对视频进行检索。

上述为本实施例的一种视频特征提取网络的训练装置的示意性方案。需要说明的是，该视频特征提取网络的训练装置的技术方案与上述的视频特征提取网络的训练方法的技术方案属于同一构思，视频特征提取网络的训练装置的技术方案未详细描述的细节内容，均可以参见上述视频特征提取网络的训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了基于视频特征提取网络的视频分类装置实施例，图4示出了本说明书一实施例提供的一种基于视频特征提取网络的视频分类装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取待分类视频；

输入模块404，被配置为将所述待分类视频输入至通过视频特征提取网络的训练方法训练获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果；

获得模块406，被配置为将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。

本说明书提供的一种基于视频特征提取网络的视频分类装置，包括：获取模块，被配置为获取待分类视频；输入模块，被配置为将所述待分类视频输入至通过视频特征提取网络的训练方法获得的视频特征提取网络中，获得所处视频特征提取网络输出的所述待分类视频对应的目标特征提取结果；获得模块，被配置为将所述目标特征提取结果输入至分类器中，获得所述分类器输出的所处待分类视频的分类结果。通过训练好的视频特征提取网络提取待分类视频的分类特征向量，并将分类特征向量输入至分类器中，根据分类器输出的分类结果，确定待分类视频的类别。

上述为本实施例的一种基于视频特征提取网络的视频分类装置的示意性方案。需要说明的是，该基于视频特征提取网络的视频分类装置的技术方案与上述的基于视频特征提取网络的视频分类方法的技术方案属于同一构思，基于视频特征提取网络的视频分类装置的技术方案未详细描述的细节内容，均可以参见上述基于视频特征提取网络的视频分类方法的技术方案的描述。

图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520执行所述计算机指令时实现所述的视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述视频特征提取网络的训练方法、基于视频特征提取网络的视频分类方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郭胜;熊紫华;郭晓波;韩冰;黄伟林;
专利申请人：浙江网商银行股份有限公司;