导航：首页> 计算；推算；计数>一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统

一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统

文献发布时间：2024-04-18 20:02:18

技术领域

本发明属于计算机视觉和模式识别技术领域，尤其涉及一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统。

背景技术

近年来，互联网上的大量视频包含了各种各样的人类活动，这有利于我们感知现实世界。这一现象激发了许多流行的任务，如动作识别、视频检索等。然而，大多数在线视频都是长的、未修剪的、包含无关内容的，因此迫切需要自动的视频内容分析方法。时序动作定位是一项检测未修剪视频中的动作实例的任务，而它忽略了视频通常伴随着句子描述的事实。Gao等人和Hendricks等人因此充分利用了标注的语言信息，提出了片段检索任务。给定一个未修剪的视频和一个句子描述，该任务的目标是检索与描述语义最相关的视频时刻。这是一项有意义但具有挑战性的任务，因为它需要同时理解复杂的视频内容和句子上下文。

该任务的现有工作通常分为两类：两阶段模型和一阶段模型。两阶段方法通常遵循先提出后排序的流程，并比一阶段方法获得更不错的性能。大多数两阶段模型以粗粒度的方式学习自模态关系和跨模态交互。他们倾向于使用两个独立的特征编码器来捕捉模态内信息，然后利用注意力机制来探索模态间信息。然而，这些两阶段方法存在两个严重的缺点：(1)他们忽略了模态内和模态间的详细信息，这需要通过更深入的推理阶段来充分理解。(2)为了实现高召回率，需要两阶段模型来密集地生成候选片段，这是非常消耗计算资源和耗时的。一阶段方法避免了预先定义的候选片段的需要，该方法可以获得具有灵活长度的片段，并更有效地执行。它们直接预测每个帧的可能性，无论它是否为边界帧。然而，单阶段方法通常性能较差，因为它们忽略了丰富的片刻信息，这对于精确定位很重要。

因此，为了解决上述问题，提出了一种基于跨模态对应匹配和数据解集偏置的视频片段检索方法及系统。

发明内容

本发明的目的是为了解决视频片段检索中忽略了模态内和模态间的详细信息，以及需要两阶段模型密集地生成候选片段的问题，提出了多粒度感知网络，结合了人类阅读策略，包括文章问题重读、增强的文章问题对齐和选择比较，使模型能够彻底理解视频和查询内容，从而达到不错的性能。

本发明解决技术问题的技术方案为：

一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法，包括以下步骤：

步骤1.选择特征提取网络

对于输入的视频，通过选择预训练的网络去提取每个片段的特征，对于给定的语言查询，用一个预训练的300维度的向量训练模型Glove模型去编码每一个单词；

步骤2.粗粒度的感知

在步骤1的网络基础上，把视频和句子的嵌入喂进一个粗粒度的编码器中，并且使用共同注意力机制将它们结合来获得一个初步的对齐特征；

步骤3.跨模态对应匹配

使用自然语言处理spacy工具包去分离一句话中的名词和动词，并且把视频分解为时序和空间特征，将名词和空间特征相匹配，动词和时序特征相匹配；

步骤4.数据集解偏置

判断视频数据集中视频实例的结束位置，若小于视频长度的三分之一，则实例的位置偏靠前，从所有偏靠前的实例中抽取其中的二分之一向后移位视频长度的二分之一；

步骤5.选择表示生成

在步骤2的网络基础上，用初步对齐的视频特征去生成内容级和边界级的片段特征；

步骤6.细粒度的特征编码器

在步骤2的网络基础上，遵循使用在阅读理解中的重读策略并且深入的编码视频和查询特征来得到细粒度的模态内的特征；

步骤7.条件交互模块

在步骤6的网络基础上，将内容级和边界级的片段特征与经过细粒度编码器的特征结合去获得一个增强的对齐片段特征；

步骤8.选择比较模块

在步骤7的网络基础上，进一步应用一个选择比较模块来帮助区分相似的片段，最终通过一个选择排序器去检索在候选集中最相关的视频片段。

步骤2的具体操作如下：

在步骤1基础网络选择的基础上，对于提取的视频特征，应用一个时间一维卷积层和平均池化层去把每个片段的特征映射到理想的视频维度C和视频长度T；

应用一个双向门控制循环单元GRU去捕捉在视频片段中的时间依赖，对于文本特征，顺序喂到双向GRU去捕捉在句子中的上下文信息；

应用多模态共同注意机制来捕捉模态间的上下文。

步骤3的具体操作如下：

首先使用spacy工具包将一句话中的动词和名词分离，获得动词掩码和名词掩码后，分别用动词掩码和名词掩码乘以文本特征得到动词文本特征和名词文本特征，然后对经过视频编码器的特征进行位置编码，获得视频时序特征，将总特征减去时序特征获得视频空间特征，最后在动词文本特征与视频时序特征、名词文本特征与视频空间特征之间计算一个MSE损失；

语言查询为

使用spacy工具包分析句子Q中单词的词性，获取动词掩码mask

在粗粒度的特征编码器中，经过查询编码器的文本特征为

为动词文本特征，/>

对视频特征进行位置编码，并且应用一维卷积去获得细粒度的时序信息特征表示：

P代表时序信息特征，PE代表位置编码，ReLU(·)表示激活函数，BatchNorm1d(·)表示批量归一化，Conv1d(·)表示一维卷积；

将视频特征减去时序信息特征得到了空间信息特征：

S为空间信息特征；

有了动词文本特征与时序信息特征、名词文本特征与空间信息特征之后，分别将它们变换到相同的维度进行损失计算：

为变换后的动词文本特征，/>

因此，跨模态对应匹配模块总损失为：

步骤4的具体操作如下：

由步骤2可得视频的长度为T，视频中实例片段的位置表示为g＝(g

则认为这个实例在视频中的位置偏靠前，需要将这个片段往后移，位移后的位置表示为：

只位移数据集中位置靠前实例总数的1/2，用以达到数据分布位置均匀；

上述中，α为比例系数，设置α为1/3，γ为比例系数，设置γ为1/2，g为实例片段位置，g

得到实例原位置g＝(g

为经过位置位移后形成的新特征，/>

步骤5的具体操作如下：

在步骤2基础网络选择的基础上，构造一个二维时间图来生成候选片段，纵轴和横轴分别表示开始和结束片段索引，时间图中的每一个块代表一个候选片段，遵循稀疏采样策略，二维时间图的下三角部分无效，部分上三角被掩码，全面捕捉视频中的时间相关性，用最大池化运算MaxPooling和加法运算分别生成内容级片段特征和边界级片段特征。

步骤6的具体操作如下：

在步骤2基础网络选择的基础上，给定感知查询的视频特征，为实现交互设计一个残差前馈网络来探索细粒度的视觉线索，并将粗粒度特征作为初步的感知，对于查询编码，应用三个不同卷积核大小的时间一维卷积去捕捉token级和phrase级别的特征，token表示单词级，phrase表示短语级；然后，将这三个特征结合起来喂到一个全连接层中，再用一个残差链接与输入的查询特征相加，过细粒度的特征编码器，遵循阅读理解中常见的从粗到细的流程，获得细粒度的视频特征和查询特征。

步骤7具体操作如下：

在步骤6基础网络选择的基础上，在获得细粒度的模态内特征后，将其与片段特征相结合，进一步增强模态间特征表示，在视频和句子之间建立对称交互，在该模块分两个分支查询感知分支和视频感知分支中，利用设计的门机制分别学习查询感知片段表示和视频感知片段表示；在查询感知分支时，首先在查询表示上应用MaxPooling，以在每个特征维度上找到贡献最大的token，并利用完全连接层将其映射到片段级特征空间中；将边界级片段特征与转移的查询特征相结合并使用激活函数sigmoid作为门函数来捕获语义相关的边界信息，进一步聚合门控查询特征以及内容级片段特征，探索包含在候选片段中的查询相关信息，并以类似的方式处理视频感知分支，获得视频感知片段特征；最后，整合这两个条件特征，得到细粒度的对齐片段特征。

步骤8具体操作如下：

在步骤7基础网络选择的基础上，首先将细粒度对齐的特征图

视频检索过程中存在视频损失，视频损失的定义如下：

首先训练样本为一个三元组(V,Q,A)，包括一个输入的视频V，一句输入的语言查询Q和一个真实的片段集A，对于每一个在答案集的候选片段

因此总损失为：

L＝L

本发明还提供了一种基于跨模态对应匹配和数据集解偏置的视频片段检索系统，其特征是：包括以下模块：

粗粒度的感知模块：将视频和句子通过粗粒度的编码器结合获得一个初步的对齐特征；

跨模态对应匹配模块：通过使用spacy工具包分离名词和动词实现错误匹配结果的纠正；

数据集解偏置模块：根据视频中实例的结束位置来判断是否由于数据分布不平衡导致预测错误，并对错误进行修正；

选择表示生成模块：通过构造二维时间图来生成候选片段，为全面捕捉视频中的时间相关性生成内容级和边界级的片段特征；

细粒度的特征编码器模块：通过设计残差前馈网络探索细粒度的视觉线索，通过细粒度的特征编码器得到细粒度的模态内的特征；

条件交互模块：将内容级和边界级的片段特征与经过上一模块中的细粒度编码器的特征结合获得一个增强的对齐片段特征；

选择比较模块：帮助区分相似的片段，并通过一个选择排序器去检索在候选集中最相关的视频片段。

上述技术方案具有如下优点或有益效果：

1)现有的方法全局的匹配视频特征与文本特征，可能会导致错误的匹配结果，而本发明通过跨模态对应匹配，局部的匹配视频特征与查询特征，避免了错误的匹配结果，可以实现正确的匹配结果。

2)现有的数据集中的实例大部分集中在视频的前面，导致模型训练后预测片段的位置也会靠前，从而实现了不精确的预测结果。通过对数据集中位置靠前的实例进行部分位移，实现数据集中的实例分布位置均匀，解决了数据集偏置问题，从而可以获得更精确的预测结果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的方法流程示意图。

图2为本发明实施例1中Charades-STA数据集的样例。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。

实施例1

如图1所示，一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法，包括以下步骤：

步骤1.选择特征提取网络

步骤2.粗粒度的感知

在步骤1的网络基础上，把视频和句子的嵌入喂进一个粗粒度的编码器中，并且使用共同注意力机制将它们结合来获得一个初步的对齐特征；

步骤3.跨模态对应匹配

使用自然语言处理spacy工具包去分离一句话中的名词和动词，并且把视频分解为时序和空间特征，将名词和空间特征相匹配，动词和时序特征相匹配；

步骤4.数据集解偏置

步骤5.选择表示生成

在步骤2的网络基础上，用初步对齐的视频特征去生成内容级和边界级的片段特征；

步骤6.细粒度的特征编码器

在步骤2的网络基础上，遵循使用在阅读理解中的重读策略并且深入的编码视频和查询特征来得到细粒度的模态内的特征；

步骤7.条件交互模块

在步骤6的网络基础上，将内容级和边界级的片段特征与经过细粒度编码器的特征结合去获得一个增强的对齐片段特征；

步骤8.选择比较模块

在步骤7的网络基础上，进一步应用一个选择比较模块来帮助区分相似的片段，最终通过一个选择排序器去检索在候选集中最相关的视频片段。

步骤2的具体操作如下：

应用一个双向门控制循环单元GRU去捕捉在视频片段中的时间依赖，对于文本特征，顺序喂到双向GRU去捕捉在句子中的上下文信息；

应用多模态共同注意机制来捕捉模态间的上下文。

步骤3的具体操作如下：

语言查询为

使用spacy工具包分析句子Q中单词的词性，获取动词掩码mask

在粗粒度的特征编码器中，经过查询编码器的文本特征为

为动词文本特征，/>

对视频特征进行位置编码，并且应用一维卷积去获得细粒度的时序信息特征表示：

P代表时序信息特征，PE代表位置编码，ReLU(·)表示激活函数，BatchNorm1d(·)表示批量归一化，Conv1d(·)表示一维卷积；

将视频特征减去时序信息特征得到了空间信息特征：

S为空间信息特征；

有了动词文本特征与时序信息特征、名词文本特征与空间信息特征之后，分别将它们变换到相同的维度进行损失计算：

为变换后的动词文本特征，/>

因此，跨模态对应匹配模块总损失为：

步骤4的具体操作如下：

由步骤2可得视频的长度为T，视频中实例片段的位置表示为g＝(g

则认为这个实例在视频中的位置偏靠前，需要将这个片段往后移，位移后的位置表示为：

只位移数据集中位置靠前实例总数的1/2，用以达到数据分布位置均匀；

上述中，α为比例系数，设置α为1/3，γ为比例系数，设置γ为1/2，g为实例片段位置，g

得到实例原位置g＝(g

为经过位置位移后形成的新特征，/>

步骤5的具体操作如下：

步骤6的具体操作如下：

步骤7具体操作如下：

步骤8具体操作如下：

在步骤7基础网络选择的基础上，首先将细粒度对齐的特征图

视频检索过程中存在视频损失，视频损失的定义如下：

首先训练样本为一个三元组(V,Q,A)，包括一个输入的视频V，一句输入的语言查询Q和一个真实的片段集A，对于每一个在答案集的候选片段

因此总损失为：

L＝L

对于本发明的实验效果与其它方法在Charades-STA数据集、TACoS数据集和ActivityNet Captions数据集的比较在下表中：

表格中使用的方法为CTRL(Cross-modal Temporal Regression Localizer跨模态时序回归定位器)，ACRN(Attentive Cross-Modal Retrieval Network注意力跨模态检索网络)，QSPN(query-guided segment proposal network查询指导的片段提案网络)，CMIN(Cross-modal inter-action networks跨模态动作间网络)，2D-TAN(2D TemporalAdjacent Network二维时序邻接网络)，DPIN(Dual path interaction network双路径交互网络)，FIAN(Fine-grained iterative attention network细粒度迭代注意力网络)，BPNet(Boundary Proposal Network边界提案网络)，RaNet(Relation-aware Network关系感知网络)。

在时序片段检索任务上，比较了提出的方法和一些公开的工作，其中CPNet(Contextual Pyramid Network上下文金字塔网络)、DRN(Dense Regression Network密集回归网络)、CI-MHA(Cross Interaction Multi-headed Attention Network跨模态交互多头注意力网络)和VSLNet(video span localizing network视频跨度定位网络)属于无提案的一阶段模型，其它工作属于基于提案的两阶段模型。采用“Rank@n，IoU＝m”作为评估指标，“Rank@n，IoU＝m”被定义为前n个选定片刻中IoU大于m的至少一个的百分比，Rank表示选择排序。对于TACoS数据集，用n∈{1,5}和m∈{0.3,0.5}报道结果，对于Charades-STA数据集和ActivityNet Captions数据集，用n∈{1,5}和m∈{0.5,0.7}报道结果。总的来说，本方法在三个具有挑战性的基准上优于最新方法，在所有评估指标中排名第一或第二。

由图2可以看出，本发明能够精确地检索与语言查询最相关的片刻，即使这些片刻在视觉上相似。

实施例2

本发明还提供了一种基于跨模态对应匹配和数据集解偏置的视频片段检索系统，包括以下模块：

粗粒度的感知模块：将视频和句子通过粗粒度的编码器结合获得一个初步的对齐特征；

跨模态对应匹配模块：通过使用spacy工具包分离名词和动词实现错误匹配结果的纠正；

数据集解偏置模块：根据视频中实例的结束位置来判断是否由于数据分布不平衡导致预测错误，并对错误进行修正；

选择表示生成模块：通过构造二维时间图来生成候选片段，为全面捕捉视频中的时间相关性生成内容级和边界级的片段特征；

细粒度的特征编码器模块：通过设计残差前馈网络探索细粒度的视觉线索，通过细粒度的特征编码器得到细粒度的模态内的特征；

条件交互模块：将内容级和边界级的片段特征与经过上一模块中的细粒度编码器的特征结合获得一个增强的对齐片段特征；

选择比较模块：帮助区分相似的片段，并通过一个选择排序器去检索在候选集中最相关的视频片段。

实施例3

本发明实施例中，还提供了一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现所述的视频片段检索方法。

实施例4

本发明实施例中，还提供了一种计算装置，包括：至少一个处理器；至少一个存储器，存储有计算机程序，当所述计算机程序被所述至少一个处理器执行时，实现所述的视频片段检索方法。

本发明通过以上技术方案实现了一种基于跨模态对应匹配和数据解集偏置的视频片段检索方法及系统，本发明通过跨模态对应匹配，局部的匹配视频特征与查询特征，避免了错误的匹配结果，可以实现正确的匹配结果；通过对数据集中位置靠前的实例进行部分位移，实现数据集中的实例分布位置均匀，解决了数据集偏置问题，从而可以获得更精确的预测结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：天津理工大学;山东省人工智能研究院;

上一篇：硬脆材料磨削表面评价方法、补偿方法及系统
下一篇：基于小波变换与频域相干函数融合式喘振报警方法