掌桥专利:专业的专利平台
掌桥专利
首页

视频摘要生成方法、装置、计算机设备及介质

文献发布时间:2023-06-19 11:39:06


视频摘要生成方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种视频摘要生成方法、装置、计算机设备及介质。

背景技术

在代理人培训场景下,需要代理人对所学视频课程进行及时复习。而视频课程时长往往过长,为提高代理人的复习效率,需要从原始课程视频中准确提取视频摘要,即整个视频课程的关键片段,帮助代理人有效学习课堂重点内容。

当前的视频摘要技术往往通过识别视频帧图像中人物动作变化,对整个视频构建的帧序列中不同帧进行打分,选取分数最高的几个帧组成视频摘要,只考虑图像蕴含的信息。但在课堂视频中,教师动作常常比较单一,不同帧之间的图像差异较小,教师授课的语言内容成为选取关键片段更重要的部分。另外,以帧为单位打分粒度过小,融合成的视频摘要会出现不连贯的问题,导致视频摘要抽取效果较差。

发明内容

鉴于以上内容,有必要提出一种视频摘要生成方法、装置、计算机设备及介质,生成的视频摘要准确度较高。

本发明的第一方面提供一种视频摘要生成方法,所述方法包括:

对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;

提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;

提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;

采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;

基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;

以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;

使用所述最优的视频片段选择器生成视频摘要。

根据本发明的一个可选的实施方式,所述使用所述最优的视频片段选择器生成视频摘要包括:

使用所述最优的视频片段选择器计算每个视频片段的目标重要度;

对所述目标重要度进行离散化处理得到离散值;

获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;

根据所述目标视频片段生成视频摘要。

根据本发明的一个可选的实施方式,所述提取所述视频片段的第一视觉特征向量包括:

分割所述视频片段为多个视频帧;

利用DeepCNN提取所述视频帧的特征向量;

计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。

根据本发明的一个可选的实施方式,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:

将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;

计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;

根据所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重得到融合特征向量。

根据本发明的一个可选的实施方式,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:

创建多个损失函数;

根据所述多个损失函数生成目标损失函数;

通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量;

应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器的参数。

根据本发明的一个可选的实施方式,所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数,所述目标损失函数

根据本发明的一个可选的实施方式,所述基于所述重建视频向量最小化所述目标损失函数包括:

对所述GAN结构鉴别器损失函数的加权损失运用随机梯度变分贝叶斯估计得到最优鉴别器参数;

通过最小化所述稀疏损失函数,所述GAN结构生成器损失函数中的重建损失函数和所述GAN结构生成器损失函数中的先验损失函数,得到最优生成器参数与视频片段选择器参数。

本发明的第二方面提供一种视频摘要生成装置,所述装置包括:

视频切分模块,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;

第一提取模块,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;

第二提取模块,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;

特征融合模块,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;

重要度计算模块,用于基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;

优化训练模块,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;

摘要生成模块,用于使用所述最优的视频片段选择器生成视频摘要。

本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述视频摘要生成方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述视频摘要生成方法。

综上所述,本发明所述的视频摘要生成方法、装置、计算机设备及介质,融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。

附图说明

图1是本发明实施例一提供的视频摘要生成方法的流程图。

图2是本发明实施例提供的为采用层级注意力机制计算融合特征向量的示意图。

图3是本发明实施例提供的对视频片段选择器进行优化训练的网络架构图。

图4是本发明实施例二提供的视频摘要生成装置的结构图。

图5是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明实施例提供的视频摘要生成方法由计算机设备执行,相应地,视频摘要生成装置运行于计算机设备中。

图1是本发明实施例一提供的视频摘要生成方法的流程图。所述视频摘要生成方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

S11,对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本。

在教学场景中,所述原始视频可以为教学视频。

对于完整原始视频,可以利用语音端点检测(Voice Activity Detection,VAD)将原始视频截断为多个视频片段,使得每个视频片段为一个完整的语句。采用语音识别技术将每个视频片段中的视频语音转化为视频文本,其中,视频文本的时间轴与原始视频的时间轴是相对应的。

具体实施时,首先利用语音端点检测原始视频中每个完整的语句在原始视频中的开始时间与结束时间,并利用每个完整的语句的开始时间和结束时间分割原始视频,将原始视频

本实施例,通过VAD检测原始视频中的断点,并根据断点分割原始视频,能够有效的确保分割得到的每个视频片段刚好对应原始视频中的一个完整的语句,从而在后续基于视频片段提取视觉特征向量和文本语义向量时,避免出现语义截断的问题,提取的视觉特征向量和文本语义向量准确度高。

S12,提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。

其中,所述第一视觉特征向量为镜头级别的特征向量,也可以称之为视频图像特征。在提取每一个视频片段的第一视觉特征向量之后,计算每一个第一视觉特征向量的第一向量维度,将多个第一向量维度中的最大者确定为最大的第一向量维度,从而基于最大的第一向量维度对其他的第一向量维度对应的第一视觉特征向量进行扩充得到第二视觉特征向量。

在一个可选的实施方式中,所述提取所述视频片段的第一视觉特征向量包括:

分割所述视频片段为多个视频帧;

利用DeepCNN提取所述视频帧的特征向量;

计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。

该可选的实施方式中,可以根据原始视频的采样率将每一个视频片段分割为多个视频帧,多个视频帧可以构成视频片段的一个视频帧序列,原始视频的视频帧序列表示如下:

利用DeepCNN提取每个视频片段内的每一个视频帧序列的特征向量,得到原始视频的特征向量

S13,提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。

可以利用bert-as-service工具提取所述视频文本的第一文本语义向量,bert模型由多个双向transformer结构组成,transformer中的自注意力机制能够使得生成的文本语义向量包含视频文本的长距离语义信息。

具体而言,通过bert将从原始视频中分割得到的每个完整的视频文本转化为一个第一文本语义向量。

S14,采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。

由于第二视觉特征向量

在一个可选的实施方式中,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:

将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;

计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;

对所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重进行加权和计算,得到融合特征向量。

参阅图2所示,为采用层级注意力机制计算融合特征向量的示意图,假设令

进而可求得第一投影向量在目标空间中的第一权重及第二投影向量在目标空间中的第二权重,第一投影向量和第二投影向量在同一空间中的权重表示为

该可选的实施例中,采用层级注意力机制进行融合,考虑了每个向量在视频融合后的总特征向量中的占比,将第二视觉特征向量与第二文本语义向量通过上述的第一权重和第二权重进行加权,可得到融合了视觉图像特征和文本语义特征的整体特征向量。

S15,基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。

将融合特征向量

S16,以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器。

视频片段选择器结合每个视频片段的重要度对原始视频的融合特征向量(整体特征向量)进行加权,输出离散结果

可以选择GAN框架的无监督模型优化视频片段选择器。参阅图3所示,为对视频片段选择器进行优化训练的网络架构图。由于基于GAN框架的模型为无监督模型,因此将GAN框架与上述视频片段选择器共同进行训练,通过GAN不断优化视频片段选择器,得到最优的视频片段选择器,并根据最优的视频片段选择器给出最优的视频片段的选择结果。

如图3所示,GAN框架(Generative adversarial nets,生成式对抗网络)由一个生成器(G)和一个鉴别器(D)构成,生成器用于将视频片段选择器生成的视频摘要还原为整体视频,鉴别器用于区分重建视频与原始视频,当鉴别器无法区分重建视频与原始视频时,表明模型训练已完成,将视频片段选择器当前选择的视频片段组成最终的视频摘要。

生成器

鉴别器(D)同样由LSTM构成,可看作一个距离评估器,估计原始视频与重建视频之间的距离,通过训练不断最小化损失函数,优化鉴别器参数,得到性能最好的鉴别器,即对真实样本判定越准确的鉴别器。具体而言,将重建视频向量

在一个可选的实施方式中,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:

(1)创建多个损失函数;

由于训练的是无监督模型,因而训练集为没有标注视频片段重要度标签的数据集,通过在模型中的每一环节定义损失函数,并不断优化损失函数以减小整体损失,来训练模型。

所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数。

所述稀疏损失函数

由于GAN中的生成器为VAE结构,则GAN结构生成器(G)损失函数用于在训练过程中最小化生成损失,即在对原始视频编码和重建的过程中损失最小。VAE的学习是通过最小化数据分布的负对数似然函数完成的:

GAN结构生成器(G)损失函数右侧的第二项表示先验损失

在GAN结构鉴别器(D)损失函数中,令

GAN的最终目标为在鉴别器D出错的概率最大的条件下,找到一个适合真实数据分布的生成器。公式为:

括号中的项

(2)根据所述多个损失函数生成目标损失函数

目标损失函数

其中

(3)通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量。

将视频片段选择器与GAN结构共同进行训练,通过GAN无监督结构不断优化视频片段选择器。

首先,随机初始化层级注意力机制、视频片段选择器、GAN结构整体模型参数,将原始视频的第二文本语义向量

(4)应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器参数

通过不断优化目标损失函数,以更新模型中的参数

在一个可选的实施方式中,所述基于所述重建视频向量最小化所述目标损失函数包括:

对GAN结构鉴别器损失函数的加权损失

通过最小化所述稀疏损失函数

由于稀疏损失函数

S17,使用所述最优的视频片段选择器生成视频摘要。

通过对视频片段选择器进行优化训练,得到最优的视频片段选择器,再使用最优的视频片段选择器选择最优的视频片段,从而基于最优的视频片段生成视频摘要。

在一个可选的实施方式中,所述使用所述最优的视频片段选择器生成视频摘要包括:

使用所述最优的视频片段选择器计算每个视频片段的目标重要度;

对所述目标重要度进行离散化处理得到离散值;

获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;

根据所述目标视频片段生成视频摘要。

该可选的实施方式中,由于当视频片段选择器的训练达到最优时,最优的视频片段选择器输出的每个视频片段的重要度也为最优结果。

将最优的视频片段选择器生成的目标重要度

通过视频片段选择器得到的离散结果

示例性的,假设预设阈值为0.5,当

本发明融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。

本发明所述的方法适合应用于教学视频场景中,抽取教学视频的视频摘要准确度较高。

图4是本发明实施例二提供的视频摘要生成装置的结构图。

在一些实施例中,所述视频摘要生成装置40可以包括多个由计算机程序段所组成的功能模块。所述视频摘要生成装置40中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图4描述)视频摘要生成的功能。

本实施例中,所述视频摘要生成装置40根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:视频切分模块401、第一提取模块402、第二提取模块403、特征融合模块404、重要度计算模块405、优化训练模块406、摘要生成模块407。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述视频切分模块401,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本。

在教学场景中,所述原始视频可以为教学视频。

对于完整原始视频,可以利用语音端点检测(Voice Activity Detection,VAD)将原始视频截断为多个视频片段,使得每个视频片段为一个完整的语句。采用语音识别技术将每个视频片段中的视频语音转化为视频文本,其中,视频文本的时间轴与原始视频的时间轴是相对应的。

具体实施时,首先利用语音端点检测原始视频中每个完整的语句在原始视频中的开始时间与结束时间,并利用每个完整的语句的开始时间和结束时间分割原始视频,将原始视频

本实施例,通过VAD检测原始视频中的断点,并根据断点分割原始视频,能够有效的确保分割得到的每个视频片段刚好对应原始视频中的一个完整的语句,从而在后续基于视频片段提取视觉特征向量和文本语义向量时,避免出现语义截断的问题,提取的视觉特征向量和文本语义向量准确度高。

所述第一提取模块402,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。

其中,所述第一视觉特征向量为镜头级别的特征向量,也可以称之为视频图像特征。在提取每一个视频片段的第一视觉特征向量之后,计算每一个第一视觉特征向量的第一向量维度,将多个第一向量维度中的最大者确定为最大的第一向量维度,从而基于最大的第一向量维度对其他的第一向量维度对应的第一视觉特征向量进行扩充得到第二视觉特征向量。

在一个可选的实施方式中,所述第一提取模块402提取所述视频片段的第一视觉特征向量包括:

分割所述视频片段为多个视频帧;

利用DeepCNN提取所述视频帧的特征向量;

计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。

该可选的实施方式中,可以根据原始视频的采样率将每一个视频片段分割为多个视频帧,多个视频帧可以构成视频片段的一个视频帧序列,原始视频的视频帧序列表示如下:

利用DeepCNN提取每个视频片段内的每一个视频帧序列的特征向量,得到原始视频的特征向量

所述第二提取模块403,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。

可以利用bert-as-service工具提取所述视频文本的第一文本语义向量,bert模型由多个双向transformer结构组成,transformer中的自注意力机制能够使得生成的文本语义向量包含视频文本的长距离语义信息。

具体而言,通过bert将从原始视频中分割得到的每个完整的视频文本转化为一个第一文本语义向量。

所述特征融合模块404,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。

由于第二视觉特征向量

在一个可选的实施方式中,所述特征融合模块404采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:

将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;

计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;

对所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重进行加权和计算,得到融合特征向量。

参阅图2所示,为采用层级注意力机制计算融合特征向量的示意图,假设令

进而可求得第一投影向量在目标空间中的第一权重及第二投影向量在目标空间中的第二权重,第一投影向量和第二投影向量在同一空间中的权重表示为

该可选的实施例中,采用层级注意力机制进行融合,考虑了每个向量在视频融合后的总特征向量中的占比,将第二视觉特征向量与第二文本语义向量通过上述的第一权重和第二权重进行加权,可得到融合了视觉图像特征和文本语义特征的整体特征向量。

所述重要度计算模块405,用于基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。

将融合特征向量

所述优化训练模块406,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器。

视频片段选择器结合每个视频片段的重要度对原始视频的融合特征向量(整体特征向量)进行加权,输出离散结果

可以选择GAN框架的无监督模型优化视频片段选择器。参阅图3所示,为对视频片段选择器进行优化训练的网络架构图。由于基于GAN框架的模型为无监督模型,因此将GAN框架与上述视频片段选择器共同进行训练,通过GAN不断优化视频片段选择器,得到最优的视频片段选择器,并根据最优的视频片段选择器给出最优的视频片段的选择结果。

如图3所示,GAN框架(Generative adversarial nets,生成式对抗网络)由一个生成器(G)和一个鉴别器(D)构成,生成器用于将视频片段选择器生成的视频摘要还原为整体视频,鉴别器用于区分重建视频与原始视频,当鉴别器无法区分重建视频与原始视频时,表明模型训练已完成,将视频片段选择器当前选择的视频片段组成最终的视频摘要。

生成器

鉴别器(D)同样由LSTM构成,可看作一个距离评估器,估计原始视频与重建视频之间的距离,通过训练不断最小化损失函数,优化鉴别器参数,得到性能最好的鉴别器,即对真实样本判定越准确的鉴别器。具体而言,将重建视频向量

在一个可选的实施方式中,所述优化训练模块406以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:

(1)创建多个损失函数;

由于训练的是无监督模型,因而训练集为没有标注视频片段重要度标签的数据集,通过在模型中的每一环节定义损失函数,并不断优化损失函数以减小整体损失,来训练模型。

所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数。

所述稀疏损失函数

由于GAN中的生成器为VAE结构,则GAN结构生成器(G)损失函数用于在训练过程中最小化生成损失,即在对原始视频编码和重建的过程中损失最小。VAE的学习是通过最小化数据分布的负对数似然函数完成的:

GAN结构生成器(G)损失函数右侧的第二项表示先验损失

在GAN结构鉴别器(D)损失函数中,令

GAN的最终目标为在鉴别器D出错的概率最大的条件下,找到一个适合真实数据分布的生成器。公式为:

括号中的项

(2)根据所述多个损失函数生成目标损失函数

目标损失函数

其中

(3)通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量。

将视频片段选择器与GAN结构共同进行训练,通过GAN无监督结构不断优化视频片段选择器。

首先,随机初始化层级注意力机制、视频片段选择器、GAN结构整体模型参数,将原始视频的第二文本语义向量

(4)应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器参数

通过不断优化目标损失函数,以更新模型中的参数

在一个可选的实施方式中,所述基于所述重建视频向量最小化所述目标损失函数包括:

对GAN结构鉴别器损失函数的加权损失

通过最小化所述稀疏损失函数

由于稀疏损失函数

所述摘要生成模块407,用于使用所述最优的视频片段选择器生成视频摘要。

通过对视频片段选择器进行优化训练,得到最优的视频片段选择器,再使用最优的视频片段选择器选择最优的视频片段,从而基于最优的视频片段生成视频摘要。

在一个可选的实施方式中,所述摘要生成模块407使用所述最优的视频片段选择器生成视频摘要包括:

使用所述最优的视频片段选择器计算每个视频片段的目标重要度;

对所述目标重要度进行离散化处理得到离散值;

获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;

根据所述目标视频片段生成视频摘要。

该可选的实施方式中,由于当视频片段选择器的训练达到最优时,最优的视频片段选择器输出的每个视频片段的重要度也为最优结果。

将最优的视频片段选择器生成的目标重要度

通过视频片段选择器得到的离散结果

示例性的,假设预设阈值为0.5,当

本发明融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。

本发明所述的装置适合应用于教学视频场景中,抽取教学视频的视频摘要准确度较高。

需要强调的是,为进一步保证上述视频片段选择器的私密性和安全性,上述视频片段选择器可存储于区块链的节点中。

参阅图5所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。

本领域技术人员应该了解,图5示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备5还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机设备5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备5还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述计算机设备5仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器51中存储有计算机程序,所述计算机程序被所述至少一个处理器52执行时实现如所述的视频摘要生成方法中的全部或者部分步骤。所述存储器51包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中,所述至少一个处理器52是所述计算机设备5的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备5的各个部件,通过运行或执行存储在所述存储器51内的程序或者模块,以及调用存储在所述存储器51内的数据,以执行计算机设备5的各种功能和处理数据。例如,所述至少一个处理器52执行所述存储器中存储的计算机程序时实现本发明实施例中所述的视频摘要生成方法的全部或者部分步骤;或者实现视频摘要生成装置的全部或者部分功能。所述至少一个处理器52可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中,所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。

尽管未示出,所述计算机设备5还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器52逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 视频摘要生成方法、装置、计算机设备及介质
  • 视频摘要生成方法、装置、计算机设备及介质
技术分类

06120113007307