一种视频摘要生成方法、装置、设备及存储介质

文献发布时间：2023-06-19 16:06:26

技术领域

本发明属于视频处理技术领域，尤其涉及一种视频摘要生成方法、装置、设备及存储介质。

背景技术

随着监控摄像头、手机、数码相机等视频拍摄设备的普及，互联网上的视频数据正呈爆炸式增长，海量的视频数据虽然满足了用户的浏览需求，但是管理和分析起来却是非常耗时耗力，因此视频摘要技术应运而生。视频摘要通过捕获原视频中重要的、最具有代表性的信息，来生成一个浓缩紧凑却又全面的概要图或者视频片段。在视频内容分析和视频检索中，视频摘要发挥着极大的作用，它可以帮助去掉一些冗余的视频内容，提取视频中较为重要的内容信息，减少无关内容的干扰，提高准确度，同时节省内容分析和检索的时间。尤其是在军事领域上的视频情报分析，视频摘要可以加快情报的分析工作速度，协助情报人员更快地掌握视频的重要内容信息。其次，视频摘要在公共安全监控中也扮演着重要的角色，当有异常情况发生时，它可以帮助相关人员快速地了解监控视频的内容信息，减少排查时间，提高响应速度，节省人力和物力成本。此外，在视频网站中，广告、娱乐、动画、体育等名目纷繁杂乱，内容更是丰富多样，令人眼花缭乱，而视频摘要可以在用户面对海量的视频数据时，帮助他们快速地了解视频中的内容，节省大量浏览时间，让他们能够有效地去选择自己喜爱的视频内容进行观看，提高用户的浏览体验。

然而，现有的视频摘要方法通常依赖于帧级别的人工标签，但获取视频帧标注这一过程是非常繁琐和耗时的，且现有的方法不能够较好地捕获视频的时序依赖性，特别是处理较长视频时，摘要性能和效率大幅下降，另外，现有的方法没有利用到语义信息，生成的摘要内容较为单一，因此，亟须一种新的视频摘要生成方法以解决上述问题。

发明内容

本发明的目的在于提供一种视频摘要生成方法、装置、设备及存储介质，旨在解决由于现有技术导致视频摘要生成的效率和性能不佳，且生成的视频摘要内容单一的问题。

一方面，本发明提供了一种视频摘要生成方法，所述方法包括下述步骤：

获取目标视频；

通过预先训练好的视频摘要生成网络对所述目标视频的每一个视频帧进行重要性评分，得到所述目标视频的每一个视频帧对应的第一重要性分数；

根据所述第一重要性分数和所述目标视频，生成所述目标视频的视频摘要。

优选地，所述视频摘要生成网络包括视频嵌入子网络和语义嵌入子网络，其中，所述视频嵌入子网络包括第一模块、第二模块以及第三模块，所述语义嵌入子网络包括第四模块和第五模块。

优选地，所述通过预先训练好的视频摘要生成网络对所述目标视频的每一个视频帧进行重要性评分的步骤，包括：

通过所述第一模块对所述目标视频进行视觉特征提取，得到第一视觉特征集；

根据所述第一视觉特征集，通过所述第二模块对所述目标视频的每一个视频帧进行重要性评分。

优选地，所述获取目标视频的步骤之前，所述方法还包括：

获取训练视频；

根据所述训练视频，对所述视频摘要生成网络进行训练。

优选地，所述对所述视频摘要生成网络进行训练的步骤包括：

通过所述视频嵌入子网络获取所述训练视频的摘要特征向量；

根据与所述训练视频对应的文本描述信息，通过所述语义嵌入子网络获取所述训练视频的文本特征向量；

计算所述摘要特征向量和所述文本特征向量的相似性；

根据计算得到的所述相似性和所述视频摘要生成网络的网络损失，更新所述视频摘要生成网络中的网络参数，并跳转至所述通过所述视频嵌入子网络获取所述训练视频的摘要特征向量的步骤，直至所述视频摘要生成网络的网络损失得到收敛，结束对所述视频摘要生成网络的训练。

优选地，所述通过所述视频嵌入子网络获取所述训练视频的摘要特征向量的步骤包括：

通过所述第一模块对所述训练视频进行视觉特征提取，得到第二视觉特征集；

根据所述第二视觉特征集，通过所述第二模块对所述训练视频的每一个视频帧进行重要性评分，得到所述训练视频的每一个视频帧对应的第二重要性分数；

根据所述第二重要性分数，通过所述第三模块生成所述摘要特征向量。

优选地，所述通过所述语义嵌入子网络获取所述训练视频的文本特征向量的步骤包括：

通过所述第四模块对所述文本描述信息进行文本特征提取；

通过所述第五模块对提取到的所述文本特征进行处理，得到所述文本特征向量。

另一方面，本发明提供了一种视频摘要生成装置，所述装置包括：

目标视频获取单元，用于获取目标视频；

第一分数获得单元，用于通过预先训练好的视频摘要生成网络对所述目标视频的每一个视频帧进行重要性评分，得到所述目标视频的每一个视频帧对应的第一重要性分数；

视频摘要生成单元，用于根据所述第一重要性分数和所述目标视频，生成所述目标视频的视频摘要。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述视频摘要生成方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述视频摘要生成方法所述的步骤。

本发明获取目标视频，通过预先训练好的视频摘要生成网络对该目标视频的每一个视频帧进行重要性评分，得到目标视频的每一个视频帧对应的第一重要性分数，根据第一重要性分数和目标视频，生成该目标视频的视频摘要，从而提高了视频摘要生成的效率和性能，同时提高了生成的视频摘要的语义代表性和内容多样性。

附图说明

图1是本发明实施例一提供的视频摘要生成方法的实现流程图；

图2是本发明实施例二提供的视频摘要生成方法的实现流程图；

图3是本发明实施例三提供的视频摘要生成方法的实现流程图；

图4是本发明实施例三提供的视频摘要生成方法中视频摘要生成网络的结构示意图；

图5是本发明实施例四提供的视频摘要生成装置的结构示意图；

图6是本发明实施例四提供的视频摘要生成装置的优选结构示意图；

图7是本发明实施例五提供的视频摘要生成装置的结构示意图；

图8是本发明实施例五提供的视频摘要生成装置的优选结构示意图；

图9是本发明实施例五提供的视频摘要生成装置的第一向量获取单元的结构示意图；

图10是本发明实施例五提供的视频摘要生成装置的第二向量获取单元的结构示意图；

图11是本发明实施例六提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

图1示出了本发明实施例一提供的视频摘要生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取目标视频。

本发明实施例适用于计算设备，例如，个人计算机、服务器等。在本发明实施例中，目标视频可以是像电影一样的长视频，也可以是用手机、Pad等带摄像功能的设备拍摄的短视频，在此，目标视频的长度不限，同时，目标视频可以是从本地存储空间获取的，也可以是从云服务器获取的。

在步骤S102中，通过预先训练好的视频摘要生成网络对目标视频的每一个视频帧进行重要性评分，得到目标视频的每一个视频帧对应的第一重要性分数。

在本发明实施例中，将目标视频输入到预先训练好的视频摘要生成网络中，通过预先训练好的视频摘要生成网络对目标视频的每一个视频帧进行重要性评分，也即是对每一个视频帧被选中为视频摘要的概率进行估计，得到目标视频的每一个视频帧对应的第一重要性分数，根据该第一重要性分数就可以确定目标视频的每一个视频帧被选中为视频摘要的概率。

优选地，视频摘要生成网络包括视频嵌入子网络和语义嵌入子网络，其中，视频嵌入子网络包括第一模块、第二模块以及第三模块，语义嵌入子网络包括第四模块和第五模块，从而使得生成的视频摘要更符合人类语义，且提高了内容的多样性。

进一步优选地，通过下述步骤实现对目标视频的每一个视频帧进行重要性评分：

(1)通过第一模块对目标视频进行视觉特征提取，得到第一视觉特征集；

在本发明实施例中，第一模块采用GoogLeNet网络结构构成的卷积神经网络模块，通过第一模块对目标视频进行视觉特征提取，得到第一视觉特征集。

(2)根据第一视觉特征集，通过第二模块对目标视频的每一个视频帧进行重要性评分。

在本发明实施例中，第二模块采用由全连接层、Softmax层以及Sigmoid层构成的自我注意力模块。将第一视觉特征集输入自我注意力模块，自我注意力模块在捕获目标视频的帧之间长时间的时序依赖性的同时，对目标视频的每一个视频帧进行重要性评分，得到目标视频的每一个视频帧对应的第一重要性分数。

通过上述步骤(1)～(2)实现对目标视频的每一个视频帧进行重要性评分，从而提高了第一重要性分数的可参考性和有效性。

在步骤S103中，根据第一重要性分数和目标视频，生成目标视频的视频摘要。

在本发明实施例中，先对目标视频进行镜头切割，分成若干帧长度不等的视频片段，再根据视频片段的每一视频帧的第一重要性分数，计算每个视频片段的总重要性分数，根据总重要性分数得到每个视频片段的平均重要分数，最后根据平均重要分数的高低和预设的视频摘要帧长度，从所有的视频片段中选择既满足视频摘要帧长度，同时其平均重要分数又相对较高的视频片段，例如，视频摘要帧长度设置为150帧，若有个视频片段的平均重要分数最高，但是其帧长度超过150，则该视频片段不会被选择，若几个视频片段是按照平均重要分数从高到低选择出来的，且这几个视频片段组合满足视频摘要帧长度，则这这几个视频片段会被选出，最后按照原始目标视频的时序，将选择出的视频片段进行拼接，得到该目标视频的摘要视频，生成的视频摘要也是一个视频，例如，是目标视频的关键帧组成的视频，或目标视频的精彩片断，类似一篇文章的摘要。

在本发明实施例中，获取目标视频，通过预先训练好的视频摘要生成网络对该目标视频的每一个视频帧进行重要性评分，得到目标视频的每一个视频帧对应的第一重要性分数，根据第一重要性分数和目标视频，生成该目标视频的视频摘要，从而提高了视频摘要生成的效率和性能，同时提高了生成的视频摘要的语义代表性和内容多样性。

图2示出了本发明实施例二提供的视频摘要生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，获取训练视频。

在本发明实施例中，训练视频可以是像电影一样的长视频，也可以是用手机、Pad等带摄像功能的设备拍摄的短视频，在此，训练视频的长度不限，同时，训练视频可以是从本地存储空间获取的，也可以是从云服务器获取的。

在步骤S202中，根据训练视频，对视频摘要生成网络进行训练。

在本发明实施例中，对视频摘要生成网络的训练过程详见实施例三的具体描述。

在本发明实施例中，根据训练视频完成对视频摘要生成网络的训练，从而提高视频摘要生成网络的健壮性和网络性能。

图3示出了本发明实施例三提供的视频摘要生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S301中，通过视频嵌入子网络获取训练视频的摘要特征向量。

在本发明实施例中，视频嵌入子网络用于捕获视频帧之间的长时间时序依赖性，以及获取训练视频的摘要特征向量，并将摘要特征向量投影到抽象的潜在语义嵌入空间中。

优选地，通过下述步骤实现训练视频的摘要特征向量的获取：

(1)通过第一模块对训练视频进行视觉特征提取，得到第二视觉特征集。

在本发明实施例中，第一模块采用GoogLeNet网络结构构成的卷积神经网络模块，通过第一模块对训练视频进行视觉特征提取，得到第二视觉特征集X＝(x

(2)根据第二视觉特征集，通过第二模块对训练视频的每一个视频帧进行重要性评分，得到训练视频的每一个视频帧对应的第二重要性分数。

在本发明实施例中，第二模块采用由全连接层、Softmax层以及Sigmoid层构成的自我注意力模块。将第二视觉特征集输入自我注意力模块，自我注意力模块在捕获训练视频的时序依赖性的同时，对训练视频的每一个视频帧进行重要性评分，得到训练视频的每一个视频帧对应的第二重要性分数。

具体地，通过下述步骤获得训练视频的每一个视频帧对应的第二重要性分数：

①根据公式

②根据公式

③根据公式

④根据输出向量z

优选地，构建正则化损失函数

进一步优选地，构建双曲余弦损失函数

(3)根据第二重要性分数，通过第三模块生成摘要特征向量。

在本发明实施例中，第三模块采用长短期记忆网络(Long Short-Term Memory，LSTM)。先根据第二重要性分数，将训练视频的摘要特征表示为

优选地，构建重构损失函数

通过上述步骤(1)～(3)实现训练视频的摘要特征向量的获取，从而提高了摘要性能和效率。

在步骤S302中，根据与训练视频对应的文本描述信息，通过语义嵌入子网络获取训练视频的文本特征向量。

在本发明实施例中，与训练视频对应的文本描述信息是用于描述当前训练视频的文本，该文本描述信息可以是一句话或者一段话，以用来概括训练视频的主要内容或故事线。将与训练视频对应的文本描述信息输入到语义嵌入子网络中，通过该语义嵌入子网络将输入的文本描述编码为一个定长的文本特征向量，并将该文本特征向量输出投影到相同的潜在语义嵌入空间中以进行相应计算。

优选地，通过下述步骤实现训练视频的文本特征向量的获取：

(1)通过第四模块对文本描述信息进行文本特征提取；

在本发明实施例中，第四模块采用的是句向量(Sentence2Vector)编码器模块，使用预训练好的Sentence2Vector编码器模块作为文本特征提取器对文本描述信息进行文本特征提取，它可以为每个文本描述信息生成一个4800维的向量。

(2)通过第五模块对提取到的文本特征进行处理，得到文本特征向量。

在本发明实施例中，第五模块采用的是完全连接层模块，通过第五模块对提取到的文本特征进行降维处理，得到文本特征向量c，该c是一个1024维的特征向量。

通过上述步骤(1)～(2)获取训练视频的文本特征向量，从而提高了文本特征提取的效率和准确度。

在步骤S303中，计算摘要特征向量和文本特征向量的相似性。

在本发明实施例中，在抽象的潜在语义嵌入空间，根据相似性损失函数L

在步骤S304中，根据计算得到的相似性和视频摘要生成网络的网络损失，更新视频摘要生成网络中的网络参数，并跳转至步骤S301，直至视频摘要生成网络的网络损失得到收敛，结束对视频摘要生成网络的训练。

在本发明实施例中，视频摘要生成网络的网络损失是视频摘要生成网络中各个模块对应的损失函数得到的损失值的总值，根据相似性(即摘要特征向量和文本特征向量的相似程度)和视频摘要生成网络的网络损失，更新视频摘要生成网络中的网络参数，当视频摘要生成网络的网络损失没有收敛，则跳转至步骤S301，继续对视频摘要生成网络进行训练，当视频摘要生成网络的网络损失收敛，则训练结束。

作为示例地，图4示出了视频摘要生成网络41训练的结构示意图，视频摘要生成网络41包括视频嵌入子网络411和语义嵌入子网络412，其中，视频嵌入子网络411包括第一模块4111、第二模块4112以及第三模块4113，语义嵌入子网络412包括第四模块4121和第五模块4122。在对视频摘要生成网络41进行训练时，将视频输入视频嵌入子网络411中，同时将与视频对应的文本输入到语义嵌入子网络412中，视频经过第一模块4111、第二模块4112以及第三模块4113的相关处理，视频嵌入子网络411将处理后得到的摘要特征向量投影到抽象的潜在语义嵌入空间，其并不是实际存在的网络，文本经过第四模块4121和第五模块4122的相关处理，语义嵌入子网络412将处理后得到的文本特征向量投影到公共的潜在语义嵌入空间，在潜在语义嵌入空间中，对摘要特征向量和文本特征向量进行相似性计算，根据相似性结果和网络损失对视频摘要生成网络41的网络参数进行更新，直至视频摘要生成网络41的网络损失得到收敛则训练结束。

在本发明实施例中，通过视频嵌入子网络获取训练视频的摘要特征向量，并根据与训练视频对应的文本描述信息，通过语义嵌入子网络获取训练视频的文本特征向量，计算摘要特征向量和文本特征向量的相似性，根据计算得到的相似性和视频摘要生成网络的网络损失，更新视频摘要生成网络中的网络参数，当视频摘要生成网络的网络损失得到收敛时，则训练结束，从而使得生成的视频摘要更符合人类语义，并提高了摘要性能、效率以及内容的多样性。

图5示出了本发明实施例四提供的视频摘要生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

目标视频获取单元51，用于获取目标视频。

第一分数获得单元52，用于通过预先训练好的视频摘要生成网络对目标视频的每一个视频帧进行重要性评分，得到目标视频的每一个视频帧对应的第一重要性分数。

视频摘要生成单元53，用于根据第一重要性分数和目标视频，生成目标视频的视频摘要。

优选地，如图6所示，第一分数获得单元52包括：

第一特征提取单元521，用于通过第一模块对目标视频进行视觉特征提取，得到第一视觉特征集。

在本发明实施例中，第一模块采用GoogLeNet网络结构构成的卷积神经网络模块，通过第一模块对目标视频进行视觉特征提取，得到第一视觉特征集。

第一特征评分单元522，用于根据第一视觉特征集，通过第二模块对目标视频的每一个视频帧进行重要性评分。

在本发明实施例中，视频摘要生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

图7示出了本发明实施例五提供的视频摘要生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

训练视频获取单元71，用于获取训练视频。

摘要网络训练单元72，用于根据训练视频，对视频摘要生成网络进行训练。

优选地，如图8所示，摘要网络训练单元72包括：

第一向量获取单元721，用于通过视频嵌入子网络获取训练视频的摘要特征向量。

第二向量获取单元722，用于根据与训练视频对应的文本描述信息，通过语义嵌入子网络获取训练视频的文本特征向量。

相似性计算单元723，用于计算摘要特征向量和文本特征向量的相似性。

网络参数更新单元724，用于根据计算得到的相似性和视频摘要生成网络的网络损失，更新视频摘要生成网络中的网络参数，并触发第一向量获取单元721，直至视频摘要生成网络的网络损失得到收敛，结束对视频摘要生成网络的训练。

进一步优选地，如图9所示，第一向量获取单元721包括：

第二特征提取单元7211，用于通过第一模块对训练视频进行视觉特征提取，得到第二视觉特征集；

第二特征评分单元7212，用于根据第二视觉特征集，通过第二模块对训练视频的每一个视频帧进行重要性评分，得到训练视频的每一个视频帧对应的第二重要性分数；以及

向量获取子单元7213，用于根据第二重要性分数，通过第三模块生成摘要特征向量。

优选地，如图10所示，第二向量获取单元722包括：

文本特征提取单元7221，用于通过第四模块对文本描述信息进行文本特征提取；以及

文本特征处理单元7222，用于通过第五模块对提取到的文本特征进行处理，得到文本特征向量。

在本发明实施例中，视频摘要生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。具体地，各单元的实施方式可参考前述实施例二、三的描述，在此不再赘述。

图11示出了本发明实施例五提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备11包括处理器110、存储器111以及存储在存储器111中并可在处理器110上运行的计算机程序112。该处理器110执行计算机程序112时实现上述视频摘要生成方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器110执行计算机程序112时实现上述各装置实施例中各单元的功能，例如图5所示单元51至53的功能。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备11中处理器110执行计算机程序112时实现视频摘要生成方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述视频摘要生成方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图5所示单元51至53的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：钟圣华;林静旭;肖志娇;
专利申请人：深圳大学;

上一篇：一种数据传输方法、装置、电子设备以及存储介质
下一篇：一种多模式旋转接粽游乐设备