一种视频存储、视频提取展示方法、装置及计算机设备

文献发布时间：2023-06-19 19:21:53

技术领域

本说明书涉及短视频处理技术领域，尤其涉及一种视频存储、视频提取展示方法、装置及计算机设备。

背景技术

目前，在短视频处理技术领域内，为了节省存储空间，常针对待存储的视频进行去重处理。但是在针对待存储的视频进行去重识别和处理时，针对整个待存储的视频与源视频进行一致性匹配，以确定是否针对该待存储的视频进行去重处理。但是，在视频创作时，用户多采用截取的多个视频，再针对该多个视频进行拼接以得到目标视频。若该目标视频为待存储的视频，基于目前的去重识别和处理方法，对该种待存储的视频则无需进行去重处理。由此致使去重的程度较浅，存储空间依旧被大量占用，存储空间的利用率较低。

如何针对视频进行深度去重，更大程度释放存储空间，以提高存储空间的利用率是现有技术中亟需解决的问题。

发明内容

为解决现有技术中的问题，本说明书实施例提供了一种视频存储、视频提取展示方法、装置及计算机设备，实现了针对待去重音视频种的音频和图像片段进行分段，并针对分段后的音频和图像片段分别进行去重识别和处理，增加了去重处理的深度，进一步释放了存储空间，提高了存储空间的利用率。

为了解决上述技术问题，本说明书的具体技术方案如下：

一方面，本说明书实施例提供了一种视频存储方法，包括，

针对待去重音视频进行分段处理，得到至少一个分段音频和至少一个图像片段；

针对每个所述分段音频和每个所述图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；

针对每个所述分段音频特征向量，在源音频特征向量和所述分段音频特征向量的第一相似度满足第一预设条件的情况下，对与所述分段音频特征向量对应的所述分段音频进行去重处理，所述源音频特征向量为针对源音频进行特征提取得到的；

针对每个所述图像片段特征向量，在源图像片段特征向量和所述图像片段特征向量的第二相似度满足第二预设条件的情况下，对与所述图像片段特征向量对应的所述图像片段进行去重处理，所述源图像片段特征向量为针对源图像片段进行特征提取得到的；

针对去重处理之后的待去重音视频，确定与被去重的分段音频对应的第一索引标识和与被去重的图像片段对应的第二索引标识；以及

基于所述第一索引标识、所述第二索引标识和未被去重处理的剩余音视频信息，确定与所述去重处理之后的待去重音视频对应的目标索引标识。

进一步，在针对每个所述分段音频和每个所述图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量之前，进一步包括，

针对所述待去重音视频进行分段处理，得到至少一个表征信息；

针对每个所述表征信息，判断所述表征信息的存储空间数据是否满足第三预设条件；

在确定目标表征信息的存储空间数据满足所述第三预设条件的情况下，针对所述目标表征信息进行特征提取，得到目标表征信息特征向量；

在源表征信息特征向量和所述目标表征信息特征向量的第三相似度，满足第四预设条件的情况下，对所述目标表征信息进行去重处理，所述源表征信息特征向量为针对源表征信息进行特征提取得到的，

和；

针对去重处理之后的待去重音视频，确定与被去重的目标表征信息对应的第三索引标识；以及

基于所述第一索引标识、所述第二索引标识、所述第三索引标识和所述未被去重处理的剩余音视频信息，确定与所述去重处理之后的待去重音视频对应的目标索引标识。

进一步，该源音频特征向量和所述分段音频特征向量的第一相似度的确定进一步包括，

依据与所述分段音频特征向量对应的分段音频的时长信息，针对预设音频进行分段处理，得到多个源音频；

针对每个所述源音频进行特征提取，得到多个所述源音频特征向量；

从所述分段音频特征向量和每个所述源音频特征向量中，分别确定与每个第一维度对应的子第一分段音频特征数据和子第一源音频特征数据；

在所述每个第一维度下，确定所述子第一分段音频特征数据和子第一源音频特征数据的子第一相似度；以及

利用与所述每个第一维度对应的第一权重数据，对与所述每个第一维度对应的所述子第一相似度进行加权计算，得到所述第一相似度。

进一步，该源图像片段特征向量和所述图像片段特征向量的第二相似度的确定进一步包括，

依据与所述图像片段特征向量对应的图像片段的时长信息，针对预设视频进行分段处理，得到多个源图像片段；

针对每个所述源图像片段进行特征提取，得到多个所述源图像片段特征向量；

从所述图像片段特征向量和每个所述源图像片段特征向量中，分别确定与每个第二维度对应的子第二图像片段特征数据和子第二源图像片段特征数据；

在所述每个第二维度下，确定所述子第二图像片段特征数据和子第二源图像片段特征数据的子第二相似度；以及

利用与所述每个第二维度对应的第二权重数据，对与所述每个第二维度对应的所述子第二相似度进行加权计算，得到所述第二相似度。

进一步，该第一索引标识的确定进一步包括，

针对去重处理的分段音频，确定和所述分段音频对应的目标源音频的所述第一索引标识，所述目标源音频为与和所述分段音频特征向量确定的所述第一相似度满足所述第一预设条件的源音频特征向量对应的源音频，所述第一索引标识指向所述目标源音频。

进一步，该第二索引标识的确定进一步包括，

针对去重处理的图像片段，确定和所述图像片段对应的目标源图像片段的所述第二索引标识，所述目标源图像片段为与和所述图像片段特征向量确定的所述第二相似度满足所述第二预设条件的源图像片段特征向量对应的源图像片段，所述第二索引标识指向所述目标源图像片段。

另一方面，本说明书实施例还提供了一种视频提取展示方法，包括，

根据接收到的目标索引标识，确定多个子索引标识和子音视频索引信息；

针对每个所述子索引标识，分别确定对应的源图像片段或源音频或源表征信息；

基于所述源图像片段、源音频、源表征信息和与所述子音视频索引信息对应的子音视频，确定目标视频以展示。

另一方面，本说明书实施例还提供了一种视频存储装置，包括，

分段单元，用于针对待去重音视频进行分段处理，得到至少一个分段音频和至少一个图像片段；

提取单元，用于针对每个所述分段音频和每个所述图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；

第一去重单元，用于针对每个所述分段音频特征向量，在源音频特征向量和所述分段音频特征向量的第一相似度满足第一预设条件的情况下，对与所述分段音频特征向量对应的所述分段音频进行去重处理，所述源音频特征向量为针对源音频进行特征提取得到的；

第二去重单元，用于针对每个所述图像片段特征向量，在源图像片段特征向量和所述图像片段特征向量的第二相似度满足第二预设条件的情况下，对与所述图像片段特征向量对应的所述图像片段进行去重处理，所述源图像片段特征向量为针对源图像片段进行特征提取得到的；

第一确定单元，用于针对去重处理之后的待去重音视频，确定与被去重的分段音频对应的第一索引标识和与被去重的图像片段对应的第二索引标识；以及

第二确定单元，用于基于所述第一索引标识、所述第二索引标识和未被去重处理的剩余音视频信息，确定与所述去重处理之后的待去重音视频对应的目标索引标识。

另一方面，本说明书实施例还提供了一种视频提取展示装置，包括，

第三确定单元，用于根据接收到的目标索引标识，确定多个子索引标识和子音视频索引信息；

第四确定单元，用于针对每个所述子索引标识，分别确定对应的源图像片段或源音频或源表征信息；

第五确定单元，用于基于所述源图像片段、源音频、源表征信息和与所述子音视频索引信息对应的子音视频，确定目标视频以展示。

另一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

另一方面，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述的方法。

利用本说明书实施例，针对待去重音视频进行分离和分段处理，得到至少一个分段音频和至少一个图像片段；针对每个分段音频和每个图像片段分别进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；针对每个分段音频特征向量，分别确定与源音频特征向量之间的第一相似度，并在该第一相似度满足第一预设条件的情况下，对与该分段音频特征向量对应的分段音频进行去重处理。类似地，针对与源图像片段特征向量的第二相似度满足第二预设条件的图像片段特征向量，对应的图像片段进行去重处理。进而，针对去重处理之后的待去重音视频，确定第一损品标识和第二索引标识，以用于和未被去重处理的剩余音视频信息，构建目标索引标识。从而实现了针对待去重音视频种的音频和图像片段进行分段，并针对分段后的音频和图像片段分别进行去重识别和处理，增加了去重处理的深度，进一步释放了存储空间，提高了存储空间的利用率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本说明书实施例一种视频存储、视频提取展示方法的实施系统示意图；

图2所示为本说明书实施例一种视频存储方法的流程图；

图3A所示为本说明书实施例一种视频去重处理方法的流程图；

图3B所示为本说明书实施例一种目标索引标识确定方法的流程图；

图3C所示未本说明书实施例一种分段处理方法的示意图；

图4A所示为本说明书实施例一种第一相似度确定方法的流程图；

图4B所示为本说明书实施例一种第二相似度确定方法的流程图；

图5A所示为本说明书实施例一种视频提取展示方法的原理图；

图5B所示为本说明书实施例一种视频存储和视频提取展示方法的原理图；

图6A所示为本说明书实施例一种视频存储装置的结构示意图；

图6B所示为本说明书另一实施例一种视频存储装置的结构示意图；

图6C所示为本说明书实施例一种视频提取展示装置的结构示意图；

图7为本说明书实施例一种计算机设备的结构示意图。

【附图标记说明】

101、用户终端；

102、服务器；

501、待去重音视频；

502、多个分段音频；

503、多个图像片段；

504、多个表征信息；

511、去重处理分段音频；

512、去重处理图像片段；

513、去重处理目标表征信息；

521、剩余音频；

522、剩余图像片段；

523、剩余表征信息；

531、第一索引标识；

532、第二索引标识；

533、第三索引标识；

540、目标索引标识；

6010、分段单元；

6020、提取单元；

6030、第一去重单元；

6040、第二去重单元；

6050、第一确定单元；

6060、第二确定单元；

6071、表征分段单元；

6072、判断单元；

6073、表征特征提取单元；

6074、表征去重单元；

6075、标识确定单元；

6076、存储单元；

6080、第三确定单元；

6090、第四确定单元；

6110、第五确定单元；

702、计算机设备；

704、处理设备；

706、存储资源；

708、驱动机构；

710、输入/输出模块；

712、输入设备；

714、输出设备；

716、呈现设备；

718、图形用户接口；

720、网络接口；

722、通信链路；

724、通信总线。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

需要说明的是，本说明书的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1所示为本说明书实施例一种视频存储、视频提取展示方法的实施系统示意图，可以包括：用户终端101和服务器102，用户终端101和服务器102之间通过网络进行通信，网络可以包括局域网(Local Area Network，简称为LAN)、广域网(Wide Area Network，简称为WAN)、因特网或其组合，并连接至网站、用户设备(例如计算设备)和后端系统。服务器102在接受到用户通过用户终端101发送的视频存储请求后，针对该视频存储请求包括的待去重音视频进行分段处理，得到至少一个分段音频和至少一个图像片段；针对每个分段音频和每个图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；针对每个分段音频特征向量，在源音频特征向量和分段音频特征向量的第一相似度满足第一预设条件的情况下，对与分段音频特征向量对应的分段音频进行去重处理；针对每个图像片段特征向量，在源图像片段特征向量和图像片段特征向量的第二相似度满足第二预设条件的情况下，对与图像片段特征向量对应的图像片段进行去重处理；针对去重处理之后的待去重音视频，确定与被去重的分段音频对应的第一索引标识和与被去重的图像片段对应的第二索引标识；进而基于第一索引标识、第二索引标识和未被去重处理的剩余音视频信息，确定与去重处理之后的待去重音视频对应的目标索引标识，并将该目标索引标识存储和发送至用户终端101。此外，服务器102在接收到用户终端101发送的针对该待去重音频视频的提取展示请求时，针对该提取展示请求包括的目标索引标识，确定多个子索引标识和子音视频索引信息；针对每个子索引标识，分别确定对应的源图像片段或源音频或源表征信息；基于源图像片段、源音频、源表征信息和与子音视频索引信息对应的子音视频，确定并获取目标视频发送至用户终端101以使得用户终端进行音视频展示。

可选地，服务器102可以是云计算系统的节点(图中未显示)，或者每个服务器102可以是单独的云计算系统，包括由网络互连并作为分布式处理系统工作的多台计算机。

在一个可选的实施例中，用户终端101可以包括电子设备不限于智能手机、采集设备、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(AR,AugmentedReality)/虚拟现实(VR,Virtual Reality)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、Linux、Windows等。

此外，需要说明的是，图1所示的仅仅是本说明书提供的一种应用环境，在实际应用中，还可以包括多个用户终端101，本说明书不做限制。

图2所示为本说明书实施例一种视频存储方法的流程图。在本图中描述了视频存储过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示，方法可以包括：

S210，针对待去重音视频进行分段处理，得到至少一个分段音频和至少一个图像片段；

S220，针对每个分段音频和每个图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；

S230，针对每个分段音频特征向量，在源音频特征向量和分段音频特征向量的第一相似度满足第一预设条件的情况下，对与分段音频特征向量对应的分段音频进行去重处理；

S240，针对每个图像片段特征向量，在源图像片段特征向量和图像片段特征向量的第二相似度满足第二预设条件的情况下，对与图像片段特征向量对应的图像片段进行去重处理；

S250，针对去重处理之后的待去重音视频，确定与被去重的分段音频对应的第一索引标识和与被去重的图像片段对应的第二索引标识；

S260，基于第一索引标识、第二索引标识和未被去重处理的剩余音视频信息，确定与去重处理之后的待去重音视频对应的目标索引标识。

根据本说明书的一个实施例，待去重音视频为用户通过用户终端进行创作之后，在软件平台发布的短视频。需要注意的是，该待去重音视频例如还可以为影视剧作品中的视频。分段音频为针对该待去重音视频包括的声音轨道中的整个音频分段之后得到的子音频。图像片段为针对该待去重音视频包括的纯视频(无声音的)轨道中的整个纯视频分段之后得到的子纯视频。

针对待去重音视频进行轨道分离，得到音频轨道的音频和纯视频轨道的纯视频。针对音频和纯视频进行切分，得到由音频切分得到的至少一个分段音频和由纯视频切分得到的至少一个图像片段。轨道分离为基于任意现有的可以针对音视频进行音频和纯视频分离的方法实现。针对音频进行切分例如可以包括，针对每一时刻对应的时刻音频与前一时刻音频进行音频相关度识别，在当前时刻的音频与前一时刻的音频的音频相关度大于或等于音频相关度阈值的情况下，将该当前时刻的音频与前一时刻音频归于同一个分段音频，在当前时刻的音频与前一时刻的音频的音频相关度小于音频相关度阈值的情况下，将该当前时刻的音频与前一时刻音频切分，得到另一个分段音频。即，经过音频切分，得到至少一个分段音频中的每个分段音频均为一个可表述完整信息的音频。例如，在整个音频包括“我今天吃饭了菜发芽了”的情况下，可切分得到两个分段音频，具体为“我今天吃饭了”和“菜发芽了”。

针对纯视频进行切分例如可以包括，针对每一时刻对应的时刻图像与前一时刻图像进行相关度识别，在当前时刻的图像与前一时刻的图像的图像相关度大于或等于图像相关度阈值的情况下，将该当前时刻的图像与前一时刻图像归于同一个图像片段，在当前时刻的图像与前一时刻的图像的相关度小于图像相关度阈值的情况下，将该当前时刻的图像与前一时刻图像切分，得到另一个图像片段。即，经过针对纯视频切分，得到至少一个图像片段中的每个图像片段均为一个连续的子纯视频。例如，在60秒的整个纯视频中第1-9秒为“广告”第10-60秒为“影视作品”，可切分得到两个图像片段，具体为“广告”和“影视作品”。需要注意的是，在切分时可以基于视频的类别切分，也可以基于是否为连续的图像进行切分。例如，广告包括“由A卖B商品的广告”和“由C卖D商品的广告”，即该广告可以切分为“由A卖B商品的广告”和“由C卖D商品的广告”。

利用特征跟踪提取器和特征向量生成器，针对分段处理之后的每个分段音频和每个图像片段分别进行处理，得到与每个分段音频对应的分段音频特征向量和与每个图像片段对应的图像片段特征向量。特征跟踪提取器和特征向量生成器针对分段音频进行处理，得到的分段音频特征向量例如可以包括指示音频长度、音频类型、音频起止时间、音频编码方式和音频地址等的特征数据。特征跟踪提取器和特征向量生成器针对图像片段进行处理，得到的图像片段特征向量例如可以包括指示纯视频长度、类型、起止时间、编码方式和纯视频地址等的特征数据。

源音频特征向量为针对源音频进行特征提取得到的，该特征提取例如可以基于该特征跟踪提取器和特征向量生成器实现。源图像片段特征向量为针对源图像片段进行特征提取得到的，该特征提取例如可以基于该特征跟踪提取器和特征向量生成器实现。源音频为与该分段音频属于同一音频类别的预设音频。源图像片段为与该图像片段属于同一视频类别的预设视频，该同一视频类别例如可以为影视剧标识、主人公标识或演绎类别标识等。

针对每个音频特征向量，利用相似度计算公式，针对该音频特征和每个源音频特征特征向量进行处理，得到多个第一相似度。将每个第一相似度与第一阈值相对比，在确定该多个第一相似度中存在至少一个第一相似度大于或等于该第一阈值的情况下，确定该大于或等于该第一阈值地第一相似度满足第一预设条件。否则，则不满足该第一预设条件。进而，针对与该满足第一预设条件的第一相似度对应的分段音频进行去重处理，并确定与该分段音频对应的第一索引标识。将与不满足第一预设条件的第一相似度对应的分段音频作为未被去重处理的剩余音频。

去重处理例如可以为在存储空间中删除该分段音频或图像片段地操作。

类似地，针对每个图像片段特征向量，利用相似度计算公式，针对该图像片段特征和每个源图像片段特征特征向量进行处理，得到多个第二相似度。将每个第二相似度与第二阈值相对比，在确定该多个第二相似度中存在至少一个第二相似度大于或等于该第二阈值的情况下，确定该大于或等于第二阈值地第二相似度满足第二预设条件。否则，则不满足该第二预设条件。进而，针对与该满足第二预设条件的第二相似度对应的图像片段进行去重处理，并确定与该图像片段对应的第二索引标识。将与不满足第二预设条件的第二相似度对应的图像片段作为未被去重处理的剩余图像片段。

未被去重处理的剩余音视频信息例如可以包括未被去重处理的剩余音频和未被去重处理的剩余图像片段。相似度计算公式例如可以为任意确定两向量之间距离的公式，例如，余弦相似度公式。

在确定第一索引标识、第二索引标识、未被去重处理的剩余音频和未被去重处理的剩余图像片段之后，依据第一索引标识、第二索引标识、未被去重处理的剩余音频和未被去重处理的剩余图像片段对应的分段音频和分段视频在待去重音视频中的出现时刻顺序，确定包括指示该第一索引标识、第二索引标识、未被去重处理的剩余音频和未被去重处理的剩余图像片段的目标索引标识。基于该目标索引标识可以所以到每个时刻或每个时长对应的分段音频和图像片段，以确定待去重音视频。

根据本说明书的另一个实施例，第一索引标识的确定包括：针对去重处理的分段音频，确定和分段音频对应的目标源音频的第一索引标识，目标源音频为与和分段音频特征向量确定的第一相似度满足第一预设条件的源音频特征向量对应的源音频，第一索引标识指向目标源音频。

例如，源音频A与分段音频S之间的第一相似度大于第一阈值，源音频B与分段音频A之间的第一相似度小于第一阈值时，源音频A为目标源音频。第一索引标识例如可以为与源音频A关联的标识。

根据本说明书的另一个实施例，第二索引标识的确定包括：针对去重处理的图像片段，确定和图像片段对应的目标源图像片段的第二索引标识，目标源图像片段为与和图像片段特征向量确定的第二相似度满足第二预设条件的源图像片段特征向量对应的源图像片段，第二索引标识指向目标源图像片段。

例如，源图像片段C与图像片段Y之间的第二相似度大于第二阈值，源图像片段D与图像片段Y之间的第二相似度小于第二阈值时，源图像片段C为目标源图像片段。第二索引标识例如可以为与源图像片段C关联的标识。

图3A所示为本说明书实施例一种视频去重处理方法的流程图。图3C所示未本说明书实施例一种分段处理方法的示意图。在本图中描述了一种视频去重处理过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。具体的如图3A所示，方法可以包括：

S3110，针对待去重音视频进行分段处理，得到至少一个表征信息；

S3120，针对每个表征信息，判断表征信息的存储空间数据是否满足第三预设条件；

S3130，在确定目标表征信息的存储空间数据满足第三预设条件的情况下，针对0目标表征信息进行特征提取，得到目标表征信息特征向量；

S3140，判断源表征信息特征向量和目标表征信息特征向量的第三相似度是否满足第四预设条件

S3150，在源表征信息特征向量和目标表征信息特征向量的第三相似度，满足第

四预设条件的情况下，对目标表征信息进行去重处理；

5S3160，在确定目标表征信息的存储空间数据不满足第三预设条件，或源表征信息特征向量和目标表征信息特征向量的第三相似度不满足第四预设条件的情况下，将目标表征信息作为剩余音视频信息。

利用本说明书实施例，待去重音视频内除了包括音频和纯视频之外，通常还包括表征信息。如果表征信息占用的存储空间较大时，也会导致存储空间的利用率较低。0根据本说明书的另一个实施例，表征信息例如可以包括特效和文字等信息。

针对待去重音视频进行轨道分离，除了得到音频轨道的音频和纯视频轨道的纯视频之外，还能得到表征信息轨道的整个表征信息，例如，特效轨道的特效和文字轨道的文字等。进而针对整个表征信息进行切分，得到至少一个表征信息。切分的方法与

针对整个音频或整个纯视频进行切分的方法相类似。如图3C所示，针对待去重视频，5依据轨道1视频轨道、轨道2视频轨道、轨道3视频轨道、轨道4图片轨道和轨道5音频轨道五个轨道进行分离处理，得到对应的分段音频(音频段1)，图像片段(视频段1、视频段2、视频段3、视频段4、视频段5和视频段6)和表征信息(连续1、连续2、连续3、连续4、图片1和图像2)。

针对每个表征信息，判断该表征信息的存储空间数据是否大于存储空间阈值，在确定该表征信息的存储空间数据大于存储空间阈值的情况下，确定该存储空间数据满足第三预设条件。否则，则确定该存储空间数据不满足第三预设条件。将与满足第三预设条件的存储空间数据对应的表征信息作为目标表征信息。将与不满足第三预设条件的存储空间数据对应的表征信息作为剩余表征信息。

针对目标表征信息进行特征提取得到目标表征信息特征向量的过程，与上文针对分段音频或图像片段进行特征提取的过程相类似。目标表征信息特征向量例如可以包括指示特效长度，特效类型，编码方式等的特征数据。

源表征信息特征向量为针对源表征信息进行特征提取得到的。源表征信息例如可以为预设的表征信息，例如预设的特效和预设的文字等。

利用相似度计算公式，针对目标表征信息特征向量和每个源表征信息特征向量进行处理，得到多个第三相似度。将每个第三相似度与每个第四阈值进行对比，在确定至少一个第三相似度大于或等于该第四阈值的情况下，确定大于或等于第四阈值的第三相似度满足第四预设条件，否则，确定该第三相似度不满足第四预设条件。

针对与满足第四预设条件的第三相似度对应的目标表征信息进行去重处理。该去重处理为删除该目标表征信息的操作。将与不满足第四预设条件的第三相似度对应的目标表征信息剩余表征信息。

剩余音视频信息例如除了剩余音频和剩余图像片段之外还包括剩余表征信息。

图3B所示为本说明书实施例一种目标索引标识确定方法的流程图。在本图中描述了一种目标索引标识确定过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。具体的如图3B所示，方法可以包括：

S3250，针对去重处理之后的待去重音视频，确定与被去重的目标表征信息对应的第三索引标识；

S3260，基于第一索引标识、第二索引标识、第三索引标识和未被去重处理的剩余音视频信息，确定与去重处理之后的待去重音视频对应的目标索引标识。

根据本说明书的另一个实施例，针对被去重的目标表征信息，确定第三索引标识。该第三索引标识的确定例如可以包括，针对去重处理的目标表征信息，确定和目标表征信息对应的目标源表征信息的第三索引标识，目标源表征信息为与和目标表征信息特征向量确定的第三相似度满足第四预设条件的源表征信息特征向量对应的源表征信息，第三索引标识指向目标源表征信息。

依据第一索引标识、第二索引标识、第三索引标识、未被去重处理的剩余音频、未被去重处理的剩余图像片段和未被去重处理的剩余表征信息对应的分段音频、分段视频和表征信息在待去重音视频中的出现时刻顺序，确定包括指示该第一索引标识、第二索引标识、第三索引标识、未被去重处理的剩余音频、未被去重处理的剩余图像片段和未被去重处理的剩余表征信息的目标索引标识。

图4A所示为本说明书实施例一种第一相似度确定方法的流程图。在本图中描述了一种第一相似度确定过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。具体的如图4A所示，方法可以包括：

S431，依据与分段音频特征向量对应的分段音频的时长信息，针对预设音频进行分段处理，得到多个源音频；

S432，针对每个源音频进行特征提取，得到多个源音频特征向量；

S433，从分段音频特征向量和每个源音频特征向量中，分别确定与每个第一维度对应的子第一分段音频特征数据和子第一源音频特征数据；

S434，在每个第一维度下，确定子第一分段音频特征数据和子第一源音频特征数据的子第一相似度；

S435，利用与每个第一维度对应的第一权重数据，对与每个第一维度对应的子第一相似度进行加权计算，得到第一相似度。

根据本说明书的另一个实施例，针对每个分段音频，分别基于该分段音频的类别信息，确定预设音频。类别信息例如为可以从预设音频库种索引预设音频的信息。例如，类别信息为A年B月C日E时的世界杯赛事。

例如，分段音频的时长信息为F秒，则针对确定的预设音频以预设步长为基础，切分出多个F秒的源音频。预设步长例如可以为1秒。

针对每个源音频进行特征提取，得到多个源音频特征向量的过程例如可以与针对分段音频进行特征提取，得到分段音频特征向量的过程相类似。

第一维度包括在音频特征中的特征类别。例如，在分段音频特征向量包括指示音频长度、音频类型、音频起止时间、音频编码方式和音频地址的特征数据。则第一维度包括音频长度、音频类型、音频起止时间、音频编码方式和音频地址。

例如，源音频特征向量为(a,s,d,f,g,h,j)，分段音频特征向量为(z,x,c,v,b,n,m)。其中，a和z为与音频长度对应的特征数据，s、d、x和c为与音频类型对应的特征数据，f、g、v和b为与音频起止时间对应的特征数据，h和n为与音频编码方式对应的特征数据，j和m为与音频地址对应的特征数据。

确定a和z之间的子第一相似度，确定s和d与x和c之间的子第一相似度，确定f和g与v和b之间的子第一相似度，确定h和n之间的子第一相似度，确定j和m之间的子第一相似度。并基于与音频长度、音频类型、音频起止时间、音频编码方式和音频地址分别对应的第一权重数据针对多个子第一相似度进行加权计算，得到第一相似度。

图4B所示为本说明书实施例一种第二相似度确定方法的流程图。在本图中描述了一种第二相似度确定过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。具体的如图4B所示，方法可以包括：

S441，依据与图像片段特征向量对应的图像片段的时长信息，针对预设视频进行分段处理，得到多个源图像片段；

S442，针对每个源图像片段进行特征提取，得到多个源图像片段特征向量；

S443，从图像片段特征向量和每个源图像片段特征向量中，分别确定与每个第二维度对应的子第二图像片段特征数据和子第二源图像片段特征数据；

S444，在每个第二维度下，确定子第二图像片段特征数据和子第二源图像片段特征数据的子第二相似度；

S445，利用与每个第二维度对应的第二权重数据，对与每个第二维度对应的子第二相似度进行加权计算，得到第二相似度。

根据本说明书的另一个实施例，基于与图4A包括的S431-S435类似地操作针对图像片段特征向量和预设视频进行处理，得到第二相似度。

需要说明的是，针对每个图像片段，分别基于该图像片段的类别信息，确定预设视频。

图5A所示为本说明书实施例一种视频提取展示方法的原理图。图5B所示为本说明书实施例一种视频存储和视频提取展示方法的原理图。在本图中描述了一种视频提取展示过程，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。具体的如图5A所示，方法可以包括：

S510，根据接收到的目标索引标识，确定多个子索引标识和子音视频索引信息；

S520，针对每个子索引标识，分别确定对应的源图像片段或源音频或源表征信息；

S530，基于源图像片段、源音频、源表征信息和与子音视频索引信息对应的子音视频，确定目标视频以展示。

利用本说明书实施例，目前提取已去重处理后的视频时，多直接根据与该视频对应的索引标识，直接索引整个视频。而基于此种去重处理后的视频存储过程中的存储空间利用率较低，具体原因上文已说明。

根据本说明书的另一个实施例，在用户想观看存储的某个视频时，点击或选中用户终端上该视频对应的标识，以控制用户终端发送目标索引标识至服务器。

服务器在接收到该目标索引标识时，针对该目标索引标识进行拆分，得到多个子索引标识和子音视频索引信息。该子索引标识例如可以为上文的第一索引标识、第二索引标识和第三索引标识，分别与被去重处理的分段音频对应的源音频、被去重处理的图像片段的对应的源图像片段和被去重处理的目标表征信息对应的源表征信息相关联。具体地，例如第一索引标识、第二索引标识和第三索引标识例如与上文的目标源音频、目标源图像片段和目标源表征信息相关联。子音视频索引信息例如为与未被去重处理的剩余音频、剩余图像片段和剩余表征信息相关联的信息。

基于第一索引标识、第二索引标识、第三索引标识和子音视频索引信息在目标索引标识中的排列顺序，针对基于第一索引标识、第二索引标识、第三索引标识和子音视频索引信息确定的源音频、源图像片段、源表征信息和子音视频进行拼接，得到目标视频，并将该目标视频发送至用户终端以进行展示。子音视频例如可以包括未被去重处理的剩余音频、剩余图像片段和剩余表征信息。

需要说明的时目标索引标识例如可以为基于图2中步骤S210-S260确定的目标索引标识。具体地如图5B所示。

如图5B，针对待去重音视频501进行分轨道分段处理之后，得到多个分段音频502、多个图像片段503和多个表征信息504。

针对多个分段音频502中的每个分段音频，分别确定与预设音频中的源分段音频的第一相似度，在满足第一预设条件的第一相似度对应的分段音频作为去重处理分段音频511，针对该去重处理分段音频511进行去重处理，并确定与满足第一预设条件的第一相似度对应的源分段音频对应的标识为第一索引标识531。此外，将不满足第一预设条件的第一相似度对应的分段音频作为剩余音频521。

类似地，针对多个图像片段503中的每个图像片段，分别确定与预设视频中的源图像片段的第二相似度，在满足第二预设条件的第二相似度对应的图像片段作为去重处理图像片段512，针对该去重处理图像片段512进行去重处理，并确定与满足第二预设条件的第二相似度对应的源图像片段对应的标识为第二索引标识532。此外，将不满足第二预设条件的第二相似度对应的图像片段作为剩余图像片段522。

类似地，针对多个表征信息504中的每个表征信息，确定该表征信息的存储空间数据是否满足第三预设条件，在确定满足第三预设条件的情况下，分别确定与每个源表征信息的第三相似度，在满足第四预设条件的第三相似度对应的目标表征信息作为去重处理目标表征信息513，针对该去重处理目标表征信息513进行去重处理，并确定与满足第四预设条件的第三相似度对应的源表征信息对应的标识为第三索引标识533。此外，将不满足第四预设条件的第三相似度对应的表征信息作为剩余表征信息523。

此后，基于多个分段音频502中每个分段音频、多个图像片段503中每个图像片段和多个表征信息504中每个表征信息在待去重音视频501中的中的出现时刻顺序，针对第一索引标识531、剩余音频521、第二索引标识532、剩余图像片段522、第三索引标识533和剩余表征信息523进行排序和处理，以构建目标索引标识540。

图6A所示为本说明书实施例一种视频存储装置的结构示意图。如图6A所示，包括，

分段单元6010，用于针对待去重音视频进行分段处理，得到至少一个分段音频和至少一个图像片段；

提取单元6020，用于针对每个分段音频和每个图像片段进行特征提取，得到至少一个分段音频特征向量和至少一个图像片段特征向量；

第一去重单元6030，用于针对每个分段音频特征向量，在源音频特征向量和分段音频特征向量的第一相似度满足第一预设条件的情况下，对与分段音频特征向量对应的分段音频进行去重处理，源音频特征向量为针对源音频进行特征提取得到的；

第二去重单元6040，用于针对每个图像片段特征向量，在源图像片段特征向量和图像片段特征向量的第二相似度满足第二预设条件的情况下，对与图像片段特征向量对应的图像片段进行去重处理，源图像片段特征向量为针对源图像片段进行特征提取得到的；

第一确定单元6050，用于针对去重处理之后的待去重音视频，确定与被去重的分段音频对应的第一索引标识和与被去重的图像片段对应的第二索引标识；以及

第二确定单元6060，用于基于第一索引标识、第二索引标识和未被去重处理的剩余音视频信息，确定与去重处理之后的待去重音视频对应的目标索引标识。

由于上述装置解决问题的原理与上述方法相似，因此上述装置的实施可以参见上述方法的实施，重复之处不再赘述。

图6B所示为本说明书另一实施例的一种视频存储装置的结构示意图。如图6B所示，包括，

表征分段单元6071，用于针对待去重音视频进行分段处理，得到至少一个表征信息；

判断单元6072，用于针对每个表征信息，判断表征信息的存储空间数据是否满足第三预设条件；

表征特征提取单元6073，用于在确定目标表征信息的存储空间数据满足第三预设条件的情况下，针对目标表征信息进行特征提取，得到目标表征信息特征向量；

表征去重单元6074，用于在源表征信息特征向量和目标表征信息特征向量的第三相似度，满足第四预设条件的情况下，对目标表征信息进行去重处理，源表征信息特征向量为针对源表征信息进行特征提取得到的，

和；

标识确定单元6075，用于针对去重处理之后的待去重音视频，确定与被去重的目标表征信息对应的第三索引标识；以及

存储单元6076，用于基于第一索引标识、第二索引标识、第三索引标识和未被去重处理的剩余音视频信息，确定与去重处理之后的待去重音视频对应的目标索引标识。

图6C所示为本说明书实施例的一种视频提取展示装置的结构示意图。如图6C所示，包括，

第三确定单元6080，用于根据接收到的目标索引标识，确定多个子索引标识和子音视频索引信息；

第四确定单元6090，用于针对每个子索引标识，分别确定对应的源图像片段或源音频或源表征信息；

第五确定单元6110，用于基于源图像片段、源音频、源表征信息和与子音视频索引信息对应的子音视频，确定目标视频以展示。

由于上述装置解决问题的原理与上述方法相似，因此上述装置的实施可以参见上述方法的实施，重复之处不再赘述。

如图7所示为本说明书实施例一种计算机设备的结构示意图，本说明书中的装置可以为本实施例中的计算机设备，执行上述本说明书的方法。计算机设备702可以包5括一个或多个处理设备704，诸如一个或多个中央处理单元(CPU)，每个处理单元可

以实现一个或多个硬件线程。计算机设备702还可以包括任何存储资源706，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储资源706可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设

备，硬盘，光盘等。更一般地，任何存储资源都可以使用任何技术来存储信息。进一0步地，任何存储资源可以提供信息的易失性或非易失性保留。进一步地，任何存储资源可以表示计算机设备702的固定或可移除部件。在一种情况下，当处理设备704执行被存储在任何存储资源或存储资源的组合中的相关联的指令时，计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储资源交互的一个或多个驱动机构708，诸如硬盘驱动机构、光盘驱动机构等。

5计算机设备702还可以包括输入/输出模块710(I/O)，其用于接收各种输入(经

由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口(GUI)718。在其他实施例中，还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714，仅作为网络中的一台

计算机设备。计算机设备702还可以包括一个或多个网络接口720，其用于经由一个0或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。

通信链路722可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

5本说明书实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述方法。

本说明书实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序被处理器执行时实现上述方法。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上的具体实施例，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本说明书的具体实施例而已，并不用于限定本说明书的保护范围，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李明慧;
专利申请人：博鼎实华（北京）技术有限公司;