掌桥专利:专业的专利平台
掌桥专利
首页

视频匹配处理方法、装置、计算机设备、存储介质及产品

文献发布时间:2023-06-19 18:37:28


视频匹配处理方法、装置、计算机设备、存储介质及产品

技术领域

本申请涉及计算机技术领域,尤其涉及一种视频匹配处理方法、一种视频匹配处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

随着互联网技术的不断发展,各式各样的视频在各个领域内层出不穷。那么,视频查重技术便成为各个领域内所研究的一个重要话题。

目前,常用的视频查重方式主要是基于人工匹配的方式,即人工将待匹配视频与视频库中的各个视频进行比对查重,这种人工匹配方式操作繁琐,效率低下。当然现有的也存在通过人工智能模型来智能比对两个或者多个视频的相似度的方案,但是目前的人工智能模型存在一些特征提取偏差的问题,不利于应对线上各式各样的视频内容的比对以及去重操作。

发明内容

本申请实施例提出了一种视频匹配处理方法、装置、计算机设备、存储介质及产品,可提高视频匹配处理的准确性。

一方面,本申请实施例提供了一种视频匹配处理方法,该方法包括:

对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;

基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;

对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;

根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

一方面,本申请实施例提供了一种视频匹配处理装置,该装置包括:

处理单元,用于对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;

确定单元,用于基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;

处理单元,还用于对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;

确定单元,还用于根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,处理单元对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征,用于执行以下操作:

对待匹配视频进行抽帧处理,得到多个初始视频帧;

对多个初始视频帧进行降采样处理,得到多个第一视频帧;

对各个第一视频帧进行全局特征提取处理,得到各个第一视频帧的全局视频图像特征,其中各个第一视频帧的全局视频图像特征组成待匹配视频的全局视频图像特征。

在一种可能的实现方式中,确定单元基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

在视频帧特征库中,对各个第一视频帧的全局视频图像特征进行特征查找处理,确定每个第一视频帧对应的召回列表,召回列表包括n个待召回视频帧的帧标识,以及每个待召回视频帧所属的待召回视频的视频标识,n为正整数;

根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,确定单元根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

遍历每个第一视频帧对应的召回列表中的视频标识,确定待召回视频,待召回视频由具有相同视频标识的多个待召回视频帧构成的集合表示;

基于间隔查找规则对每个召回列表中的待召回视频帧进行查找处理,得到每个待召回视频对应的等间隔视频序列;

根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,初始召回视频集合中包括一个或多个初始召回视频;确定单元根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

分别计算待匹配视频和每个待召回视频对应的等间隔视频序列之间的重复度,得到每个待召回视频的重复度;

将满足重复度阈值的重复度对应的待召回视频,确定为与待匹配视频相关联的初始召回视频,以得到初始召回视频集合。

在一种可能的实现方式中,确定单元根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

获取初始召回视频集合中每个初始召回视频的关联视频特征;

基于图像匹配算法,对所述待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理,确定待匹配视频中目标视频帧与每个初始召回视频中对应的召回视频帧之间的多个特征匹配点;

根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,确定单元根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,确定待匹配视频与任一初始召回视频之间的相似度;

将初始召回视频集合中达到相似度阈值的初始召回视频,确定为与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,匹配召回视频的数量为多个;处理单元还用于执行以下操作:

基于待匹配视频的第一音频信息,得到待匹配视频的第一音频指纹;以及,

基于任一匹配召回视频的第二音频信息,得到任一匹配召回视频的第二音频指纹;

根据第一音频指纹和第二音频指纹之间的指纹相似度,从多个匹配召回视频中确定出与待匹配视频相匹配的目标召回视频。

一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的视频匹配处理方法。

一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的视频匹配处理方法。

一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的视频匹配处理方法。

本申请实施例中,可以获取待匹配视频,并对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;以及,可以对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;然后,基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;最后,根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。由此可见,本申请在进行视频匹配查重时,可以基于粗粒度的全局视频图像特征进行初步筛选,得到初始召回视频集合,然后基于细粒度的的局部视频图像特征进行再次筛选,得到最终匹配的匹配召回视频,由于综合考虑了全局特征和局部特征进行多次筛选,基于多细粒度的图像特征匹配方式可以使得视频匹配过程更加准确。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频匹配处理系统的架构示意图;

图2是本申请实施例提供的一种视频匹配处理方法的流程示意图;

图3是本申请实施例提供的一种全局特征提取处理的流程示意图;

图4是本申请实施例提供的一种全局特征匹配的流程示意图;

图5是本申请实施例提供的一种提取局部特征的模型结构示意图;

图6是本申请实施例提供的另一种视频匹配处理方法的流程示意图;

图7是本申请实施例提供的一种局部特征匹配的流程示意图;

图8是本申请实施例提供的一种音频匹配的流程示意图;

图9是本申请实施例提供的一种视频匹配处理装置的结构示意图;

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本申请实施例提出一种视频匹配处理方案,该视频匹配处理方案可以应用于视频匹配处理场景,具体可以应用于视频查重场景,可提高视频查重的准确性。其中,该视频匹配处理方案的原理主要包括:在诸如需进行视频查重等视频匹配场景中,可以获取待匹配视频,并对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;然后,基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;接下来,可以对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;最后,根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

由此可见,本申请在进行视频匹配查重时,可以基于粗粒度的全局视频图像特征进行初步筛选,得到初始召回视频集合,然后基于细粒度的的局部视频图像特征进行再次筛选,得到最终匹配的匹配召回视频,由于综合考虑了全局特征和局部特征进行多次筛选,基于多细粒度的图像特征匹配方式可以使得视频匹配过程更加准确。

接下来,结合本申请提供的视频匹配处理方案的相关原理对涉及到的相关技术术语和主要应用场景进行详细介绍:

一、人工智能:

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

在一种可能的实现方式中,本申请可以与人工智能领域的机器学习技术相结合。具体来说,可以利用机器学习技术(例如图像识别技术)训练神经网络模型(例如图像识别模型),并基于图像识别模型对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;以及,还可以利用图像识别模型对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征。其中,所谓机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

二、云技术:

云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

本申请中,“对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;以及,对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征”,以上过程涉及较大规模计算,需要较大的算力和存储空间,因此在本申请的一种可能的实现方式中,可以由计算机设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及到的确定出与待匹配视频相匹配的匹配召回视频。

三、区块链:

在一种可能的实现方式中,可以将本申请所提供的视频匹配处理流程中所涉及的待匹配视频、待匹配视频的全局视频图像特征、以及待匹配视频的局部视频图像特征,等数据上传至区块链网络中进行存储,以防止区块链节点(计算机设备)的内部数据被篡改,从而提升视频匹配过程的安全性和可靠性。其中,所谓区块链(Block chain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。

特别需要说明的是,在本申请的后续具体实施方式中,涉及到对象信息等相关数据,当本申请以上实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

接下来,对本申请所涉及的视频匹配处理系统的架构图进行相应说明。请参见图1,图1是本申请实施例提供的一种视频匹配处理系统的架构示意图。如图1所示,该系统架构图中至少可以包括:服务器104以及终端设备集群,其中,终端设备集群中至少可以包括:终端设备101、终端设备102、终端设备103等等。终端设备集群中的任一个终端设备与服务器104之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

其中,图1所示的服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的任一个终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、车辆、车载设备、路边设备、飞行器、可穿戴设备,例如智能手表、智能手环、计步器等,等具有视频匹配处理功能的智能设备。

在一种可能的实现方式中,以终端设备101为例,对本申请实施例提供的视频匹配处理方案进行进一步阐述。具体来说,在需要对待匹配进行视频查重时,终端设备101可以获取待匹配视频。然后终端设备101可以将待匹配视频发送至服务器104,服务器104可以对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征。然后,服务器104可以基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合。接下来,服务器104可以对待匹配视频中的各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征。最后,服务器104可以根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。后续,服务器104可以将一个或多个匹配召回视频发送至终端设备101。后续,终端设备101还可以从一个或多个匹配召回视频中确定出目标召回视频;或者终端设备101也可以将服务器104返回的匹配召回视频均作为目标召回视频。

应当理解,上述只是示例性说明终端设备101和服务器104所执行的具体操作。在另一种可能的实现方式中,对待匹配视频中的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征,不一定是由服务器104来执行,也可以由终端设备101(或者终端设备集群中的其它任意的终端设备)来执行。在又一种可能的实现方式中,上述所提及的视频匹配处理方案也可以由视频匹配处理系统中的服务器、或者终端设备集群中任一个终端设备单独执行,本申请实施例对此并不做具体限定。

在一种可能的实现方式中,可以将本申请实施例提供的视频匹配处理系统部署在区块链上,例如可以终端设备101、终端设备102、以及服务器103均当成区块链的节点设备,共同构成区块链网络。因此本申请中的视频匹配处理流程可以在区块链上执行,这样既可以保证视频匹配处理流程的公平公正化,同时可以使得视频匹配处理流程具备可追溯性,从而提升视频匹配处理流程的安全性。

可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

基于上述对视频匹配处理方案和视频匹配处理系统的相关描述,本申请实施例提出了一种视频匹配处理方法。参见图2所示,图2是本申请实施例提供的一种视频匹配处理方法的流程示意图,该视频匹配处理方法可由上述图1所提及的视频匹配处理系统中的终端设备或服务器执行,为便于阐述,本申请实施例以计算机设备执行为例进行说明。其中,该视频匹配处理方法可包括如下步骤S201~S204:

S201、对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征。

应当理解,待匹配视频的全局视频图像特征具体包括待匹配视频中各个第一视频帧的全局图像特征,也就是说,全局视频图像特征是针对每一第一视频帧的图像特征而言的。其中,从待匹配视频中得到的各个第一视频帧可以包括:基于抽帧处理后得到的各个视频帧;或者,基于抽帧处理和降采样处理后得到的各个视频帧。

在一种可能的实现方式中,计算机设备对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征,具体可以包括:首先,对待匹配视频进行抽帧处理,得到多个初始视频帧;然后,对多个初始视频帧进行降采样处理,得到多个第一视频帧;最后,对各个第一视频帧进行全局特征提取处理,得到各个第一视频帧的全局视频图像特征,其中各个第一视频帧的全局视频图像特征组成待匹配视频的全局视频图像特征。

具体来说,请参见图3,图3是本申请实施例提供的一种全局特征提取处理的流程示意图。如图3所示,全局特征是指抽取待匹配视频的各个第一视频帧的图像特征,接下来,对如何提取待匹配视频的全局特征(全局视频图像特征)的具体过程进行详细说明:

1)对输入的待匹配视频按照2fps/s(2帧/秒)的频率进行抽帧处理。也就是说,每秒从待匹配视频中获取2个视频帧,从而得到多个初始视频帧;

2)对抽帧后得到的多个初始视频帧进行降采样处理,得到多个第一视频帧。其中,抽帧之后帧数降采样为1/6,例如初始视频帧的数量为600,那么降采样后得到的第一视频帧的数量为100。

3)可以利用全局特征提取网络(例如ResNet-101网络)对降采样后的各个第一视频帧进行全局特征提取,分别得到每个第一视频帧对应的2048维特征,再将每个第一视频帧对应的2048维特征经过量化得到128维特征(各个第一视频帧的图像特征),最终得到待匹配视频的全局视频图像特征。

S202、基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合。

其中,初始召回视频集合中可以包括一个或多个初始召回视频,初始召回视频是基于待匹配视频的全局视频图像特征进行视频匹配后得到的。请参见图4,图4是本申请实施例提供的一种全局特征匹配的流程示意图,接下来,结合图4所示的全局特征匹配流程,对如何确定初始召回视频的具体步骤进行详细说明:

在一种可能的实现方式中,计算机设备基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合,可以包括:

(1)在视频帧特征库中对全局视频图像特征进行特征查找处理,确定待匹配视频中每个第一视频帧对应的召回列表,其中,召回列表包括n个待召回视频帧的帧标识,以及每个待召回视频帧所属的待召回视频的视频标识,n为正整数。其中,上述所提及的特征查找处理具体可以包括利用特征查找算法进行处理。

具体来说,可以获取视频库,该视频库中包括多个视频,然后可以将视频库中的各个视频进行全局特征提取处理(全局特征提取的具体步骤参考上述步骤S201中所记录的方式,在此不再赘述),从而得到视频库中每个视频对应的全局视频图像特征。接下来,可以将视频库中各个视频的全局视频图像特征进行打包处理,并添加相应的索引供后续查询使用。例如,视频库中包括视频1、视频2、视频3,那么提取每个视频帧的全局视频图像特征并添加索引后,可以存储于视频帧特征库中,例如视频帧特征库中可以存储有:视频帧特征1->index1;视频帧特征2->index2;视频帧特征3->index3。

进一步地,待索引打包完毕后,基于待匹配视频中各个第一视频帧的全局视频图像特征在视频帧特征库中进行最近邻查找。也就是说,针对任一个第一视频帧,基于特征查找算法(例如可以为最近邻查找算法)在视频帧特征库中,对每个第一视频帧的全局图像特征与视频帧特征库进行查找处理,得到每个第一视频帧对应的召回列表。应当理解,视频帧特征库中的各个视频帧特征是指全局视频图像特征,且视频帧特征库中的各个视频帧特征同样是基于步骤S201所对应的具体执行步骤得到的。其中,该召回列表中包括与当前查询的第一视频帧距离最近的top-N(n)个待召回视频帧的帧标识(frame id),以及每个待召回视频帧所属的待召回视频的视频标识(video id)。如图4所示,假设第一视频帧分别表示为:x1,x2,x3,x4(图4中从上至下排列),那么,第一视频帧x2对应的召回列表中可以包括:与第一视频帧x2相关联的待召回视频帧1的frame id=011,video id=01;待召回视频帧2的frame id=011,video id=05;待召回视频帧3的frame id=005,video id=06。

(2)根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,首先,计算机设备遍历每个第一视频帧对应的召回列表中的视频标识,确定待召回视频,待召回视频由具有相同视频标识的多个待召回视频帧构成的集合表示。然后,计算机设备基于间隔查找规则对每个召回列表中的待召回视频帧进行查找处理,得到每个待召回视频对应的等间隔视频序列。最后,计算机设备根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合。

具体来说,首先可以遍历所得到的各个召回列表,就可以找出召回出来的视频id(待召回视频)和属于该视频的被召回出来的帧集合(待召回视频集合)。然后,可以基于最长等间隔序列算法找出待召回视频集合中的等间隔视频序列,并将确定出来的等间隔视频序列作为找出的两个视频(待匹配视频和任一待召回视频)之间的重复片段。

在一种可能的实现方式中,初始召回视频集合中包括一个或多个初始召回视频。计算机设备根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频的过程,可以包括:分别计算待匹配视频和每个待召回视频对应的等间隔视频序列之间的重复度,得到每个待召回视频的重复度;将满足重复度阈值的重复度对应的待召回视频,确定为与待匹配视频相关联的初始召回视频,以得到初始召回视频集合。

具体来说,可以基于相似度算法计算任一个初始召回视频与待匹配视频之间的重复度,例如相似度算法可以包括但不限于:余弦相似度算法、jaccard相似度算法、欧氏距离算法。若计算出来的重复度达到重复度阈值,则将该重复度对应的待召回视频作为初始召回视频。按照上述方法,针对每个待召回视频均可按照上述方案进行计算,从而可以将确定的所有初始召回视频构成一个初始召回视频集合。

通过这种方式,可以基于待匹配视频的全局视频图像特征,从视频特征库中初步筛选出与待匹配视频之间相关联的一个或多个初始召回视频。

S203、对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征。

在一种可能的实现方式中,计算机设备对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征,可以包括:首先,对待匹配视频进行抽帧处理,得到多个第二视频帧。然后,调用局部特征模型对每个第二视频帧进行局部特征提取处理,得到待匹配视频中的每个第二视频帧对应的局部视频图像特征。

具体来说,计算机设备对待匹配视频进行抽帧处理的过程可以与上述步骤S201中所涉及的相关抽帧步骤一致。也就是说,计算机设备可以对输入的待匹配视频按照2fps/s(2帧/秒)的频率进行抽帧处理。也就是说,每秒从待匹配视频中获取2个初始视频帧,从而得到多个初始视频帧;然后,对抽帧后得到的多个初始视频帧进行降采样处理,得到多个第二视频帧。在一种可能的实现方式中,本申请实施例中,第二视频帧与第一视频帧可以相同,也可以不相同。具体地,若第二视频帧可以是:对待匹配视频进行抽帧处理后得到的各个视频帧;或者,对待匹配视频进行抽帧处理和降采样处理后得到的各个视频帧。为方便说明,本申请后续实施例以第二视频帧与第一视频帧相同为例进行相应说明,那么需要说明的是,在第一视频帧和第二视频帧相同的情况下,待匹配视频中的第一视频帧和第二视频帧又可以简称为视频帧,即后续可简称为待匹配视频的视频帧。

进一步地,在得到多个第二视频帧后,可以将抽取到的第二视频帧组成一个个batch(批次)。也就是说,假设抽取得到100个第二视频帧,那么可以将每10个第二视频帧作为一个batch,得到batch1、batch2、batch3...batch10。通过这种方式,将多个第二视频帧打包成一个batch输入至模型进行处理,可以提高模型处理效率。

本申请实施例中,局部特征模型主要有基于深度学习方法、传统方法两种类型的模型。其中,基于传统方法的模型主要包括:SIFT(Scale-invariant feature transform,尺度不变特征变换)模型、Harris(角点检测)模型等。应当理解,传统方法的模型主要依赖CPU(Central Processing Unit,中央处理器)资源的消耗,而在实际部署中,希望在已有的提取模块中加入局部特征,因此本申请实施例中,可以使用基于深度学习的方法利用GPU(Graphic Processing Unit,图像处理器)资源对图像特征进行提取。其中,本申请实施例中,局部特征提取模型可以为神经网络模型,该神经网络模型可用于提取视频的局部视频图像特征,并且,本申请实施例对局部特征提取模型的模型结构并不做具体限定。

研究发现,使用DELF(DEep Local Features,局部特征提取)模型对视频帧的局部特征进行提取。请参图5,图5是本申请实施例提供的一种提取局部特征的模型结构示意图。具体来说,可以将上述提取到待匹配视频的各个第二视频帧按照batch1、batch2、batch3...batch10的方式分别输入至DELF模型。将图5所示的DELF模型中第一个分支(如图5所示的虚线框内)得到的特征作为每个第二视频帧的局部视频图像特征,具体来说,基于DELF模型对任一批次的视频帧(例如batch1)进行识别处理后,可进一步基于自注意力模块(autoencoder)进行自注意力提取处理,从而得到每个视频帧的局部视频图像特征。可选的,将上述任一批次的视频帧(例如batch1)输入至图5所示的局部特征提取模型进行识别处理后,还可进一步对识别处理后的结果进行池化处理,并基于将池化处理后得到的全局视频图像特征、对上述每个视频帧的局部视频图像特征进行检索处理后,得到每个视频帧的局部视频图像特征。基于这种方式,可基于全局视频图像特征对局部视频图像特征进行进一步融合处理,以使得到的局部视频图像特征更加准确。进一步地,还可以将提取到各个视频帧的局部视频图像特征保存在云端,然后将云端地址记录在数据库中以便后续查重时使用。也就是说,后续当具有查询需求时,可以通过访问云端地址找到相应的数据库,并从数据库中获取存储的各个视频帧的局部视频图像特征。

通过这种方式,可以调用局部特征模型提取待匹配视频中各个第二视频帧的局部视频图像特征,提取到更加准确的局部视频图像特征可以用于后续的精准匹配。

S204、根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的目标召回视频。

其中,初始召回视频集合中可以包括至少一个初始召回视频,从初始召回视频集合中确定出与待匹配视频相匹配的目标召回视频的数量可以为一个,也可以为多个,本申请实施例不作具体限定。

在一种可能的实现方式中,计算机设备根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的目标召回视频,可以包括:首先,获取初始召回视频集合中每个初始召回视频的关联视频特征;然后,基于图像匹配算法对待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理,确定待匹配视频中目标视频帧与每个初始召回视频中对应的召回视频帧之间的多个特征匹配点;最后,根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

具体来说,计算机设备根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,可以包括:首先,根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,确定待匹配视频与任一初始召回视频之间的相似度;然后,从初始召回视频集合中确定出达到相似度阈值的参考召回视频;最后,根据参考召回视频,确定与待匹配视频相匹配的匹配召回视频。

通过这种方式,可以基于待匹配视频的局部视频图像特征,从初步筛选得到的初始召回视频集合中进行再次筛选,从而得到与待匹配视频匹配程度更高的匹配召回视频,由于综合考虑了局部特征和全局特征来进行多次筛选,可以提高视频匹配过程的准确性。

本申请实施例中,可以获取待匹配视频,并对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;然后,基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;接下来,可以对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;最后,根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。由此可见,本申请在进行视频匹配查重时,可以基于粗粒度的全局视频图像特征进行初步筛选,得到初始召回视频集合,然后基于细粒度的的局部视频图像特征进行再次筛选,得到最终匹配的匹配召回视频,由于综合考虑了全局特征和局部特征进行多次筛选,基于多细粒度的图像特征匹配方式可以使得视频匹配过程更加准确。

接下来,请参见图6,图6是本申请实施例提供的另一种视频匹配处理方法的流程示意图。该视频匹配处理方法可由上述图1所提及的视频匹配处理系统中的终端设备或服务器执行,为便于阐述,本申请实施例以计算机设备执行为例进行说明。其中,该视频匹配处理方法可包括如下步骤S601~S606:

S601:对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征。

S602:基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合。

S603:对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征。

需要说明的是,步骤S601-S603中计算机设备所执行的具体步骤,详细可以参考步骤S201-S203中相关步骤的执行方法,本申请实施例在此不再赘述。

S604:获取每个初始召回视频的关联视频特征。

需要说明的是,每个初始召回视频的关联视频特征是指每个初始召回视频的局部视频图像特征,具体的,初始召回视频包括多个召回视频帧,那么关联视频特征可以包括各个召回视频帧的局部视频图像特征。那么,计算机设备获取每个初始召回视频的关联视频特征的具体步骤详细可参考计算机设备对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征的相关过程,本申请实施例在此不再赘述。

S605:基于图像匹配算法对待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理,确定待匹配视频中目标视频帧与每个初始召回视频中对应的召回视频帧之间的多个特征匹配点。

举例来说,请参见图7,图7是本申请实施例提供的一种局部特征匹配的流程示意图。如图7所示,针对需要进行局部特征匹配的两个视频:待匹配视频(A视频)、初始召回视频(B视频),通过图2实施例中步骤S202所描述的全局特征搜索匹配,可以得到两个视频之间的可能重复片段的起始位置,如图4中初始召回视频中阴影部分区域(如图S401部分)所示。然后基于局部特征提取模型(DELF模型)对A视频中重复片段和B视频中重复片段进行局部特征提取处理,即可得到A视频中各个视频帧的局部视频图像特征、和B视频中各个视频帧的局部视频图像特征。其中,如何提取视频帧局部视频图像特征可以详细参考图2实施例中步骤S203中所描述的相关过程,本申请实施例在此不再赘述。

其中,图像匹配算法可以包括但不限于:RANSAC(RANdom SAmple Consensus,随机抽样一致)算法、MAD(Mean Absolute Differences,平均绝对差)算法、SAD(Sum ofAbsolute Differences,绝对误差和算法)算法,等等。

S606:根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,计算机设备根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,可以包括:根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,确定目标视频帧与召回视频帧之间的相似度;根据目标视频帧与召回视频帧之间的相似度,确定待匹配视频与任一初始召回视频之间的相似度;将初始召回视频集合中达到相似度阈值的初始召回视频,确定为与待匹配视频相匹配的匹配召回视频。

具体实现时,在进行局部特征匹配时,假设A视频中视频帧对应的局部视频图像特征表示为局部特征1,B视频中视频帧对应的局部视频图像特征表示为局部特征2,那么,可以利用图像匹配算法对待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理。为方便阐述,本申请实施例以图像匹配算法为RANSAC算法为例进行详细说明:

首先,基于RANSAC算法对两组局部特征(A视频对应的局部特征1和B视频对应的局部特征2)进行局部特征匹配时,是对A视频中任一视频帧和B视频中召回视频帧进行局部特征匹配的,也就是说,在进行局部特征匹配时是针对一组视频帧进行局部特征匹配的。具体地,针对A视频中的目标视频帧而言,可以基于RANSAC算法对A视频中的目标视频帧x1的局部特征1和B视频中的召回视频帧y1的局部特征2进行特征匹配,从而得到目标视频帧x1和召回视频帧y1之间的多个特征匹配点。

然后,根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,计算得到目标视频帧与任一召回视频帧之间的相似度。具体来说,可以将特征匹配点的数量与目标视频帧与任一召回视频帧之间的最少局部特征数量之间的比值,作为目标视频帧与任一召回视频帧之间的相似度。通过这种方式,可以计算得到待匹配视频中每个视频帧和任一初始召回视频中的相应召回视频帧之间的相似度,例如,待匹配视频中所包括的视频帧分别表示为:x1,x2,...,xn;任一初始召回视频中所包括的召回视频帧分别表示为:y1,y2,...,yn。通过上述方式,可以得到x1与y1之间的相似度s11;x2与y2之间的相似度s12...xn与yn之间的相似度s1n。

例如,待匹配视频表示为V0,初始召回视频表示为V1,V2...Vn。按照上述方式,可以匹配得到待匹配视频中每个视频帧与各个初始召回视频中相应召回视频帧之间的相似度,并且可以将上述匹配结果记录于表格中,如下表1所示:

表1.待匹配视频的各视频帧与各初始召回视频中召回视频帧之间的相似度

如上述表1所示,s11用于表示待匹配视频中视频帧x1与初始召回视频V1中相应待召回视频帧之间的相似度;s21用于表示待匹配视频中视频帧x1与初始召回视频V2中相应待召回视频帧之间的相似度;s12用于表示待匹配视频中视频帧x2与初始召回视频V1中相应待召回视频帧之间的相似度,以此类推,s1n用于表示待匹配视频中视频帧xn与初始召回视频V1中相应待召回视频帧之间的相似度。

接下来,根据待匹配视频中每个视频帧和任一初始召回视频中的相应召回视频帧之间的相似度,确定待匹配视频与任一初始召回视频之间的相似度。在一种可能的实现方式中,可以将上述得到的各个相似度s11,s12...s1n进行加权平均运算,从而得到待匹配视频与任一初始召回视频之间的相似度。在另一种可能的实现方式中,也可以从上述得到的各个相似度s11,s12...s1n中选择出最大值(或最小值),作为待匹配视频与任一初始召回视频之间的相似度。

最后,可以得到待匹配视频与每个初始召回视频之间的相似度。然后将相似度大于或者等于相似度阈值的初始召回视频作为与待匹配视频相匹配的匹配召回视频,匹配召回视频的数量也可以为一个也可以为多个。

在一种可能的实现方式中,还可以基于待匹配视频的音频信息,对匹配得到的多个匹配召回视频进行进一步匹配处理。具体来说,计算机设备可以基于待匹配视频的第一音频信息,得到待匹配视频的第一音频指纹;以及,基于任一匹配召回视频的第二音频信息,得到任一匹配召回视频的第二音频指纹。然后,计算机设备可以根据第一音频指纹和第二音频指纹之间的指纹相似度,从匹配召回视频中确定出与待匹配视频相匹配的目标召回视频。

请参见图8,图8是本申请实施例提供的一种音频匹配的流程示意图。如图8所示,可以对待匹配视频和匹配召回视频进行音频比对,音频比对的流程具体如下:首先,获取各个视频的音频信息,具体地,音频信息可以以wav文件的格式进行存储;然后,基于wav文件提取得到各自的音频指纹;最后,计算两组音频指纹之间的重复度,作为两个音频(待匹配视频和匹配召回视频)之间的相似度。接下来,结合图8对上述过程进行详细说明:

1)获取各个视频的音频信息:计算机设备可以获取到待匹配视频的第一音频信息(例如wav1文件),然后基于音频指纹提取算法,提取出wav1文件对应第一音频指纹;同理,计算机设备可以获取到匹配召回视频的第二音频信息(例如wav2文件),然后基于音频指纹提取算法,提取出wav2文件对应第二音频指纹。

2)音频指纹(以第一音频指纹为例)的提取过程。如图8所示,首先,对待匹配音频进行快速傅里叶变换,得到频谱信息;然后,在频谱信息中查找峰值点,可以理解的是,在频谱中,没找到一个峰值点,可以将该峰值点及其周围峰值点组成一个group。接下来,将每个group中的峰值位置和大小映射成相应的哈希码,具体的,可以基于哈希运算将每个group中的峰值位置和大小映射成相应的哈希码。那么,一个音频文件就可以得到一组哈希码,这组哈希码即可作为待匹配音频的第一音频指纹。应当理解,提取任一匹配召回视频的第二音频指纹的方式具体也可以参考提取待匹配音频的第一音频指纹的相关过程,本申请实施例在此不再赘述。

3)可以计算得到第一音频指纹和第二音频指纹之间的重复度,作为待匹配视频和匹配召回视频之间的指纹相似度。最后,将指纹相似度大于或者等于指纹相似度阈值的匹配召回视频,作为与待匹配视频相匹配的目标召回视频。

本申请实施例中,可以结合视频的图像信息和音频信息进行视频匹配。具体来说,首先基于待匹配视频的全局视频图像特征进行初步筛选匹配,得到初始召回视频集合;然后基于待匹配视频的局部视频图像特征进行再次筛选匹配,得到匹配召回视频。进一步地,还可以基于待匹配视频的音频特征(音频指纹)进行再次匹配,从而得到匹配度更高的目标召回视频。由此可见,由于综合考虑了音频信息和图像信息,本申请实施例基于音频特征与多细粒度的图像特征的视频匹配方法,可以进一步提高视频匹配过程的准确性。

上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置,接下来,结合上述本申请实施例提供的视频匹配处理方案,对本申请实施例的相关装置进行相应介绍。

请参见图9,图9是本申请实施例提供的一种视频匹配处理装置的结构示意图。如图9所示,该视频匹配处理装置900可应用于前述实施例中所提及的计算机设备(终端设备或服务器)。具体来说,视频匹配处理装置900可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该视频匹配处理装置900为一个应用软件;该视频匹配处理装置900可以用于执行本申请实施例提供的视频匹配处理方法中的相应步骤。该视频匹配处理装置900包括:

处理单元901,用于对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;

确定单元902,用于基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;

处理单元901,还用于对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;

确定单元902,还用于根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,处理单元901对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征,用于执行以下操作:

对待匹配视频进行抽帧处理,得到多个初始视频帧;

对多个初始视频帧进行降采样处理,得到多个第一视频帧;

对各个第一视频帧进行全局特征提取处理,得到各个第一视频帧的全局视频图像特征,其中各个第一视频帧的全局视频图像特征组成待匹配视频的全局视频图像特征。

在一种可能的实现方式中,确定单元902基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

在视频帧特征库中,对各个第一视频帧的全局视频图像特征进行特征查找处理,确定每个第一视频帧对应的召回列表,召回列表包括n个待召回视频帧的帧标识,以及每个待召回视频帧所属的待召回视频的视频标识,n为正整数;

根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,确定单元902根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

遍历每个第一视频帧对应的召回列表中的视频标识,确定待召回视频,待召回视频由具有相同视频标识的多个待召回视频帧构成的集合表示;

基于间隔查找规则对每个召回列表中的待召回视频帧进行查找处理,得到每个待召回视频对应的等间隔视频序列;

根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,初始召回视频集合中包括一个或多个初始召回视频;确定单元902根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

分别计算待匹配视频和每个待召回视频对应的等间隔视频序列之间的重复度,得到每个待召回视频的重复度;

将满足重复度阈值的重复度对应的待召回视频,确定为与待匹配视频相关联的初始召回视频,以得到初始召回视频集合。

在一种可能的实现方式中,确定单元902根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

获取初始召回视频集合中每个初始召回视频的关联视频特征;

基于图像匹配算法,对所述待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理,确定待匹配视频中目标视频帧与每个初始召回视频中对应的召回视频帧之间的多个特征匹配点;

根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,确定单元902根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,确定待匹配视频与任一初始召回视频之间的相似度;

将初始召回视频集合中达到相似度阈值的初始召回视频,确定为与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,匹配召回视频的数量为多个;处理单元901还用于执行以下操作:

基于待匹配视频的第一音频信息,得到待匹配视频的第一音频指纹;以及,

基于任一匹配召回视频的第二音频信息,得到任一匹配召回视频的第二音频指纹;

根据第一音频指纹和第二音频指纹之间的指纹相似度,从多个匹配召回视频中确定出与待匹配视频相匹配的目标召回视频。

本申请实施例中,可以获取待匹配视频,并对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;然后,基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;接下来,可以对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;最后,根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。由此可见,本申请在进行视频匹配查重时,可以基于粗粒度的全局视频图像特征进行初步筛选,得到初始召回视频集合,然后基于细粒度的的局部视频图像特征进行再次筛选,得到最终匹配的匹配召回视频,由于综合考虑了全局特征和局部特征进行多次筛选,基于多细粒度的图像特征匹配方式可以使得视频匹配过程更加准确。

请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1000用于执行前述方法实施例中计算机设备所执行的步骤,该计算机设备1000包括:一个或多个处理器1010;一个或多个输入设备1020,一个或多个输出设备1030和存储器1040。上述处理器1010、输入设备1020、输出设备1030和存储器1040通过总线1050连接。具体地,存储器1040用于存储计算机程序,所述计算机程序包括程序指令,处理器1010用于调用存储器1040存储的程序指令,执行以下操作:

对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;

基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;

对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;

根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,处理器1010对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征,用于执行以下操作:

对待匹配视频进行抽帧处理,得到多个初始视频帧;

对多个初始视频帧进行降采样处理,得到多个第一视频帧;

对各个第一视频帧进行全局特征提取处理,得到各个第一视频帧的全局视频图像特征,其中各个第一视频帧的全局视频图像特征组成待匹配视频的全局视频图像特征。

在一种可能的实现方式中,处理器1010基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

在视频帧特征库中,对各个第一视频帧的全局视频图像特征进行特征查找处理,确定每个第一视频帧对应的召回列表,召回列表包括n个待召回视频帧的帧标识,以及每个待召回视频帧所属的待召回视频的视频标识,n为正整数;

根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,处理器1010根据每个待召回视频帧所属的待召回视频的视频标识,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

遍历每个第一视频帧对应的召回列表中的视频标识,确定待召回视频,待召回视频由具有相同视频标识的多个待召回视频帧构成的集合表示;

基于间隔查找规则对每个召回列表中的待召回视频帧进行查找处理,得到每个待召回视频对应的等间隔视频序列;

根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合。

在一种可能的实现方式中,初始召回视频集合中包括一个或多个初始召回视频;处理器1010根据每个待召回视频对应的等间隔视频序列,确定与待匹配视频相关联的初始召回视频集合,用于执行以下操作:

分别计算待匹配视频和每个待召回视频对应的等间隔视频序列之间的重复度,得到每个待召回视频的重复度;

将满足重复度阈值的重复度对应的待召回视频,确定为与待匹配视频相关联的初始召回视频,以得到初始召回视频集合。

在一种可能的实现方式中,处理器1010根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

获取初始召回视频集合中每个初始召回视频的关联视频特征;

基于图像匹配算法,对所述待匹配视频的局部视频图像特征、与每个初始召回视频的关联视频特征进行特征匹配处理,确定待匹配视频中目标视频帧与每个初始召回视频中对应的召回视频帧之间的多个特征匹配点;

根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,处理器1010根据目标视频帧与每个召回视频帧之间的多个特征匹配点,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频,用于执行以下操作:

根据目标视频帧与任一召回视频帧之间的特征匹配点的数量、以及目标视频帧与任一召回视频帧之间的最少局部特征数量,确定待匹配视频与任一初始召回视频之间的相似度;

将初始召回视频集合中达到相似度阈值的初始召回视频,确定为与待匹配视频相匹配的匹配召回视频。

在一种可能的实现方式中,匹配召回视频的数量为多个;处理器1010还用于执行以下操作:

基于待匹配视频的第一音频信息,得到待匹配视频的第一音频指纹;以及,

基于任一匹配召回视频的第二音频信息,得到任一匹配召回视频的第二音频指纹;

根据第一音频指纹和第二音频指纹之间的指纹相似度,从多个匹配召回视频中确定出与待匹配视频相匹配的目标召回视频。

本申请实施例中,可以获取待匹配视频,并对从待匹配视频中得到的各个第一视频帧进行全局特征提取处理,得到待匹配视频的全局视频图像特征;然后,基于待匹配视频的全局视频图像特征,确定与待匹配视频相关联的初始召回视频集合;接下来,可以对待匹配视频中各个第二视频帧进行局部特征提取处理,得到待匹配视频的局部视频图像特征;最后,根据待匹配视频的局部视频图像特征,从初始召回视频集合中确定出与待匹配视频相匹配的匹配召回视频。由此可见,本申请在进行视频匹配查重时,可以基于粗粒度的全局视频图像特征进行初步筛选,得到初始召回视频集合,然后基于细粒度的的局部视频图像特征进行再次筛选,得到最终匹配的匹配召回视频,由于综合考虑了全局特征和局部特征进行多次筛选,基于多细粒度的图像特征匹配方式可以使得视频匹配过程更加准确。

此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文所对应实施例中的方法,因此,这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文所对应实施例中的方法,因此,这里将不再进行赘述。

本领域普通技术对象可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

技术分类

06120115631677