导航：首页> 纸品或纸板或类似纸的方式加工的材料制品制作；纸或纸板或类似纸的方式加工的材料的加工>相似视频确定方法及装置

相似视频确定方法及装置

文献发布时间：2023-06-19 13:46:35

技术领域

本申请涉及人工智能技术领域，特别涉及一种相似视频确定方法及装置。

背景技术

在互联网快速发展的时代，信息流内容服务受到广泛欢迎，信息流内容服务平台中涌现出大量优质的原创内容。但与此同时，信息流内容服务平台中也产生了大量的搬运账号，搬运帐号所有者通过对这些原创内容进行复制或简单编辑，在得到与原创内容相似的搬运内容后便自行将该搬运内容进行发布，侵害原创作者利益，不利于整个内容生态的健康发展。

为了有效识别这些与原创内容相似的搬运内容，相关技术可以通过计算原创内容中相关组成部分的哈希值的方法或者通过校验原创内容的消息摘要的方法，识别与原创内容相似的搬运内容，但是这些方法抗变性能较差，若搬运内容由原创内容经过若干编辑操作之后得到，则难以对该搬运内容进行识别。

发明内容

本申请实施例提供了一种相似视频确定方法及装置，能够准确识别经过视频编辑操作得到的相似视频，有效提升相似视频识别的准确率。

根据本申请实施例的一个方面，提供了一种相似视频确定方法，所述方法包括：

获取第一视频；

对所述第一视频进行基于内容的特征信息提取，得到所述第一视频的语义特征信息，所述语义特征信息为受视频编辑操作影响的程度低于第一影响程度要求的特征信息；

在所述第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定所述第一视频为所述第二视频的相似视频。

在一个可能的设计中，所述第一视频的语义特征信息包括第一视频语义特征，所述第一视频语义特征用于从视频整体维度表征所述第一视频的语义特征信息，所述对所述第一视频进行基于内容的特征信息提取，得到所述第一视频的语义特征信息，包括：

将所述第一视频输入视频语义提取模型进行特征信息提取，得到所述第一视频语义特征；

其中，所述视频语义提取模型是以三元组为训练样本，基于三元组损失约束条件进行训练得到的机器学习模型，所述三元组的正样本对包括第一样本视频和第二样本视频，所述三元组的负样本对包括所述第一样本视频和第三样本视频，所述第二样本视频为所述第一样本视频经过视频编辑操作得到的视频，所述第三样本视频为与所述第一样本视频具备不同内容的视频。

在一个可能的设计中，所述将所述第一视频输入视频语义提取模型进行特征信息提取，得到所述第一视频语义特征，包括：

根据所述第一视频中的至少一个视频帧和所述第一视频的视频封面，得到目标图像集合；

对所述目标图像集合中每一图像进行嵌入处理，得到所述目标图像集合的嵌入特征集，所述嵌入特征集表征所述第一视频的视觉模态信息；

对所述嵌入特征集中的每一嵌入特征进行基于内容的特征信息提取，得到嵌入语义特征；

对每一所述嵌入语义特征进行平均池化处理，得到所述第一视频语义特征。

在一个可能的设计中，所述第一视频的语义特征信息包括第一图像语义特征序列，所述第一图像语义特征序列用于从视频帧维度表征所述第一视频的语义特征信息，所述对所述第一视频进行基于内容的特征信息提取，得到所述第一视频的语义特征信息，包括：

对所述第一视频的视频帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列，所述第一图像语义特征序列中的第一图像语义特征为受图像编辑操作影响的程度低于第二影响程度要求的特征。

在一个可能的设计中，所述方法还包括：

确定所述第一视频的视频时长；

在所述视频时长符合所述预设时长条件的情况下，执行所述对所述第一视频的视频帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列的操作。

在一个可能的设计中，所述在所述第一视频的视频时长符合预设时长条件的情况下，对所述第一视频的视频帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列，包括：

对所述第一视频进行抽帧操作，得到多个视频帧；

对于每一所述视频帧，确定所述视频帧与相邻视频帧的帧间差异信息；

根据所述帧间差异信息对所述多个视频帧进行筛选，得到目标帧序列；

对于所述目标帧序列中的每一目标帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列。

在一个可能的设计中，所述在所述第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定所述第一视频为所述第二视频的相似视频，包括：

在所述第一视频的语义特征信息包括所述第一视频语义特征的情况下，在所述第二视频的语义特征信息中确定第二视频语义特征，若所述第一视频语义特征与所述第二视频语义特征符合第一预设条件，则确定所述第一视频为所述第二视频的内容相似视频；

在所述第一视频的语义特征信息包括所述第一图像语义特征序列的情况下，在所述第二视频的语义特征信息中确定第二图像语义特征序列，若所述第一图像语义特征序列与所述第二图像语义特征序列符合第二预设条件，则确定所述第一视频为所述第二视频的内容相似视频。

在一个可能的设计中，所述若所述第一图像语义特征序列与所述第二图像语义特征序列符合第二预设条件，则确定所述第一视频为所述第二视频的内容相似视频，包括：

根据所述第一图像语义特征序列与所述第二图像语义特征序列确定匹配特征对，所述匹配特征对中的第一图像语义特征与所述匹配特征对中的第二图像语义特征的距离小于距离阈值；

根据所述匹配特征对确定匹配目标帧，所述匹配目标帧包括第一目标帧和第二目标帧，所述第一目标帧为所述第一视频中与所述第一图像语义特征对应的视频帧，所述第二目标帧为所述第二视频帧中与所述第二图像语义特征对应的视频帧；

若所述匹配目标帧的数量符合数量条件，则确定所述第一视频为所述第二视频的内容相似视频。

在所述第一视频的语义特征信息与所述第二视频的语义特征信息符合所述预设条件的情况下，确定所述第一视频的第一音频特征序列，以及获取所述第二视频的第二音频特征序列；

在所述第一音频特征序列与所述第二音频特征序列之间的相似度符合音频相似条件的情况下，确定所述第一视频为所述第二视频的相似视频。

在一个可能的设计中，所述确定所述第一视频的第一音频特征序列，包括：

获取所述第一视频对应的音频数据；

对所述音频数据进行频域转换处理，得到所述音频数据的频域特征；

基于所述频域特征，生成所述第一音频特征序列。

在一个可能的设计中，所述第二视频为视频数据库中的任一视频，所述视频数据库包括特征信息库和在线索引库，所述在线索引库包括存量索引和增量索引，所述存量索引包括存量视频的索引信息，所述存量视频是指目标历史时段内的视频，所述增量索引包括增量视频的索引信息，所述增量视频是指所述目标历史时段后新增的视频；

所述方法还包括：

在所述第二视频为所述存量视频的情况下，从所述存量索引中获取所述第二视频的目标索引信息；基于所述目标索引信息，在所述特征信息库中获取所述第二视频的语义特征信息；

在所述第二视频为所述增量视频的情况下，从所述增量索引集中获取所述第二视频的目标索引信息；基于所述目标索引信息，在所述特征信息库中获取所述第二视频的语义特征信息。

在一个可能的设计中，所述在线索引库为第一索引库，所述目标历史时段为第一历史时段，所述方法还包括：

确定第二历史时段，所述第二历史时段以所述第一索引库中允许新增视频的最晚时间为右边界时间节点，并且所述第二历史时段与所述第一历史时段的时间跨度相同；

基于所述第一索引库进行索引重建，得到第二索引库，所述第二索引库的目标历史时段为所述第二历史时段；

将所述在线索引库由所述第一索引库切换为所述第二索引库。

在一个可能的设计中，所述方法还包括：

在所述第一视频为所述第二视频的相似视频的情况下，确定所述第一视频为搬运视频，所述搬运视频是指非原创视频；

限制推送所述第一视频。

根据本申请实施例的一个方面，提供了一种相似视频确定装置，所述装置包括：

视频获取模块，用于获取第一视频；

语义特征提取模块，用于对所述第一视频进行基于内容的特征信息提取，得到所述第一视频的语义特征信息，所述语义特征信息为受视频编辑操作影响的程度低于第一影响程度要求的特征信息；

相似视频确定模块，用于在所述第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定所述第一视频为所述第二视频的相似视频。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述相似视频确定方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述相似视频确定方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述相似视频确定方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过对视频进行基于内容的特征信息提取处理，确保特征提取的重点能够聚焦于视频内容本身，减轻其他无关因素对特征提取带来的影响，从而使得提取出的视频语义信息受视频编辑操作的影响较小。如果两视频之间的视频语义信息符合预设条件，那么可以确定两视频为相似视频，通过比较能够表征视频内容本身特征的视频语义信息来判断两视频是否相似，能够有效提升相似视频识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了一种视频搬运的示意图；

图2是本申请一个实施例提供的应用程序运行环境的示意图；

图3是本申请一个实施例提供的相似视频确定方法的流程图；

图4示例性示出了一种视频编辑工具的页面示意图；

图5是本申请一个实施例提供的相似视频确定方法的流程图；

图6示例性示出了一种视频语义提取模型的训练流程图；

图7是本申请另一个实施例提供的相似视频确定方法的流程图；

图8示例性示出了一种确定视频语义特征向量的流程图；

图9示例性示出了一种提取音频特征序列的流程图；

图10示例性示出了一种分布式向量检索服务的示意图；

图11示出了本申请一个实施例提供的相似视频确定方法的流程图；

图12示出了本申请另一个实施例提供的相似视频确定方法的流程图；

图13示例性示出了一种信息流内容服务系统的技术框架示意图；

图14是本申请一个实施例提供的相似视频确定装置的框图；

图15是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

在互联网快速发展的时代，随着信息流内容服务中进行内容生产的门槛降低，视频和图文内容的上传量和发布量均以指数级的速度增长。这些内容来源包括互联网用户和各种各样内容创作机构，比如自媒体和机构的PGC(Professional Generated Conten，专业生产内容)，UGC(User Generated Content，用户生成内容)，例如以社交网络为基础依托的多媒体内容信息流服务。在过去一年内，各个来源上传入库的日上传量峰值已超过百万级别。由于内容的上传量大幅增长，为了保证信息流内容服务中分发内容的安全性，时效性和内容版权方的合法利益，需要在短时间内完成上传内容审核。

随着用户需求和要求越来越高，平台越来越期望原创作者的出现，越来越期望优质作品的出现。现在各个自媒体平台不缺作者，缺的是优质内容。而且对于一些优质的内容平台，各种激励会非常的丰厚和吸引优质用户的入驻。但是在激励诱惑下，原创成本很高，视频搬运黑产应运而生，平台中产生了大量的搬运账号。注册使用这些搬运帐号的用户为了提升收益和关注量，会对原创视频进行简单的编辑修改后重新上传，以绕过平台的相似识别和排重，导致短视频平台中出现大量的类似视频。

在一个示例中，如图1所示，其示例性示出了一种视频搬运的示意图。对于原创作者而言，首先需要通过构思剧本，然后进行演员挑选、布景，之后拍摄原片，最终进行后期制作等一系列复杂的过程，才能制作得到一个创意视频，随后将其发布到平台上，期待获得曝光量并吸粉，最终才有变现的可能，例如通过广告和直播带货等方式变现。然而，黑灰产作者将搬运来的热门视频通过某些工具软件进行简单加工编辑。上述加工方式很多，比如添加视频标题、封面图加上水印、对视频内容进行各种编辑裁剪及变换、修改音频、加黑边、画中画、加字幕等等。在简单加工编辑之后便发布到平台，进行分流、吸粉，进而通过引流的方式进行变现。

黑灰产作者可以以极低的成本，流水线式作业，批量搬运大量热门视频，轻松剽窃了原创作者的劳动成果，挤占大量的流量，不利于整个内容生态的健康发展。由于视频内容都需要经过人工审核，人工审核一方面需要增加很多成本，另外一方面处理效率也不够。随着内容量的快速增加，处理成本非常高，如果无法快速审核和处理，也就没有办法快速分发，对用户的体验也会造成很大的影响。随着短视频的火爆，各种修改编辑短视频的内容绕过相似识别系统手段越来越多，迫切需要一种多维度的检测搬运内容的能力。

针对上述问题，本申请提供一种相似视频确定方法，充分利用视频内容各个维度的信息，并基于机器学习技术对信息流中的搬运内容进行识别。

本申请实施例提供的相似视频确定方法涉及人工智能技术以及区块链技术，下面对此进行简要说明，以便于本领域技术人员理解。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

DNN：深度神经网络(Deep Neural Networks)可以理解为有很多隐藏层的神经网络，有时也叫做多层感知机(Multi-Layer perceptron，MLP)。DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层。一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连，所述i为正整数。

深度度量学习(Deep Metric Learning，DML)是度量学习的一种方法，它的目标是学习一个从原始特征到低维稠密的向量空间(称之为嵌入空间，Embedding Space)的映射，使得同类对象在嵌入空间上使用常用的距离函数(欧氏距离、Cosine(余弦)距离等)计算的距离比较近，而不同类的对象之间的距离则比较远。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图2，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer，个人计算机)等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供视频信息流内容服务的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以提供信息流内容服务。例如，新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其推送的视频也会有所不同，且相应的功能也会有所不同，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。在一些实施例中，上述信息流内容服务涵盖综艺、影视、新闻、财经、体育、娱乐、游戏等诸多垂直内容，并且用户可通过上述信息流内容服务享受到文章、图片、小视频、短视频、直播、专题、栏目等众多形式的内容服务。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的应用场景、相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

Faiss是一种开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法，以及用于算法评估和参数调整的支持代码。

Faiss向量检索：传统数据库由包含符号信息的结构表组成。比方说，一个图像集，会用每行放一张索引照片的列表来表示。每一行都包含诸如图像标识和描述语句等信息。每一行也可与其他表格的条目关联，比如照片与人名列表相关联。很多AI工具都会产生高维矢量，比如像word2vec(word to vector，字词向量化)这样的文本嵌入工具，以及用深度学习训练的卷积神经网络(Convolutional Neural Networks,CNN)描述符(descriptors)。这些表示比固定的符号表示更加强大灵活。但是，用结构化查询语言(Structured QueryLanguage，SQL)来检索的传统数据库并没有适配这些新型向量表示，是的效率非常低。首先，海量的新多媒体流创造了数十亿的矢量。其次，而且更重要的是，找到相似的条目意味着找到相近的高维矢量。而对于当下的标准检索语言来说，这是极度低效、甚至无法实现的。对于相似性搜索和分类，需要以下操作：给定检索矢量，返回在欧几里得距离上最接近这个矢量的数据库对象列表，给定检索矢量，返回有最高向量点积的数据库对象列表。传统的SQL数据库系统可用性不高，因为它们是为hash-based searches(基于散列的搜索)或1Dinterval searches(一维区间搜索)而优化。

请参考图3，其示出了本申请一个实施例提供的相似视频确定方法的流程图。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图2所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(310～330)。

步骤310，获取第一视频。

上述第一视频可以是任一视频。视频通常指各种动态影像的储存格式。可选地，第一视频是信息流内容服务中推荐给用户观看的视频，例如竖版的小视频和横版的短视频。

可选地，第一视频在Feeds流(信息流)中展示，比如Web Feed(网页信息流)、NewsFeed(新闻信息流)、Syndicated Feed(多媒体信息流)。网站透过它将最新资讯传播给用户。比如，网站通过Feeds流向用户展示各种视频类的多媒体内容。Feeds通常以时间轴方式排列，Timeline(时间轴)是Feeds最原始最直接也最基本的展示形式。需要说明的是，本申请实施例对上述第一视频的来源并不作限定，可以来自Feeds流，也可以是其他网络媒介形式。

在一种可能的实施方式中，上述第一视频是用户上传至信息流内容服务中的视频。例如，第一视频是用户实时上传的视频。第一视频可以是一个完整视频，也可以是完整视频的一部分。举例来说，可以在终端设备所显示的操作界面上展现视频上传的入口，用户可以选择要上传的视频，终端设备检测到用于上传该视频的上传请求，可以将该视频上传到指定服务器；服务器接收到对该视频后，可以将该视频作为上述第一视频。

在一种可能的实施方式中，上述第一视频是短视频。短视频，即短片视频，是一种内容传播方式。在一些应用场景中，短视频是在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，几秒到几分钟不等。短视频也可以是在互联网新媒体上传播的时长在30分钟以内的视频传播内容。本申请实施例对短视频的定义不作限定，可根据实际情况确定。

需要说明的是，本申请不限制第一视频的类别，第一视频可以是体育视频、生活视频、综艺视频、短视频、游戏视频等等，且获取的方式也不限于以上描述。同样，本申请实施例对视频的格式也不作限定。

步骤320，对第一视频进行基于内容的特征信息提取，得到第一视频的语义特征信息。

在一些应用场景中，例如信息流内容服务中，视频搬运者为了逃避机器对搬运视频的审核，通常会对视频进行一定的视频编辑操作，并且变化多样。这些视频编辑操作会改动原始的视频数据，产生一些与视频内容信息相关性较弱的图像变换信息，例如视频中添加的水印信息、边框的黑边样式信息、字幕信息等，而这些图像变换信息可能会导致机器从编辑后视频中提取到的特征信息与原始视频的特征信息产生较大差异，进而使得机器误认为编辑后视频与原始视频不相似，但实际上编辑后视频是原始视频的搬运视频。

为了保护信息流内容服务中的优质原创视频不被随意盗用搬运，因此需要对视频进行基于内容的特征信息提取，保证特征信息提取时对此类视频编辑操作导致的数据变化信息不敏感，避免图像变换信息对提取的特征信息造成较大影响，进而得到受视频编辑操作影响的程度低于第一影响程度要求的语义特征信息。

上述步骤320中基于内容的特征信息提取是指针对视频内容的语义信息的特征提取处理，并不关注视频中经过视频编辑操作生成的图像变换信息，因此提取得到的语义特征信息为受视频编辑操作影响的程度低于第一影响程度要求的特征信息。

上述视频编辑操作包括但不限于裁剪视频画面、更改视频分辨率、去/加水印、首尾加/减帧、画中画、上下黑边字幕等操作。在一个示例中，如图4所示，其示例性示出了一种视频编辑工具的页面示意图。视频编辑工具页面40中包括各种视频编辑操作对应的控件41，用户可以通过对上述控件41执行相应的操作，以对视频进行相应的编辑操作。在视频搬运场景中，上述视频编辑工具可以作为视频搬运者对原创视频进行篡改的工具。例如，原创视频中往往会添加原创帐号的水印信息，然而搬运者常常会通过上述视频编辑工具抹除原创帐号的水印信息，进而逃避水印检测。

上述语义特征信息受视频编辑操作影响的程度可以体现为搬运视频的语义特征信息与原创视频的语义特征信息之间的差异程度，搬运视频的语义特征信息与原创视频的语义特征信息之间的差异程度越大，说明语义特征信息受视频编辑操作影响的程度越大。因此基于内容的特征信息提取出的语义特征信息受视频编辑操作影响的程度要低于第一影响程度要求。

上述第一影响程度要求是指视频编辑操作后的视频与原始视频各自对应的语义特征信息之间的差异程度低于阈值的约束条件。可选地，上述第一影响程度要求用于限制搬运视频的语义特征信息与原创视频的语义特征信息之间的差异程度低于阈值。可选地，上述搬运视频可以是对原创视频进行视频编辑操作得到的视频。

在一些应用场景中，语义特征信息的数学表现形式通常为语义特征向量。相应的，上述第一影响程度要求包括：视频编辑操作后的视频与原始视频各自对应的语义特征向量之间的相似度小于相似度阈值。可选地，上述相似度为两个语义特征向量之间的余弦相似度、欧氏距离、编辑距离或曼哈顿距离中任意一种。需要说明的是，本申请实施例对上述相似度的确定方式不作限定，可根据实际情况选取合适的相似度计算方式。

在一种可能的实施方式中，基于内容的特征信息提取方式可以是提取视频帧对应的图像级语义特征信息，通过对视频进行上述基于图像内容的特征信息提取，可以得到视频中的至少一个视频帧各自对应的图像语义特征。在另一种可能的实施方式中，基于内容的特征信息提取方式还可以是提取整体的视频语义特征信息，通过对视频进行上述基于内容的特征信息提取，可以得到能够代表视频整体内容的视频语义特征。

由于上述两种实施方式具体实施过程的内容较长，这里仅是进行概括性说明，关于上述两种方式的具体实施过程会在下文实施例中进行详细说明。

步骤330，在第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定第一视频为第二视频的相似视频。

上述第二视频可以是视频数据库中的任一历史视频。上述第二视频的语义特征信息可以是上述第二视频上传之后，对上述第二视频进行与第一视频相同的基于内容的特征信息提取，得到的第二视频的语义特征信息。

上述预设条件是指基于语义特征信息判定视频相似的条件。上述预设条件可以是第一视频的语义特征信息与第二视频的语义特征信息的差异程度小于预设的差异程度，也可以是第一视频的语义特征信息与第二视频的语义特征信息的相似程度大于或者等于预设的相似程度。

在一种可能的实施方式中，上述预设条件包括第一视频的视频帧对应的图像语义特征与第二视频的视频帧对应的图像语义特征的差异程度小于预设的差异程度，或者第一视频的视频帧对应的图像语义特征与第二视频的视频帧对应的图像语义特征的相似程度大于或者等于预设的相似程度。

在另一种可能的实施方式中，上述预设条件包括第一视频的视频语义特征信息与第二视频的视频语义特征信息的差异程度小于预设的差异程度，或者第一视频的视频语义特征信息与第二视频的视频语义特征信息的相似程度大于或者等于预设的相似程度。

按照预设条件对第一视频的语义特征信息与第二视频的语义特征信息进行判定，判断第一视频的语义特征信息与第二视频的语义特征信息是否符合预设条件，若第一视频的语义特征信息与第二视频的语义特征信息符合预设条件，则确定第一视频为第二视频的相似视频；若第一视频的语义特征信息与第二视频的语义特征信息不符合预设条件，则确定第一视频不为第二视频的相似视频。

在一些应用场景中，例如信息流内容服务场景下，上述相似视频是指搬运视频。在示例性实施例中，上述步骤330之后，还包括如下步骤：在第一视频为第二视频的相似视频的情况下，确定第一视频为搬运视频，搬运视频是指非原创视频；限制推送第一视频。限制推送第一视频的方式具有多种，包括但不限于：降低分发第一视频的优先级；限制第一视频的分发范围；取消分发第一视频。对于发布第一视频的帐号，确定第一视频的发布帐号为视频搬运帐号；降低视频搬运帐号的评级分数；限制推送视频搬运帐号下的视频以及新增视频；在一些情况下，可禁用上述视频搬运帐号。

综上所述，本申请实施例提供的技术方案，通过对视频进行基于内容的特征信息提取处理，确保特征提取的重点能够聚焦于视频内容本身，减轻其他无关因素对特征提取带来的影响，从而使得提取出的视频语义信息受视频编辑操作的影响较小。如果两视频之间的视频语义信息符合预设条件，那么可以确定两视频为相似视频，通过比较能够表征视频内容本身特征的视频语义信息来判断两视频是否相似，能够有效提升相似视频识别的准确率。

下面结合应用背景对本申请实施例提供的技术方案的有益效果作进一步说明。在信息流内容服务中内容创作者为了提升帐号收益和帐号影响力，会上传大量类似(对视频进行简单的编辑修改，比如视频水印或者编辑裁剪，加入广告的片头和片尾，修改音频等等)或者直接拷贝抄袭其他帐号用户的重复的内容。结果导致搬运的内容组织了正常用户内容的启用，同时挤占大量的流量，无法利于整个内容生态的健康发展，在一些实施例中，可通过计算标题的Simhash(全局相似度哈希值)判断标题是否相似。其中，Simhash(一种哈希运算)用于海量文本去重的需求，利用Simhash算法可以计算出一个哈希值(64位整形)。判别两篇文章是相似的方法，就是两个Simhash值的距离<＝3，这里距离计算采用汉明距离，也就是2个Simhash做一下异或运算，数一下比特位＝1的有N位，那么距离就是N。对于封面图图片是计算图片的Phash(感知哈希值)和Dhash(差值哈希值)来判断，对视频内容本身是依靠视频文件MD5(Message-Digest Algorithm，信息摘要算法)校验。基于视频MD5的方案由于抗变性能太差，无法有效对抗黑灰产的编辑变化，比如图片本身发生裁剪，平移或者拍摄视角角度有少量变化的情况，识别的效果很差；对于信息流视频内容，新增视频中，一部分是用户上传的原创视频内容，另一部分是搬运平台已有的内容。搬运会导致平台中同时存在内容一样的视频，这对视频原作者是很大的打击，由于即使内容一样，但视频帧率、分辨率仍有差异，依靠视频文件MD5校验无法进行判断。同时在审核过程当中，搬运相似视频的重复审核，也需要优化，比如可以审核清晰度和分辨率更高的版本，其他版本不再审核，减少不必要的人力浪费。通过人工审核这些搬运视频需要增加很多成本和影响效率，随着内容量的快速增加，如果无法快速审核和处理，也就没有办法快速分发，对用户的体验也会造成很大的影响，同时也会导致服务器运行压力和存储压力均增大；本申请实施例提供的技术方案，通过对信息流内容服务中上传的视频进行基于内容的特征信息提取处理，可以在一定程度上降低各种视频修改编辑操作对特征信息提取结果造成的影响，进而得到受视频编辑操作影响满足预设要求的视频语义信息，最终可通过比较两视频之间的视频语义信息来确定两视频是否为相似视频，进而确定新上传的视频是否为搬运视频，能有效减少视频编辑操作对搬运视频的认定结果的影响，有效打击通过剪辑视频来避开相似视频认定的行为，能够有效提升搬运视频识别的准确率。

请参考图5，其示出了本申请一个实施例提供的相似视频确定方法的流程图。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图2所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤(501～509)。

步骤501，获取第一视频。

步骤502，将第一视频输入视频语义提取模型进行特征信息提取，得到第一视频语义特征。

第一视频的语义特征信息包括第一视频语义特征，第一视频语义特征用于从视频整体维度表征第一视频的语义特征信息。可选地，上述第一视频语义特征用于从整体角度表征第一视频的视频内容中的语义信息。上述第一视频语义特征受视频编辑操作的影响程度符合预设要求。

其中，视频语义提取模型是以三元组为训练样本，基于三元组损失约束条件进行训练得到的机器学习模型，三元组的正样本对包括第一样本视频和第二样本视频，三元组的负样本对包括第一样本视频和第三样本视频，第二样本视频为第一样本视频经过视频编辑操作得到的视频，第三样本视频为与第一样本视频具备不同内容的视频。

上述三元组损失约束条件可以是预设的三元组损失函数(tripletloss)，本申请实施例对具体的三元组损失函数的设定方式不做限定，可以根据具体的实施情况确定。上述视频语义提取模型可通过深度度量学习进行训练，对整体视频提取一个视频语义特征向量。在本申请实施例中，上述第一影响程度要求通过设定上述三元组损失函数来实现。

通过上述方式构建三元组，并以三元组损失函数对模型训练进行约束，能够使得经过视频编辑操作得到的剪辑视频与原始视频对应的视频语义特征差异较小，进而能够进行基于内容的特征信息提取，减轻视频编辑操作对最终提取到的特征所产生的影响。

在一个示例中，如图6所示，其示例性示出了一种视频语义提取模型的训练流程图。视频语义提取模型的训练过程包括：获取视频训练集，视频训练集中包括多个样本视频。对视频训练集中样本视频进行分组，得到多个三元组。对于第i个训练三元组，包括第一样本视频V

可选的，上述步骤502是上文实施例中步骤320的一个子步骤。

在示例性实施例中，如图7所示，其示出了本申请另一个实施例提供的相似视频确定方法的流程图。上述步骤502可通过如下步骤(502a～502d)实现：

步骤502a，根据第一视频中的至少一个视频帧和第一视频的视频封面，得到目标图像集合。

可选地，对第一视频进行稠密抽帧，比如每隔1s(秒)抽取一帧，得到总计K个视频帧，上述K为正整数。然后以K个视频帧和视频封面构成目标图像集合。视频中的视频帧和视频封面共同构成了第一视频的视觉模态信息，进而可以生成视频嵌入特征(VideoEmbedding)信息，视频是视频内容的主体，包含了主要的内容信息，封面图是视频内容的精华，两者可以互相补充。

步骤502b，对目标图像集合中每一图像进行嵌入处理，得到目标图像集合的嵌入特征集。

嵌入特征集表征第一视频的视觉模态信息。

可选地，将目标图像集合中每一图像均输入至基于ImageNet图像集预训练的嵌入处理模型，通过嵌入处理模型提取每一图像的嵌入特征，并以向量形式输出，得到目标图像集合的嵌入特征集。可选地，嵌入特征集中包括每一目标图像对应的嵌入特征向量。

在VGG(Visual Geometry Group，全连接卷积)16网络模型、多尺寸卷积(Inception)系列模型、残差网络(Residual Network，ResNet)等经典的图像分类模型中，这里选择了Inception-Resnet v2(多尺寸卷积-残差网络)模型作为嵌入处理模型。

步骤502c，对嵌入特征集中的每一嵌入特征进行基于内容的特征信息提取，得到嵌入语义特征。

可选地，将嵌入特征集中每一目标图像对应的嵌入特征向量，输入至共享权重的深度神经网络模型中进行基于内容的特征信息提取，得到每个图像的嵌入语义特征，并以向量形式输出，即每个图像的嵌入语义特征向量。

步骤502d，对每一嵌入语义特征进行平均池化处理，得到第一视频语义特征。

可选地，对每一嵌入语义特征向量进行平均池化处理，利用平均池化，得到最终的第一视频语义特征。可选地，第一视频语义特征为第一视频语义特征向量。

在一个示例中，如图8所示，其示例性示出了一种确定视频语义特征向量的流程图。对于任一个视频v，确定视频v的视频语义特征向量F

将视频v分为K个视频片段，分别为F

对于视频片段F

得到从上述K个视频片段抽取出的各个视频帧的嵌入特征向量之后，将各个视频帧的嵌入特征向量进行平均池化处理，得到视频v的视频语义特征向量F

步骤503，对第一视频的视频帧进行基于图像内容的特征信息提取，得到第一图像语义特征序列。

第一视频的语义特征信息包括第一图像语义特征序列，第一图像语义特征序列用于从视频帧维度表征第一视频的语义特征信息。在一些实施例中，上述第一图像语义特征序列包括第一视频中的至少一个视频帧对应的图像语义特征。

第一图像语义特征序列中的第一图像语义特征为受图像编辑操作影响的程度低于第二影响程度要求的特征。

上述第二影响程度要求是指视频编辑操作后的视频帧图像与原始视频帧图像各自对应的图像语义特征之间的差异程度低于阈值的约束条件。可选地，上述第二影响程度要求用于限制搬运视频视频帧与原创视频视频帧图像的图像语义特征之间的差异程度低于阈值。

在一些应用场景中，图像语义特征的数学表现形式通常为视频帧图像对应的图像语义特征向量。相应的，上述第二影响程度要求包括：视频编辑操作后的视频帧图像与原始视频帧图像各自对应的图像语义特征向量之间的相似度小于相似度阈值。可选地，上述相似度为两个图像语义特征向量之间的余弦相似度、欧氏距离、编辑距离或曼哈顿距离中任意一种。需要说明的是，本申请实施例对上述相似度的确定方式不作限定，可根据实际情况选取合适的相似度计算方式。

在一些应用场景中，可根据视频时长来确定特征信息提取的方式和内容。可选地，在视频时长符合预设时长条件的情况下，对第一视频的视频帧进行基于图像内容的特征信息提取，得到第一图像语义特征序列。上述预设时长条件用于根据视频时长来确定特征信息提取的方式和内容。可选地，预设时长条件包括视频时长小于或者等于时长阈值。相应的，第一视频的视频时长符合预设时长条件，即表示第一视频的视频时长小于或者等于时长阈值。对于一些时长较短的短视频，除了可以确定短时频的第一视频语义特征进行特征对比之外，还可以通过确定短视频的第一图像语义特征序列进行特征对比，以判断两视频是否相似。

需要说明的是，对于视频时长不符合预设时长条件的视频，可以单独执行步骤502，得到视频的视频语义特征，以进行快速特征对比。但是这并不意味着，视频时长符合预设时长条件的视频就不能执行步骤502，上述步骤503可以是为短视频进行特征信息提取的步骤，上述步骤502可以是为长视频进行快速特征信息提取的步骤，但短视频依然可以使用步骤502进行快速特征信息提取。

可选地，在第一视频的视频时长不符合预设时长条件的情况下，可以不对第一视频的视频帧进行基于图像内容的特征信息提取，而是仅将第一视频输入视频语义提取模型进行特征信息提取，得到第一视频语义特征进行后续特征对比步骤。

在一些实施例中，可以不执行步骤502，只执行步骤503，相应的，上述预设时长条件还可以是不设限制时长条件，即对于入库的第一视频均执行步骤503，只提取视频的图像语义特征序列进行后续的特征对比。

在一些实施例中，采取紧凑的对各类图像变换不敏感的图像特征提取算法，使得从经过各类编辑变换后图片中提取得到的各个图像语义特征之间的距离仍然相近(低于距离阈值)，依然能匹配各类编辑变换后图片并召回。

在一种可能的实施方式中，具体来说在VGG16、Inception系列模型、ResNet等经典的图像分类模型中，选择Inception-Resnet v2作为图像语义提取模型。将第一视频的视频帧输入至图像语义提取模型进行基于图像内容的特征信息提取，得到每个图像的图像语义特征向量。每个图像语义特征向量可按时间顺序排列构成图像语义特征序列。

可选的，上述步骤503是上文实施例中步骤320的一个子步骤。

在一些应用场景中，上述步骤503和步骤502可以不同时部署执行。在一些实施例中，仅需执行上述步骤502或者步骤503即可完成基于内容的特征信息提取，得到第一视频的语义特征信息。在执行步骤502，不执行步骤503的情况下，语义特征信息仅包括视频语义特征。相应的，仅需对两视频的视频语义特征进行相似性判定即可确定两视频是否为相似视频。在执行步骤503，不执行步骤502的情况下，语义特征信息仅包括图像语义特征序列。相应的，仅需对两视频的图像语义特征序列进行相似性判定即可确定两视频是否为相似视频。上述步骤502与步骤503之间也无时序限制，可根据实际应用场景进行部署。

在示例性实施例中，由于视频中相邻视频帧之间的冗余度很高，对所有视频内容的视频帧提取进行基于图像内容的特征信息提取并存储效率较低，这里提供一种稳定的目标帧提取方案。如图7所示，上述步骤503包括如下步骤(503a～503d)，其中步骤503a～503c用于提取第一视频中的目标帧。

步骤503a，对第一视频进行抽帧操作，得到多个视频帧。

例如，抽帧操作可以是对视频每隔一秒抽取一个视频帧，得到多个视频帧。

步骤503b，对于每一视频帧，确定视频帧与相邻视频帧的帧间差异信息。

可选地，上述帧间差异信息包括差异值。在一种可能的实施方式中，对于每一视频帧，计算该视频帧与该视频帧的前后帧(即相邻帧)之间的差异值，比如计算该视频帧与相邻帧中对应像素点的差值，然后取各差值的绝对值，并对各绝对值进行求和，得到各绝对值的和，进而根据各绝对值的和求取一个平均值作为差异值。本申请实施例对差异值的计算方式不作限定，可以根据实际情况选择差异值或差异信息的确定方式。

步骤503c，根据帧间差异信息对多个视频帧进行筛选，得到目标帧序列。

在一种可能的实施方式中，将各视频帧对应的差异值进行降序排列，取前N个差异值对应的N个视频帧作为目标帧，上述N为正整数。可选地，根据N个视频帧各自的时间戳并按照时间顺序对上述N个视频帧进行排列，得到目标帧序列。

对于视频图像上的各类变换，并不会改变视频前后帧之间的差异排序，因而上述方法在大多数情况下是“稳定”的。

需要注意的是：有些视频的某些片段可能在比较长的时间内都是同一个场景，而在末尾短时间内会切换多次场景(譬如简单的照片切换类视频)，这时候提取的目标帧，则会集中在末尾短时间内的场景切换帧上，而前面长时间的场景可能只能提取到一两个目标帧，因而会有一个保底取帧方案，确保每5s(秒)至少取一个目标帧。

步骤503d，对于目标帧序列中的每一目标帧进行基于图像内容的特征信息提取，得到第一图像语义特征序列。

可选地，将目标帧序列中的每一目标帧输入至图像语义提取模型进行基于图像内容的特征信息提取，得到每个目标帧的图像语义特征向量。每个图像语义特征向量可按时间顺序排列构成图像语义特征序列。

步骤504，在第一视频的语义特征信息包括第一视频语义特征的情况下，在第二视频的语义特征信息中确定第二视频语义特征。

在一种可能的实施方式中，上述第二视频的语义特征信息已经存储于数据库中，上述第二视频的语义特征信息包括第二视频语义特征，可根据第二视频的索引确定第二视频语义特征。

步骤505，若第一视频语义特征与第二视频语义特征符合第一预设条件，则确定第一视频为第二视频的内容相似视频。

在一种可能的实施方式中，上述第一预设条件可以是特征距离小于特征距离阈值的条件。确定第一视频语义特征与第二视频语义特征之间的特征距离，根据特征距离判定第一视频语义特征与第二视频语义特征是否相似。比如，若特征距离小于特征距离阈值，则可判定第一视频语义特征与第二视频语义特征相似，在第一视频语义特征与第二视频语义特征相似的情况下，确定第一视频为第二视频的内容相似视频。

在另一种可能的实施方式中，上述第一预设条件可以是向量距离小于向量距离阈值的条件。确定第一视频语义特征向量与第二视频语义特征向量之间的向量距离，根据向量距离判定第一视频语义特征向量与第二视频语义特征向量是否相近。比如，若向量距离小于向量距离阈值，则可判定第一视频语义特征向量与第二视频语义特征向量相近，在第一视频语义特征向量与第二视频语义特征向量相近的情况下，确定第一视频为第二视频的内容相似视频。

上述内容相似视频是指视频内容相似的视频。可选地，内容相似视频是画面内容相似的视频。

步骤506，在第一视频的语义特征信息包括第一图像语义特征序列的情况下，在第二视频的语义特征信息中确定第二图像语义特征序列。

在一种可能的实施方式中，上述第二视频的语义特征信息已经存储于数据库中，上述第二视频的语义特征信息包括第二图像语义特征序列，可根据第二视频的索引确定第二图像语义特征序列。

步骤507，若第一图像语义特征序列与第二图像语义特征序列符合第二预设条件，则确定第一视频为第二视频的内容相似视频。

在一种可能的实施方式中，上述第二预设条件包括第一图像语义特征序列与第二图像语义特征序列的差异程度小于预设的差异程度，或者第一图像语义特征序列与第二图像语义特征序列的相似程度大于或者等于预设的相似程度。

可选地，将第一图像语义特征序列中的至少一个图像语义特征与第二图像语义特征序列中的至少一个图像语义特征分别进行比较，根据图像语义特征之间的特征距离，判定第一图像语义特征序列与第二图像语义特征序列中相似的图像语义特征的数量进而确定相似的图像语义特征的占比，若上述占比高于比例阈值，则确定第一图像语义特征序列与第二图像语义特征序列的相似程度大于或者等于预设的相似程度，即第一图像语义特征序列与第二图像语义特征序列符合第二预设条件。

在示例性实施例中，如图7所示，上述步骤507的可通过如下步骤(507a～507c)实现。

步骤507a，根据第一图像语义特征序列与第二图像语义特征序列确定匹配特征对。

匹配特征对中的第一图像语义特征与匹配特征对中的第二图像语义特征的距离小于距离阈值。

在一种可能的方式中，将第一图像语义特征序列中的至少一个图像语义特征与第二图像语义特征序列中的至少一个图像语义特征分别进行比较，确定第一图像语义特征与第二图像语义特征之间的距离，若第一图像语义特征与第二图像语义特征之间的距离小于距离阈值，则可确定第一图像语义特征与第二图像语义特征为匹配特征对。

步骤507b，根据匹配特征对确定匹配目标帧。

匹配目标帧包括第一目标帧和第二目标帧。

第一目标帧为第一视频中与第一图像语义特征对应的视频帧，第二目标帧为第二视频帧中与第二图像语义特征对应的视频帧。

在一种可能的实施方式中，根据匹配特征对中的第一图像语义特征，确定第一图像语义特征对应的第一目标帧；根据匹配特征对中的第二图像语义特征，确定第二图像语义特征对应的第二目标帧。

步骤507c，若匹配目标帧的数量符合数量条件，则确定第一视频为第二视频的内容相似视频。

上述数量条件可以是匹配目标帧的数量高于数量阈值，也可以是基于匹配目标帧的数量计算出的匹配目标帧比例高于比例阈值。

上述过程中计算了匹配目标帧的占比，并设定了一些阈值，比如每个视频抽取了10帧，有6帧相匹配，可以认为视频是匹配到的相似视频。可选地，匹配目标帧的比例阈值为0.6，通过提取视频帧对应的图像级语义特征信息判定相似视频，还可以结合其他方式确定相似视频。

图像语义特征考虑了的缩放、裁剪、镜像、色差等。在一些实际业务中，不少搬运视频存在更高级的加工方式逃避检查，例如：顶部底部裁剪，加黑边，大面积加字幕，画中画。对于此类搬运方式，除了提取视频帧对应的图像级语义特征信息确定相似视频的方式外，还可以结合其他方式确定相似视频，例如通过提取整体的视频语义特征信息确定相似视频。

一些视频搬运者对视频进行一些加工后，可能会导致的目标帧提取出现偏差，此时也可以结合其他方式确定相似视频，例如通过提取整体的视频语义特征信息确定相似视频。

在一些实施场景中，视频帧存储压力巨大。如果视频时长长度在5分钟以后的内容比较多，即使提取目标帧减少了冗余，然而一个视频通常要提取数十帧，也就意味着有百亿级别的特征需要存储，存储开销过于巨大，导致实现成本偏高，所以通常对短的视频内容采用提取视频帧对应的图像级语义特征信息确定相似视频的方式，长的视频可以通过提取整体的视频语义特征信息确定相似视频。

步骤508，在第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定第一视频的第一音频特征序列，以及获取第二视频的第二音频特征序列。

可选地，第一视频为第二视频的内容相似视频，即可表示第一视频的语义特征信息与第二视频的语义特征信息符合预设条件。

在示例性实施例中，如图7所示，上述步骤508可由下述步骤508a替换实现。

步骤508a，在第一视频为第二视频的内容相似视频的情况下，确定第一视频的第一音频特征序列，以及获取第二视频的第二音频特征序列。

在一些实施例中，还有一部分视频，比如培训视频和讲座视频，天气预报视频，主要视频的画面非常接近，但是音频不一样，此时通过上述基于内容的特征信息来判断搬运视频和重复视频，容易造成误判，此时需要通过音频特征匹配做一次验证。

在示例性实施例中，上述确定第一视频的第一音频特征序列的过程包括：获取第一视频对应的音频数据；对音频数据进行频域转换处理，得到音频数据的频域特征；基于频域特征，生成第一音频特征序列。

获取第一视频对应的音频数据的方式可以是从第一视频的视频数据中分离出第一视频对应的音频数据。对音频数据进行频域转换处理可以是对音频时域数据映射至频域空间，例如傅里叶变换，得到音频数据的频域特征。

第一音频特征序列可以看作音频的哈希值，相同的音频有相同的音频特征序列，不同的音频有不同的音频特征序列。但是和哈希值不同，视频文件的音频的音频特征序列并不是一个单独的数字或者字符串，而是一个附属有时间属性的数字序列。可选地，采用Landmark(特征点提取)算法、Chromaprint(色度印刷)算法、Echoprint(开源音乐指纹)算法作为音频特征序列计算方法。

步骤509，在第一音频特征序列与第二音频特征序列之间的相似度符合音频相似条件的情况下，确定第一视频为第二视频的相似视频。

上述音频相似条件包括第一音频特征序列与第二音频特征序列之间的相似度小于预设相似度阈值。

在一种可能的实施方式中，确定第一音频特征序列与第二音频特征序列之间的序列值距离作为上述相似度，将上述序列值距离与序列值阈值距离(作为相似度阈值)进行比较，若上述序列值距离小于序列值阈值距离，则可判定第一音频特征序列与第二音频特征序列之间的相似度符合音频相似条件。相应的，上述音频相似条件包括第一音频特征序列与第二音频特征序列之间的序列值距离小于序列值阈值距离。

在一个示例中，如图9所示，其示例性示出了一种提取音频特征序列的流程图。如图9所示，该方法通过一种基于滤波器的提取算法来获得音频特征序列，包括如下步骤：

步骤1，获取视频。例如，获取视频的源文件。

步骤2，从视频中提取出视频的音频。例如，从视频的源文件中提取视频的音频文件。例如，通过FFmpeg(Fast Forward Mpeg，多媒体视频处理工具)提取音频.

步骤3，将音频存储于对象存储服务(Cloud Object Storage,COS)中。对象存储服务是一种存储海量文件的分布式存储服务，具有高扩展性、低成本、可靠安全等优点。通过控制台、API(Application Programming Interface，应用程序接口)、SDK(SoftwareDevelopment Kit，软件开发工具包)和工具等多样化方式，用户可简单、快速地接入COS，进行多格式文件的上传、下载和管理，实现海量数据存储和管理。

步骤4，从对象存储服务中获取音频。

步骤5，将音频划分成多个音频片段。例如，可以将音频划分成有重叠的音频片段。音频片段的时长可以是1秒，每秒音频约6个采样点，每个采样点对应32bit(位)特征数据。

步骤6，将每个音频片段转换为声谱图。上述声谱图用于表征各音频片段内的音频能量随时间的变化情况。例如，采用短时傅里叶变换(STFT，Short-Time FourierTransformation)将音频分段转换为声谱图。短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。选择一个时频局部化的窗函数，假定分析窗函数G(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使F(t)G(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。短时傅里叶变换使用一个固定的窗函数，窗函数一旦确定了以后，其形状就不再发生改变，短时傅里叶变换的分辨率也就确定了。如果要改变分辨率，则需要重新选择窗函数。SFTF作为加窗傅里叶变换，通过时间窗口使得信号只在某一小区间内有效，使得傅里叶变换有了局部定位的能力。常见的音频片段对应的音频波形图并不能很好地描述特定频率的强度随着时间的变化，因此，该实施例将音频波形图转换为声谱图，该声谱图中可以描述特定频率的强度随着时间的变化。

步骤7，将声谱图转换为音符图。例如，可通过Chromaprint(色度印刷)算法将一定频带范围(例如200-2000Hz)内的频谱能量量化至M个音符类(例如12音符类)来处理，每个音符类对应一个音域。由此可以得到“Chroma(色度)特征”，其本质上就是一个1*M的一维特征向量，体现了音频的旋律信息，上述音符图展示了Chroma特征随时间的变化。Chromaprint提供一个客户端的公共库，能够通过特定算法计算出64位的音频字符串。

步骤8，基于训练数据，筛选出滤波器。在确定滤波器时，基于训练数据，可以采用非对称成对推进(Asymmetric Pairwise Boosting,APB)算法(Algorithm)筛选出若干个滤波器。

步骤9，使用筛选出的滤波器对音符图进行二值化滤波。

步骤10，输出音频特征序列。对于每个音频分段，经过二值化滤波，也同样得到一个64位的二值指纹序列。例如，1001011011...

步骤11，将视频的音频特征序列存储至键值存储服务中。键值存储服务是一种高性能、低延时、持久化、分布式KV(Key-Value)存储服务，兼容Redis(Remote DictionaryServer，远程字典服务)、Memcached(分布式的高速缓存系统)等开源协议。

步骤12，从键值存储服务中获取待检测音频特征序列对。

步骤13，基于编辑距离确定相似度。

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。

确定待检测音频特征序列对中两音频特征序列之间的编辑距离d。其中，替换操作距离记为2。两音频特征序列的长度分别记为l

Similarity＝1-d/(l

步骤14，判断相似度是否满足预设相似度阈值条件。

若是，则判定两音频特征序列各自对应的视频是相似的，否则判定两音频特征序列各自对应的视频是不相似。

在示例性实施例中，可以通过分布式向量检索服务来实现多个视频的视频表示向量的管理，其中，可以利用Faiss库为稠密的视频表示向量提供高效的相似度搜索和聚类服务。

上述第二视频为视频数据库中的任一视频，上述视频数据库包括特征信息库和在线索引库，在线索引库包括存量索引和增量索引，存量索引包括存量视频的索引信息，存量视频是指目标历史时段内的视频，增量索引包括增量视频的索引信息，增量视频是指目标历史时段后新增的视频。可选地，上述在线索引库为Faiss库。

上述目标历史时段是设定的历史时段，例如前90天的数据，上述目标历史时段可以随时间变化，时段时长不随时长变化，仅是目标历史时段的起始时刻与结束时刻发生变化。

相应的，如图7所示，上述方法还包括：

步骤510，在第二视频为存量视频的情况下，从存量索引中获取第二视频的目标索引信息。

若第二视频为存量视频，那么第二视频的目标索引信息位于存量索引中，因此，在第二视频为存量视频的情况下，需要从存量索引中获取第二视频的目标索引信息。可选地，存量视频为当天之前的89天上传的视频。

索引(Index)：为了加速对数据库中数据的检索而创建的一种分散的存储结构，索引用于指向数据库中的一个或多个数据，在数据库存储的数据量十分庞大时，索引可以大大加快查询的速度。在本申请实施例中，可以在专门的索引库中存储视频表示向量以及视频表示向量的索引。

步骤511，基于目标索引信息，在特征信息库中获取第二视频的语义特征信息。

可选地，第二视频的目标索引信息与第二视频的语义特征信息具有对应关系，上述目标索引信息可以指向第二视频的语义特征信息在上述特征信息库中的位置信息。

在一种可能的实施方式中，第二视频的语义特征信息包括第二图像语义特征序列、视频语义特征和音频特征序列中至少一种，上述第二图像语义特征序列、视频语义特征或者音频特征序列也可以作为上述第二视频的目标索引信息。相应的，上述步骤510的实施方式可变更为，在第二视频为存量视频的情况下，从存量索引中获取第二视频的语义特征信息。

步骤512，在第二视频为增量视频的情况下，从增量索引集中获取第二视频的目标索引信息。

若第二视频为增量视频，那么第二视频的目标索引信息位于增量索引中，因此，在第二视频为增量视频的情况下，需要从增量索引中获取第二视频的目标索引信息。可选地，增量视频为当天上传的视频。

步骤513，基于目标索引信息，在特征信息库中获取第二视频的语义特征信息。

在一种可能的实施方式中，第二视频的语义特征信息包括第二图像语义特征序列、视频语义特征和音频特征序列中至少一种，上述第二图像语义特征序列、视频语义特征或者音频特征序列也可以作为上述第二视频的目标索引信息。相应的，上述步骤512的实施方式可变更为，在第二视频为增量视频的情况下，从增量索引中获取第二视频的语义特征信息。

在示例性实施例中，在线索引库为第一索引库，目标历史时段为第一历史时段。相应的，如图7所示，上述方法还包括：

步骤514，确定第二历史时段。

第二历史时段以第一索引库中允许新增视频的最晚时间为右边界时间节点，并且第二历史时段与第一历史时段的时间跨度相同。

步骤515，基于第一索引库进行索引重建，得到第二索引库。

第二索引库的目标历史时段为第二历史时段。将第二历史时段内的视频进行索引重建，得到第二索引库。

步骤516，将在线索引库由第一索引库切换为第二索引库。

在一些实施例中，每天需从索引库中淘汰掉最前面1天数据。对于Faiss库大量删除数据，严重影响性能，因此构建双索引库切换的机制，避免从索引库中大量删除数据，影响索引库性能。可按照切换周期，将在线索引库由第一索引库切换为第二索引库。在下一个周期，将在线索引库由第二索引库切换为第一索引库。

在一个示例中，如图10所示，其示例性示出了一种分布式向量检索服务的示意图。由于内容链路上，每天可能会新入百万级别的视频，需要将视频实时加入到数据库，并将视频的视频语义特征、图像语义特征、音频特征序列加入到索引库(这里以Faiss索引库为例)进行相似计算，即Faiss索引库包括视频的视频语义特征、图像语义特征、音频特征序列以及视频的索引。在本申请实施例中，对索引的生成方式不做限定，例如可以将视频的视频语义特征、图像语义特征、音频特征序列本身作为该视频的索引，也可以对视频的视频语义特征、图像语义特征、音频特征序列进行哈希处理(通过Faiss的哈希函数体)，将得到的哈希值作为该视频的索引。在分布式检索过程中，为了避免Faiss索引库大量混合读写导致性能受到不利影响，在本申请实施例中应用读写分离的机制。具体规则是：

(1)建立2套索引，存量索引和增量索引。存量索引只读，保存前89天数据(假设检索相似重复内容库的有效期是3个月内的，具体可以由产品策略来定)。增量索引同时读写，保存最近1天实时数据；

(2)每入库1个新视频，写入增量索引，同时检索存量索引和增量索引，合并检索结果；

如果考虑搬运内容的检测周期，对于过期的旧索引数据如何淘汰，假设视频排重的范围是90天。每天需从样本库中淘汰掉最前面1天数据。对于Faiss库大量删除数据，严重影响性能，本实施例采用双缓存切换机制，具体如下：

①一套索引库供线上服务调用，即在线索引库(第一索引库)；一套索引库(第二索引库)用最新90天数据离线重建索引，准备好后切换为在线索引库，淘汰第一索引库，第一索引库继续用最新90天数据离线重建索引，按照切换周期循环往复。

②每天重建索引，保持向量检索精度，索引名称保存在Redis数据库当中，切换时通过修改Redis索引状态实现。

面对复杂的不同用途的向量检索场景，有很多很多样本库管理冗余比如视频帧的图像语义特征向量，视频语义特征向量，音频特征序列，都有自己的对应视频内容有效期，抽象公共组件FaissManager(向量检索服务管理组件)，与业务完全解耦，作为一套通用的Faiss向量管理框架来管理不同的向量库，实现不同特征向量检索和召回过程复用。总的特点是高度抽象，一套组件多方复用读写收拢，支持标准化接入，存量索引和增量索引读写分离，性能无影响，双索引库在线无缝切换，组件均可水平扩展，能够非常高效实现搬运视频的识别。

接下来，对Faiss Manager包括的各个模块进行说明：

1)版本管理：用于管理不同版本的索引，例如图中的库1和库2中的索引，当切换周期到达时，通知Faiss Proxy应用新版的索引。

2)模型训练：用于管理不同版本的特征向量，例如用于对视频进行特征提取处理的模型的版本不同，那么最终得到的特征向量也不同。

3)配置管理：主要用于记录设备(如服务器)和模块(部署在服务器上的具有独立功能的模块，一个服务器中可以部署多个模块，例如在用于存储的服务器中部署内容读模块和写模块)的地址，还用于记录相关的存储大小及表结构的配置信息。

4)增量抽样：用于从增量索引空间中抽取部分(图中未示出)，进行分析和查找定位问题。例如，可以从增量索引中随机抽样一部分索引，识别出此部分索引对应的视频中的相似视频。增量抽样模块还用于记录抽取的是哪一部分，抽取的索引的数量以及抽取时间等。

5)文件管理：用于从云数据库(Cloud DataBase，CDB)中读取视频表示向量，并建立相应的索引。这里，CDB可以作为MySQL数据库的存储实例，用于存储少量视频的特征向量，例如当天发布的视频的多维度的特征向量，CDB可以是单机的；而Faiss索引库是分布式存储，用于存储大量视频的多维度的特征向量及对应的索引，例如几个月内视频的多维度的特征向量及对应的索引，Faiss索引库通常采用固态硬盘(Solid State Disk，SSD)，速度较快。文件管理模块还可用于将索引进行分片存储，即分为几块，每一块有多个文件(FILE)。进行分片存储后，文件管理模块还可用于记录文件_1到文件_N的文件原始信息，包括但不限于文件大小、文件保存格式、文件版本、文件的有效期及文件的创建时间。

综上所述，本申请实施例提供的技术方案，通过两种方式来确定相似视频，一种是通过训练好的视频语义提取模型对视频进行基于内容的特征提取，进而得到能够表征视频整体内容的视频语义特征，通过比较两视频之间的视频语义特征来确定相似视频以便于召回；另一种是通过对视频中的视频帧进行基于图像图像内容的特征提取，得到视频的多个图像语义特征，通过比较两视频的图像语义特征的匹配程度，来确定相似视频以便于召回；视频只要符合上述两种方式中任一方式的相似视频确定规则，即可被认定为是搬运视频；最后还会利用视频的音频特征对搬运视频进行进一步的验证，避免误判，提升相似视频确定效率的同时能够保证确定相似视频的准确率。

在一些应用场景中，例如信息流内容服务中，本申请实施例提供的相似视频确定方法能够充分利用视频内容各个维度的信息来进行深度机器学习。采用视频帧的图像语义特征向量匹配方法和基于视频内容本身进行深度度量学习(DML)的视频语义特征提取，所有视频帧的嵌入特征过一个共享权重的DNN网络后，利用平均池化，得到最终能够代表视频整体内容特征的视频语义特征向量匹配方法及通过Chromaprint算法提取音频特征向量，以实现视频搬运近似内容的多路召回和音频特征向量的验证，让视频搬运内容及其作者无所遁形，确保内容生态的健康发展。通过本申请实施例提供的方法能够有效应对视频内容搬运者对视频内容的各种修改编辑(包括画面，音频，视频内容本身)绕过重复相似检查；无原创账号时候，推荐分发的时候对于搬运账号降权分发或者限制分发，乃至取消分发，帮助加速引入原创账号，能够让流量集中在真正的内容创作者上；在内容审核链路上，由于审核资源的有限，同时为了让原创头部账号的内容尽快完成处理和分发，对于视频搬运账号在审核调度时候放在审核调度的末尾或者低质搬运直接禁用，使整个内容生态进入良性的循环，压缩搬运账号的生存空间。

在一些应用场景中，上文实施例中的步骤503和步骤502可以不同时部署执行，或者区别执行，下面对此进行介绍说明。

在一种可能的实施方式中，如图11所示，其示出了本申请一个实施例提供的相似视频确定方法的流程图。在图11所示的实施例中，仅需执行上述步骤502对应的内容，以完成基于内容的特征信息提取，得到第一视频的视频语义特征。具体来说，包括如下步骤(1101～1106)。

步骤1101，获取第一视频。

步骤1102，将第一视频输入视频语义提取模型进行特征信息提取，得到第一视频语义特征。

步骤1103，在第二视频的语义特征信息中确定第二视频语义特征。

步骤1104，若第一视频语义特征与第二视频语义特征符合第一预设条件，则确定第一视频为第二视频的内容相似视频。

步骤1105，在第一视频为第二视频的内容相似视频的情况下，确定第一视频的第一音频特征序列，以及获取第二视频的第二音频特征序列。

步骤1106，在第一音频特征序列与第二音频特征序列之间的相似度符合音频相似条件的情况下，确定第一视频为第二视频的相似视频。

在该种实施例方式中，通过对视频进行基于内容的特征信息提取处理，可以在一定程度上降低各种视频修改编辑操作对特征信息提取结果造成的影响，进而得到受视频编辑操作影响满足预设要求的视频语义信息，最终可通过比较两视频之间的视频语义信息来确定两视频是否为相似视频，有效减少视频编辑操作对相似视频的认定结果的影响，有效打击通过剪辑视频来避开相似视频认定的行为，能够有效提升相似视频识别的准确率。

在另一种可能的实施方式中，如图12所示，其示出了本申请另一个实施例提供的相似视频确定方法的流程图。在图12所示的实施例中，区别执行上述步骤步骤502和步骤503对应的内容。具体来说，包括如下步骤(1201～1210)。

步骤1201，获取第一视频。

步骤1202，确定第一视频的视频时长。

步骤1203，在视频时长符合预设时长条件的情况下，对第一视频的视频帧进行基于图像内容的特征信息提取，得到第一图像语义特征序列。

上述预设时长条件用于根据视频时长来确定特征信息提取的方式和内容。对于预设时长条件在上文实施例中已经做过相关介绍，这里不再赘述。

在一种可能的实施方式中，预设时长条件为视频时长小于或者等于时长阈值。相应的，第一视频的视频时长符合预设时长条件，即表示第一视频的视频时长小于或者等于时长阈值。

若第一视频的视频时长小于或者等于时长阈值，则对第一视频的视频帧进行基于图像内容的特征信息提取，得到第一图像语义特征序列。

步骤1204，在第二视频的语义特征信息中确定第二图像语义特征序列。

步骤1205，若第一图像语义特征序列与第二图像语义特征序列符合第二预设条件，则确定第一视频为第二视频的内容相似视频。

步骤1206，在视频时长不符合预设时长条件的情况下，将第一视频输入视频语义提取模型进行特征信息提取，得到第一视频语义特征。

在上述实施方式中，第一视频的视频时长不符合预设时长条件，即表示第一视频的视频时长大于时长阈值。

若第一视频的视频时长大于时长阈值，则将第一视频输入视频语义提取模型进行特征信息提取，得到第一视频语义特征。

步骤1207，在第二视频的语义特征信息中确定第二视频语义特征。

步骤1208，若第一视频语义特征与第二视频语义特征符合第一预设条件，则确定第一视频为第二视频的内容相似视频。

步骤1209，在第一视频为第二视频的内容相似视频的情况下，确定第一视频的第一音频特征序列，以及获取第二视频的第二音频特征序列。

步骤1210，在第一音频特征序列与第二音频特征序列之间的相似度符合音频相似条件的情况下，确定第一视频为第二视频的相似视频。

在该种实施例方式中，通过根据视频时长来选择不同的相似视频确定方式。对于长视频，可通过确定长视频在整体维度上的视频语义特征进行相似视频确定；对于短视频，可通过确定短视频在更细化的视频帧维度上的图像语义特征进行相似视频确定，能够有效提升相似视频确定的效率和准确性。

基于上述实施例，下面结合具体的应用场景对本申请实施例中的相似视频确定方法进行进一步说明。

请参考图13，其示例性示出了一种信息流内容服务系统的技术框架示意图。如图13所示，上述信息流内容服务系统支持视频上传、视频审核、人工审核和视频发布等业务。本申请实施例提供的相似视频确定方法可应用于上述信息流内容服务系统。具体地，信息流内容服务系统中各个服务模块及其主要功能如下：

PGC、UGC或MCN(Multi-Channel Network，多频道网络)内容生产者，通过内容生产端(例如移动终端端或者后端接口API系统)上传发布内容至上下行内容接口服务器。下面以发布内容为上述实施例中的第一视频进行说明。

上下行内容接口服务器接收内容生产端提交的第一视频的数据，写入内容元信息至内容数据库，并使第一视频进行调度中心。可选地，第一视频的数据包括内容元信息和内容实体文件。接着，上下行内容接口服务器将第一视频的内容元信息写入内容数据库中，将第一视频的内容实体文件上传至内容存储服务中，还将第一视频同步给调度中心服务器，以进行后续的内容处理和流转。

可选地，内容数据库中存储的内容元信息包括视频封面图链接、视频码率、视频格式、视频标题、发布时间、作者、视频文件大小、原创标记或者首发标记等信息。其中，原创标记或者首发标记可通过本申请实施例提供的相似视频确定方法进行确定。比如，通过本申请实施例提供的相似视频确定方法来确定新上传的第一视频与系统内的已有视频是否为相似视频。若第一视频与系统内的已有视频均不是相似视频，则可在第一视频的内容元信息中添加原创标记或者首发标记。

调度中心服务器接收到第一视频后，调用搬运视频识别服务开始对第一视频进行识别。搬运视频识别服务调用分布式向量检索服务对向量进行分布式管理和检索匹配。可选地，分布式向量检索服务具体采用分布式的Faiss库和读写分离的双Buff机制来管理和检索海量的视频索引信息。

分布式向量检索服务一方面存储已有视频的特征向量，已有视频即本申请实施例中的第二视频；另一方面调用多维度嵌入向量生成服务生成第一视频的特征向量并读取存储。多维度嵌入向量生成服务通过与内容数据库进行通信连接，读取内容元数据构建多维内容特征向量之外，还通过与抽帧抽音频服务进行通信连接，读取视频帧和音频帧数据，作为特征信息提取处理的源数据，进而生成第一视频的特征向量。抽帧抽音频服务调用下载文件系统从内容存储服务中下载视频文件，即第一视频的内容实体文件。抽帧抽音频服务处理视频文件来进行抽帧抽音频的任务，相关方法可参考上文实施例中的说明，这里不再赘述。可选地，抽帧抽音频服务可将抽取的视频帧和音频帧数据临时存储于内容存储服务，避免重复抽取。

可选地，第一视频的特征向量包括第一视频语义特征向量、第一图像语义特征序列、第一音频特征序列中至少一种。在一种可能的实施方式中，可根据第一视频的时长，确定第一视频的特征向量。比如，若第一视频的视频时长小于或者等于时长阈值，则可根据上述实施例提供的相关方法确定第一视频语义特征向量作为第一视频的特征向量，也可以根据上述实施例提供的相关方法确定第一图像语义特征序列作为第一视频的特征向量，两种方式可以根据实际情况任选其一进行实施；若第一视频的视频时长高于时长阈值，则根据上述实施例提供的相关方法确定第一视频语义特征向量作为第一视频的特征向量。

分布式向量检索服务向多维度嵌入向量生成服务读取向量。分布式向量检索服务读取并存储第一视频的特征向量之后，进行向量检索匹配，根据向量检索匹配的结果，可以确定出相似视频，进而可以确定出其中的搬运视频，并将其返回给搬运视频识别服务以告知调度中心服务器。

若第一视频被识别为搬运视频，则可进行相应的处理，例如视频下架、帐号处罚等处理措施。通过基于视频帧图像语义特征的召回匹配和基于视频语义特征提取方案的召回及视频音频特征向量验证匹配，可确保搬运视频识别的准确性。

若第一视频未被识别为搬运视频，调度中心服务器会同步人工审核系统，将第一视频同步至人工审核系统进行人工审核。人工审核系统记录人工审核过程中对第一视频内容的审核结果。可选地，审核结果为第一视频的分类信息，分类信息包括一、二、三级别分类和标签信息。比如，一个讲解xx牌手机的视频内容，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息是xx牌，xx型。人工审核系统在人工审核过程中会读取内容数据库中的内容元信息，同时人工审核系统将审核结果回传至内容数据库。

若第一视频通过人工审核，调度中心服务器可调用内容分发服务将第一视频的索引信息分发至内容消费端，内容消费端也可向上下行内容接口服务获取第一视频的索引信息，进而从内容存储服务中下载第一视频的内容实体文件观看第一视频。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图14，其示出了本申请一个实施例提供的相似视频确定装置的框图。该装置具有实现上述相似视频确定方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1400可以包括：视频获取模块1410、语义特征提取模块1420以及相似视频确定模块1430。

视频获取模块1410，用于获取第一视频。

语义特征提取模块1420，用于对所述第一视频进行基于内容的特征信息提取，得到所述第一视频的语义特征信息，所述语义特征信息为受视频编辑操作影响的程度低于第一影响程度要求的特征信息。

相似视频确定模块1430，用于在所述第一视频的语义特征信息与第二视频的语义特征信息符合预设条件的情况下，确定所述第一视频为所述第二视频的相似视频。

在示例性实施例中，所述第一视频的语义特征信息包括第一视频语义特征，所述第一视频语义特征用于从视频整体维度表征所述第一视频的语义特征信息，所述语义特征提取模块1420，包括视频语义提取单元。

视频语义提取单元，用于将所述第一视频输入视频语义提取模型进行特征信息提取，得到所述第一视频语义特征。

在示例性实施例中，所述视频语义提取单元，包括：图像筛选子单元、嵌入处理子单元、语义特征提取子单元以及语义特征生成子单元。

图像筛选子单元，用于根据所述第一视频中的至少一个视频帧和所述第一视频的视频封面，得到目标图像集合。

嵌入处理子单元，用于对所述目标图像集合中每一图像进行嵌入处理，得到所述目标图像集合的嵌入特征集，所述嵌入特征集表征所述第一视频的视觉模态信息。

语义特征提取子单元，用于对所述嵌入特征集中的每一嵌入特征进行基于内容的特征信息提取，得到嵌入语义特征。

语义特征生成子单元，用于对每一所述嵌入语义特征进行平均池化处理，得到所述第一视频语义特征。

在示例性实施例中，所述第一视频的语义特征信息包括第一图像语义特征序列，所述第一图像语义特征序列用于从视频帧维度表征所述第一视频的语义特征信息，所述语义特征提取模块1420，包括：图像语义提取单元。

图像语义提取单元，用于对所述第一视频的视频帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列，所述第一图像语义特征序列中的第一图像语义特征为受图像编辑操作影响的程度低于第二影响程度要求的特征。

在示例性实施例中，所述装置1400还包括：时长确定模块。

时长确定模块，用于确定所述第一视频的视频时长。

在所述视频时长符合所述预设时长条件的情况下，所述图像语义提取单元用于执行所述对所述第一视频的视频帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列的操作。

在示例性实施例中，所述图像语义提取单元包括：视频帧抽取子单元、帧间差异确定子单元、目标帧确定子单元和图像语义提取子单元。

视频帧抽取子单元，用于对所述第一视频进行抽帧操作，得到多个视频帧。

帧间差异确定子单元，用于对于每一所述视频帧，确定所述视频帧与相邻视频帧的帧间差异信息。

目标帧确定子单元，用于根据所述帧间差异信息对所述多个视频帧进行筛选，得到目标帧序列。

图像语义提取子单元，用于对于所述目标帧序列中的每一目标帧进行基于图像内容的特征信息提取，得到所述第一图像语义特征序列。

在示例性实施例中，所述相似视频确定模块1430，包括：第一确定单元和第二确定单元。

第一确定单元，用于在所述第一视频的语义特征信息包括所述第一视频语义特征的情况下，在所述第二视频的语义特征信息中确定第二视频语义特征，若所述第一视频语义特征与所述第二视频语义特征符合第一预设条件，则确定所述第一视频为所述第二视频的内容相似视频。

第二确定单元，用于在所述第一视频的语义特征信息包括所述第一图像语义特征序列的情况下，在所述第二视频的语义特征信息中确定第二图像语义特征序列，若所述第一图像语义特征序列与所述第二图像语义特征序列符合第二预设条件，则确定所述第一视频为所述第二视频的内容相似视频。

在示例性实施例中，所述第二确定单元，包括：特征匹配子单元、匹配帧确定子单元以及内容相似确定子单元。

特征匹配子单元，用于根据所述第一图像语义特征序列与所述第二图像语义特征序列确定匹配特征对，所述匹配特征对中的第一图像语义特征与所述匹配特征对中的第二图像语义特征的距离小于距离阈值。

匹配帧确定子单元，用于根据所述匹配特征对确定匹配目标帧，所述匹配目标帧包括第一目标帧和第二目标帧，所述第一目标帧为所述第一视频中与所述第一图像语义特征对应的视频帧，所述第二目标帧为所述第二视频帧中与所述第二图像语义特征对应的视频帧。

内容相似确定子单元，用于若所述匹配目标帧的数量符合数量条件，则确定所述第一视频为所述第二视频的内容相似视频。

在示例性实施例中，所述相似视频确定模块1430，包括：

音频特征确定单元，用于在所述第一视频的语义特征信息与所述第二视频的语义特征信息符合所述预设条件的情况下，确定所述第一视频的第一音频特征序列，以及获取所述第二视频的第二音频特征序列。

音频特征验证单元，用于在所述第一音频特征序列与所述第二音频特征序列之间的相似度符合音频相似条件的情况下，确定所述第一视频为所述第二视频的相似视频。

在示例性实施例中，所述音频特征确定单元，包括：音频获取子单元、频域转换子单元以及音频序列生成子单元。

音频获取子单元，用于获取所述第一视频对应的音频数据。

频域转换子单元，用于对所述音频数据进行频域转换处理，得到所述音频数据的频域特征。

音频序列生成子单元，用于基于所述频域特征，生成所述第一音频特征序列。

在示例性实施例中，所述第二视频为视频数据库中的任一视频，所述视频数据库包括特征信息库和在线索引库，所述在线索引库包括存量索引和增量索引，所述存量索引包括存量视频的索引信息，所述存量视频是指目标历史时段内的视频，所述增量索引包括增量视频的索引信息，所述增量视频是指所述目标历史时段后新增的视频。

所述装置1400还包括：索引查询模块和特征信息获取模块。

索引查询模块，用于在所述第二视频为所述存量视频的情况下，从所述存量索引中获取所述第二视频的目标索引信息；特征信息获取模块，用于基于所述目标索引信息，在所述特征信息库中获取所述第二视频的语义特征信息。

所述索引查询模块，还用于在所述第二视频为所述增量视频的情况下，从所述增量索引集中获取所述第二视频的目标索引信息；所述特征信息获取模块，还用于基于所述目标索引信息，在所述特征信息库中获取所述第二视频的语义特征信息。

在示例性实施例中，所述在线索引库为第一索引库，所述目标历史时段为第一历史时段，所述装置1400还包括：时段确定模块、索引重建模块以及索引库切换模块。

时段确定模块，用于确定第二历史时段，所述第二历史时段以所述第一索引库中允许新增视频的最晚时间为右边界时间节点，并且所述第二历史时段与所述第一历史时段的时间跨度相同。

索引重建模块，用于基于所述第一索引库进行索引重建，得到第二索引库，所述第二索引库的目标历史时段为所述第二历史时段。

索引库切换模块，用于将所述在线索引库由所述第一索引库切换为所述第二索引库。

在示例性实施例中，所述装置1400还包括：搬运视频确定模块和视频推送模块。

搬运视频确定模块，用于在所述第一视频为所述第二视频的相似视频的情况下，确定所述第一视频为搬运视频，所述搬运视频是指非原创视频。

视频推送模块，用于限制推送所述第一视频。

综上所述，本申请实施例提供的技术方案，通过，通过对视频进行基于内容的特征信息提取处理，确保特征提取的重点能够聚焦于视频内容本身，从而使得提取出的视频语义信息受视频编辑操作的影响较小，通过比较能够表征视频内容本身特征的视频语义信息是否符合预设条件，来判断两视频是否相似，能够有效提升相似视频识别的准确率。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图15，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述相似视频确定方法。具体来讲：

计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器(Random Access Memory，RAM)1502和只读存储器(Read Only Memory，ROM)1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。计算机设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1506，和用于存储操作系统1513、应用程序1514和其他程序模块1515的大容量存储设备1507。

基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。大容量存储设备1507及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，大容量存储设备1507可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

根据本申请的各种实施例，计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述相似视频确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述相似视频确定方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述相似视频确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘刚;
专利申请人：腾讯科技(深圳)有限公司;