导航：首页> 计算；推算；计数>视频处理方法以及装置

视频处理方法以及装置

文献发布时间：2023-06-19 13:26:15

技术领域

本说明书实施例涉及计算机技术领域，特别涉及视频处理方法。本说明书一个或者多个实施例同时涉及视频处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着电商的发展，由于传统电商具有过度美化商品、商品信息不全面、弱社交等缺点，用户无法通过传统电商中对商品的介绍方式，对商品产生真实的了解和认识，然而随着视频直播的不断兴起，渐渐形成了一种全新的电商模式：直播电商，即通过直播商品的方式对商品进行售卖，在直播视频中，用户可以直观地看到商品多方位的展示，也可以对商品的试用情况有较为清晰的了解。

然而一场直播视频可能会介绍多个商品，并且在直播介绍一个商品的时候，还有很多其他的商品也会同时展示在直播视频中，从而影响用户或计算机对直播商品的识别以及定位。

因此亟需提供一种可以解决上述技术问题的视频处理方法。

发明内容

有鉴于此，本说明书实施例提供了视频处理方法。本说明书一个或者多个实施例同时涉及视频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本说明书实施例的第一方面，提供了一种视频处理方法，包括：

检测待处理视频的第一视频帧中的第一对象以及第二对象；

确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定目标对象；

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧。

根据本说明书实施例的第二方面，提供了一种视频处理方法，包括：

基于用户的视频处理请求为所述用户展示视频输入界面；

接收所述用户基于所述视频输入界面发送的待处理视频；

检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定目标对象；

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

根据本说明书实施例的第三方面，提供了一种视频处理方法，包括：

接收用户发送的视频处理请求，其中，所述视频处理请求中携带待处理视频；

检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定目标对象；

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

根据本说明书实施例的第四方面，提供了一种视频处理方法，包括：

基于用户输入的查询数据，确定查询关键词；

根据所述查询关键词，确定所述查询关键词对应的待处理视频；

根据所述待处理视频的第一视频帧中的第一对象的第一位置信息以及第二对象的第二位置信息，确定目标对象；

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧向所述用户进行展示。

本说明书实施例的第五方面，提供了一种视频处理装置，包括：

第一检测对象模块，被配置为检测待处理视频的第一视频帧中的第一对象以及第二对象；

第一确定位置模块，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第一确定对象模块，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第一确定视频帧模块，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧。

本说明书实施例的第六方面，提供了一种视频处理装置，包括：

界面展示模块，被配置为基于用户的视频处理请求为所述用户展示视频输入界面；

视频接收模块，被配置为接收所述用户基于所述视频输入界面发送的待处理视频；

第二检测对象模块，被配置为检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

第二确定位置模块，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第二确定对象模块，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第二确定视频帧模块，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

本说明书实施例的第七方面，提供了一种视频处理装置，包括：

接收请求模块，被配置为接收用户发送的视频处理请求，其中，所述视频处理请求中携带待处理视频；

第三检测对象模块，被配置为检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

第三确定位置模块，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第三确定对象模块，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第三确定视频帧模块，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

本说明书实施例的第八方面，提供了一种视频处理装置，包括：

确定关键词模块，被配置为基于用户输入的查询数据，确定查询关键词；

确定待处理视频模块，被配置为根据所述查询关键词，确定所述查询关键词对应的待处理视频；

第四确定对象模块，被配置为根据所述待处理视频的第一视频帧中的第一对象的第一位置信息以及第二对象的第二位置信息，确定目标对象；

第四确定视频帧模块，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧向所述用户进行展示。

根据本说明书实施例的第九方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该指令被处理器执行时实现所述视频处理方法的步骤。

根据本说明书实施例的第十方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频处理方法的步骤。

本说明书提供一种视频处理方法，包括：检测待处理视频的第一视频帧中的第一对象以及第二对象；确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；基于所述第一位置信息以及所述第二位置信息确定目标对象；对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧。所述视频处理方法，通过待处理视频的第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

附图说明

图1是本说明书一个实施例提供的一种视频处理方法的具体应用场景的示例图；

图2是本说明书一个实施例提供的第一种视频处理方法的处理流程图；

图3是本说明书一个实施例提供的一种视频处理方法的人体关键点算法的结构图；

图4是本说明书一个实施例提供的一种视频处理方法的跟踪算法的结构图；

图5是本说明书一个实施例提供的一种应用于商品直播视频场景的视频处理方法的处理流程图；

图6是本说明书一个实施例提供的第二种视频处理方法的流程图；

图7是本说明书一个实施例提供的第三种视频处理方法的流程图；

图8是本说明书一个实施例提供的第四种视频处理方法的流程图；

图9是本说明书一个实施例提供的第一种视频处理装置的示意图；

图10是本说明书一个实施例提供的第二种视频处理装置的示意图；

图11是本说明书一个实施例提供的第三种视频处理装置的示意图；

图12是本说明书一个实施例提供的第四种视频处理装置的示意图；

图13是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

主播：是指“主持人型播音员”。简单理解，播音是在读别人的话；主持是在说自己的话。主播是播音员和主持人的综合体；例如售卖商品的主播，即通过直播的方式进行商品的展示、介绍以达到商品售卖的目的人可以称为主播。

协同检测：针对给定目标进行时序上的检测，过滤掉无谓的检测。

在本说明书中，提供了视频处理方法，本说明书一个或者多个实施例同时涉及视频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种视频处理方法的具体应用场景的示例图。

图1的应用场景中包括主播、商品以及宝贝口袋，其中，主播、商品以及宝贝口袋是商品直播视频中的展示对象，在商品直播视频中会展示多个商品，比如商品1、商品2、商品3以及商品4，但在商品直播的过程中，主播在一个时间段主要介绍一个商品，即主体商品。

具体的，在对商品直播视频进行视频处理的过程中，以商品直播视频中的主播作为人体，进行以人为中心的检测，跟踪人体的骨骼关键点，并根据人体骨骼关键点与商品之间的距离，将离人体骨骼关键点最近的商品1确定为主播正在介绍的主体商品，并对商品直播视频中所直播的商品1进行跟踪，以确定商品直播视频中包含商品1的视频帧，进而生成包含商品1的视频片段。

在确定商品1为主体商品或在确定商品直播视频中包含商品1的视频帧之后，可以将商品1与宝贝口袋中各个商品的主图、附图或评论图等进行比较，其中，是指直播视频中用于展示商品信息(包括商品的属性信息、购买信息等)的展示接口或页面，实现在宝贝口袋中对商品1的检索，从而获得商品1的属性信息，以便确定商品1的商品详情信息，进而对上述生成的视频片段进行审核。

此外，在确定商品直播视频中包含商品1的视频帧之后，还可以在这些视频帧中根据商品1的展示情况，选取一些精彩视频帧(比如：商品1正面、侧面、背面等细节展示等)进行二次加工，生成针对商品1的精彩视频片段。

本说明书实施例提供的所述视频处理方法，通过检测商品与人体的骨骼关键点的距离，确定正在进行直播的主体商品，并进一步对主体商品进行跟踪，从而确定出包含主体商品的视频帧，实现了通过商品与骨骼关键点的相对位置，便捷地确定直播视频中的主体商品，并忽略直播视频中的其他商品的识别，只对主体商品进行跟踪，提高了对主体商品的跟踪效率，并通过生成针对主体商品的视频片段，增加了对主体商品的审核效率以及观看体验。

参见图2，图2示出了本说明书一个实施例提供的第一种视频处理方法的处理流程图，具体包括以下步骤：

步骤202：检测待处理视频的第一视频帧中的第一对象以及第二对象。

其中，所述待处理视频，包括但不限于直播视频，电视视频、电影视频、动画视频、娱乐视频等；所述第一视频帧，可以是待处理视频中的任意一个视频帧，此外，也可以是待处理视频中某一指定视频帧，比如该待处理视频的首帧，或者该待处理视频中某一物品、或人物第一次出现对应的视频帧等，在此不做限制。

相应的，所述第一对象，可以是第一视频帧中包含的至少一个物品或商品，比如化妆品、电子产品、服饰、日用品等；所述第二对象，可以是第一视频帧中包含的人体关键点、人体或人体的某一部位(比如手部、头部、腰部等)。

实际应用中，在第一对象为商品的情况下，所述第二对象可以是手部关键点、人体或手部等，其中，人体可以理解为主播，手部关键点可以理解为主播的手部关键点，手部可以理解为主播的手部，则所述待处理视频可以为包含有商品以及主播的直播视频。

具体实施时，在明确第一对象以及第二对象是什么的情况下，对第一视频帧中的第一对象以及第二对象的检测(即识别)方法是多种多样的，比如，利用预先训练好的针对第一对象或第二对象的对象识别模型，分别对第一对象或第二对象进行识别，此外，还可以通过关键特征匹配或边框检测等，对第一视频帧中的第一对象或第二对象进行检测等，在此不做限制。

进一步的，第一对象为商品、在第二对象为手部关键点，且待处理视频为直播视频的情况下，本说明书实施例提供的一种可选实施方式中，所述检测待处理视频的第一视频帧中的第一对象以及第二对象，具体采用如下方式实现：

通过第一检测算法对所述第一视频帧进行物品检测，获得所述商品；

通过第二检测算法对所述第一视频帧中的人体进行关键点检测，获得所述人体的人体关键点；

确定所述人体关键点中的所述手部关键点。

其中，所述第一检测算法，是指用于检测视频帧中商品的检测算法，比如物品特征检测算法，物品识别算法、边框检测算法等。所述第二检测算法，是指用于检测针对人体中预设关键点的检测算法，比如：人体关键点检测算法等。

所述人体关键点，是指针对人体中重要的肢体、或骨骼部位对应的关键点，比如，头部关键点，颈部关键点、肩部关键点、肘部关键点、手部关键点(如手腕关键点、掌心关键点)等。在关键点检测的过程中，需要检测第一视频帧中的人体，并以人体为中心检测人体各个部位对应的关键点。

本说明书实施例，通过检测算法对第一视频帧中的商品以及手部关键点进行检测，检测出第一视频帧中包含的商品以及手部关键点(即商品以及手部关键点所在的区域)，实现了对商品以及手部关键点准确检测，并提升了检测效率。

为了便于理解，本说明书实施例均以第一对象为商品、第二对象为手部关键点、待处理视频为直播视频为例，对所述视频处理方法进行详细介绍。

步骤204：确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息。

其中，所述第一位置信息，可以理解为第一对象在第一视频帧中的坐标信息，比如，[X

具体实施时，还可以通过上述第一检测算法对第一视频帧中的第一对象进行定位，即确定各个第一对象在第一视频帧中的坐标信息，并通过上述第二检测算法对第一视频帧中的第二对象进行定位，即确定第二对象在第一视频帧中的坐标信息。

在商品直播场景下，传统的基于视觉的商品检测方案，由于商品的类别成千上万，直接使用带类目的检测器明显是不合理的，因此通常是利用少数类别的检测器将时间序列上(可以不定长的进行抽帧)的商品全部检测处理，然后提取对应检测框的特征用于在商品底库中进行搜索，最终得到这个商品的类别信息，当然也可以考虑语音、文本等其他模态的信息共同得到这一类别，不过这种方式有很明显的缺点，第一，视频信息存在很大的冗余，即便是抽帧的视频帧序列，依然有很多的目标要进行检测和识别，导致识别效率很低，搜索主体商品的时间较长；第二，由于某一时间段上，主播在售卖某一产品，但是视觉存在众多其他商品的情况，这种方法的效率会变得更低，也会出现很多的误识别，第三，这种方案对于检测和识别模型的性能和稳定性都有较高的要求。

实际应用中，在上述第二检测算法为人体关键点检测算法的情况下，由于人体关键点算法性能在公开的数据集上是较快的，参见图3，图3示出了本说明书一个实施例提供的一种视频处理方法的人体关键点算法的结构图。

如图3所示，在人体关键点的检测过程中将第一视频帧输入关键点检测网络模型，通过关键点检测网络模型对第一视频帧中包含的人体进行关键点检测，获得人体中包含的所有的人体关键点，且在这些人体关键点中确定出手部关键点，并进一步对手部关键点进行定位；

其中，关键点检测网络模型可以是高分辨率特征融合的基础网络，通过将第一视频帧输入高分辨率特征融合的基础网络，在高分辨率特征融合的基础网络中始终保持高分辨率的特征图，逐步引入低分辨率卷积，并且将不同分辨率的卷积并行连接。同时，通过不断在多分辨率表征之间进行信息交换(即特征融合)，来提升高分辨率和低分辨率表征的表达能力，让多分辨率表征之间更好地相互促进，从而更好地识别人体关键点，并确定人体关键点中的手部关键点，确定手部关键点对应的坐标信息(即第二位置信息)。

此外，关键点检测网络模型还可以是基于高斯核热力图的回归网络，通过将包含人体的第一视频帧输入该基于高斯核热力图的回归网络，预测出每个人体关键点的高斯热图，并进一步基于手部关键点的高斯热图对手部关键点进行定位，确定手部关键点对应的坐标信息(即第二位置信息)。

进一步的，为了更准确地识别并定位人体关键点，可以使用高分辨率特征融合的基础网络和基于高斯核热力图的回归网络结合，共同实现对人体关键点的检测以及定位，即在检测阶段(即预测推理阶段)进行了数据扩增，也加强了人体关键点检测算法的鲁棒性。

步骤206：基于所述第一位置信息以及所述第二位置信息确定目标对象。

其中，目标对象，是指第一对象中的某一特定对象，在直播视频场景下，目标对象，可以理解为主播正在介绍的主体商品。

实际应用中，基于所述第一位置信息以及所述第二位置信息确定目标对象的方式是多种多样的，比如，基于所述第一位置信息以及所述第二位置信息，将距离第二对象最近的第一对象确定为目标对象，此外，还可以根据第一位置信息与第二位置信息，将距离第二对象上方或下方的第一对象，确定为目标对象等，在此不做限制。

具体实施时，本说明书实施例提供的一种可选实施方式中，所述基于所述第一位置信息以及所述第二位置信息确定目标对象，具体采用如下方式实现：

基于所述第一位置信息以及所述第二位置信息，确定所述第一对象与所述第二对象之间的距离；

在所述距离小于预设距离阈值的情况下，将所述第一对象确定为所述目标对象。

其中，所述预设距离阈值，是指预先设置的距离值，以便将离第二对象在该距离值内的的第一对象，确定为目标对象，实际应用中，该预设距离阈值可以根据实际场景的需要进行设置，在此不做限制。

需要说明的是，在存在多个第一对象的情况下，需要基于各个第一对象的第一位置信息分别与第二位置信息进行计算，获得各个第一对象与第二对象之间的距离，并将与第二对象的距离小于预设距离阈值的第一对象，确定为目标对象。

实际应用中，还可能存在确定了多个目标对象的问题，这种情况下，可以结合待处理视频中的其他多模态信息，比如语音信息，文本信息等，以便在多个目标对象中，确定一个目标对象。

本说明书实施例，基于第一对象与第二对象的相对位置，确定目标对象，简化了针对目标对象的确定流程，并提升了对目标对象进行识别的准确率以及识别效率。

步骤208：对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧。

其中，对目标对象进行跟踪，可以理解为按照待处理视频的播放时序，对待处理视频中的视频帧进行检测，实现对视频帧中目标对象的跟踪，从而确定包含目标对象的视频帧，即所述目标视频帧。

具体实施时，本说明书实施例提供的一种可选实施方式中，所述第一视频帧为第i视频帧；

相应的，所述对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧，具体采用如下方式实现：

根据所述第i视频帧中所述目标对象确定第一图像区域，并基于所述第一图像区域确定所述i+1视频帧中的第二图像区域；

对所述第一图像区域进行特征提取，获得第一特征，以及对所述第二图像区域进行特征提取，获得第二特征；

将所述第一特征与所述第二特征进行相似度计算，在计算结果大于等于相似度阈值的情况下，将所述第i视频帧以及所述i+1视频帧作为目标视频帧；

将i自增1，继续执行根据所述第i视频帧中所述目标对象确定第一图像区域。

具体实施时，待处理视频中包含n帧视频帧，其中，i∈【1，n】，且i、n都为正整数，那么以i为1为例，具体如图4所示，采用跟踪算法，根据所述第一视频帧(即前一帧)中所述目标对象的目标位置信息，对所述第一视频帧中进行剪裁，获得第一图像区域(即跟踪区域，可以理解为要跟踪什么)，以及对第二视频帧进行剪裁，获得第二图像区域(即搜索区域，可以理解为对目标对象进行搜索的区域)；并将第一图像区域通过卷积层进行特征提取，获得第一特征，将第二视频通过卷积层进行特征提取，获得第二特征，并将提取出的第一特征以及第二特征通过全连接层进行特征对比，从而确定目标对象在第二图像区域中内的预测位置(预测坐标信息)，并将i自增1，则i为2，继续执行根据所述第二视频帧中所述目标对象确定第一图像区域的步骤(即根据目标对象的预测位置，确定第一图像区域)。

其中，所述第一图像区域，是指第i视频帧中包含目标对象的图像区域；所述第二图像区域，是指通过将第i+1视频帧中与第一图像区域对应的图像区域，按照预设比例(比如10％)或按照预设范围(比如外扩1厘米等)进行扩大后，所确定的图像区域。

相应的，所述第一特征，是指第一图像区域中包含目标对象在内的图像特征，所述第二特征，是指第二图像区域中包含的图像特征，具体实施时，通过将第一特征与第二特征进行相似度计算(即特征对比)，用以判断第二图像区域中是否包含目标对象。

所述计算结果，是指通过特征对比，获得的第一特征与第二特征之间的相似度值，具体的，该计算结果，可以是数值、或百分比的形式，在此不做限制；所述相似度阈值，是指预设的用于确定第一特征与第二特征是否相似的相似度值(即第二特征中是否包含目标对象)，具体的，该相似度阈值可以根据实际经验进行设置，在此不做限制。

在计算结果大于等于相似度阈值的情况下，表明第二图像区域中包含目标对象，则将第i视频帧以及第i+1视频帧都作为包含目标对象的目标视频帧，并继续对第i+1视频帧的下一帧视频帧进行检测，以确定第i+1视频帧的下一帧视频帧是否包含目标对象。

需要说明的是，采用本说明书实施例所采用的跟踪方式是基于特征相似度回归的方式，对目标对象的跟踪速度很快，是其他性能检测的30-40倍，因此整个跟踪流程的时间消耗，也会比通过对视频帧中的目标商品进行检测所消耗的时间少很多。

此外，使用前后帧像素块(图像区域)进行特征比较，回归目标对象坐标的形式，实现单目标的协同检测，相比其他方法能够更好的权衡速度和精度。

本说明书实施例，通过将两个视频帧中的特定区域的图像特征进行对比，对目标对象进行跟踪，充分利用了视觉信息在时间上的连续性，并相比于每帧上的全部商品进行检测和识别，只需在整个跟踪序列中抽取固定数量的商品(即目标商品)进行识别即可，能够大幅减少对象的检测和识别数量，在大幅提速的同时，能够缓减识别模型带来的误识问题，并通过跟踪弱化了对检测的依赖，提高了对目标对象的跟踪效率。

除上述计算结果大于等于相似度阈值的情况，还存在计算结果小于相似度阈值的情况，本说明书实施例提供的一种可选实施方式中，在所述计算结果小于所述相似度阈值的情况下，将所述第i视频帧作为目标视频帧。

具体的，在计算结果小于相似度阈值的情况下，表明第二图像区域中没有包含目标对象，即第i+1视频帧中没有包含目标对象，则不将第i+1视频帧作为目标视频帧，从而完成对目标对象的跟踪，并确定了在待处理视频中包含目标对象的目标视频帧。

需要说明的是，在第i+1视频帧中没有包含目标对象的情况下，可以终止对目标对象进行跟踪，此外，还可以再继续对第i+1视频帧之后的几个视频帧进行跟踪检测，以避免对包含目标对象的视频帧的疏漏，若继续的过程中，仍未存在包含目标对象的视频帧，即可完成对目标对象的跟踪。

进一步的，由于在上述进行目标对象跟踪的过程中，随着跟踪的进行，可能出现对目标对象跟踪中断，或跟踪误差不断增大的情况，在这种情况下，需要在跟踪过程对跟踪的目标对象进行矫正，以恢复对目标对象的跟踪，并减少跟踪过程中出现的误差，还可以保障跟踪的连续性和准确性，本说明书实施例提供的一种可选实施方式中，所述视频处理方法，还包括：

记录所述目标对象的第j次跟踪开始时间，在检测到当前时间与所述第j次跟踪开始时间的时间间隔大于等于预设时间阈值的情况下，执行检测待处理视频的第i视频帧中的第一对象以及第二对象，其中，所述第i视频帧为所述当前时间所跟踪的视频帧；

确定所述第i视频帧中的第一对象的第一位置信息，以及确定所述第i视频帧中的第二对象的第二位置信息；

基于所述第i视频帧中的第一对象的第一位置信息与所述第i视频帧中的第二对象的第二位置信息，确定所述第i视频帧中的目标对象；

根据所述第i视频帧中的目标对象的目标位置信息与所述第一图像区域的区域位置信息进行重合度计算，在重合度计算结果小于重合度阈值的情况下，将所述目标位置信息对应的图像区域作为所述第一图像区域，并将j自增1，执行记录所述目标对象的第j次跟踪开始时间。

其中，所述当前时间，可以是计算设备的当前时间，当前时间按照秒、或毫秒等时间单位进行递增；所述预设时间阈值，是指预先设置的时间间隔，比如0.5秒等，具体的，该值可以根据实际场景需要，以及跟踪经验进行设定，在此不做限制。

所述第j次跟踪开始时间，包括是指初始对目标对象进行跟踪的时间，以及针对目标对象进行矫正之后重新对目标对象开始跟踪的时间。

具体实施时，在对目标对象进行跟踪的过程中包含n次对跟踪时间的记录，其中，j∈【1，n】，且j，n都为正整数，那么以上述i为1为例，j也为1的情况下，在上述步骤根据所述第一视频帧中所述目标对象确定第一图像区域之前或之后，记录第1次跟踪开始时间，在检测到当前时间距离所述记录的第1次跟踪开始时间的时间间隔大于等于预设时间阈值的情况下，即在与开始针对目标对象进行跟踪时所记录的系统时间，间隔特定时间的情况下，重新确定当前时间所跟踪的第i视频帧中的目标对象(具体确定第i视频帧中目标对象的实现方式与上述步骤202-步骤206中确定第一视频帧中目标对象的具体实现方式类似，参考上述步骤202-步骤206中确定第一视频帧中目标对象的具体实现方式即可)。

在确定第i视频帧中的目标对象之后，将第i视频帧中的目标对象的目标位置信息，与在对目标对象进行跟踪过程中确定第i视频帧中的第一图像区域的区域位置信息，进行位置对比(比如，将两个位置信息对应的图像区域之间的重合度计算)，在重合度计算结果(比如重合度数值，或重合度百分比等)大于等于重合度阈值(预设用以区分是否重合的阈值)的情况下，表明对目标对象的跟踪是准确的，但仍以在第i视频帧中检测出的目标对象对应的图像区域作为第一图像区域，继续对目标对象进行跟踪(即返回执行基于所述第一图像区域确定所述i+1视频帧中的第二图像区域)并记录第2次跟踪开始时间，实现了在特定间隔时间，通过对视频帧中的目标对象的目标位置信息(即目标对象所在的图像区域)进行矫正，提高针对目标对象的跟踪准确率。

此外，还可以在跟踪过程中每隔预设时间间隔，将当前跟踪的视频帧中认为包含目标对象的第一图像区域，与第一视频帧中的目标对象对应的图像区域进行特征相似度对比，以确定在跟踪过程中是否针对目标对象出现跟踪中断，或跟踪错误的情况，若特征相似度大于等于预设相似度阈值，表明针对目标对象出现跟踪中断，或跟踪错误，则重新确定当前视频帧中的目标对象，若特征相似度小于预设相似度阈值，表明跟踪过程较为准确，不做操作即可。

在上述进行重合度计算之后，还存在所述重合度计算结果大于等于所述重合度阈值的情况，具体的：

在所述重合度计算结果大于等于所述重合度阈值的情况下，将所述第i视频帧中的目标对象作为第一目标对象，执行对所述第一目标对象进行跟踪，以确定所述待处理视频中包含所述第一目标对象的目标视频帧。

具体的，所述第一目标对象，可以与第一视频帧中目标对象是同一对象，也可以与第一视频帧中目标对象是不同的对象，在此不做限制。实际应用中，在所述重合度计算结果大于等于所述重合度阈值的情况下，还可以将第i视频帧中的目标对象与第一视频帧中的目标对象进行特征对比，以确定第i视频帧中的目标对象是否为第一视频帧中的目标对象，若是，表明对第一视频帧中目标对象的跟踪并未结束，则第一目标对象与目标对象是相同的对象，将包含所述第一目标对象的目标视频帧也作为上述包含目标对象的目标视频帧；若否，表明对第一视频帧中目标对象的跟踪已经结束，则第一目标对象是与目标对象不同的对象，包含所述第一目标对象的目标视频帧是属于第一目标对象的视频片段。

具体的，将第i视频帧中的目标对象作为第一目标对象，执行对所述第一目标对象进行跟踪，以确定所述待处理视频中包含所述第一目标对象的目标视频帧，是由于针对目标对象的跟踪已经跟丢，或跟踪中断，则重新开始对第i视频帧中的目标对象(即第一目标对象)进行跟踪，具体的，对所述第一目标对象进行跟踪具体实现，与上述对第一视频帧中目标对象的跟踪的具体实现，参考上述对第一视频帧中目标对象的跟踪的具体实现即可，在此不做赘述。

此外，在上述确定包含所述目标对象的目标视频帧的基础上，通过对待处理视频进行切分，生成包含目标对象的目标视频片段，避免了用户消耗时间观看待处理视频中的其他信息，提高了用户针对目标对象的观看体验以及观看效率，本说明书实施例提供的一种可选实施方式中，所述对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧之后，还包括：

将所述目标视频帧按照所述待处理视频中的播放顺序进行排序；

将排在第一位的目标视频帧作为初始帧，将排在最后一位的目标视频帧作为结束帧，对所述待处理视频进行切分，获得所述目标对象的目标视频片段。

具体的，将目标视频帧按照播放顺序进行排序，即确定目标视频帧在待处理视频中的播放次序，将最先播放的目标视频帧(排在第一位的目标视频帧)即作为初始帧，并将最后播放的目标视频帧(即排在最后一位的目标视频帧)作为结束帧，对待处理视频进行切分，获得针对目标对象的目标视频片段。

本说明书实施例提供的一种可选实施方式中，所述获得所述目标对象的目标视频片段之后，还包括：

在所述目标视频片段中按照预设抽取规则抽取第一目标视频帧；

通过将所述第一目标视频帧与预设对象库中的预设对象图像进行特征对比，判断所述目标对象是否为所述预设对象库中的预设对象；

在所述目标对象为所述预设对象库中的预设对象的情况下，确定针对所述目标视频片段审核成功。

其中，所述预设抽取规则，包括随机抽取、以特定数量的视频帧作为抽帧间隔进行抽取、首帧抽取、尾帧抽取、和/或对具有某一特征的视频帧进行抽取等。

所述预设对象库，是指针对预设对象的信息的存储空间或针对预设对象的展示页面，比如视频直播场景下的商品口袋，实际应用中，预设对象库中可以存储预设对象的预设对象图像(比如预设对象的正视图，侧视图或评论附图等)，通过将目标对象的图像区域与预设对象图像进行特征比对，若特征相似(比如前述进行特征对比获得的相似度大于等于预设相似度)，则表明目标对象是预设对象，则确定针对所述目标视频片段审核成功，若特征不相似(比如前述进行特征对比获得的相似度小于预设相似度)，则表明目标对象不是预设对象，则确定针对所述目标视频片段审核失败，在审核失败的情况下，可以对目标对象进行打标，或进行非预设对象提醒，在此不做限制。

其中，所述预设对象，可以理解为预先设定在待处理视频中进行展示的对象的图像，比如，在预先设置的在直播视频中进行直播介绍的商品(即商家提供的直播商品)。

本说明书实施例，在获得目标视频片段后，对目标视频片段进行抽帧审核，以判断目标视频片段中的目标对象是否为预设对象库中预设对象，以防对非预设对象进行后续的视频处理，此外，基于审核结果进行相应处理(比如通知或警告)也可有效遏制在后续录制视频的过程中对非预设对象的录制。

此外，在所述目标对象为所述预设对象库中的预设对象的情况下，本说明书实施例提供的一种可选实施方式中，还包括：

确定所述目标对象的属性信息；

基于所述目标对象的属性信息对所述目标视频帧进行审核。

其中，所述属性信息，可以理解为预设对象(即目标对象)的名称、尺寸、形状、颜色或功效等信息。

需要说明的是，由于直播电商给人们带来便利的同时，直播过程中虚假信息和虚假商品也大量涌现，并且数量即为庞大，则基于预设商品的属性信息，对直播过程中介绍的商品以及商品的相关信息进行审核，保障了直播商品的可靠性，并提高了用户通过直播视频进行购物的购物体验。

本说明书实施例，通过目标对象的属性信息对目标视频帧进行审核，提高了目标对象的可靠性，并可有效遏制待处理视频中针对目标对象出现的不当信息。

进一步的，在上述获得目标视频片段的基础上，在上述本说明书实施例提供的一种可选实施方式中，所述获得所述目标对象的目标视频片段之后，还包括：

基于所述目标对象的属性信息对所述目标视频片段进行命名，获得所述目标视频片段对应的视频名称；

接收用户针对所述目标视频片段的查询请求，其中，所述查询请求中携带有所述目标视频片段的视频名称；

基于所述视频名称查询所述目标视频片段，并将所述目标视频片段返回至所述用户。

具体的，基于目标对象的属性信息对目标视频片段进行命名，可以在目标对象的属性信息中，选取有代表性的属性信息，比如对象名称、形状、功效等信息进行拼接，形成目标视频片段的视频名称，通过命名提高了目标对象的辨识度，以便用户通过名称了解目标视频片段，了解目标对象，也便于用户选择是否观看该视频，节省了用户的选择时间，提高了选择效率。

实际应用中，在对目标视频片段进行命名之后，还可以接受用户基于该视频名称的查询，以便通过视频名称快速查询对应的目标视频片段，增加了目标视频片段的查询效率。

此外，在上述获得目标视频片段的基础上，还生成针对目标视频片段的视频封面，以便通过视频封面对目标视频片段的目标对象进行了解，并增加针对目标视频片段的识别效率，说明书实施例提供的一种可选实施方式中，所述获得所述目标对象的目标视频片段之后，还包括：

检测所述目标视频帧中所述目标对象的目标图像区域在所述目标视频帧中的占比；

在所述目标视频帧中筛选所述占比最大的视频帧，作为所述目标视频片段的视频封面。

具体的，所述占比，可以理解为包含目标对象的目标图像区域在目标视频帧中的面积占目标视频视中的面积的比例，比如50％，或60％等，从而在目标视频帧中筛选出占比最大的视频帧作为目标视频片段的封面，以便更好地对目标视频片段进行标识，也便于基于视频封面快速地对目标视频片段有较为直观的认识，提高了对目标视频片段的识别效率。

实际应用中，还可以根据包含目标对象的目标图像区域的面积、高度或宽度等，在目标视频帧进行筛选出面积最大、高度最高、或宽度最宽的视频帧，作为目标视频片段的视频封面，以便在视频封面中凸显目标对象。

此外，还可以在确定包含所述目标对象的目标视频帧的基础上，在目标对象视频帧中选取一些精彩视频帧进行组合，从而生成针对目标对象的视频集锦，本说明书实施例提供的一种可选实施方式中，所述对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧之后，还包括：

从目标视频帧中选择多个满足预设条件的视频帧，将所述满足预设条件的视频帧进行组合，生成针对所述目标对象的视频集锦。

具体的，所述预设条件，可以理解为预设的针对目标视频帧中目标对象的展示条件，具体的，该展示条件，可以是目标视频帧中具有目标对象的细节展示(比如材质展示、尺寸展示、价格展示、不同角度展示等)。

所述视频集锦，是指通过将目标视频帧中挑选出针对目标对象的精彩视频帧，即能凸显目标对象的特征的视频帧，进行串联所形成的视频集锦，以便通过视频集锦，忽略掉目标视频片段中的冗余信息，快速了解目标对象的信息，提高了用户的观看体验。

综上所述，本说明书实施例提供的所述视频处理方法，通过待处理视频中第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

下述结合附图5，以本说明书提供的视频处理方法在商品直播视频中的应用为例，对所述视频处理方法进行进一步说明。其中，图5示出了本说明书一个实施例提供的一种应用于商品直播视频场景的视频处理方法的处理流程图，具体包括以下步骤：

步骤502：检测直播视频的第一视频帧中的商品以及手部关键点。

具体的，所述直播视频，是指包含商品以及主播，商品直播视频，所述商品，包括：服饰、化妆品、和/或电子产品等，所述手部关键点，可以理解为第一视频帧中进行商品直播的主播的手部关键点，具体的，手部关键点包括：左/右手腕关键点、各个手指关键点、左/右掌心关键点等。

步骤504：确定商品在所述第一视频帧中的第一位置信息，以及确定所述手部关键点在所述第一视频帧中的第二位置信息。

实际应用中，可以通过性能优越的人体关键点检测算法对手部关键点进行定位。

步骤506：基于所述第一位置信息以及所述第二位置信息，确定商品与所述手部关键点之间的距离。

具体的，在商品为多个的情况下，根据每个商品的第一位置信息以及手部关键点的第二位置信息，确定每个商品于手部关键点之间的距离。

步骤508：将所述距离小于预设距离阈值的商品确定为直播视频中的主体商品。

具体的，所述主体商品，是指第一视频帧中主播通过直播方式介绍的商品，根据确定的商品与手部关键点的相对位置，确定主体商品，能更精确地判定主播讲解的商品，去除其他商品的干扰。

此外，可以基于人体检测和商品检测，利用比较简单的人与商品的位置关系，和商品在第一视频帧中的相对位置来确定主体商品，或者，还可以基于检测手部位置和商品的位置关系，来替代人体的手部关键点。

步骤510：对所述主体商品进行跟踪，以确定直播视频中包含所述主体商品的目标视频帧。

步骤512：将所述目标视频帧按照所述直播视频中的播放顺序进行排序。

步骤514：将排在第一位的目标视频帧作为初始帧，将排在最后一位的目标视频帧作为结束帧，对所述直播视频进行切分，获得所述主体商品的目标视频片段。

步骤516：在所述目标视频片段中按照预设抽取规则抽取第一目标视频帧。

步骤518：通过将所述第一目标视频帧与预设商品库中的预设商品图像进行特征对比，判断所述主体商品是否为所述预设商品库中的预设商品；

步骤520：在所述主体商品为所述预设商品库中的预设商品的情况下，确定针对所述目标视频片段审核成功。

综上所述，本说明书实施例提供的所述视频处理方法，通过检测直播视频的第一视频帧中商品与手部关键点的距离，确定正在进行直播的主体商品，提高了确定主体商品的确定效率以及准确度，并在确定主体商品的基础上，进一步对主体商品进行跟踪，从而确定出包含主体商品的视频帧，实现了通过忽略直播视频中的其他商品的识别，只对主体商品进行跟踪，提高了对主体商品的跟踪效率。

参见图6，图6示出了本说明书一个实施例提供的第二种视频处理方法的流程图，具体包括以下步骤：

步骤602：基于用户的视频处理请求为所述用户展示视频输入界面。

步骤604：接收所述用户基于所述视频输入界面发送的待处理视频。

步骤606：检测所述待处理视频的第一视频帧中的第一对象以及第二对象。

步骤608：确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息。

步骤610：基于所述第一位置信息以及所述第二位置信息确定目标对象。

步骤612：对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

本说明书实施例中，所述视频处理方法，在接收到用户发送的待处理视频后，通过待处理视频的第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

上述为本实施例的第二种视频处理方法的示意性方案。需要说明的是，该第二种视频处理方法的技术方案与上述的第一种视频处理方法的技术方案属于同一构思，第二种视频处理方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频处理方法的技术方案的描述。

参见图7，图7示出了本说明书一个实施例提供的第三种视频处理方法的流程图，具体包括以下步骤：

步骤702：接收用户发送的视频处理请求，其中，所述视频处理请求中携带待处理视频。

步骤704：检测所述待处理视频的第一视频帧中的第一对象以及第二对象。

步骤706：确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息。

步骤708：基于所述第一位置信息以及所述第二位置信息确定目标对象。

步骤710：对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

本说明书实施例中，所述视频处理方法在接收到针对待处理视频的视频处理请求后，通过待处理视频的第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

上述为本实施例的第三种视频处理方法的示意性方案。需要说明的是，该第三种视频处理方法的技术方案与上述的第一种视频处理方法的技术方案属于同一构思，第三种视频处理方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频处理方法的技术方案的描述。

参见图8，图8示出了本说明书一个实施例提供的第四种视频处理方法的流程图，具体包括以下步骤：

步骤802：基于用户输入的查询数据，确定查询关键词。

具体的，所述查询关键字是指在查询数据中抽取或识别出的关键字，用于进行视频查询。

步骤804：根据所述查询关键词，确定所述查询关键词对应的待处理视频。

实际应用中，可以预先确定视频中携带的关键词(或携带标签)，则确定查询关键词之后，可以将查询关键词与视频对应的关键词进行比较，若视频对应的关键词中存在与查询关键词匹配的关键词，则将该视频确定为查询关键词对应的待处理视频。

步骤806：根据所述待处理视频的第一视频帧中的第一对象的第一位置信息以及第二对象的第二位置信息，确定目标对象。

可选的，所述根据所述待处理视频的第一视频帧中的第一对象的第一位置信息以及第二对象的第二位置信息，确定目标对象，包括：

检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定所述目标对象。

步骤808：对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧向所述用户进行展示。

可选的，所述对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧向所述用户进行展示，包括：

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧；

在所述目标视频帧中按照第一预设抽取规则抽取展示视频帧，向所述用户进行展示。

具体的，所述第一预设抽取规则，包括随机抽取、首帧抽取、尾帧抽取、或者抽取目标对象占比最大的视频帧等抽取规则，在此不做限制，以便根据第一预设抽取规则在目标视频帧中抽取出展示视频帧，作为查询结果向用户进行展示。

本说明书实施例中，所述视频处理方法基于用户输入的查询数据，确定查询关键词对应的待处理视频，并通过待处理视频的第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率，并将包含目标对象的目标视频帧作为查询结果向用户进行展示，提高了用户的查询体验。

上述为本实施例的第四种视频处理方法的示意性方案。需要说明的是，该第四种视频处理方法的技术方案与上述的第一种视频处理方法的技术方案属于同一构思，第四种视频处理方法的技术方案未详细描述的细节内容，均可以参见上述第一种视频处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频处理装置实施例，图9示出了本说明书一个实施例提供的第一种视频处理装置的示意图。如图9所示，该装置包括：

第一检测对象模块902，被配置为检测待处理视频的第一视频帧中的第一对象以及第二对象；

第一确定位置模块904，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第一确定对象模块906，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第一确定视频帧模块908，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧。

可选的，所述第一确定对象模块906，进一步被配置为：

基于所述第一位置信息以及所述第二位置信息，确定所述第一对象与所述第二对象之间的距离；

在所述距离小于预设距离阈值的情况下，将所述第一对象确定为所述目标对象。

可选的，所述第一视频帧为第i视频帧；

相应的，所述第一确定视频帧模块908，进一步被配置为：

根据所述第i视频帧中所述目标对象确定第一图像区域，并基于所述第一图像区域确定所述i+1视频帧中的第二图像区域；

对所述第一图像区域进行特征提取，获得第一特征，以及对所述第二图像区域进行特征提取，获得第二特征；

将所述第一特征与所述第二特征进行相似度计算，在计算结果大于等于相似度阈值的情况下，将所述第i视频帧以及所述i+1视频帧作为目标视频帧；

将i自增1，继续执行根据所述第i视频帧中所述目标对象确定第一图像区域。

可选的，所述第一确定视频帧模块908，进一步被配置为：

在所述计算结果小于所述相似度阈值的情况下，将所述第i视频帧作为目标视频帧。

可选的，所述装置，还包括：

记录时间模块，被配置为记录所述目标对象的第j次跟踪开始时间，在检测到当前时间与所述第j次跟踪开始时间的时间间隔大于等于预设时间阈值的情况下，执行检测待处理视频的第i视频帧中的第一对象以及第二对象，其中，所述第i视频帧为所述当前时间在所述待处理视频中所跟踪的视频帧；

第四确定位置模块，被配置为确定所述第i视频帧中的第一对象的第一位置信息，以及确定所述第i视频帧中的第二对象的第二位置信息；

确定对象模块，被配置为基于所述第i视频帧中的第一对象的第一位置信息与所述第i视频帧中的第二对象的第二位置信息，确定所述第i视频帧中的目标对象；

重合度计算模块，被配置为根据所述第i视频帧中的目标对象的目标位置信息与所述第一图像区域的区域位置信息进行重合度计算，在重合度计算结果小于重合度阈值的情况下，将所述目标位置信息对应的图像区域作为所述第一图像区域，并将j自增1，执行记录所述目标对象的第j次跟踪开始时间。

可选的，所述装置，还包括：

跟踪模块，被配置为在所述重合度计算结果大于等于所述重合度阈值的情况下，将所述第i视频帧中的目标对象作为第一目标对象，执行对所述第一目标对象进行跟踪，以确定所述待处理视频中包含所述第一目标对象的目标视频帧。

可选的，所述装置，还包括：

排序模块，被配置为将所述目标视频帧按照所述待处理视频中的播放顺序进行排序；

切分模块，被配置为将排在第一位的目标视频帧作为初始帧，将排在最后一位的目标视频帧作为结束帧，对所述待处理视频进行切分，获得所述目标对象的目标视频片段。

可选的，所述装置，还包括：

抽取模块，被配置为在所述目标视频片段中按照预设抽取规则抽取第一目标视频帧；

特征对比模块，被配置为通过将所述第一目标视频帧与预设对象库中的预设对象图像进行特征对比，判断所述目标对象是否为所述预设对象库中的预设对象；

确定审核成功模块，被配置为在所述目标对象为所述预设对象库中的预设对象的情况下，确定针对所述目标视频片段审核成功。

可选的，所述装置，还包括：

确定属性模块，被配置为在所述目标对象为所述预设对象库中的预设对象的情况下，确定所述目标对象的属性信息；

审核模块，被配置为基于所述目标对象的属性信息对所述目标视频帧进行审核。

可选的，所述装置，还包括：

命名模块，被配置为基于所述目标对象的属性信息对所述目标视频片段进行命名，获得所述目标视频片段对应的视频名称；

接受查询请求模块，被配置为接收用户针对所述目标视频片段的查询请求，其中，所述查询请求中携带有所述目标视频片段的视频名称；

查询模块，被配置为基于所述视频名称查询所述目标视频片段，并将所述目标视频片段返回至所述用户。

可选的，所述装置，还包括：

检测占比模块，被配置为检测所述目标视频帧中所述目标对象的目标图像区域在所述目标视频帧中的占比；

筛选模块，被配置为在所述目标视频帧中筛选所述占比最大的视频帧，作为所述目标视频片段的视频封面。

可选的，所述装置，还包括：

选择模块，被配置为从目标视频帧中选择多个满足预设条件的视频帧，将所述满足预设条件的视频帧进行组合，生成针对所述目标对象的视频集锦。

可选的，所述第一对象为商品，所述第二对象包括：手部关键点、人体或手部，所述待处理视频为直播视频。

可选的，在所述第二对象为所述手部关键点的情况下，所述第一检测对象模块902，进一步被配置为：

第一检测模块，被配置为通过第一检测算法对所述第一视频帧进行物品检测，获得所述商品；

第二检测模块，被配置为通过第二检测算法对所述第一视频帧中的人体进行关键点检测，获得所述人体的人体关键点；

确定关键点模块，被配置为确定所述人体关键点中的所述手部关键点。

综上所述，本说明书实施例提供的所述视频处理装置，通过待处理视频中第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

上述为本实施例的第一种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的第一种视频处理方法的技术方案属于同一构思，该视频处理装置的技术方案未详细描述的细节内容，均可以参见上述第一种视频处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频处理装置实施例，图10示出了本说明书一个实施例提供的第二种视频处理装置的示意图。如图10所示，该装置包括：

界面展示模块1002，被配置为基于用户的视频处理请求为所述用户展示视频输入界面；

视频接收模块1004，被配置为接收所述用户基于所述视频输入界面发送的待处理视频；

第二检测对象模块1006，被配置为检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

第二确定位置模块1008，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第二确定对象模块1010，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第二确定视频帧模块1012，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

本说明书实施例中，所述视频处理装置，在接收到用户发送的待处理视频后，通过待处理视频的第一视频帧中第一对象与第二对象的相对位置，确定目标对象，提高了对目标对象的确定效率以及准确度，并在确定目标对象的基础上，对目标对象进行跟踪，且在跟踪过程中忽略对待处理视频中的其他对象的识别，提高了跟踪效率。

上述为本实施例的第二种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的第二种视频处理方法的技术方案属于同一构思，该视频处理装置的技术方案未详细描述的细节内容，均可以参见上述第二种视频处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频处理装置实施例，图11示出了本说明书一个实施例提供的第三种视频处理装置的示意图。如图11所示，该装置包括：

接收请求模块1102，被配置为接收用户发送的视频处理请求，其中，所述视频处理请求中携带待处理视频；

第三检测对象模块1104，被配置为检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

第三确定位置模块1106，被配置为确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

第三确定对象模块1108，被配置为基于所述第一位置信息以及所述第二位置信息确定目标对象；

第三确定视频帧模块1110，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧并返回至所述用户。

上述为本实施例的第三种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的第三种视频处理方法的技术方案属于同一构思，该视频处理装置的技术方案未详细描述的细节内容，均可以参见上述第三种视频处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了视频处理装置实施例，图12示出了本说明书一个实施例提供的第四种视频处理装置的示意图。如图12所示，该装置包括：

确定关键词模块1202，被配置为基于用户输入的查询数据，确定查询关键词；

确定待处理视频模块1204，被配置为根据所述查询关键词，确定所述查询关键词对应的待处理视频；

第四确定对象模块1206，被配置为根据所述待处理视频的第一视频帧中的第一对象的第一位置信息以及第二对象的第二位置信息，确定目标对象；

第四确定视频帧模块1208，被配置为对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧向所述用户进行展示。

可选的，所述第四确定对象模块1206，进一步被配置为：

检测所述待处理视频的第一视频帧中的第一对象以及第二对象；

确定所述第一对象在所述第一视频帧中的第一位置信息，以及确定所述第二对象在所述第一视频帧中的第二位置信息；

基于所述第一位置信息以及所述第二位置信息确定所述目标对象。

可选的，所述第四确定视频帧模块1208，进一步被配置为：

对所述目标对象进行跟踪，以确定所述待处理视频中包含所述目标对象的目标视频帧；

在所述目标视频帧中按照第一预设抽取规则抽取展示视频帧，向所述用户进行展示。

上述为本实施例的第四种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的第四种视频处理方法的技术方案属于同一构思，该视频处理装置的技术方案未详细描述的细节内容，均可以参见上述第四种视频处理方法的技术方案的描述。

图13示出了根据本说明书一个实施例提供的一种计算设备1300的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接，数据库1350用于保存数据。

计算设备1300还包括接入设备1340，接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图13所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1300可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。

其中，处理器1320用于执行如下计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述视频处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张志强;王莽;唐铭谦;
专利申请人：阿里巴巴集团控股有限公司;