掌桥专利:专业的专利平台
掌桥专利
首页

视频分类方法及装置

文献发布时间:2023-06-19 12:07:15


视频分类方法及装置

技术领域

本申请涉及互联网技术领域,特别涉及一种视频分类方法。本申请同时涉及一种视频分类装置,一种计算设备,以及一种计算机可读存储介质。

背景技术

随着互联网和移动设备的高速发展,视频的浏览、推荐、编辑等需求也与日俱增,视频分类作为基础的能力之一,目前也有了较为广泛的研究和应用。

随着人工智能的发展,神经网络已经由图像扩展到了视频,现在已经可以通过深度学习算法,在传统的底层特征基础上,利用语义特征对视频进行进一步的分类,但是在一些针对细分类场景的业务需求时,现有的深度学习算法较难区分特征十分相似的视频。

发明内容

有鉴于此,本申请实施例提供了一种视频分类方法。本申请同时涉及一种视频分类装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的在对视频画面有更精细的视频分类需求的情况下,视频分类失败率较高的问题。

根据本申请实施例的第一方面,提供了一种视频分类方法,包括:

接收针对目标视频的分类任务;

响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;

基于所述视频帧集合确定所述目标视频的初始分类结果;

在所述视频帧集合中选取目标视频帧;

基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。

根据本申请实施例的第二方面,提供了一种视频分类装置,包括:

接收模块,被配置为接收针对目标视频的分类任务;

抽帧模块,被配置为响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;

第一确定模块,被配置为基于所述视频帧集合确定所述目标视频的初始分类结果;

选取模块,被配置为在所述视频帧集合中选取目标视频帧;

第二确定模块,被配置为基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。

根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述视频分类方法的步骤。

根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述视频分类方法的步骤。

本申请提供的视频分类方法,接收针对目标视频的分类任务;响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;基于所述视频帧集合确定所述目标视频的初始分类结果;在所述视频帧集合中选取目标视频帧;基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。通过本申请一实施例实现了视频分类和关键区域检测相结合,可以实现针对画面相似的视频进行更精细的分类,通过关键区域检测可以减少视频的误分类,提高视频分类的成功率。

附图说明

图1是本申请一实施例提供的一种视频分类方法的流程图;

图2a是本申请一实施例提供的游戏A的游戏模式界面示意图;

图2b是本申请一实施例提供的游戏B的游戏模式界面示意图;

图2c是本申请一实施例提供的游戏A的回放模式界面示意图;

图3是本申请一实施例提供的一种应用于游戏视频分类的视频分类方法的处理流程图;

图4是本申请一实施例提供的一种视频分类装置的结构示意图;

图5是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着互联网和移动设备的高速发展,视频的浏览、推荐、编辑等需求也与日俱增。视频分类作为基础的能力之一,目前已经有了较为广泛的研究和应用。在较早的研究中,传统算法通过提取不同的颜色、线条、纹理等底层特征对视频进行分类。近年来,神经网络的发展已经从图像扩展到视频,通过深度学习算法,在传统的底层特征基础上,神经网络还可以利用语义特征对图像视频进行分类。

但随着应用场景的扩展,出现了针对许多细分类场景的业务需求,例如在游戏分类时,同类游戏画面常常非常相近,包含了相似的视觉特征,在同一款游戏中,还包含了不同的游戏模式、游戏阶段等等,在涉及到这类视频细分类时,现有的深度学习算法往往会识别出现错误,视频分类失败率较高,在涉及到视频细分类时为现有的方法带来了极大的挑战。

近年来,也有研究者对图像细分类进行了研究,通过融合局部和全局特征、加入注意力机制等方式进行细分类。但基于深度学习的分类算法在面对相似特征的情况下需要大量的数据和复杂的网络结构,大量的数据对人力和时间都提出了更高的要求,而复杂的网络结构也对最终运行时间和资源提出了挑战,并且循环融合或注意力机制都会使分类速度降低,难以适应时间和资源有限时的业务需求。

在本申请中,提供了一种视频分类方法,本申请同时涉及一种视频分类装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种视频分类方法的流程图,具体包括以下步骤102至步骤110:

步骤102:接收针对目标视频的分类任务。

其中,目标视频即需要确定分类结果的视频,所述目标视频可以游戏视频、监控视频、影视视频等等,目标视频的类型在本申请中不做限制。所述分类任务即确定目标视频分类结果的任务,例如确定目标视频是什么类型的视频。

接收针对目标视频的分类任务,可以是针对某个视频的,也可以是针对多个视频的,每个需要被分类的视频均可被称为目标视频。

在本申请提供的一具体实施方式中,以目标视频V为例,接收针对目标视频V的分类任务,确定目标视频V的视频分类。

步骤104:响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合。

每个视频是由多个视频帧组成的,在本申请使用的视频分类方法中,实际是对目标视频的视频帧进行的处理,基于此,在接收到分类任务后,响应于所述分类任务对所述目标视频帧做解码处理,抽取所述目标视频的视频帧,并将抽取的视频帧组成视频帧集合。

具体的,所述响应于所述分类任务抽取所述目标视频的视频帧,包括:

根据所述分类任务确定目标抽帧策略;

根据所述目标抽帧策略抽取所述目标视频的视频帧。

目标抽帧策略具体是指对于目标视频的抽帧方式、抽帧间隔做的具体策略,例如对于准确率需求较高的分类任务时,则可以抽取更多的视频帧生成视频帧集合;对于实时性要求较高的分类任务时,为了提高分类速度,则可以抽取少量的视频帧以提高整体速度。

需要注意的是,在本申请中,对执行所述视频分类方法的终端设备不做限制,终端设备可以是服务器、云服务器、也可以是轻量级的移动终端,目标抽帧策略也会与终端设备的处理能力相关,例如在服务器或云服务器这种处理能力比较强的终端设备,则可以采用更密集的抽帧策略,以获得更好的视频分类效果;对于移动终端这种处理能力较弱的终端设备,则可以采用稀疏的抽帧策略,以获得更快的视频分类速度。

关于目标抽帧策略可以是连续抽帧、平均抽帧、中部抽帧、头部抽帧等方式,例如对于部分游戏视频,可能在开头或结尾时包含了更多的非游戏画面,与游戏进行时的画面特征有差距,对于这类视频,则可以从视频中部抽帧或选择平均抽帧。

在确定目标抽帧策略之后,即可根据目标抽帧策略对所述目标视频进行抽帧,将抽取到的视频帧组成视频帧集合。

在本申请提供的一具体实施方式中,沿用上例,根据分类任务确定目标抽帧策略为平均抽帧,基于此对目标视频V进行抽帧,获得50个视频帧,组成视频帧集合(V

步骤106:基于所述视频帧集合确定所述目标视频的初始分类结果。

在获得视频帧集合后,即可根据视频帧集合来确定目标视频帧的初始分类结果,所述初始分类结果是对所述目标视频的粗略分类,例如确定目标视频是A游戏、B游戏或监控视频等。

具体的,所述基于所述视频帧集合确定所述目标视频的初始分类结果,包括:

识别所述视频帧集合中的每个视频帧,生成每个视频帧对应的视频帧分类结果和分类结果置信度;

根据每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果。

在实际应用中,可以识别所述视频帧集合中的每个视频帧,获得每个视频帧的视频帧分类结果和分类结果置信度,其中,视频帧分类结果具体是指某个视频帧对应的分类结果,分类结果置信度具体是指视频分类结果可靠度,例如对于视频帧1,输出视频帧分类结果是游戏A,分类结果置信度为0.8;对于视频帧2,输出视频帧分类结果是游戏B,分类结果置信度为0.3……。

具体的视频帧分类方法包括但不限于常用的图片分类算法,如基于ResNet、基于Mobilenet等深度神经网络图片分类模型,在实际应用中,还可以根据终端设备的处理能力来选取不同的图片分类算法,例如,对于处理能力较强、资源充足的服务器、云服务器,可以采用ResNet等较为复杂的深度神经网络图片分类模型;对于处理能力较差、资源较为紧张、时间要求较高的移动端,可以采用裁剪后的Mobilenet等轻量级分类网络。深度神经网络图片分类模型识别每个视频帧,输出每个视频帧对应的视频帧分类结果和分类结果置信度。

在确定每个视频帧对应的视频帧分类结果和分类结果置信度之后,即可确定所述目标视频帧的初始分类结果。具体的,所述根据每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果,包括:

根据所述分类任务确定目标初始分类策略;

基于所述目标初始分类策略、每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果。

目标初始分类策略是根据分类任务确定的确定目标视频初始分类结果的策略,例如,目标初始分类策略可以为确定分类结果置信度最高的视频帧对应的视频帧分类结果为所述目标视频的初始分类结果;还可以确定视频帧最多的视频帧分类结果为目标视频的初始分类结果等等,目标初始分类策略与分类任务相关。

在本申请提供的一具体实施方式中,所述基于所述目标初始分类策略、每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果,包括:

将分类结果置信度小于等于阈值的视频帧的视频帧分类结果设置为其他;

统计每个视频帧分类结果对应的视频帧数量,将视频帧数量最多的视频帧分类结果作为所述目标视频的初始分类结果。

其中,首先设置一个阈值,所述阈值用于筛选视频帧的分类结果置信度,将分类结果置信度小于等于阈值的视频帧的视频帧分类结果设置为“其他”,即认为分类结果置信度小于等于阈值的视频帧的视频帧分类结果不具备参考价值,可以忽略。再统计每个视频帧分类结果对应的视频帧数量,例如对于视频帧分类结果1对应有20个视频帧,对于视频帧分类结果2对应有30个视频帧,对于视频帧分类结果3有10个视频帧等等。在确定视频帧数量后,将视频帧数量最多的视频帧分类结果作为目标视频的初始分类结果。

本申请提供的一具体实施方式,仅提供一种可行的初始分类策略,在实际应用中,可以根据业务场景、终端设备的处理能力等情况将各个视频帧的识别结果综合获得目标视频的初始分类结果,例如针对需要准确率较高的业务场景中,还可以对分类结果置信度或视频帧分类结果做更多的限制,在本申请中对此不做限定,以实际应用为准。

在本申请提供的一具体实施方式中,沿用上例,采用ResNet图片分类模型识别视频帧集合(V

步骤108:在所述视频帧集合中选取目标视频帧。

其中,目标视频帧即在视频帧集合中的特定视频帧,选取目标视频帧用于在后续的处理过程中,对目标视频帧进行关键区域检测。

具体的,所述在所述视频帧集合中选取目标视频帧,包括:

根据所述分类任务确定目标视频帧选取策略;

根据所述目标视频帧选取策略在所述视频帧集合中选取目标视频帧。

在实际应用中,选取目标视频帧可以根据分类任务的具体需求来确定,即根据分类任务来确定目标视频帧选取策略,根据分类任务的业务场景可以选择置信度最高的视频帧,或位于视频帧集合的中间视频帧等等,在本申请中,对如何选取目标视频帧不做具体限定,以实际应用为准。

步骤110:基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。

在获得目标视频的初步分类结果后,有许多类型相同的视频包括相似的整体画面,以游戏视频为例,有MOBA游戏(Multiplayer Online Battle Arena,多人在线战术竞技游戏)、FPS类游戏(First-person shooting game,第一人称射击游戏)等,以MOBA游戏为例,在手机端的MOBA游戏类型下有游戏A和游戏B存在固定的操作和展示区域,参见图2a和图2b,图2a示出了本申请一实施例游戏A的游戏模式界面示意图,图2b示出了本申请一实施例游戏B的游戏模式界面示意图,如图2a所示,在游戏A的游戏界面的区域1部分为地图,区域2部分为方向控制控件,区域3部分为比分控件,比分控件为样式1,区域4部分为技能释放控件;如图2b所示,游戏B的游戏界面的区域1部分为地图,区域2部分为方向控制控件,区域3部分为比分控件,比分控件为样式2,区域4部分为技能释放控件。

通过图2a和图2b可以发现,每个显示界面的区域3部分的比分显示位置不同,并且比分的展示样式也不同,因此将区域3部分作为关键区域。

在实际应用中,同一款游戏的不同模式下也会有不同的视频展示情况,参见图2c,图2c示出了本申请一实施例游戏A的回放模式界面示意图。如图2c所示,区域1为地图,区域3为比分控件,并且区域3的比分控件为样式3。通过图2a和图2c可以发现,游戏A的游戏模式和回放模式最大的区别在于区域3的比分控件和区域4的技能释放控件,因此,可以将区域3和区域4作为关键区域。

在确定目标视频帧后,检测目标视频帧的关键区域,即可确定所述目标视频的目标分类结果,所述目标分类结果是本申请视频分类方法的最终分类结果,目标分类结果较初始分类结果而言,分类结果更精细准确。

在本申请提供的一具体实施方式中,所述基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果,包括:

基于所述初始分类结果确定目标关键区域检测模板;

根据所述目标关键区域检测模板对所述目标视频帧进行匹配,获得匹配结果;

根据所述匹配结果确定所述目标视频的目标分类结果。

对目标视频帧进行关键区域检测的方式可以通过模板的形式,即根据初始分类结果来确定目标关键区域检测模板,例如初始分类结果为游戏A,游戏A又具体分为游戏模式和回看模式,则游戏A包括两个目标关键区域检测模板,分别为游戏模式检测模板和回看区域检测模板,再根据目标关键区域检测模板对所述目标视频帧进行关键区域检测,获得每个目标关键区域检测模板对应的匹配结果,根据所述匹配结果来进一步确定目标视频的目标分类结果。

具体的,所述目标关键区域检测模板包括模板分类结果,所述匹配结果包括匹配成功或匹配失败;

其中,所述根据所述匹配结果确定所述目标视频的目标分类结果,包括:

在所述匹配结果为匹配成功的情况下,将所述目标关键区域检测模板对应的模板分类结果作为所述目标视频的目标分类结果;

在所述匹配结果为匹配失败的情况下,设置所述初始分类结果为失败,并再次执行针对目标视频的分类任务。

目标关键区域检测模板包括模板分类结果,即如上所述的目标关键区域检测模板分别为游戏模式检测模板和回看区域检测模板,即说明游戏模式检测模板对应的模板分类结果为游戏模式,回看区域检测模板对应的模板分类结果为回看模式。

匹配结果包括匹配成功或匹配失败,例如目标视频帧经过目标关键区域检测模板检测之后,匹配结果为匹配成功的情况下,则说明目标视频的目标分类结果为目标关键区域检测模板对应的模板分类结果,例如,目标视频帧经过回看区域检测模板匹配成功,则说明目标视频为游戏A的回看模式。

如果匹配失败,则说明在初始分类结果可能会有错误,则可以用于初始分类结果相似的另外的初始分类结果再次进行关键区域检测,例如,对于目标视频帧,经过游戏A的游戏模式检测模板和回看区域检测模板分别进行关键区域检测后,匹配均为失败,则说明目标视频帧的初步分类结果为游戏A存在误分类的情况,则在相似的初步分类结果游戏B的目标关键区域检测模板对目标视频帧进行关键区域检测,若目标视频帧与游戏B的游戏模式检测模板匹配成功,则说明目标视频为游戏B的游戏模式。

在本申请提供的另一具体实施方式中,所述基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果,包括:

基于所述初始分类结果确定关键区域检测模型;

将所述目标视频帧输入至所述关键区域检测模型;

将所述关键区域检测模型输出的预测分类结果作为所述目标视频的目标分类结果。

在实际应用中,还可以通过预先训练一个关键区域检测模型来执行对目标视频帧的关键区域检测,将目标视频帧输入至关键区域检测模型,接收所述关键区域检测模型输出的预测分类结果,并将所述预测分类结果作为所述目标视频的目标分类结果。

在实际应用中,目标分类结果包括但不限于视频是否为游戏、游戏类型、游戏名称、游戏模式等,目标分类结果用于在后续的视频处理过程提供参考信息,例如生成游戏高光时刻、视频编辑素材、视频标签、视频推荐等等。

本申请提供的视频分类方法,接收针对目标视频的分类任务;响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;基于所述视频帧集合确定所述目标视频的初始分类结果;在所述视频帧集合中选取目标视频帧;基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。通过本申请一实施例实现了视频分类和关键区域检测相结合,可以实现针对画面相似的视频进行更精细的分类,通过关键区域检测可以减少视频的误分类,提高视频分类的成功率。

其次,还可以通过少量的训练数据训练神经网络模型,对相似视频实现更精准的分类,通过关键区域检测的方式,无需额外标注信息区分视频的不同模式。

最后,还可以根据终端设备的实际处理能力,灵活确定抽帧策略、图片分模型、关键区域检测模型等,对于处理能力较强的服务器、云服务器,可以采用密集抽帧策略、复杂的图片分类模型和复杂的关键区域检测模型;对于处理能力较弱的移动终端在资源有限的情况下,可以采用稀疏抽帧策略、轻量级的图片分类模型和轻量级的关键区域检测模型,提高视频分类的整体速度。

下述结合附图3,以本申请提供的视频分类方法在游戏视频分类的应用为例,对所述视频分类方法进行进一步说明。其中,图3示出了本申请一实施例提供的一种应用于游戏视频分类的视频分类方法的处理流程图,具体包括以下步骤:

步骤302:接收针对目标视频W的分类任务。

步骤304:根据所述分类任务确定平均抽帧策略。

步骤306:根据所述平均抽帧策略抽取所述目标视频W的视频帧,生成视频帧集合。

步骤308:识别所述视频帧集合中的每个视频帧,生成每个视频帧对应的视频帧分类结果和分类结果置信度。

步骤310:将分类结果置信度小于等于阈值的视频帧的视频帧分类结果设置为其他。

步骤312:统计每个视频帧分类结果对应的视频帧数量,确定所述目标视频W为游戏Y。

步骤314:确定视频帧分类结果为游戏Y的视频帧中分类结果置信度最高的视频帧为目标视频帧。

步骤316:将所述目标视频帧输入至预先训练的关键区域检测模型。

步骤318:接收所述关键区域检测模型输出的所述目标视频帧对应的预测分类结果为游戏Y的回放模式。

步骤320:确定所述目标视频W的分类结果为游戏Y的回放模式。

本申请提供的视频分类方法,接收针对目标视频的分类任务;响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;基于所述视频帧集合确定所述目标视频的初始分类结果;在所述视频帧集合中选取目标视频帧;基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。通过本申请一实施例实现了视频分类和关键区域检测相结合,可以实现针对画面相似的视频进行更精细的分类,通过关键区域检测可以减少视频的误分类,提高视频分类的成功率。

其次,还可以通过少量的训练数据训练神经网络模型,对相似视频实现更精准的分类,通过关键区域检测的方式,无需额外标注信息区分视频的不同模式。

最后,还可以根据终端设备的实际处理能力,灵活确定抽帧策略、图片分类模型、关键区域检测模型等,对于处理能力较强的服务器、云服务器,可以采用密集抽帧策略、复杂的图片分类模型和复杂的关键区域检测模型;对于处理能力较弱的移动终端在资源有限的情况下,可以采用稀疏抽帧策略、轻量级的图片分类模型和轻量级的关键区域检测模型,提高视频分类的整体速度。

与上述视频分类方法实施例相对应,本申请还提供了视频分类装置实施例,图4示出了本申请一实施例提供的一种视频分类装置的结构示意图。如图4所示,该装置包括:

接收模块402,被配置为接收针对目标视频的分类任务;

抽帧模块404,被配置为响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;

第一确定模块406,被配置为基于所述视频帧集合确定所述目标视频的初始分类结果;

选取模块408,被配置为在所述视频帧集合中选取目标视频帧;

第二确定模块410,被配置为基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。

可选的,所述抽帧模块404,进一步被配置为:

根据所述分类任务确定目标抽帧策略;

根据所述目标抽帧策略抽取所述目标视频的视频帧。

可选的,所述第一确定模块406,进一步被配置为:

识别所述视频帧集合中的每个视频帧,生成每个视频帧对应的视频帧分类结果和分类结果置信度;

根据每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果。

可选的,所述第一确定模块406,进一步被配置为:

根据所述分类任务确定目标初始分类策略;

基于所述目标初始分类策略、每个视频帧对应的视频帧分类结果和分类结果置信度确定所述目标视频的初始分类结果。

可选的,所述第一确定模块406,进一步被配置为:

将分类结果置信度小于等于阈值的视频帧的视频帧分类结果设置为其他;

统计每个视频帧分类结果对应的视频帧数量,将视频帧数量最多的视频帧分类结果作为所述目标视频的初始分类结果。

可选的,所述选取模块408,进一步被配置为:

根据所述分类任务确定目标视频帧选取策略;

根据所述目标视频帧选取策略在所述视频帧集合中选取目标视频帧。

可选的,所述第二确定模块410,进一步被配置为:

基于所述初始分类结果确定目标关键区域检测模板;

根据所述目标关键区域检测模板对所述目标视频帧进行匹配,获得匹配结果;

根据所述匹配结果确定所述目标视频的目标分类结果。

可选的,所述目标关键区域检测模板包括模板分类结果,所述匹配结果包括匹配成功或匹配失败;

所述第二确定模块410,进一步被配置为:

在所述匹配结果为匹配成功的情况下,将所述目标关键区域检测模板对应的模板分类结果作为所述目标视频的目标分类结果;

在所述匹配结果为匹配失败的情况下,设置所述初始分类结果为失败,并再次执行针对目标视频的分类任务。

可选的,所述第二确定模块410,还被配置为:

基于所述初始分类结果确定关键区域检测模型;

将所述目标视频帧输入至所述关键区域检测模型;

将所述关键区域检测模型输出的预测分类结果作为所述目标视频的目标分类结果。

本申请提供的视频分类装置,接收针对目标视频的分类任务;响应于所述分类任务抽取所述目标视频的视频帧,生成视频帧集合;基于所述视频帧集合确定所述目标视频的初始分类结果;在所述视频帧集合中选取目标视频帧;基于所述初始分类结果对所述目标视频帧进行关键区域检测,确定所述目标视频的目标分类结果。通过本申请一实施例实现了视频分类和关键区域检测相结合,可以实现针对画面相似的视频进行更精细的分类,通过关键区域检测可以减少视频的误分类,提高视频分类的成功率。

其次,还可以通过少量的训练数据训练神经网络模型,对相似视频实现更精准的分类,通过关键区域检测的方式,无需额外标注信息区分视频的不同模式。

最后,还可以根据终端设备的实际处理能力,灵活确定抽帧策略、图片分模型、关键区域检测模型等,对于处理能力较强的服务器、云服务器,可以采用密集抽帧策略、复杂的图片分类模型和复杂的关键区域检测模型;对于处理能力较弱的移动终端在资源有限的情况下,可以采用稀疏抽帧策略、轻量级的图片分类模型和轻量级的关键区域检测模型,提高视频分类的整体速度。

上述为本实施例的一种视频分类装置的示意性方案。需要说明的是,该视频分类装置的技术方案与上述的视频分类方法的技术方案属于同一构思,视频分类装置的技术方案未详细描述的细节内容,均可以参见上述视频分类方法的技术方案的描述。

图5示出了根据本申请一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。

计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。

在本申请的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中,处理器520执行所述计算机指令时实现所述的视频分类方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的视频分类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述视频分类方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述视频分类方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的视频分类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述视频分类方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

相关技术
  • 一种视频特征提取方法及装置、视频分类方法及装置
  • 视频动作分类模型训练方法、装置及视频动作分类方法
技术分类

06120113177065