掌桥专利:专业的专利平台
掌桥专利
首页

目标运动对象识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:05:16


目标运动对象识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像识别技术领域,更具体地,涉及一种目标运动对象识别方法、装置、电子设备及存储介质。

背景技术

在一些球类赛事中,为了能够获取到赛场各部分情况,通常是希望采集到赛场全局图像的,然而,一些球类赛事赛场较大,在采集到的赛场全局图像中,比赛用球所占画面比例较小,线上观众可能不能很好地识别到比赛用球,从而降低了观众线上观赛体验。

在这种情况下,通常需要对视频画面中的比赛用球进行识别,以辅助线上观众进行观赛,然而,采用传统的图像特征识别方法对视频画面中的比赛用球进行识别,存在识别准确率低的问题。

发明内容

鉴于此,本申请实施例提出了一种目标运动对象识别方法、装置、电子设备及存储介质,以改善上述问题。

第一方面,本申请实施例提供了一种目标运动对象识别方法,方法包括:获取目标视频帧;对目标视频帧进行运动检测,得到目标视频帧中的运动对象;基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象;基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。

第二方面,本申请实施例提供了一种目标运动对象识别装置,装置包括:目标视频帧获取模块、运动检测模块、筛选模块以及识别模块。其中,目标视频帧获取模块,用于获取目标视频帧;运动检测模块,用于对目标视频帧进行运动检测,得到目标视频帧中的运动对象;筛选模块,用于基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象;识别模块,用于基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。

第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。

第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。

本申请实施例提供的一种目标运动对象识别方法、装置、电子设备及存储介质,在获取目标视频帧之后,先对目标视频帧进行运动检测,得到目标视频帧中的运动对象,再基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,最后基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。由于只对运动对象中筛选出的待识别运动对象进行识别,相当于对运动对象进行了一次初步筛选,可以在一定程度上排除其他运动对象的干扰,从而提高目标运动对象识别的准确率,同时,再次由于只对运动对象中筛选出的待识别运动对象进行识别,减少了利用预设识别规则进行识别的数量,提高了目标运动对象的识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种目标运动对象识别方法的流程图;

图2示出了图1所示实施例提出的一种目标运动对象识别方法中S110的一种实施方式的流程图;

图3示出了图1所示实施例提出的一种目标运动对象识别方法中S120的一种实施方式的流程图;

图4示出了本申请一实施例中的一帧目标视频帧的画面示意图;

图5示出了本申请一实施例提出的另一种目标运动对象识别方法的流程图;

图6示出了图5所示实施例提出的一种目标运动对象识别方法中S230的一种流程示意图;

图7示出了图5所示实施例提出的另一种目标运动对象识别方法中S230的一种流程示意图;

图8示出了图5所示实施例提出的另一种目标运动对象识别方法中S230的一种流程示意图;

图9示出了本申请一实施例提出的另一种目标运动对象识别方法的流程图;

图10示出了本申请一实施例提出的一种目标运动对象识别装置的框图;

图11示出了用于执行根据本申请实施例的目标运动对象识别方法的一种电子设备的结构框图;

图12示出了本申请实施例的用于保存或者携带实现根据本申请实施例的目标运动对象识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在诸如足球、篮球等大型球类赛事中,为了能够给线上观众呈现赛场全局图像,以便于线上观众能够通过全局图像了解比赛战术分布等信息,可以采用超广角相机或者全景相机进行赛场全局图像采集,赛场全局图像是指覆盖整个球场区域的图像。

然而,由于大型球类赛事所使用的赛场普遍较大,而比赛用球相较于赛场则相对较小,因此,在采集的赛场全局图像中,比赛用球所占画面比例较小,线上观众可能在视频图像中不能很好地识别到比赛用球,从而降低了观众线上观赛体验。

在这种情况下,通常需要对视频画面中的比赛用球进行识别,以辅助线上观众进行观赛。例如,可以先对比赛用球进行识别,然后将识别出的比赛用球进行标识,以便于线上观众迅速找到比赛用球,提高观看体验。然而,相关技术中的对视频图像中的比赛用球进行识别的方法存在识别准确率低的问题。

例如,在一些方式中,可以采用特征值识别的方式对的对视频画面中的比赛用球进行识别,这种方式是直接提取整个视频帧的特征值,然后根据特征值行识别,由于是基于整个视频帧的特征值进行识别,存在较多相似特征的干扰,因此存在识别准确率低的问题。

在另一些方式中,可以通过神经网络深度学习的方式识别。然而,神经网络深度学习的识别方式,对待识别物体的大小及输入的视频帧分辨率有一定要求,例如,一般待识别物体不能小于20*20分辨率、输入的视频帧分辨率不能大于2K等,而为了显示效果,视频帧分辨率是远远大于神经网络深度学习的分辨率需求的,这就需要对视频帧进行分辨率缩放,将视频帧分辨率缩小到符合深度学习对输入源大小的要求,结果就导致因为缩放,在视频帧中原本已经很小的足球更加小,深度学习的方式对足球的识别准确率变得更低。

因此,发明人提出了本申请提供的目标运动对象识别方法、装置、电子设备及存储介质,在该方法中,在获取目标视频帧之后,先对目标视频帧进行运动检测,得到目标视频帧中的运动对象,再基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,最后基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。

前述方式中,由于只对运动对象中筛选出的待识别运动对象进行识别,相当于对运动对象进行了一次初步筛选,可以在一定程度上排除其他运动对象的干扰,从而提高目标运动对象识别的准确率,同时,再次由于只对运动对象中筛选出的待识别运动对象进行识别,减少了利用预设识别规则进行识别的运动对象数量,提高了识别效率。

下面将结合附图具体描述本申请的各实施例。

请参阅图1,图1所示为本申请一实施例提出的一种目标运动对象识别方法的流程图,该方法包括以下步骤:

S110,获取目标视频帧。

在视频图像采集过程中,是以视频图像帧(即视频帧)的形式采集的,因此,视频图像是由多帧视频帧构成的。其中,目标视频帧为视频图像中的后续用于进行运动检测的视频帧。视频图像即利用超广角相机或者全景相机采集的大型球类赛事的赛场全局视频图像。

可选地,采集的全局视频图像可以是实时视频图像,也可以是提前采集好的视频图像。

其中,可以理解的是,单位时间内呈现给观众的视频帧数越多,即视频帧率越高,观众观看越流畅。因此,在一些实施方式中,为了提高视频图像中目标运动对象的显示效果,可以将视频图像中的所有视频帧均作为目标视频帧,即获取目标视频帧是获取视频图像中的所有视频帧,从而从所有视频帧中确定目标运动对象,如此,可以在视频图像中每帧视频帧中均识别得到目标运动对象,从而使得最终输出给线上观众的视频图像中识别得到目标运动对象的视频帧数更多,观众观看到的目标运动对象更加流畅。

目标运动对象是指线上观众关注的运动对象,例如,在球类赛事中,用户关注的是比赛用球,即球类对象,例如,足球、篮球、排球等。

然而,考虑到设备性能限制,或者为了节约设备性能,在另一些实施方式中,获取目标视频帧也可以获取视频图像中的部分视频帧,将获取的部分视频帧作为目标视频帧。在这种情况下,如图2所示,获取目标视频帧具体可以包括以下步骤:

S111,获取目标视频图像以及视频帧提取帧率。

其中,视频帧提取帧率可以理解为从目标视频图像中提取的目标视频帧所组成的视频图像的帧率,本实施例中,可以根据需要预先设置视频帧提取帧率。

S112,基于视频帧提取帧率,从目标视频图像中提取目标视频帧。

为了提高视频图像中的目标运动对象的显示效果,作为一种实施方式,基于视频帧提取帧率,从目标视频源中提取目标视频帧可以是均匀的从目标视频图像中提取目标视频帧,即按照一定的帧数间隔提取目标视频帧。具体地,可以根据目标视频图像的帧率以及视频帧提取帧率确定间隔帧数。

示例性地,假设目标视频图像的帧率为60帧/秒,视频图像的提取帧率为30帧/秒,此时,可以确定间隔帧数为1帧,也即,每间隔1帧视频帧提取1帧视频帧作为目标视频帧。

作为另外一种实施方式,基于视频帧提取帧率,从目标视频源中提取目标视频帧也可以是随机的从目标视频图像中提取目标视频帧。仍以视频图像的提取帧率为30帧/秒为例,此时,可以从目标视频图像中每秒随机提取30帧视频图像帧作为目标视频帧。

S120,对目标视频帧进行运动检测,得到目标视频帧中的运动对象。

运动对象是指视频图像中所有可以运动的对象,例如,在球类赛事中,运动对象可以包括比赛用球、运动员或者其他可能发生运动的对象。

经过研究发现,在球类赛事中,场地背景等是不会发生运动的,运动的是比赛用球、运动员等,因此,为了减少后续识别的难度以及识别的数据量,可以首先通过对目标视频帧进行运动检测,得到目标视频帧中的运动对象,从而排除场地背景等对象,极大提高目标运动对象识别的准确率以及识别效率。

因此,对目标视频帧进行运动检测可以理解为对目标视频帧中的运动对象进行检测。其中,对目标视频帧进行运动检测可以有多种方式。可选地,可以通过高斯混合模型对目标视频帧进行运动检测。可选地,可以通过帧间差异性对目标视频帧进行运动检测。

此外,考虑到在利用超广角相机或者全景相机等摄像设备进行赛场全局图像采集的时候,不可避免的会采集到赛场外的对象,例如,赛场外的观众、保洁等人员或者使用球类进行热身的球员,而这些对象也是可以运动的,如果将这些对象也用于后续识别目标运动对象的话,会降低识别的准确率以及识别效率。

因此,为了避免赛场外运动对象对识别准确率以及识别效率的影响,作为一种实施方式,如图3所示,对目标视频帧进行运动检测,得到目标视频帧中的运动对象,具体可以包括以下步骤:

S121,获取目标视频帧中有效运动区域的画面。

有效运动区域可以理解为目标运动对象可能的运动范围内的区域。例如,对于球类赛事来说,比赛用球通常可能在赛场内运动,或者在赛场边界一定范围内运动,因此,有效运动区域可以指赛场内的区域或者赛场边界一定范围内的区域。

考虑到采用超广角相机或者全景相机进行赛场全局图像采集时,超广角相机或者全景相机通常是不会变换采集位置的,因此,采集的视频图像的场景区域是不会发生变化的。因此,可以事先对获取的目标视频帧中的有效运动区域进行标定的方式获得有效区域的画面。例如,事先在视频图像中标定出赛场边界,或者标定出赛场边界外一定范围。

可选地,可以通过一个多边形圈出赛场范围或者赛场边界一定范围内的范围,从而获取多边形内的画面作为有效运动区域的画面。

示例性地,参考图4,图4示出了一帧目标视频帧的画面示意图,在图4中所示的目标视频帧中,既示出了赛场内的画面,也示出了赛场外观众台的画面,此时可以利用多边形圈出赛场区域,从而获得目标视频帧中的有效运动区域的画面。

S122,对有效运动区域的画面进行运动检测,得到有效运动区域画面中的运动对象。

通过对有效运动区域的画面进行运动检测,排除了观众、保洁等人员或者使用球类进行热身的球员对目标运动对象的影响,进一步提高了对目标运动对象识别的准确率以及识别效率。

S130,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象。

待识别运动对象为后续真正利用预设识别规则进行识别的运动对象。可以理解的是,即使是从有效运动区域画面中得到的运动对象,还是包括了所有的发生了运动的对象,例如,运动员、比赛用球、裁判员挥舞的旗帜或者其他可能发生运动的对象。这些对象的数量可能仍然较大,如果直接将这些运动对象全部进行识别的话,依然存在识别效率低的问题。因此,为了进一步提高识别效率,作为一种实施方式,在得到运动对象之后,可以基于运动对象的帧内特征,进一步对运动对象进行筛选,得到待识别运动对象,从而进一步减少后续真正用于识别的运动对象。

其中,帧内特征是指从一帧视频帧中得到的特征。

S140,基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。

可以理解的是,在经过上述步骤S130对运动对象进行筛选,得到待识别运动对象之后,待识别运动对象的数量是再一次减少了的,此时,待识别运动对象的数量可能是一个或者多个。此时便可以直接基于待识别运动对象的数量,选择不同的识别规则,对这少量的待识别运动对象进行识别,从而得到目标运动对象。

此外,考虑到正常情况下,赛场内是默认存在一个比赛用球的,因此,如果待识别运动对象的数量为一个,便可以直接将这一个待识别运动对象确定为目标运动对象。这种情况下,基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象,包括:在从运动对象中筛选得到的待识别运动对象的数量为一个时,将待识别运动对象确定为目标运动对象。

此外,考虑到正常情况下,赛场内除了比赛用球外,还可能存在运动员等待识别运动对象,同样由于正常情况下赛场内是默认存在一个比赛用球的,因此,待识别运动对象的数量大于一个时,则不能直接将待识别运动对象确定为目标运动对象,需要对各个待识别运动对象分别进行识别。这种情况下,基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象,包括:在从运动对象中筛选得到的待识别运动对象的数量大于一个时,将各个待识别运动对象对应的图像输入对象分类器,以通过对象分类器从待识别运动对象中识别得到目标运动对象,其中,对象分类器通过从样本视频帧中确定的具有分类标签的样本运动对象进行训练得到。

本实施例中,由于待识别运动对象是目标视频帧中的局部画面,未进行分辨率缩放,分辨率能够满足神经网络模型对于输入数据的要求。因此,对象分类器可以是经过训练得到的神经网络模型。利用神经网络模型对待识别运动对象进行识别,提高了识别准确率。

对象分类器可以是有监督模型,即利用具有分类标签的样本运动对象进行训练得到。其中,样本运动对象可以通过上述步骤S110-S130的方式得到,即首先获取样本视频帧,然后对样本视频帧进行运动检测,得到样本视频帧中的运动对象,再从运动对象中筛选得到样本运动对象,在得到样本运动对象之后,可以通过人工标注的方式得到具有分类标签的样本运动对象。

可选地,神经网络模型可以采用TensorFlow(一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现)、Caffe(Convolutional Architecturefor Fast Feature Embedding,快速特征嵌入的卷积结构)等开源模型。

在一些实施方式中,对象分类器可以用于接收待检测运动对象,然后输出待检测运动对象是否为目标运动对象。例如,将一幅“人头”的运动对象输入对象分类器,而目标运动对象是足球,则此时对象分类器的输出结果是否定,即该运动对象不是目标运动对象。如此,便能够在多个待识别运动对象中识别得到目标运动对象。

在另一些实施方式中,对象分类器可以用于接收待检测运动对象,然后输出待检测运动对象的对象类型,从而从输出的对象类型中确定目标运动对象。例如,将一幅“人头”的运动对象输入对象分类器,则此时对象分类器的输出结果是该运动对象为“人头”,将一幅“足球”的运动对象输入对象分类器,则此时对象分类器的输出结果是该运动对象为“足球”,如此便能够识别得到每个待识别运动对象的类型,从而在多个待识别运动对象中识别得到选定的目标运动对象。

由于对象分类器的输出结果可以是目标运动对象,也可以是其他分类的运动对象,因此,不仅可以得到目标运动对象,还可以得到其他运动对象的分类,例如还可以得到运动员的分类,因此,当线上观众想要关注运动员的位置时,也可以将运动员的位置框选出来显示在视频图像中。

本申请提供的一种目标运动对象识别方法,在获取目标视频帧之后,先对目标视频帧进行运动检测,得到目标视频帧中的运动对象,再基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,最后基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。由于只对运动对象中筛选出的待识别运动对象进行识别,相当于对运动对象进行了一次初步筛选,可以在一定程度上排除其他运动对象的干扰,从而提高目标运动对象识别的准确率,同时,再次由于只对运动对象中筛选出的待识别运动对象进行识别,减少了利用预设识别规则进行识别的数量,提高了目标运动对象的识别效率。

请参阅图5,图5所示为本申请另一实施例提出的一种目标运动对象识别方法的流程图,该方法可以包括以下步骤:

S210,获取目标视频帧。

S220,对目标视频帧进行运动检测,得到目标视频帧中的运动对象。

在一些实施方式中,为了能够完全选择到运动对象,以及便于确定运动对象的位置以及实际尺寸,可以采用矩形框的方式对运动检测得到的运动对象进行框选。继续参考图4所示,示出了矩形框框选后的各个运动对象。

S230,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象。

其中,运动对象的帧内特征可以有多种类型。

在一些实施方式中,帧内特征可以为目标视频帧中的运动对象在视频帧中当前所处位置的实际尺寸。在这种情况下,如图6所示,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,具体可以包括以下步骤:

S231A,获取目标运动对象在目标视频帧中不同位置的预测尺寸,以及运动对象在目标视频帧中当前所处位置的实际尺寸。

可以理解的是,采用超广角相机或者全景相机采集的赛场全局图像中,各个对象是呈现一种近大远小的规律的,也就是说,在实际场景中,距离采集设备的距离不同,在最终采集得到的视频图像中运动对象的显示大小是不同的。基于此发现,在超广角相机或者全景相机等采集设备位置确定的情况下,可以事先标定出目标运动对象在目标视频帧中不同位置对应的尺寸大小。该事先标定的尺寸大小即目标运动对象在目标视频帧中不同位置的预测尺寸。

可以理解的是,运动对象在目标视频帧中是处于一个位置的,即运动对象的当前所处位置,同样地,运动对象在目标视频帧中也是有一个实际尺寸的。因此,可以直接从目标视频帧中获取运动对象在目标视频帧中当前所处位置的实际尺寸。

在采用矩形框框选出运动对象之后,运动对象的实际尺寸可以由矩形框的分辨率长和宽的乘积得到。

S232A,在运动对象在当前所处位置的实际尺寸与当前所处位置的预测尺寸匹配时,确定运动对象为待识别运动对象。

在一些实施方式中,预测尺寸可以是一个范围,此时,运动对象在当前所处位置的实际尺寸与当前所处位置的预测尺寸匹配是指实际尺寸在预测尺寸的范围内。

因此,当在运动对象在当前所处位置的实际尺寸与当前所处位置的预测尺寸匹配时,可以确定运动对象在尺寸这一项是符合要求的,可以初步筛选掉尺寸与目标运动对象不符合的运动对象,例如筛选掉裁判员挥舞的旗帜等,从而将符合的运动对象确定为待识别运动对象。

可见,本实施例可以减少后续采用识别规则进行识别的运动对象的数量,排除干扰运动对象的干扰,提高目标运动对象的识别准确率以及识别效率。

在另一些实施方式中,帧内特征可以为运动对象在目标视频帧中的实际长宽比例。在这种情况下,如图7所示,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,具体可以包括以下步骤:

S231B,获取目标运动对象在目标视频帧中的预测长宽比例,以及运动对象在目标视频帧中的实际长宽比例。

可以理解的是,目标运动对象在目标视频帧中的预测长宽比例是指目标运动对象在目标视频帧中应该显示的长宽比例,例如,对于足球、篮球等球类对象,其在目标视频帧中应该显示为接近正方形的长宽比例,即长宽比例接近一比一,对于运动员,应该显示为一个长条形的长宽比例。

运动对象在目标视频帧中的实际长宽比例可以直接从目标视频帧中得到。

在采用矩形框框选出运动对象之后,运动对象的实际长宽比例可以由矩形框的分辨率长和宽的比值得到。

S232B,在运动对象的实际长宽比例与目标运动对象的预测长宽比例匹配时,确定运动对象为待识别运动对象。

在一些实施方式中,预测长宽比例可以是一个范围,此时,运动对象的实际长宽比例与目标运动对象的预测长宽比例匹配是指实际长宽比例在预测长宽比例的范围内。

因此,当运动对象的实际长宽比例与目标运动对象的预测长宽比例匹配时,可以确定运动对象在长宽比例这一项是符合要求的,同样可以初步筛选掉长宽比例与目标运动对象不符合的运动对象,从而将符合的运动对象确定为待识别运动对象,进一步减少后续采用识别规则进行识别的运动对象的数量,提高目标运动对象的识别准确率以及识别效率。

例如,当某个运动员下肢不动,仅手臂运动时,此时运动对象为该运动员的手臂,手臂的实际长宽比例接近长条形比例,而当目标运动对象为足球时,足球的预测长宽比例接近正方形比例。因此,两者不匹配,可以将“手臂”等运动对象筛选掉。

在另一些实施方式中,考虑到某些运动对象存在对称性,例如比赛用球、运动员完整身体等,而某些运动对象不存在对称性,例如对于下肢不动,仅一只手臂运动的运动员,此时识别出的单只“手臂”这个运动对象则是不具备对称性的,基于运动对象的对称性考虑,在一些实施方式中,帧内特征可以为运动对象的颜色分布参数。在这种情况下,如图8所示,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象,具体可以包括以下步骤:

S231C,获取运动对象的颜色分布参数。

运动对象的颜色分布参数是指运动对象的颜色分布情况,可选地,可以是目标视频帧中的运动对象的RGB颜色分布情况。

在采用矩形框框选出运动对象之后,运动对象的颜色分布参数可以为矩形框框选部分的颜色分布参数。

S232C,基于颜色分布参数,对运动对象进行对称性检测,获得运动对象的对称性检测结果。

可以理解的是,对于具有对称性的运动对象,其颜色分布情况是有一定规律的,例如,沿对称轴呈现对称的颜色分布情况,因此,可以基于颜色分布参数,对运动对象进行对称性检测,获得运动对象的对称性检测结果。

在一些实施方式中,在采用矩形框框选出运动对象之后,可以对包含运动对象的矩形框进行划分,例如划分为四宫格、九宫格或者十六宫格等。以九宫格为例,将四个角即左上、右上、左下、右下的格子各自依此进行RGB颜色比对,计算相似度,或者选择左上格子与右上格子进行RGB颜色比对,计算相似度,或者选择左下格子与右下格子进行RGB颜色比对,计算相似度。

需要说明的是,本申请实施例中对相似度计算方法不做限定,例如,还可以选择九宫格中的左侧三个格子构成的整体与右侧三个格子构成的整体进行RGB颜色比对,计算一个相似度。又例如,还可以将九宫格的左上、右上、左下、右下的格子各自依次进行RGB颜色比对,计算多个相似度。

在计算得到相似度之后,可以将计算出的相似度(可以为一个或者多个)与相似度阈值进行比较,若计算出的相似度大于相似度阈值,则可以确定运动对象的对称性检测结果为具有对称性,若计算出的相似度小于或者等于相似度阈值,则可以确定运动对象的对称性检测结果为不具有对称性。

S233C,在对称性检测结果与目标运动对象的预测对称性匹配时,确定运动对象为待识别运动对象。

可以理解的是,目标运动对象的预测对称性可以是具有对称性,也可以是不具有对象,例如,对于将比赛用球选择为目标运动对象的时候,目标运动对象的预测对称性是具有对称性。而某些运动对象不存在对称性,例如对于下肢不动,仅一只手臂运动的运动员,此时识别出的单只“手臂”这个运动对象则是不具备对称性的,将不具有对称性的运动对象选择为目标运动对象的时候,目标运动对象的预测对称性为不具有对称性。

因此,当目标运动对象的预测对称性是具有对称性时,可以确定对称性检测结果为具有对称性的运动对象为待识别对象,而当目标运动对象的预测对称性是不具有对称性时,可以确定对称性检测结果为不具有对称性的运动对象为待识别对象。

本实施例中,基于颜色分布参数,对运动对象进行对称性检测,获得运动对象的对称性检测结果,再基于对称性检测结果为具有对称性,确定运动对象为待识别运动对象,可以确定运动对象在颜色分布参数这一项是符合要求的,同样可以初步筛选掉颜色分布参数与目标运动对象不符合的运动对象,从而将符合的运动对象确定为待识别运动对象,进一步减少后续采用识别规则进行识别的运动对象的数量,提高目标运动对象的识别准确率以及识别效率。

需要说明的是,在基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象时,可以单独使用每种帧内特征,例如单独使用目标视频帧中的运动对象在视频帧中当前所处位置的实际尺寸,单独使用运动对象在目标视频帧中的实际长宽比例,或者单独使用运动对象的颜色分布参数。也可以将其中任意两种或者多种帧内特征同时结合使用。例如,将目标视频帧中的运动对象在视频帧中当前所处位置的实际尺寸以及运动对象的颜色分布参数结合使用,或者,将目标视频帧中的运动对象在视频帧中当前所处位置的实际尺寸、运动对象在目标视频帧中的实际长宽比例以及运动对象的颜色分布参数三者同时结合使用。并且,在将其中任意两种或者多种帧内特征同时结合使用时,各种帧内特征可以不区分先后顺序。

本实施例中对基于运动对象的何种帧内特征,从运动对象中筛选得到待识别运动对象不做具体限定。

S241,在从运动对象中筛选得到的待识别运动对象的数量为一个时,将待识别运动对象确定为目标运动对象。

S242,在从运动对象中筛选得到的待识别运动对象的数量大于一个时,将各个待识别运动对象对应的图像输入对象分类器,以通过对象分类器从待识别运动对象中识别得到目标运动对象,其中,对象分类器通过从样本视频帧中确定的具有分类标签的样本运动对象进行训练得到。

本实施例的目标运动对象识别方法,在基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象的过程中,提出了多种具体的帧内特征对运动对象进行筛选,适用范围广,降低对运动对象进行筛选的难度。

请参阅图9,图9所示为本申请另一实施例提出的一种目标运动对象识别方法的流程图,该方法应用于目标视频帧中的待识别运动对象的数量大于一个的情况,该方法可以包括以下步骤:

S310,获取目标视频帧。

S320,对目标视频帧进行运动检测,得到目标视频帧中的运动对象。

S330,基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象。

本实施例中,在基于运动对象的帧内特征,从运动对象中筛选得到的待识别运动对象的数量大于一个。

S340,获取各个待识别运动对象与相邻目标视频帧中的可信对象对应在同一视频帧上的实际距离,可信对象为从运动对象中筛选得到的待识别运动对象的数量为一个时对应的待识别运动对象。

可以理解的是,在对某个目标视频帧中的运动对象进行筛选之后,仍然可能得到多个待检测运动对象,然而,在某些情况下,目标运动对象的数量是有限的。例如,正常情况下赛场内是默认只存在一个比赛用球的,因此,如果将所有的待检测运动对象均按照随机的顺序,基于对应的识别规则进行识别的话,可能存在在识别最后一个待检测运动对象的时候才识别到目标运动对象,降低了目标运动对象的识别效率。因此,为了进一步提高目标运动对象的识别效率,可以先获取各个待识别运动对象与相邻目标视频帧中的可信对象对应在同一视频帧上的实际距离。

结合前述内容可知,在一些情况下,针对某些目标视频帧,基于预设筛选规则,从运动对象中筛选得到的待识别运动对象的数量可能为一个,此时,由于默认目标视频帧中存在一个目标运动对象,因此,可以将该待检测运动对象确定为目标运动对象,而这个目标运动对象则理解为可信对象。

又由于相邻两帧目标视频帧之间的时间间隔较短,在实际场景中,目标运动对象在较短的时间间隔内不可能运动较远的距离,而在采集得到的相邻两帧目标视频帧中,目标运动对象之间的距离差距就更小了,因此,在得到相邻目标视频帧中的可信对象之后,针对当前进行识别的目标视频帧中的各个待识别运动对象,可以先获取各个待识别运动对象与相邻视频帧中的可信对象对应在同一视频帧上的实际距离。

在实际场景中,视频图像采集设备的采集角度通常是不发生变化的,因此,采集得到的视频帧中的背景位置分布是不变化的,在这种情况下,作为一种实施方式,可以将不同的目标视频帧映射成同一帧目标视频帧,也即在不同的目标视频帧中,可以建立相同的坐标系,即在两个视频帧中坐标原点相同,从而得到可信对象的坐标,以及各个待识别运动对象的坐标,由于坐标系是相同的,因此,可以直接将不同目标视频帧中的坐标进行距离计算,得到各个待识别运动对象分别与可信对象在同一视频帧上的实际距离。

S350,按照各个待识别运动对象与相邻视频帧中的可信对象对应在同一视频帧上的实际距离从小到大的顺序,依次将各个待识别运动对象对应的图像输入对象分类器,以通过对象分类器从待识别运动对象中识别得到目标运动对象,其中,对象分类器通过从样本视频帧中确定的具有分类标签的样本运动对象进行训练得到。

由于在采集得到的相邻两帧目标视频帧中,目标运动对象之间的距离差距较小,因此,在获取各个待识别运动对象与相邻目标视频帧中的可信对象对应在同一视频帧上的实际距离之后,可以按照各个待识别运动对象与相邻视频帧中的可信对象对应在同一视频帧上的实际距离从小到大的顺序进行排序,且可以理解的是,实际距离越小,待识别运动对象为目标运动对象的概率越大,因此,可以按照实际距离从小到大的顺序,依次将各个待识别运动对象对应的图像输入对象分类器进行识别,直到通过对象分类器从待识别运动对象中识别得到目标运动对象。

采用本实施例的方法,可以从最可能的目标运动对象开始识别,可以提高目标运动对象的识别效率。

需要说明的是,本申请提供以上一些具体可实施方式的示例,在互不抵触的前提下,各个实施例示例之间可任意组合,以形成新一种目标运动对象识别方法。应当理解的,对于由任意示例所组合形成的新一种目标运动对象识别方法,均应落入本申请的保护范围。

请参阅图10,图10示出了本申请一实施例提出的一种目标运动对象识别装置400的框图,该装置400可以包括:目标视频帧获取模块410、运动检测模块420、筛选模块430以及识别模块440。

目标视频帧获取模块410,用于获取目标视频帧;

运动检测模块420,用于对目标视频帧进行运动检测,得到目标视频帧中的运动对象;

筛选模块430,用于基于运动对象的帧内特征,从运动对象中筛选得到待识别运动对象;

识别模块440,用于基于待识别运动对象的数量对应的识别规则,从待识别运动对象中识别得到目标运动对象。

作为一种实施方式,目标视频帧获取模块410,还用于获取目标视频图像以及视频帧提取帧率;基于视频帧提取帧率,从目标视频图像中提取目标视频帧。

作为一种实施方式,运动检测模块420,还用于获取目标视频帧中的有效运动区域的画面;对有效运动区域的画面进行运动检测,得到有效运动区域画面中的运动对象。

作为一种实施方式,筛选模块430,还用于获取目标运动对象在目标视频帧中不同位置的预测尺寸,以及运动对象在目标视频帧中当前所处位置的实际尺寸;在运动对象在当前所处位置的实际尺寸与当前所处位置的预测尺寸匹配时,确定运动对象为待识别运动对象。

作为一种实施方式,筛选模块430,还用于获取目标运动对象在目标视频帧中的预测长宽比例,以及运动对象在目标视频帧中的实际长宽比例;在运动对象的实际长宽比例与目标运动对象的预测长宽比例匹配时,确定运动对象为待识别运动对象。

作为一种实施方式,筛选模块430,还用于获取运动对象的颜色分布参数;基于颜色分布参数,对运动对象进行对称性检测,获得运动对象的对称性检测结果;在对称性检测结果与目标运动对象的预测对称性匹配时,确定运动对象为待识别运动对象。

作为一种实施方式,识别模块440,还用于在从运动对象中筛选得到的待识别运动对象的数量为一个时,将待识别运动对象确定为目标运动对象;或者,在从运动对象中筛选得到的待识别运动对象的数量大于一个时,将各个待识别运动对象对应的图像输入对象分类器,以通过对象分类器从待识别运动对象中识别得到目标运动对象,其中,对象分类器通过从样本视频帧中确定的具有分类标签的样本运动对象进行训练得到。

作为一种实施方式,待识别运动对象的数量大于一个,在这种情况下,识别模块440,还用于获取各个待识别运动对象与相邻视频帧中的可信对象对应在同一视频帧上的实际距离,可信对象为从运动对象中筛选得到的待识别运动对象的数量为一个时对应的待识别运动对象;按照各个待识别运动对象与相邻视频帧中的可信对象对应在同一视频帧上的实际距离从小到大的顺序,依次将各个待识别运动对象对应的图像输入对象分类器,以通过对象分类器从待识别运动对象中识别得到目标运动对象,其中,对象分类器通过从样本视频帧中确定的具有分类标签的样本运动对象进行训练得到。

本申请提供的一种目标运动对象识别装置,由于只对运动对象中筛选出的待识别运动对象进行识别,相当于对运动对象进行了一次初步筛选,可以在一定程度上排除其他运动对象的干扰,从而提高目标运动对象识别的准确率,同时,再次由于只对运动对象中筛选出的待识别运动对象进行识别,减少了利用预设识别规则进行识别的数量,提高了目标运动对象的识别效率。

需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。

下面将结合图11对本申请提供的一种电子设备进行说明。

请参阅图11,基于上述的目标运动对象识别方法,本申请实施例还提供的另一种包括可以执行前述目标运动对象识别方法的处理器104的电子设备200,该电子设备200可以为智能手机、平板电脑、计算机或者便携式计算机等设备。电子设备200还包括存储器104、网络模块106以及屏幕108。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。

其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备200内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备200的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

网络模块106用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块106可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如,网络模块106可以与基站进行信息交互。

屏幕108可以进行界面内容的显示,也可以用于响应触控手势。

需要说明的是,为了实现更多的功能,电子设备200还可以保护更多的器件,例如,还可以保护用于进行人脸信息采集的结构光传感器或者还可以保护用于采集虹膜的摄像头等。

请参考图12,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

基于上述的目标运动对象识别方法,根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。

综上,本申请实施例提供的一种目标运动对象识别方法、装置、电子设备、存储介质及计算机程序产品或计算机程序,由于只对运动对象中筛选出的待识别运动对象进行识别,相当于对运动对象进行了一次初步筛选,可以在一定程度上排除其他运动对象的干扰,从而提高目标运动对象识别的准确率,同时,再次由于只对运动对象中筛选出的待识别运动对象进行识别,减少了利用预设识别规则进行识别的数量,提高了目标运动对象的识别效率。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 目标运动对象识别方法、装置、电子设备及存储介质
  • 目标对象变道识别方法和装置、可读存储介质、电子设备
技术分类

06120112791633