掌桥专利:专业的专利平台
掌桥专利
首页

图像处理方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:02:28


图像处理方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域,具体而言,涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

视频实例分割是计算机视觉领域的新兴问题,其目标是对一段视频上的每一个实例进行检测,分割和跟踪。这个任务属于多任务学习范畴,有不少应用领域。比如为自动驾驶和机器人视觉导航提供感知场景的能力,比如对运动类视频进行分析和理解等等。

现有的视频实例分割中,对于尺度变化较大的对象分割精度较低,不能很好的应用于相关的应用领域中。

发明内容

本公开实施例至少提供一种图像处理方法、装置。

第一方面,本公开实施例提供了一种图像处理方法,包括:

确定目标图像在每个预设尺度上的第一图像特征,以及,所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征;

针对每个预设尺度,基于该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征;

基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果。

该方面,将目标图像在多个预设尺度上的图像特征与目标图像之前的一帧图像在预设尺度上的图像特征进行特征对齐处理,之后利用特征对齐后的第一对齐图像特征和第二对齐图像特征来进行图像检测,能够利用目标图像之前的一帧图像的图像特征对目标图像的图像特征进行补充和加强,从而能够提高对视频中的尺度变化大的对象的分割精度。

在一种可选的实施方式中,所述基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果,包括:

针对每个预设尺度,基于该预设尺度上的第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征;

基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果。

该实施方式,将特征对齐后的第一对齐图像特征和第二对齐图像特征进行特征融合,能够加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征;之后再利用融合得到的融合图像特征来进行图像检测,能够有效地利用目标图像之前的一帧图像的图像特征对目标图像的图像特征进行补充和加强,从而能够提高对视频中的尺度变化大的对象的分割精度。

在一种可选的实施方式中,所述基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果,包括:

针对每个预设尺度,基于该预设尺度上的融合图像特征和该预设尺度上的第二图像特征,确定该预设尺度上的目标融合特征;

基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果。

该实施方式,在融合对齐后的第一对齐图像特征和第二对齐图像特征的基础上,进一步融合目标图像之前的一帧图像对应的第二图像特征,能够实现利用目标图像之前的一帧图像中的图像特征对融合图像特征中置信度不高的特征点的图像特征进行融合和加强,融合后的图像特征更多地包含了目标图像之前的一帧图像中对应的图像特征,对应特征点的置信度有所提高,从而能够克服对视频中尺度变化大的对象的分割精度低的缺陷。

在一种可选的实施方式中,所述针对每个预设尺度,基于该预设尺度上的融合图像特征和该预设尺度上的第二图像特征,确定该预设尺度上的目标融合特征,包括:

针对每个预设尺度,确定该预设尺度上的融合图像特征和第二图像特征之间的融合权重信息;

利用所述融合权重信息,对该预设尺度上的融合图像特征和第二图像特征进行融合处理,得到该预设尺度上的目标融合特征。

该实施方式,融合权重信息中对应于融合图像特征中置信度较低的特征点的权重较大,这样利用融合权重信息融合上述融合图像特征和第二图像特征时,能够实现利用目标图像之前的一帧图像中的图像特征对融合图像特征中置信度不高的特征点的图像特征进行融合和加强。

在一种可选的实施方式中,所述基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果,包括:

获取与每个预设尺度上对应的检测融合深度信息;其中,所述预设尺度与检测融合深度信息的值负相关;所述预设尺度对应于对应的特征图的预设分辨率;

按照获取的所述检测融合深度信息,分别对对应预设尺度上的目标融合特征进行特征融合,得到每个预设尺度上最终的目标融合特征;

基于每个预设尺度上最终的目标融合特征,确定所述目标图像的对象分割结果。

该实施方式,随着预设分辨率的减小,检测融合深度信息对应的融合深度增大,融合的图像特征增加,即,较大的预设分辨率的图像特征融合较少,对对象尺度变化不敏感的较小的预设分辨率的图像特征融合较多,这样能够弱化对象尺度变化对图像特征的影响,从而能够提高对视频中的尺度变化大的对象的分割精度,同时还能够减少需要处理的信息的数量,提高对象分割效率。

在一种可选的实施方式中,所述针对每个预设尺度,基于该预设尺度上的第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征,包括:

针对每个预设尺度,基于该预设尺度上的第一对齐图像特征,确定第一对齐图像特征对应的第一隐态特征,以及,基于该预设尺度上的第二对齐图像特征,确定第二对齐图像特征对应的第二隐态特征;

基于所述第一隐态特征、第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征。

该实施方式,将特征对齐后的第一对齐图像特征和第二对齐图像特征进行特征融合,能够加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征;在此基础上在融合第一对齐图像特征对应的第一隐态特征以及第二对齐图像特征对应的第二隐态特征,能够使融合得到的图像特征更加完整和准确,从而,能够提高对象分割的精度。

在一种可选的实施方式中,所述基于所述第一隐态特征、第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征,包括:

基于所述第一隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第一子融合特征;

基于所述第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第二子融合特征;

基于所述第一子融合特征和所述第二子融合特征,确定该预设尺度上的融合图像特征。

该实施方式,在第一对齐图像特征和第二对齐图像特征进行特征融合的基础上,融合第一隐态特征,能够使得到的第一子融合特征加强目标图像中的隐态的图像特征;在第一对齐图像特征和第二对齐图像特征进行特征融合的基础上,融合第二隐态特征,能够使得到的第二子融合特征加强目标图像之前的一帧图像中的隐态的图像特征;再融合第一子融合特征和第二子融合特征,能够使融合得到的融合图像特征更加完整和准确。

在一种可选的实施方式中,所述特征点偏移信息包括第一位置偏移信息和第二位置偏移信息;

所述分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征,包括:

利用第一位置偏移信息对所述第一图像特征进行特征空间对齐处理,得到所述第一图像特征对应的第一对齐图像特征;

利用第二位置偏移信息对所述第二图像特征进行特征空间对齐处理,得到所述第二图像特征对应的第二对齐图像特征。

该实施方式,利用第一位置偏移信息和第二位置偏移信息分别对第一图像特征和第二图像特征进行特征点的空间对齐处理,能够提高后续特征融合的准确度,从而能够提高视频中对象分割的精度。

在一种可选的实施方式中,所述特征点偏移信息采用以下步骤确定:

针对每个预设尺度,将该预设尺度上的第一图像特征与第二图像特征进行拼接,得到拼接图像特征;

基于所述拼接图像特征,确定该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息。

该实施方式,将第一图像特征和第二图像特征进行拼接,并基于拼接后的图像特征进行深度学习,能够较为准确的确定第一图像特征与第二图像特征之间的特征点之间的位置偏移信息,即上述特征点偏移信息。

在一种可选的实施方式中,确定所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征,包括:

确定所述目标图像之前的一帧图像在每个预设尺度上的初始图像特征;

确定每个预设尺度上的每个第二图像特征的特征融合深度信息;

基于每个预设尺度上的初始图像特征、每个第二图像特征的特征融合深度信息和每个预设尺度上的第一图像特征,确定每个预设尺度上的第二图像特征。

该实施方式,按照每个第二图像特征的特征融合深度信息,基于每个预设尺度上的初始图像特征和每个预设尺度上的第一图像特征进行特征融合,能够使得到的第二图像特征能够融合不同尺度上的图像特征,提高了第二图像特征的信息完整性,从而有利于提高对象的分割精度。

第二方面,本公开实施例提供了一种图像处理装置,包括:

特征提取模块,用于确定目标图像在每个预设尺度上的第一图像特征,以及,所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征;

特征处理模块,用于针对每个预设尺度,基于该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征;

图像处理模块,用于基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果。

第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

关于上述图像处理装置、电子设备、及计算机可读存储介质的效果描述参见上述图像处理方法的说明,这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像处理方法的流程图;

图2示出了本公开实施例所提供的另一种图像处理方法中融合每个预设尺度上的第一对齐图像特征和第二对齐图像特征的流程图;

图3a示出了本公开实施例所提供的图像特征融合流程图之一;

图3b示出了本公开实施例所提供的图像特征融合流程图之二;

图4示出了本公开实施例所提供的神经网络训练的流程图;

图5示出了本公开实施例所提供的一种图像处理装置的示意图;

图6示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

经研究发现,现有的视频实例分割中,对于尺度变化较大的对象分割精度较低,并且对象的尺度变化大的视频数据集较少,不利于训练相关的神经网络模型,因此,提高视频中尺度变化大的对象的分割精度成为亟需解决的技术问题。

以上缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

针对上述技术问题,本公开提供了一种图像处理方法、装置、电子设备及存储介质,本公开将视频中的目标图像在多个预设尺度上的图像特征与目标图像之前的一帧图像在预设尺度上的图像特征进行特征对齐处理,之后利用特征对齐后的第一对齐图像特征和第二对齐图像特征来进行图像检测,能够利用目标图像之前的一帧图像的图像特征对目标图像的图像特征进行补充和加强,从而能够提高对视频中的尺度变化大的对象的分割精度。

下面以执行主体为具有计算能够的设备为例对本公开实施例提供的图像处理方法加以说明。

如图1所示,本公开提供的图像处理方法包括以下步骤:

S110、确定目标图像在每个预设尺度上的第一图像特征,以及,所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征。

上述第一图像特征包括目标图像在某一预设尺度上的图像特征信息,具体可以以特征图的形式表现,即,每个预设尺度都对应一个第一特征图。同理,第二图像特征包括目标图像之前的一帧图像在某一预设尺度上的图像特征信息,具体可以以特征图的形式表现,即,每个预设尺度都对应一个第二特征图。上述目标图像之前的一帧图像可以是目标图像的前一帧图像。

上述预设尺度对应于特征图的预设分辨率,预设尺度越大,预设分辨率越大;预设分辨率越大,对应的特征图包括更加细粒度的图像特征。提取不同尺度的图像特征,并基于不同尺度的图像特征进行对象分割,能够得到更加准确的对象分割结果,即下述对象分割结果。

上述目标图像以及目标图像之前的一帧图像为某一段待处理视频中的相邻两帧图像。当然,也可以不局限于相邻两帧图像,可以是拍摄时间较近的两帧图像。在执行此步骤之前首先需要获取待处理视频,之后对待处理视频中的相邻的或拍摄时间较近的两帧图像执行本公开所提供的图像处理方法,得到目标图像的对象分割结果。

在确定了目标图像和目标图像之前的一帧图像之后,可以利用训练好的神经网络模型分别提取两帧图像的对应于不同预设尺度的图像特征。之后可以将直接提取得到的图像特征作为与不同预设尺度对应的第一图像特征和第二图像特征,也可以对得到图像特征按照预设尺度和预设的特征融合深度进行图像特征融合,得到上述与不同预设尺度对应的第一图像特征和第二图像特征。

S120、针对每个预设尺度,基于该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征。

上述特征点偏移信息包括第一图像特征与第二图像特征之间的特征点位置的偏移信息,利用特征点偏移信息能够将不同图像上的第一图像特征与第二图像特征在空间上进行对齐。由于在拍摄视频的过程中,相机和对象是运动的,因此图像特征是不对齐的,因此对图像特征进行对齐,并利用对齐后的图像特征进行对象分割,能够提高对象分割的精度。

在执行此步骤之前,需要针对每个预设尺度,利用深度学习的方法学习该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息。

在利用特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理时,具体可以利用包括可形变卷积的网络结构来实现。

S130、基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果。

上述对象分割结果可以包括目标图像中各个对象的对象检测框、每个对象检测框的位置信息以及每个对象检测框的置信度等信息。

这里可以对每个预设尺度上的第一对齐图像特征和第二对齐图像特征分别进行融合,之后根据融合后的图像特征来进行对象分割。具体可以利用如下步骤首先:首先针对每个预设尺度,基于该预设尺度上的第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征;之后,基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果。

上述将特征对齐后的第一对齐图像特征和第二对齐图像特征进行特征融合,具体可以利用一个卷积神经网络来实现,该卷积神经网络是预先训练好的,能够加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征。

上述实施例,将目标图像在多个预设尺度上的图像特征与目标图像之前的一帧图像在预设尺度上的图像特征进行特征对齐处理,之后将特征对齐后的第一对齐图像特征和第二对齐图像特征进行特征融合,能够加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征;之后再利用融合得到的融合图像特征来进行图像检测,能够有效地利用目标图像之前的一帧图像的图像特征对目标图像的图像特征进行补充和加强,从而能够提高对视频中的尺度变化大的对象的分割精度。

在一些实施例中,如图2所示,可以利用如下步骤融合每个预设尺度上的第一对齐图像特征和第二对齐图像特征:

S210、针对每个预设尺度,基于该预设尺度上的第一对齐图像特征,确定第一对齐图像特征对应的第一隐态特征,以及,基于该预设尺度上的第二对齐图像特征,确定第二对齐图像特征对应的第二隐态特征。

在执行此步骤之前,需要分别为每个预设尺度确定上述第一隐态特征和第二隐态特征。在具体实施时,针对某一预设尺度,可以对该预设尺度上的第一对齐图像特征进行卷积操作或类似于卷积操作的映射操作,确定第一对齐图像特征对应的第一隐态特征。第一隐态特征包括目标图像中处于隐藏状态的图像特征。

同理,可以对对该预设尺度上的第二对齐图像特征进行卷积操作或类似于卷积操作的映射操作,确定第二对齐图像特征对应的第二隐态特征。第二隐态特征包括目标图像之前的一帧图像中处于隐藏状态的图像特征。

S220、基于所述第一隐态特征、第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征。

将特征对齐后的第一对齐图像特征和第二对齐图像特征进行特征融合,能够加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征;在此基础上在融合第一对齐图像特征对应的第一隐态特征以及第二对齐图像特征对应的第二隐态特征,能够使融合得到的图像特征更加完整和准确,从而,能够提高对象分割的精度。

示例性地,可以利用如下子步骤实现上述步骤S220中的特征融合处理,以得到融合图像特征:

子步骤一、基于所述第一隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第一子融合特征。

示例性地,如下公式(1)所示,可以先对第一对齐图像特征和第二对齐图像特征进行Cat操作,即将第一对齐图像和第二对齐图像中的相同通道中的图像特征进行融合;之后,对Cat操作得到的图像特征进行Gate操作,例如对Cat操作得到的图像特征进行卷积操作;之后Gate操作得到的图像特征与第一隐态特征进行点乘操作,得到第一子融合特征。

子步骤二、基于所述第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第二子融合特征。

示例性地,如下公式(1)所示,可以先第一对齐图像特征和第二对齐图像特征进行Cat操作,即将第一对齐图像和第二对齐图像中的相同通道中的图像特征进行融合;之后,对Cat操作得到的图像特征进行Gate操作,例如对Cat操作得到的图像特征进行卷积操作;之后Gate操作得到的图像特征与第二隐态特征进行点乘操作,得到第二子融合特征。

式中,

子步骤三、基于所述第一子融合特征和所述第二子融合特征,确定该预设尺度上的融合图像特征。

示例性地,可以对第一子融合特征和第二子融合特征进行卷积操作,得到上述融合图像特征。

如图3b所示,图中inner Gates即包括上述得到第一子融合特征和第二子融合特征的两个Gate操作。融合上述融合图像特征的过程中,实现了将第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征进行加强的效果。该效果得益于Gate操作中的卷积操作,对应的神经网络经过训练得到,具有加强第一对齐图像特征和第二对齐图像特征中相匹配的特征点的图像特征的作用。

在第一对齐图像特征和第二对齐图像特征进行特征融合的基础上,融合第一隐态特征,能够使得到的第一子融合特征加强目标图像中的隐态的图像特征;在第一对齐图像特征和第二对齐图像特征进行特征融合的基础上,融合第二隐态特征,能够使得到的第二子融合特征加强目标图像之前的一帧图像中的隐态的图像特征;再融合第一子融合特征和第二子融合特征,能够使融合得到的融合图像特征更加完整和准确。

基于上述实施例的说明可知,针对某一预设尺度,可以对该预设尺度上的第一对齐图像特征进行卷积操作或类似于卷积操作的映射操作,确定第一对齐图像特征对应的第一隐态特征,这里的第一隐态特征可以看作是第一对齐图像特征对应的降维特征,并不是第一对齐图像特征本身,即不是直观的特征,相对于第一对齐图像特征来说是一种隐藏状态的特征。同理,第二隐态特征可利用类似的方法得到,这里的第二隐态特征可以看作是第二对齐图像特征对应的降维特征,并不是第二对齐图像特征本身,即不是直观的特征,相对于第二对齐图像特征来说是一种隐藏状态的特征。

在一些实施例中,在得到融合图像特征之后,可以利用如下步骤基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果:

首先,针对每个预设尺度,基于该预设尺度上的融合图像特征和该预设尺度上的第二图像特征,确定该预设尺度上的目标融合特征;之后,基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果。

在融合对齐后的第一对齐图像特征和第二对齐图像特征的基础上,进一步融合目标图像之前的一帧图像对应的第二图像特征,目标是利用目标图像之前的一帧图像中的图像特征对融合图像特征中置信度不高的特征点的图像特征进行融合和加强,融合后的图像特征更多地包含了目标图像之前的一帧图像中对应的图像特征,对应特征点的置信度有所提高,从而能够克服对视频中尺度变化大的对象的分割精度低的缺陷。

示例性地,可以利用如下方式实现上述加强融合图像特征中置信度不高的特征点的图像特征:

首先,针对每个预设尺度,基于该预设尺度对应的第二图像特征和融合图像特征,确定该预设尺度对应的融合权重信息。该融合权重信息中对应于融合图像特征中置信度较低的特征点的权重较大。在具体实施时,可以通过训练好的神经网络对第二图像特征和融合图像特征进行处理,得到上述融合权重信息。该神经网络是预先训练好的,具有将融合图像特征中置信度较低的特征点的权重设置为较大值的功能。

之后,利用所述融合权重信息,对该预设尺度上的融合图像特征和第二图像特征进行融合处理,得到该预设尺度上的目标融合特征。

融合权重信息中对应于融合图像特征中置信度较低的特征点的权重较大,这样利用融合权重信息融合上述融合图像特征和第二图像特征时,能够实现利用目标图像之前的一帧图像中的图像特征对融合图像特征中置信度不高的特征点的图像特征进行融合和加强。

示例性的,可以利用如下公式(2)进行上述特征融合操作,得到目标融合特征:

式中,

示例性地,如图3b所示,利用Outer Gate操作可以实现上述

在一些实施例中,在得到目标融合特征之后,可以利用如下步骤基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果:

首先,获取与每个预设尺度对应的检测融合深度信息;其中,所述预设尺度与检测融合深度信息的值负相关;所述预设尺度与相应的特征图的预设分辨率相关。

检测融合深度信息用于表征在第一次得到目标融合特征之后,在得到最终的目标融合特征之前,目标融合特征需要融合的次数。根据上述实施例的描述可知,预设尺度越大,检测融合深度信息的值越小,即预设尺度越大,对应尺度上的目标融合特征的进行图像特征融合次数越少。如图3a所示,P3、P4、P5、P6、P7表示预设尺度,并且对应的预设尺度依次降低。如图3a所示,最大的预设尺度P3在得到目标融合特征之后进行图像特征融合的次数小于预设尺度P4在得到目标融合特征之后进行图像特征融合的次数,其中,最大的预设尺度P3对应的最终的目标融合特征X

由于随着预设尺度的降低,融合的图像特征逐渐减少,所以图3a中的框301的高度逐渐降低。

图3a中r表示目标图像,q表示目标图像之前的一帧图像,X

之后,按照获取的所述检测融合深度信息,分别对对应预设尺度上的目标融合特征进行特征融合,得到每个预设尺度上最终的目标融合特征。

按照检测融合深度信息对应的融合次数,分别对不同预设尺度上的目标融合特征进行特征融合,得到不同预设尺度上最终的目标融合特征。

最后,基于每个预设尺度上最终的目标融合特征,确定所述目标图像的对象分割结果。

示例性地,将每个预设尺度上最终的目标融合特征发送给训练好的神经网络,由该神经网络进行对象分割的处理。

上述实施例,随着预设分辨率的减小,检测融合深度信息对应的融合深度值增大,融合次数增加,融合的图像特征增加,即,较大的预设分辨率的图像特征融合较少,对对象尺度变化不敏感的较小的预设分辨率的图像特征融合较多,这样能够弱化对象尺度变化对图像特征的影响,从而能够提高对视频中的尺度变化大的对象的分割精度,同时还能够减少需要处理的信息的数量,提高对象分割效率。

在一些实施例中,如图3b所示,上述特征点偏移信息包括第一位置偏移信息O

在对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征时,具体可以利用如下步骤实现:

利用第一位置偏移信息对所述第一图像特征进行特征空间对齐处理,得到所述第一图像特征对应的第一对齐图像特征;利用第二位置偏移信息对所述第二图像特征进行特征空间对齐处理,得到所述第二图像特征对应的第二对齐图像特征。

示例性地,可以利用一个训练好的可形变卷积网络对第一位置偏移信息和所述第一图像特征进行处理,得到第一图像特征对应的第一对齐图像特征。可以利用一个训练好的可形变卷积网络对第二位置偏移信息和所述第二图像特征进行处理,得到第二图像特征对应的第二对齐图像特征。

如图3b所示,图中的D表示上述训练好的可形变卷积网络D。

示例性地,可以利用如下公式计算上述第二对齐图像特征:

式中,p

同理,可以计算上述第一对齐图像特征,这里不再赘述。

利用第一位置偏移信息和第二位置偏移信息分别对第一图像特征和第二图像特征进行特征点的空间对齐处理,能够提高后续特征融合的准确度,从而能够提高视频中对象分割的精度。

在一些实施例中,可以按照如下方式确定某一预设尺度对应的特征点偏移信息:

首先,将该预设尺度上的第一图像特征与第二图像特征进行拼接,得到拼接图像特征;之后,基于所述拼接图像特征,确定该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息。

示例性地,如图3b所示,可利用C表示的Concatenation操作将第一图像特征与第二图像特征进行拼接,得到上述拼接图像特征。之后,利用训练好的卷积神经网络Conv对拼接图像特征进行处理,得到该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息。

上述将第一图像特征和第二图像特征进行拼接,并基于拼接后的图像特征进行深度学习,能够较为准确的确定第一图像特征与第二图像特征之间的特征点之间的位置偏移信息,即上述特征点偏移信息。

根据上面的描述可知,既可将从目标图像之前的一帧图像提取出的初始图像特征直接作为第二图像特征,也可以将直接提取的图像特征进行融合,得到每个预设尺度上的第二图像特征。下面对如何通过融合得到第二图像特征的方式进行说明。

首先,从目标图像之前的一帧图像中提取其在每个预设尺度上的初始图像特征。

这里可以利用训练好的神经网络提取目标图像之前的一帧图像的初始图像特征。

之后,确定每个预设尺度上的每个第二图像特征的特征融合深度信息。

上述特征融合深度信息用于表征初始图像特征在与第一图像特征进行特征对齐处理之前需要进行特征融合的次数,如图3a所示,预设尺度P4、P5、P6、P7对应的初始图像特征在与第一图像特征进行特征对齐处理之前需要进行多次特征融合,并且随着预设尺度的降低,融合次数增加,例如预设尺度P4对应的初始图像特征在与第一图像特征进行特征对齐处理之前需要进行特征融合的次数小于预设尺度P5初始图像特征在与第一图像特征进行特征对齐处理之前需要进行特征融合的次数。

最后,基于每个预设尺度上的初始图像特征、每个第二图像特征的特征融合深度信息和每个预设尺度上的第一图像特征,确定每个预设尺度上的第二图像特征。

按照如图3a所示的网络结构,对每个预设尺度上的初始图像特征和每个预设尺度上的第一图像特征,融合上述特征融合深度信息对应的融合次数之后,能够分别得到每个预设尺度上的第二图像特征。之后,第二图像特征再与第一图像特征进行特征对齐处理。

如图3a中,圆圈302表示上述目标融合特征对应的节点,圆圈303表示标识节点,圆圈304表示进行一般的图像特征融合后的节点。

上述按照每个第二图像特征的特征融合深度信息,基于每个预设尺度上的初始图像特征和每个预设尺度上的第一图像特征进行特征融合,能够使得到的第二图像特征能够融合不同尺度上的图像特征,提高了第二图像特征的信息完整性,从而有利于提高对象的分割精度。

根据上述实施例可知,设置的inner Gates用来去融合两帧图像中,图像特征中最相似和匹配的地方,Outer Gate用于控制匹配部分和目标图像的特征的融合,实现了信息在temporal(时序)上进行更加稀疏化的传播,可以有效地抑制掉背景的噪声,能够提高对象分割精度,并且能够很好的适应尺度变化比较大的对象分割。

上述实施例中,从目标图像和目标图像之前的一帧图像的图像特征提取,到得到最终的目标融合特征可以看作是由一个较大的神经网络来实现的。或者在其他应用场景中,例如在对象分割场景中,从目标图像和目标图像之前的一帧图像的图像特征提取,到得到对象分割结果可以看作是由一个较大的神经网络实现的。那么在应用中需要对这个大的神经网络401进行训练,如图4所示,可以按照如下步骤进行训练:

步骤一、获取样本图像和样本图像之前的一帧图像,利用特征提取器,提取对应于不同预设尺度的图像特征,并基于提取的图像特征,确定样本图像对应于不同预设尺度的多个第一样本图像特征,和样本图像之前的一帧图像对应于不同预设尺度的多个第二样本图像特征。

步骤二、在只需要确定目标融合特征的应用场景中,利用与上述实施例中相同的方法确定预测目标融合特征,之后基于预测目标融合特征和标准目标融合特征确定损失,并基于确定的损失训练该大的神经网络。

在需要进行对象分割的应用场景中,利用与上述实施例中相同的方法确定预测目标融合特征,并基于预测目标融合特征,确定预测对象分割结果。之后基于预测对象分割结果和标准对象分割结果确定损失,并基于确定的损失训练该大的神经网络。

如图4所示,上述训练方法还可以用于对象分类、目标检测、对象跟踪等任务中,相应地也需要通过对应的损失来进行模型训练。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与图像处理方法对应的图像处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似,因此装置的实施可以参见方法的实施。

如图5所示,为本公开实施例提供的一种图像处理装置的架构示意图,包括:

特征提取模块510,用于确定目标图像在每个预设尺度上的第一图像特征,以及,所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征;

特征处理模块520,用于针对每个预设尺度,基于该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征;

图像处理模块530,用于基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果。

在一些实施例中,所述图像处理模块530在基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果时,用于:

针对每个预设尺度,基于该预设尺度上的第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征;

基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果。

在一些实施例中,所述图像处理模块530在基于每个预设尺度上的融合图像特征,确定所述目标图像的对象分割结果时,用于:

针对每个预设尺度,基于该预设尺度上的融合图像特征和该预设尺度上的第二图像特征,确定该预设尺度上的目标融合特征;

基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果。

在一些实施例中,所述图像处理模块530在针对每个预设尺度,基于该预设尺度上的融合图像特征和该预设尺度上的第二图像特征,确定该预设尺度上的目标融合特征时,用于:

针对每个预设尺度,确定该预设尺度上的融合图像特征和第二图像特征之间的融合权重信息;

利用所述融合权重信息,对该预设尺度上的融合图像特征和第二图像特征进行融合处理,得到该预设尺度上的目标融合特征。

在一些实施例中,所述图像处理模块530在基于每个预设尺度上的目标融合特征,确定所述目标图像的对象分割结果时,用于:

获取与每个预设尺度上对应的检测融合深度信息;其中,所述预设尺度与检测融合深度信息的值负相关;所述预设尺度对应于对应的特征图的预设分辨率;

按照获取的所述检测融合深度信息,分别对对应预设尺度上的目标融合特征进行特征融合,得到每个预设尺度上最终的目标融合特征;

基于每个预设尺度上最终的目标融合特征,确定所述目标图像的对象分割结果。

在一些实施例中,所述图像处理模块530在针对每个预设尺度,基于该预设尺度上的第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征时,用于:

针对每个预设尺度,基于该预设尺度上的第一对齐图像特征,确定第一对齐图像特征对应的第一隐态特征,以及,基于该预设尺度上的第二对齐图像特征,确定第二对齐图像特征对应的第二隐态特征;

基于所述第一隐态特征、第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征。

在一些实施例中,所述图像处理模块530在基于所述第一隐态特征、第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定该预设尺度上的融合图像特征时,用于:

基于所述第一隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第一子融合特征;

基于所述第二隐态特征、第一对齐图像特征和第二对齐图像特征,确定第一对齐图像特征对应的第二子融合特征;

基于所述第一子融合特征和所述第二子融合特征,确定该预设尺度上的融合图像特征。

在一些实施例中,所述特征点偏移信息包括第一位置偏移信息和第二位置偏移信息;

所述特征处理模块520在分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征时,用于:

利用第一位置偏移信息对所述第一图像特征进行特征空间对齐处理,得到所述第一图像特征对应的第一对齐图像特征;

利用第二位置偏移信息对所述第二图像特征进行特征空间对齐处理,得到所述第二图像特征对应的第二对齐图像特征。

在一些实施例中,所述特征处理模块520用于采用以下步骤确定所述特征点偏移信息:

针对每个预设尺度,将该预设尺度上的第一图像特征与第二图像特征进行拼接,得到拼接图像特征;

基于所述拼接图像特征,确定该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息。

在一些实施例中,所述特征提取模块510在确定所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征时,用于:

确定所述目标图像之前的一帧图像在每个预设尺度上的初始图像特征;

确定每个预设尺度上的每个第二图像特征的特征融合深度信息;

基于每个预设尺度上的初始图像特征、每个第二图像特征的特征融合深度信息和每个预设尺度上的第一图像特征,确定每个预设尺度上的第二图像特征。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

基于同一技术构思,本公开实施例还提供了一种电子设备。参照图6所示,为本公开实施例提供的电子设备600的结构示意图,包括处理器61、存储器62、和总线63。其中,存储器62用于存储执行指令,包括内存621和外部存储器622;这里的内存621也称内存储器,用于暂时存放处理器61中的运算数据,以及与硬盘等外部存储器622交换的数据,处理器61通过内存621与外部存储器622进行数据交换,当电子设备600运行时,处理器61与存储器62之间通过总线63通信,使得处理器61在执行以下指令:

确定目标图像在每个预设尺度上的第一图像特征,以及,所述目标图像之前的一帧图像在每个预设尺度上的第二图像特征;

针对每个预设尺度,基于该预设尺度上的第一图像特征与第二图像特征之间的特征点偏移信息,分别对所述第一图像特征和所述第二图像特征进行特征对齐处理,得到所述第一图像特征对应的第一对齐图像特征,以及第二图像特征使对应的第二对齐图像特征;

基于每个预设尺度上的第一对齐图像特征和第二对齐图像特征,确定所述目标图像的对象分割结果。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的图像处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的图像处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 图像处理方法、存储介质、电子设备及图像处理装置
  • 图像处理方法和图像处理装置及电子设备和存储介质
技术分类

06120113147841