掌桥专利:专业的专利平台
掌桥专利
首页

目标识别方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:58:21


目标识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域,具体涉及目标识别方法、装置、电子设备及存储介质。

背景技术

随着深度学习的不断进步,目标检测技术和相关模型已经发展得非常成熟。基于此,通常采用目标识别模型识别图像中的目标。然而,在图像中可能包括一些小目标,因此,在目标识别时就需要提高对小目标的识别准确性。

发明内容

有鉴于此,本公开提供了一种目标识别方法、装置、电子设备及存储介质,以解决小目标识别准确性的问题。

第一方面,本公开提供了一种目标识别方法,所述方法包括:

获取待识别图像;

对所述待识别图像进行局部特征提取,得到待识别局部特征,所述待识别局部特征用于表征所述待识别图像中各个图像块的特征的融合结果;

基于所述待识别局部特征进行识别,得到所述各个图像块对应的识别结果,以确定所述待识别图像的目标识别结果。

第二方面,本公开提供了一种目标识别装置,所述装置包括:

待识别图像获取模块,用于获取待识别图像;

局部特征提取模块,用于对所述待识别图像进行局部特征提取,得到待识别局部特征,所述待识别局部特征用于表征所述待识别图像中各个图像块的特征的融合结果;

目标识别模块,用于基于所述待识别局部特征进行识别,得到所述各个图像块对应的识别结果,以确定所述待识别图像的目标识别结果。

第三方面,本公开提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的目标识别方法。

第四方面,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的目标识别方法。

本公开实施例提供的目标识别方法,通过待识别图像的待识别局部特征进行目标识别,其中,待识别局部特征表征的是待识别图像中各个图像块的特征的融合结果,即,针对待识别图像中的各个图像块进行特征提取,再对其进行融合得到待识别局部特征。由此,待识别局部特征并非是整张待识别图像的局部特征,而是通过图像块的特征得到的,即,是通过对各个图像块的特征进行融合后得到的,由于图像块表征的是待识别图像中的局部信息,相应地,得到局部特征,再对其进行融合得到待识别图像的待识别局部特征。在利用待识别局部特征进行识别时,使得在识别过程中更加关注到局部信息,从而提高了小目标的识别准确性,弥补了全局特征对小目标的识别准确性不高的不足。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本公开实施例的目标识别方法的流程示意图;

图2是根据本公开实施例的另一目标识别方法的流程示意图;

图3是根据本公开实施例的目标识别的框图;

图4是根据本公开实施例的分类网络的训练过程的流程示意图;

图5是根据本公开实施例的分类网络的训练过程的框图;

图6是根据本公开实施例的目标识别装置的结构框图;

图7是本公开实施例的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

在相关技术中,目标识别是基于待识别图像的全局特征进行的,具体地,提取待识别图像的全局特征,基于全局特征进行目标识别,从而得到待识别图像中的各个目标。若待识别图像中包括有小目标,由于全局特征中所包括的细节有限,无法清楚表征出小目标的细节,因此,基于全局特征造成小目标的漏检或误检。其中,小目标为在待识别图像中的占比小于预设值的目标。预设值的具体大小是根据实际需求设置的,在此对其并不做任何限定。

基于此,本公开实施例提供的目标识别方法,基于局部特征进行目标识别,以提高小目标识别的准确性。

根据本公开实施例,提供了一种目标识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种目标识别方法,可用于计算机设备,例如,电脑,移动终端等等,图1是根据本公开实施例的目标识别方法的流程图,如图1所示,该流程包括如下步骤:

步骤S101,获取待识别图像。

待识别图像可以是实时采集到的图像,也可以是存储的图像,或者是通过与第三方设备通信,从第三方设备中获得的。在此对待识别图像的获取方式并不做任何限定,具体根据实际需求进行设置即可。

步骤S102,对待识别图像进行局部特征提取,得到待识别局部特征。

其中,待识别局部特征用于表征待识别图像中各个图像块的特征的融合结果。

局部特征并不是指整个待识别图像中局部区域的特征,而是待识别图像中各个图像块的特征。例如,在局部特征提取时,待识别图像分为14*14个图像块,那么,局部特征为各个图像块的特征。相应地,待识别局部特征为这14个图像块的特征的融合。需要说明的是,此处的融合是指14个图像块各自特征的拼接。例如,每个图像块对应的特征采用的是512维的向量表示,那么,待识别局部特征采用14*14*512的矩阵表示。

对待识别图像进行局部特征提取时,可以先将待识别图像划分为多个图像块,针对每个图像块进行特征提取,得到各个图像块的特征。再将各个图像块的特征进行融合,得到待识别局部特征。或者,也可以是采用局部特征提取网络进行局部特征提取,例如,局部特征提取网络为待识别图像,输出为14*14*512的待识别局部特征,其中,14*14表示的是待识别图像对应的图像块数量,512为每个图像块的维度。当然,局部特征提取网络在特征提取时,最终输出的是N*N*M维的特征矩阵,其中,N与M的具体数值是根据实际需求确定的,在此对其并不做任何限定。

由于待识别局部特征表征的是各个图像块的特征,因此,在后续进行识别时,能够关注到局部的细节特征,从而能够提高小目标识别的准确性。

步骤S103,基于待识别局部特征进行识别,得到各个图像块对应的识别结果,以确定待识别图像的目标识别结果。

在得到待识别局部特征之后,对其进行目标识别。由于待识别局部特征表征的是各个图像块的特征的融合结果,在进行目标识别之后,得到的是各个图像块对应的识别结果,例如,各个图像块属于某一个类别的概率。具体地,在目标识别时可以是进行多种类别的目标识别,包括但不限于车辆,行人等等,基于待识别局部特征,针对各个图像块进行识别,得到各个图像块对应的识别结果。

由于同一个图像块仅能够属于一个类别,因此,在得到图像块对应的识别结果之后,可以从多个类别的识别结果中筛选出一个作为当前图像块的识别结果。例如,从图像块属于各个类别的概率中筛选出概率最大的类别,将其作为图像块的类别识别结果;或者,结合当前图像块的周围图像块,进行类别确定。当然,也可以采用其他方式确定图像块对应的识别结果。

在得到各个图像块对应的识别结果之后,对其进行整合,得到待识别图像的目标识别结果。如上文所述,待识别图像包括多个图像块,在得到每个图像块对应的识别结果,对其进行融合,即可得到待识别图像中各个目标的识别结果。例如,一个目标可能是由多个图像块组成,那么,对多个图像块的识别结果进行融合,即可得到该目标的识别结果。

本实施例提供的目标识别方法,通过待识别图像的待识别局部特征进行目标识别,其中,待识别局部特征表征的是待识别图像中各个图像块的特征的融合结果,即,针对待识别图像中的各个图像块进行特征提取,再对其进行融合得到待识别局部特征。由此,待识别局部特征并非是整张待识别图像的局部特征,而是通过图像块的特征得到的,即,是通过对各个图像块的特征进行融合后得到的,由于图像块表征的是待识别图像中的局部信息,相应地,得到局部特征,再对其进行融合得到待识别图像的待识别局部特征。在利用待识别局部特征进行识别时,使得在识别过程中更加关注到局部信息,从而提高了小目标的识别准确性,弥补了全局特征对小目标的识别准确性不高的不足。

在本实施例中提供了一种目标识别方法,可用于计算机设备,例如,电脑,移动终端等等,图2是根据本公开实施例的目标识别方法的流程图,如图2所示,该流程包括如下步骤:

步骤S201,获取待识别图像。详细请参见图1所示实施例的步骤S101,在此不再赘述。

步骤S202,对待识别图像进行局部特征提取,得到待识别局部特征。

其中,待识别局部特征用于表征待识别图像中各个图像块的特征的融合结果。详细请参见图1所示实施例的步骤S102,在此不再赘述。

步骤S203,基于待识别局部特征进行识别,得到各个图像块对应的识别结果,以确定待识别图像的目标识别结果。

具体地,上述步骤S203包括:

步骤S2031,基于待识别局部特征分别进行至少一种类别的目标识别,得到图像块对应于各个类别的识别结果。

至少一个类别是依据待识别图像的场景确定的,若待识别图像为道路场景下,则至少一个类别包括但不限于行人或车辆等等;若待识别图像为文档场景下,则至少一个类别包括但不限于文字或水印等等。关于至少一个类别所包括的类别种类以及类别数量是依据实际需求设置的,在此对其并不做任何限定。

若在目标识别时所包括的类别为类别1、类别2以及类别3,在利用待识别局部特征进行至少一个类别的目标识别之后,得到各个图像块对应于各个类别的识别结果。例如,待识别局部特征采用14*14*512的特征矩阵表示,相应地,相当于待识别图像划分为14*14个图像块,即196个图像块,每个图像块均采用512维向量表示。在经过类别1的目标识别之后,得到一个196维的识别结果向量,该识别结果向量中的每个元素为对应图像块属于类别1的概率。依次类推,对应于类别2,得到另一个196维的识别结果向量,其中的每个元素表示对应图像块属于类别2的概率;对应于类别3,得到又一个196维的识别结果向量,其中的每个元素表示对应图像块属于类别3的概率。

通过上述3个196维的识别结果向量就能够得到各个图像块对应于各个类别的识别结果,例如,图像块1对应的类别识别结果如下:

类别1:196维的识别结果向量中对应元素的值为90%;

类别2:196维的识别结果向量中对应元素的值为20%;

类别3:196维的识别结果向量中对应元素的值为5%。

步骤S2032,对于各个图像块,查询各个类别的识别结果中的概率最大值。

经过上述步骤S2031的处理之后,得到各个图像块对应于各个类别的识别结果。对于每个图像块,查询各个类别的识别结果中的概率最大值。继续沿用上述示例,图像块1其对应于类别1的概率最大,因此,得到图像块1的概率最大值对应的类别为类别1。

步骤S2033,将概率最大值对应的识别结果确定为图像块对应的识别结果,以得到待识别图像的目标识别结果。

例如,图像块1的概率最大值对应的类别为类别1,相应地,将图像块1对应的类别确定为类别;由于图像块在待识别图像中的位置是固定的,因此,也能够得到图像块1的位置,基于此,即可得到图像块1对应的类别以及位置,即得到图像块1对应的识别结果。依次类推,得到所有图像块对应的识别结果,在此基础上,得到待识别图像的目标识别结果。

在一些可选的实施方式中,图像块对应的识别结果包括类别。基于此,待识别图像的目标识别结果是通过如下方式确定的:

步骤a1,基于相同类别的图像块的位置,得到同一目标的位置。

步骤a2,将相同的类别确定为同一目标的类别,得到同一目标的类别,目标识别结果包括目标的位置以及类别。

由于一个目标可能包括至少一个图像块,因此,基于相同类别的图像块的位置,得到同一目标的位置。由于同一类别的目标可能有多个,可以通过相同类别的图像块之间的位置关系,得到同一目标的位置。若同一目标由多个图像块组成,则这多个图像块之间的位置是靠近的。基于此,可以通过多个图像块之间的位置关系,确定同一目标的位置。

由于同一目标是基于相同类别的图像块得到的,那么,将相同类别确定为同一目标的类别。因此,通过图像块对应的识别结果能够得到待识别图像中各个目标的识别结果。

由于同一目标可能是通过待识别图像中的多个图像块表征的,因此,基于相同类别的图像块的位置得到同一目标的位置,以及对应的类别,从而能够对待识别图像进行准确的多目标识别。

本实施例提供的目标识别方法,在利用待识别局部特征进行识别时,得到的是各个图像块对应于各个类别的识别结果,由于进行的是至少一个类别的目标识别,因此,对于各个图像块能够得到其属于各个类别的识别结果,基于此,将概率最大值对应的识别结果作为图像块对应的识别结果,以图像块为识别对象,提高了小目标识别的准确性。

在一些可选的实施方式中,局部特征提取是基于局部特征提取网络实现的,目标识别结果是基于分类网络实现的。分类网络包括至少一个类别的局部分类网络以及全局分类网络,局部特征提取网络的输出与至少一个类别的局部分类网络的输入连接,至少一个类别的局部分类网络的输出与全局分类网络的输入连接。

具体地,局部特征提取网络的输入为待识别图像,输出为待识别局部特征。局部特征提取网络的结构是特征提取网络中的部分,特征提取网络的输入为待识别图像,输出为待识别图像的全局特征。其中,选取特征提取网络中用于提取局部特征的部分,作为局部特征提取网络。例如,特征提取网络的工作原理是:对待识别图像进行特征提取,依次得到56*56*256的特征矩阵,对该特征矩阵进行处理得到28*28*512的特征矩阵,再对其进行处理得到14*14*512的特征矩阵;再次对其进行处理得到1*1*1000的特征向量。其中,56*56,28*28,14*14,1*1为图像块的数量,256,512以及1000为各个图像块对应的向量维数。最后输出的1*1*1000为输入特征提取网络的待识别图像的全局特征,而56*56*256,28*28*512以及14*14*512均为待识别图像对应的局部特征。因此,可以选取特征提取网络中的部分,得到能够进行局部特征识别的局部特征识别网络。

在利用局部特征识别网络进行局部特征提取时,可以仅提取一种尺度的特征将其作为待识别局部特征,或者,也可以提取多种尺度的特征,再进行维度统一的处理,得到待识别局部特征。结合上述示例,分别提取三种尺度的特征,即56*56*256的特征矩阵、28*28*512的特征矩阵以及14*14*512的特征矩阵,再将这三种尺度的特征矩阵进行维度统一的处理,得到用14*14*512的特征矩阵表示的待识别局部特征。

分类网络用于在待识别局部特征的基础上,得到待识别图像中的目标识别结果。其中,分类网络包括至少一个类别的局部分类网络以及一个全局分类网络。各个类别的局部分类网络的输入为待识别局部特征,输出为待识别图像中各个图像块属于该类别的概率。其中,局部分类网络可以是一个或多个任意尺寸的卷积级联。

全局分类网络用于在各个局部分类网络的基础上进行分析,对于各个图像块,查询其属于某一类别的最大概率值,将其对应的类别确定为图像块对应的类别。基于此,也可以将全局分类网络称之为全局查询模块,用于查询最大概率值。即,全局分类网络为数据处理模块,而并非是神经网络模块,因此,在后续分类网络的训练过程中,无需对全局分类网络的参数进行调整。因此,即可得到待识别图像的目标识别结果。

利用局部特征提取网络提取局部特征,基于分类网络得到目标识别结果,且分类网络中局部分类网络以及全局分类网络,从而实现在局部分类的基础上,得到全局分类的识别结果,进一步提高了目标识别结果的准确性。

作为目标识别方法的一个具体应用,如图3所示,目标识别方法包括在获取到待识别图像之后,将其输入到局部特征提取网络中,得到待识别局部特征。再将待识别局部特征分别输入到各个类别对应的局部分类网络中,得到各个图像块对应于该类别的识别结果。在此基础上,再将各个局部分类网络的输出输入至全局分类网络中,得到待识别图像中各个目标的识别结果。

在一些可选的实施方式中,局部特征提取网络是预训练得到的。即,局部特征提取网络是在分类网络训练之前,采用大量的样本数据训练得到的。进一步地,为了使得局部特征提取网络能够更加适用于当前应用场景,可以采用当前应用场景的样本数据对训练得到的局部特征提取网络的参数进行微调。基于此,如图4所述,分类网络的训练方法包括:

步骤S401,获取样本图像以及标签。

其中,样本图像中包括至少一个目标,标签用于表征样本图像中至少一个目标的位置以及类别。

样本图像可以是收集到的原始图像,也可以是在原始图像的基础上进行数据增强得到的,或者是合成的图像等等。在此对样本图像的获取方式并不做任何限定,具体依据实际需求设置。

对于各个样本图像而言,可以获取到样本图像中各个目标的类别以及位置。例如,类别1采用1标识,类别2采用2标识。同时,由于各个目标的位置是固定的,因此,就可将其对应到各个样本图像中,从而得到各个图像块的类别标识。待识别图像对对应的图像块的数量,是与局部特征提取网络的输出维度对应的。若局部特征提取网络的输出维度所表征的图像块为28*28,则待识别图像对应的图像块为28*28;若输出维度所表征的图像块为14*14,则待识别图像对应的图像块为14*14。因此,将各个目标的类别标识映射到样本图像的对应位置,即可得到各个图像块的类别标识,从而得到样本图像的标签。

步骤S402,将样本图像输入局部特征提取网络中,得到样本局部特征。

局部特征提取网络的输入为样本图像,输出为样本局部特征。样本局部特征与上文中的待识别局部特征类似,详细请参见上文所述,在此不再赘述。

步骤S403,将样本局部特征分别输入到至少一个类别的预设局部分类网络中,得到类别对应的识别结果。

其中,类别对应的识别结果用于表征样本图像中的图像块属于类别的识别结果。

预设局部分类网络与类别一一对应,分别利用各个预设局部分类网络对输入的样本局部特征进行处理,得到该类别对应的识别结果。例如,预设局部分类网络的输出为196维的向量,有3个类别对应的预设局部分类网络,则各个类别对应的识别结果如下所示:

类别1:[a1,a2,…,a196],ai表示第i个图像块属于类别1的概率;

类别2:[b1,b2,…,b196],bi表示第i个图像块属于类别2的概率;

类别3:[c1,c2,…,c196],ci表示第i个图像块属于类别3的概率。

步骤S404,将各个类别对应的识别结果输入全局分类网络中,得到样本图像中各个目标的识别结果。

在得到各个类别对应的识别结果之后,将其输入到全局分类网络中,由全局分类网络先确定出各个图像块所属的类别,再得到样本图像中各个目标的识别结果。其具体处理过程与上文目标识别方法中的处理过程类似,详见上文所述,在此不再赘述。

步骤S405,基于类别对应的识别结果、各个目标的识别结果以及标签,确定识别损失,以更新预设局部分类网络的参数得到至少一个类别的局部分类网络。

类别对应的识别结果,表征的是局部分类结果;各个目标的识别结果表征的是全局分类结果。基于此,再结合标签进行识别损失的计算,并依据识别损失的计算结果对预设局部分类网络的参数进行迭代更新,从而确定出至少一个类别的局部分类网络。

其中,迭代更新的停止条件包括但不限于当前更新次数达到最大更新次数,或者,当前识别损失小于预设损失。当然,还可以包括其他停止条件,在此对其并不做任何限定。

需要说明的是,对于分类网络的训练,可以是各个类别对应的局部分类网络单独训练,也可以是多个类别对应的局部分类网络一起训练的。具体对其并不作任何限定,依据实际需求设置即可。

基于此,训练得到的分类网络能够同时进行多目标的识别,同样能够准确地识别出图像中的小目标。

本实施例提供的分类网络的训练方法,利用预训练的局部特征提取进行局部特征提取,能够提高所得到的样本局部特征的准确性,且简化了网络的训练过程。

在一些可选的实施方式中,上述步骤S405包括:

步骤b1,基于类别对应的识别结果、各个目标的识别结果以及标签,分别确定局部识别损失以及全局识别损失。

步骤b2,对局部识别损失以及全局识别损失进行融合,得到识别损失。

步骤b3,基于识别损失,更新预设局部分类网络的参数,得到至少一个类别的局部分类网络。

如上文所述,各个目标的类别标识可以映射至样本图像的各个图像块中,从而得到各个图像块的标签。因此,在进行分类损失计算时,分别计算局部识别损失以及全局识别损失,局部识别损失是各个图像块的分类损失的融合结果,全局识别损失是基于各个目标的识别结果以及标签确定的。

再将局部识别损失以及全局识别损失进行融合,得到总的识别损失。在总的识别损失的基础上,对预设局部分类网络的参数进行迭代更新,待达到迭代停止条件之后,即可得到至少一个类别的局部分类网络。

分别计算局部识别损失以及全局识别损失,并将两者进行融合得到最终的识别损失,提高了识别损失的计算准确性,以加速网络的收敛,提高网络的训练效率。

在一些可选的实施方式中,在分类网络的训练过程中还包括:基于识别损失对预训练得到的局部特征提取网络的参数进行更新。在上文描述中,局部特征提取网络是预训练得到的,在样本图像丰富的情况下,还可以在训练分类网络的过程中,同时对局部特征提取网络的参数进行一并更新,以进一步提高局部特征提取网络对当前应用场景的适配性。

在分类网络的训练过程中还对预训练得到的局部特征提取网络的参数进行更新,以使得局部特征提取模型更加适用于当前识别场景。

在一些可选的实施方式中,上述步骤S402包括:

步骤c1,将样本图像输入局部特征提取网络中,得到至少一种尺度的局部特征。

步骤c2,对至少一种尺度的局部特征进行融合,得到样本局部特征。

如上文所述,局部特征提取网络在局部特征提取过程中,能够得到56*56*256的特征矩阵,28*28*512的特征矩阵以及14*14*512的特征矩阵。因此,可以将三种尺度的局部特征分别提取后进行维度统一的融合,从而得到14*14*512的样本局部特征。

通过至少一种尺度的局部特征的融合,作为样本局部特征,丰富了样本局部特征中的局部细节,进一步提高了所得到的样本局部特征的准确性。

在一些可选的实施方式中,上述步骤S401包括:

步骤d1,获取样本图像集,样本图像集中包括多个原始样本图像。

步骤d2,对原始样本图像进行数据增强处理,以更新样本图像集。

步骤d3,从更新后的样本图像集中提取图像得到样本图像。

对于样本图像而言,其可以是对原始样本图像进行数据增强后得到的。在获取到样本图像集之后,为了丰富样本图像的多样性,对样本图像集中的原始样本图像进行数据增强处理,得到样本图像,以更新样本图像集。其中,数据增强处理包括但不限于旋转、平移、缩放和色彩变化等等,具体依据实际需求设置,在此对其并不做任何限定。

在样本图像集更新之后,其所包括的图像称之为样本图像,在进行网络训练时,从更新后的样本图像集中进行图像提取,即可得到样本图像。

通过对原始样本图像进行数据增强处理,以得到样本图像,能够进一步降低过拟合的风险。

在一些可选的实施方式中,若需要新增类别,上述的分类网络的训练方法还包括:

步骤e1,获取新增类别对应的新增样本图像以及新增标签。

步骤e2,固定局部分类网络的参数。

步骤e3,基于新增样本图像以及新增标签,对新增类别对应的新增局部分类网络进行训练,以确定新增局部分类网络。

对于训练完成的分类网络,若要需要新增分类类别,则需要新联新增类别对应的新增局部分类网络。相应地,获取新增类别对应的新增样本图像以及新增标签,在固定其余分类网络的参数的基础上,利用新增样本图像以及新增标签,对新增类别对应的新增局部分类网络进行训练,以确定新增局部分类网络。

由于各个类别的局部分类网络是独立的,相互之间并不影响,因此,在新联新增局部分类网络时,通过固定其他局部分类网络的参数,以避免对其余局部分类网络的影响。

在新增类别的情况下,固定其他局部分类网络的参数,仅对新增类别对应的新增局部分类网络进行训练,实现了新增类别不会对已有类别产生影响,从而减少网络迭代的成本。

作为分类网络的训练方法的一个具体应用实施例,如图5所示,对原始样本图像进行数据增强处理之后得到样本图像。将样本图像输入到局部特征提取网络中,得到样本局部特征;再将样本局部特征分别输入到各个类别对应的局部分类网络中,得到各个局部分类网络的识别结果,结合对应的标签,得到局部分类损失。再将各个局部分类网络的识别结果输入到全局分类网络中,得到样本图像的目标识别结果,结合对应的标签,得到全局分类损失。将局部分类损失与全局分类损失融合,得到总的分类损失。再利用总的分量损失对局部分类网络的参数进行更新,确定局部分类网络。

作为本公开实施例中目标识别的一个具体应用实施例,其应用场景为文档场景中,需要识别文档场景中的文本区域,水印以及图片。将待识别文档输入到局部特征提取模块中,得到待识别局部特征。再将待识别局部特征分别输入到文本区域对应的局部分类网络1,水印对应的局部分类网络2以及图片对应的局部分类网络3,经过各个局部分类网络的处理,得到局部分类网络1~局部分类网络3的输出,各个网络的输出分别采用196维的向量表示,每个元素表示每个图像块属于各个类别的概率。将3个196维的向量输入至全局分类网络中,查找各个图像块对应的最高概率值,从而得到各个图像块所属的类别,在此基础上,得到待识别文档中的文本区域、水印以及图片的识别结果。

在本实施例中还提供了一种目标识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种目标识别装置,如图6所示,包括:

待识别图像获取模块601,用于获取待识别图像。

局部特征提取模块602,用于对待识别图像进行局部特征提取,得到待识别局部特征,待识别局部特征用于表征待识别图像中各个图像块的特征的融合结果。

目标识别模块603,用于基于待识别局部特征进行识别,得到各个图像块对应的识别结果,以确定待识别图像的目标识别结果。

在一些可选的实施方式中,目标识别模块603包括:

目标识别单元,用于基于待识别局部特征分别进行至少一种类别的目标识别,得到图像块对应于各个类别的识别结果。

查询单元,用于对于各个图像块,查询各个类别的识别结果中的概率最大值。

识别结果确定单元,用于将概率最大值对应的识别结果确定为图像块对应的识别结果,以得到待识别图像的目标识别结果。

在一些可选的实施方式中,图像块对应的识别结果包括类别,识别结果确定单元包括:

位置确定子单元,用于基于相同类别的图像块的位置,得到同一目标的位置。

类别确定子单元,用于将相同的类别确定为同一目标的类别,得到同一目标的类别,目标识别结果包括目标的位置以及类别。

在一些可选的实施方式中,局部特征提取是基于局部特征提取网络实现的,目标识别结果是基于分类网络实现的,分类网络包括至少一个类别的局部分类网络以及全局分类网络,局部特征提取网络的输出与至少一个类别的局部分类网络的输入连接,至少一个类别的局部分类网络的输出与全局分类网络的输入连接。

在一些可选的实施方式中,局部特征提取网络是预训练得到的,分类网络的训练装置包括:

样本图像获取模块,用于获取样本图像以及标签,样本图像中包括至少一个目标,标签用于表征样本图像中至少一个目标的位置以及类别。

局部特征提取模块,用于将样本图像输入局部特征提取网络中,得到样本局部特征。

局部分类模块,用于将样本局部特征分别输入到至少一个类别的预设局部分类网络中,得到类别对应的识别结果,类别对应的识别结果用于表征样本图像中的图像块属于类别的识别结果。

全局分类模块,用于将各个类别对应的识别结果输入全局分类网络中,得到样本图像中各个目标的识别结果。

参数更新模块,用于基于类别对应的识别结果、各个目标的识别结果以及标签,确定识别损失,以更新预设局部分类网络的参数得到至少一个类别的局部分类网络。

在一些可选的实施方式中,参数更新模块包括:

局部以及全局损失确定单元,用于基于类别对应的识别结果、各个目标的识别结果以及所述标签,分别确定局部识别损失以及全局识别损失。

识别损失单元,用于对局部识别损失以及全局识别损失进行融合,得到识别损失。

参数更新单元,用于基于识别损失,更新预设局部分类网络的参数,得到至少一个类别的局部分类网络。

在一些可选的实施方式中,分类网络的训练装置还包括:局部特征提取网络的参数更新模块,用于基于识别损失对预训练得到的局部特征提取网络的参数进行更新。

在一些可选的实施方式中,局部特征提取模块包括:

局部特征提取单元,用于将样本图像输入局部特征提取网络中,得到至少一种尺度的局部特征。

局部特征融合单元,用于对至少一种尺度的局部特征进行融合,得到样本局部特征。

在一些可选的实施方式中,样本图像获取模块包括:

样本图像集获取单元,用于获取样本图像集,样本图像集中包括多个原始样本图像。

数据增强处理单元,用于对原始样本图像进行数据增强处理,以更新样本图像集。

样本图像提取单元,用于从更新后的样本图像集中提取图像得到样本图像。

在一些可选的实施方式中,若需要新增类别,分类网络的训练装置,还包括:

新增类别获取模块,用于获取新增类别对应的新增样本图像以及新增标签。

参数固定模块,用于固定局部分类网络的参数。

训练模块,用于基于新增样本图像以及新增标签,对新增类别对应的新增局部分类网络进行训练,以确定新增局部分类网络。

本实施例中的目标识别装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。

本公开实施例还提供一种电子设备,具有上述图6所示的目标识别装置。

请参阅图7,图7是本公开可选实施例提供的一种电子设备的结构示意图,如图7所示,该电子设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。

处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。

其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。

该电子设备还包括通信接口30,用于该电子设备与其他设备或通信网络通信。

本公开实施例还提供了一种计算机可读存储介质,上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。

可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。

虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

相关技术
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 欺诈行为识别方法、装置、电子设备及可读存储介质
  • 命名实体识别方法、装置、电子设备、机器可读存储介质
  • 一种虚假主叫识别方法、装置、电子设备及存储介质
  • 文本情感识别方法及装置、电子设备、存储介质
  • 目标识别方法、装置、电子设备及存储介质
  • 一种梯度能量等离子体的气相反应器及使用方法
技术分类

06120116483709