掌桥专利:专业的专利平台
掌桥专利
首页

梯度引导特征激活的单类别目标感知自增强方法及装置

文献发布时间:2024-04-18 19:52:40


梯度引导特征激活的单类别目标感知自增强方法及装置

技术领域

本发明属于机器学习技术领域,具体涉及一种目标检测方法、装置、电子设备及计算机可读存储介质。

背景技术

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络凭借其出色的特征提取能力,已经成为当前目标检测算法的主要选择。在多类别目标检测网络的训练过程中,卷积神经网络通常会同时关注多个类别的特征。然而,在执行检测任务时,为了平衡全类别检测的性能,某些单类别的特征信息往往会受到其他类别特征信息的抑制。这导致在重点关注特定类别时,网络的检测性能会有所下降。

目前采用的方法主要是:基于注意力机制的调整策略以及类别平衡技术,或者是对训练集中类别的数据增强。但是现有的技术方案均需要调整网络结构重新进行训练,不可避免的会带来额外的成本负担,对特定类别的目标识别效率低。

发明内容

为了解决相关技术中存在的上述问题,本发明提供了一种梯度引导特征激活的单类别目标感知自增强方法。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明提供了一种梯度引导特征激活的单类别目标感知自增强方法,包括:确定目标图像的待检测目标类别;将目标图像输入目标检测网络进行第一次前向传播,获取目标检测网络的预测层对应的目标类别的预测分数;其中,目标检测网络包括多个预测层;将预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息;根据梯度信息确定每个预测层对应的特征图的通道权重以及每个通道权重的相关系数;根据通道权重以及相关系数,确定特征图的最终通道权值;通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图;将增强后的特征图输入目标检测网络进行第二次前向传播,获得增强后的目标检测结果。

在一些可能的实施方式中,在将预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息之前,方法还包括:获取第一次前向传播输出的用于定位特征图的候选框和候选框的置信度;根据目标类别从候选框中选取目标候选框;根据目标候选框的数量和/或目标候选框的置信度,从目标候选框中选取增强候选框。

在一些可能的实施方式中,将预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息,包括:根据链式求导法则将增强候选框中的目标类别的预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息。

在一些可能的实施方式中,根据梯度信息确定每个预测层对应的特征图的通道权重以及每个通道权重的相关系数,包括:确定每个预测层对应的特征图在每个通道上梯度信息的均值;根据每个预测层对应的特征图的每个均值,确定每个预测层对应的特征图的通道权重;通过预设归一化函数对每个通道权重的最大值进行归一化操作,获得每个通道权重的相关系数。

在一些可能的实施方式中,最终通道权值表示为:

其中,norm()为最大最小值归一化函数,

在一些可能的实施方式中,在通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图之前,方法还包括:通过预设的增强系数对最终通道权值进行增强,获得增强后的最终通道权值。

在一些可能的实施方式中,通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图,包括:通过增强后的最终通道权值分别对特征图的每个通道进行增强,获得增强后的特征图。

第二方面,本发明提供了一种梯度引导特征激活的单类别目标感知自增强装置,包括:第一确定模块,用于确定目标图像的待检测目标类别;第一前向传播模块,用于将目标图像输入目标检测网络进行第一次前向传播,获取目标检测网络的预测层对应的目标类别的预测分数;其中,目标检测网络包括多个预测层;梯度回传模块,用于将预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息;第二确定模块,用于根据梯度信息确定每个预测层对应的特征图的通道权重以及每个通道权重的相关系数;第三确定模块,用于根据通道权重以及相关系数,确定特征图的最终通道权值;加权模块,用于通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图;第二前向传播模块,用于将增强后的特征图输入目标检测网络进行第二次前向传播,获得增强后的目标检测结果。

在一些可能的实施方式中,该装置还包括:第一获取模块,用于获取第一次前向传播输出的用于定位特征图的候选框和候选框的置信度;第一选取模块,用于根据目标类别从候选框中选取目标候选框;第二选取模块,用于根据目标候选框的数量和/或目标候选框的置信度,从目标候选框中选取增强候选框。

在一些可能的实施方式中,梯度回传模块,还用于根据链式求导法则将增强候选框中的目标类别的预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息。

在一些可能的实施方式中,第二确定模块,还用于确定每个预测层对应的特征图在每个通道上梯度信息的均值;根据每个预测层对应的特征图的每个均值,确定每个预测层对应的特征图的通道权重;通过预设归一化函数对每个通道权重的最大值进行归一化操作,获得每个通道权重的相关系数。

在一些可能的实施方式中,该装置还包括:增强模块,用于通过预设的增强系数对最终通道权值进行增强,获得增强后的最终通道权值。

在一些可能的实施方式中,加权模块,还用于通过增强后的最终通道权值分别对特征图的每个通道进行增强,获得增强后的特征图。

第三方面,本发明提供了一种电子设备,包括:存储器,存储有计算机可执行指令;处理器,与存储器相连,用于通过执行计算机可执行指令,以实现如本发明第一方面及其可能的实施方式的方法。

第四方面,本发明提供了一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行后,能够实现如本发明第一方面及其可能的实施方式的方法。

本发明实施例提供的技术方案与现有技术相比存在的有益效果是:

在本发明中,通过将目标类别的预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息,通过对梯度信息进行处理,对每个预测层对应的特征图进行加权,获得增强后的特征图,将增强后的特征图输入目标检测网络获得增强后的目标检测结果。如此,通过对现有网络特征图的增强,不需要改变网络结构,从而在不重新训练的情况下,提升了特定目标类别识别能力的同时,还减少了重新训练网络带来的额外成本。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1为本发明实施例提供的一种梯度引导特征激活的单类别目标感知自增强方法的流程示意图;

图2为本发明实施例提供的一种梯度引导特征激活的单类别目标感知自增强方法的结构示意图;

图3a为利用现有的目标检测网络进行目标检测的特征图热力图;

图3b为通过本发明提供的梯度引导特征激活的单类别目标感知自增强方法进行目标检测的特征图热力图;

图4为本发明实施例中的一种梯度引导特征激活的单类别目标感知自增强装置的结构示意图;

图5为本发明实施例中的一种电子设备结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络凭借其出色的特征提取能力,已经成为当前目标检测算法的主要选择。在多类别目标检测网络的训练过程中,卷积神经网络通常会同时关注多个类别的特征。然而,在执行检测任务时,为了平衡全类别检测的性能,某些单类别的特征信息往往会受到其他类别特征信息的抑制。这导致在重点关注特定类别时,网络的检测性能会有所下降。

目前采用的方法主要是:基于注意力机制的调整策略以及类别平衡技术,或者是对训练集中类别的数据增强。但是现有的技术方案均需要调整网络结构重新进行训练,不可避免的会带来额外的成本负担,对特定类别的目标识别效率低。

有鉴于此,本发明实施例提供一种梯度引导特征激活的单类别目标感知自增强方法,以解决上述问题。

参见图1所示,图1为本发明实施例提供的一种梯度引导特征激活的单类别目标感知自增强方法的流程示意图,下面将结合图1示出的步骤进行说明。

S101,确定目标图像的待检测目标类别;

其中,目标类别为目标图像的图像内容中包含的内容的类别,目标类别的选择可以基于实际应用过程中的业务需求进行选择。例如,一个目标图像的图像内容包含有人、树、车等内容,此时,若需要在目标图像中检测识别出人,那么目标类别便可以是人;若需要在目标图像中检测识别出车,那么目标类别便可以是车。

S102,将目标图像输入目标检测网络进行第一次前向传播,获取目标检测网络的预测层对应的目标类别的预测分数;其中,目标检测网络包括多个预测层;

需要说明的是,前向传播是将输入数据通过神经网络模型得到输出的过程,这个过程中,输入数据会从输入层逐层经过隐藏层,最后到达输出层,每一层的计算都会对数据进行一定的处理以得到下一层的输入。本发明实施例中,目标检测网络可以是经过训练的深度神经网络。通过本发明中的目标检测网络在对输入图像数据进行目标检测过程中,通过将目标图像数据输入神经网络模型,对输入数据进行逐层处理后,在目标检测网络的预测层可以获得输入图像数据的特征图,且前向传播过程中会在每个特征图上得到一系列的候选框及其对应的置信度。通过目标检测网络,可以输出包括回归预测参数、各候选框的置信度以及候选框中各类别的预测分数等数据,也就是说,获取目标类别的预测分数,就是获取每个候选框中对应的目标类别的预测分数。

可以理解的,候选框的作用谁用于在特征图中提供包含目标内容的边界框,以供后续的分类和定位精炼。在每个候选框中对于目标图像的每个类别都存在对应的预测分数,那么每个候选框中预测分数最高的类别证明该候选框为该类别的特征的可能性更大。本发明实施例中,为了识别出目标类别,可以只针对目标类别的预测最大的候选框进行处理。

基于此,在一些实施例中,在执行上述步骤S103之前,该方法还可以包括以下步骤:

S1021,获取所述第一次前向传播输出的用于定位所述特征图的候选框和所述候选框的置信度;

S1022,根据所述目标类别从所述候选框中选取目标候选框;

具体的,每个候选框针对每个类别都会获得对应类别的预测分数,从候选框中选取目标候选框,便可以是,在候选框中选择目标类别的预测分数最高的候选框,作为目标候选框。

S1023,根据所述目标候选框的数量和/或所述目标候选框的置信度,从所述目标候选框中选取增强候选框。

可以理解的,候选框的置信度是指该候选框与真实类别的匹配程度,候选框的置信度越高,该候选框越可能是真实的目标类别。因此,为了提高目标候选框为目标类别的可能性,可以从目标候选框中选择置信度更高的候选框作为增强候选框用于后续的数据处理。

示例性的,从目标候选框中选择增强候选框可以是选择置信度前85%的目标候选框作为增强候选框。或者为了提高数据的准确性,也可以选择置信度前70%的目标候框作为增强候选框。

在一些实施例中,当所有目标候选框的置信度都比较大时,说明每个目标候选框为目标类别的可能性都比较大,如此,可以将所有目标候选框都作为增强候选框。例如,在所有目标候选框的置信度中最小的置信度大于0.4时,将所有目标候选框作为增强候选框。

另外,为了减少由于增强候选框数量过少而导致的最终目标检测结果不准确的情况,在选择增强候选框时还可以考虑目标候选框的数量。

示例性的,为了保证增强候选框的数量,在目标候选框的数量小于10个时,将所有目标候选框作为增强候选框。

S103,将预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息;

在一些实施例中,上述步骤S103可以包括:

S1031,根据链式求导法则将增强候选框中的目标类别的预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息。

可以理解的,在神经网络中,预测分数是通过前向传播计算出来的。前向传播过程中,输入数据通过网络中的一系列层进行处理,每层都会对输入数据进行一些计算,然后将结果传递到下一层。这个过程会一直进行,直到生成预测分数。当有了预测分数后,便可以计算出预测错误即损失。然后,通过链式求导法则,将这个预测错误反向传播到网络中的每一层,从而得到每一层的梯度,也就是反向传播。

在一些实施例中,预测层对应的目标图像的特征图的梯度信息可以通过公式(1)表示:

其中,A'

S104,根据梯度信息确定每个预测层对应的特征图的通道权重以及每个通道权重的相关系数;

在一些实施例中,上述步骤S104可以包括:

S1041,确定每个预测层对应的特征图在每个通道上梯度信息的均值;

S1042,根据每个预测层对应的特征图的每个均值,确定每个预测层对应的特征图的通道权重;

S1043,通过预设归一化函数对每个通道权重的最大值进行归一化操作,获得每个通道权重的相关系数。

可以理解的,每个特征图上可以包括多个通道,每个通道可以对应特征图上的一个类别,而在每个通道上对对应的特征图的梯度信息求均值,便能够分别获得多个通道对应的均值。如此,每个通道权重便可以包括多个通道对应的均值,由这些均值组成通道权重的权重向量。

在一些实施例中,每个预测层对应的特征图的通道权重可以通过公式(2)表示:

其中,

在通过上述公式(2)获得每个预测层对应的通道权重后,对每个通道权重对应的权重向量取最大值,通过归一化函数对多个最大值进行归一化操作,便可以得到每个通道权重的相关系数。

在一些实施例中,归一化函数可以是softmax函数,每个通道权重的相关系数可以通过公式(3)表示:

其中,

其中,x

S105,根据通道权重以及相关系数,确定特征图的最终通道权值;

在一些实施例中,可以通过norm函数对通道权重以及相关系数进行加权,得到特征图的最终通道权值。norm函数可以通过公式(5)表示:

其中,norm()为最大最小值归一化函数,y为norm函数的参数,min(y)为y的最小值,max(y)为y的最大值。

在一些实施例中,特征图的最终通道权值可以通过公式(6)表示:

其中,

S106,通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图;

可以理解的,为了增加目标检测网络的收敛速度,可以通过超参数作为增强系数对最终通道权值进行增强。

基于此,在一些实施例中,在执行上述步骤S106之前,可以通过预设的增强系数对所述最终通道权值进行增强,获得增强后的最终通道权值。

示例性的,增强后的最终通道权值可以通过公式(7)表示:

其中,γ为超参数,γ的取值为1至2。

基于此,上述步骤S106可以包括:

步骤S1061,通过增强后的最终通道权值分别对特征图的每个通道进行增强,获得增强后的特征图。

在一些实施例中,增强后的特征图的每个通道可以通过公式(8)表示:

其中,C为通道数,

S107,将增强后的特征图输入目标检测网络进行第二次前向传播,获得增强后的目标检测结果。

本发明实施例中,通过将目标类别的预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息,通过对梯度信息进行处理,对每个预测层对应的特征图进行加权,获得增强后的特征图,将增强后的特征图输入目标检测网络获得增强后的目标检测结果。如此,通过对现有网络特征图的增强,不需要改变网络结构,从而在不重新训练的情况下,提升了特定目标类别识别能力的同时,还减少了重新训练网络带来的额外成本。

以下通过一个具体的实施例对上述方法进行说明:

图2为本发明实施例提供的一种梯度引导特征激活的单类别目标感知自增强方法的结构示意图,参见图2所示:目标检测网络包括特征提取主干网络和多尺度目标检测头,将目标图像输入目标检测网络后,通过主干网络提取目标图像的类型特征,送入目标检测头进行预测,得到n个预测层的输出,也就是步骤S102中的第一次前向传播过程。之后对每个预测层对应的目标类别k进行梯度回传,得到n个特征图A

图3为本发明实施例提供的一种梯度引导特征激活的单类别目标感知自增强方法的效果示意图,图3为采用超轻量无人机目标检测网络且预测结果中屏蔽了其余无关类别结果。其中,图3a为利用现有的目标检测网络进行目标检测的特征图热力图,图3b为通过本发明提供的梯度引导特征激活的单类别目标感知自增强方法进行目标检测的特征图热力图。图3b中,增强系数γ的取值为1.5。通过对比图3a和图3b,可以直观的看到,经过本发明提供的目标检测方法增强后网络整体注意力更加集中在待检测目标类别的周围,原本置信度较高结果变化较小,置信度处于阈值附近的目标类别加强效果明显,且经过增强后,在最终预测结果中还原了原本网络有注意到但最终未框选目标类别。

本发明实施例中,通过将目标类别的预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息,通过对梯度信息进行处理,对每个预测层对应的特征图进行加权,获得增强后的特征图,将增强后的特征图输入目标检测网络获得增强后的目标检测结果。如此,通过对现有网络特征图的增强,不需要改变网络结构,从而在不重新训练的情况下,提升了特定目标类别识别能力的同时,还减少了重新训练网络带来的额外成本。

图4为本发明实施例中的一种梯度引导特征激活的单类别目标感知自增强装置的结构示意图,参见图4所示,该装置400可以包括:

第一确定模块401,用于确定目标图像的待检测目标类别;

第一前向传播模块402,用于将目标图像输入目标检测网络进行第一次前向传播,获取目标检测网络的预测层对应的目标类别的预测分数;其中,目标检测网络包括多个预测层;

梯度回传模块403,用于将预测分数进行梯度回传,获得每个预测层对应的目标图像的特征图的梯度信息;

第二确定模块404,用于根据梯度信息确定每个预测层对应的特征图的通道权重以及每个通道权重的相关系数;

第三确定模块405,用于根据通道权重以及相关系数,确定特征图的最终通道权值;

加权模块406,用于通过最终通道权值对预测层对应的特征图进行加权,获得增强后的特征图;

第二前向传播模块407,用于将增强后的特征图输入目标检测网络进行第二次前向传播,获得增强后的目标检测结果。

在一些可能的实施方式中,该装置还包括:第一获取模块,用于获取第一次前向传播输出的用于定位特征图的候选框和候选框的置信度;第一选取模块,用于根据目标类别从候选框中选取目标候选框;第二选取模块,用于根据目标候选框的数量和/或目标候选框的置信度,从目标候选框中选取增强候选框。

在一些可能的实施方式中,梯度回传模块,还用于根据链式求导法则将增强候选框中的目标类别的预测分数进行梯度回传,获得预测层对应的目标图像的特征图的梯度信息。

在一些可能的实施方式中,第二确定模块,还用于确定每个预测层对应的特征图在每个通道上梯度信息的均值;根据每个预测层对应的特征图的每个均值,确定每个预测层对应的特征图的通道权重;通过预设归一化函数对每个通道权重的最大值进行归一化操作,获得每个通道权重的相关系数。

在一些可能的实施方式中,该装置还包括:增强模块,用于通过预设的增强系数对最终通道权值进行增强,获得增强后的最终通道权值。

在一些可能的实施方式中,加权模块,还用于通过增强后的最终通道权值分别对特征图的每个通道进行增强,获得增强后的特征图。

基于相同的发明构思,本发明实施例提供一种电子设备,该电子设备可以与上述一个或者多个实施例中所述的梯度引导特征激活的单类别目标感知自增强方法一致。图5为本发明实施例中的一种电子设备结构示意图,参见图5所示,电子设备500,可以采用通用的计算机硬件,包括处理器501、存储器502

基于相同的发明构思,本发明提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行后,能够实现如上述一个或者多个实施例所述的梯度引导特征激活的单类别目标感知自增强方法。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

技术分类

06120116334886