掌桥专利:专业的专利平台
掌桥专利
首页

目标检测方法及装置

文献发布时间:2024-04-18 19:59:31


目标检测方法及装置

技术领域

本公开涉及图像处理技术领域,尤其涉及一种目标检测方法及装置。

背景技术

目标检测,是计算机视觉领域重要且具有挑战性的分支之一。它在人们生活中得到了广泛的应用,如监控安全、自动驾驶等。目标检测的任务是定位某一类语义对象的实例。

目前,在实际场景中,由于图像中经常会出现不同尺度的目标,因此需要融合多尺度的特征进行检测或分割。现有的特征融合方式如FPN(Feature Pyramid Network,特征金字塔网络)等,通常直接将多尺度的特征进行从深到浅的融合。

然而,由于现有技术中的特征融合方式没有经过特征筛选,因此得到的特征比较粗略,难以适应复杂的场景,导致检测的准确率较低。

发明内容

鉴于此,为解决上述部分或全部技术问题,本公开实施例提供一种目标检测方法及装置。

第一方面,本公开实施例提供一种目标检测方法,上述方法包括:

获取待检测图像;

对所述待检测图像进行多尺度特征提取,得到第一特征集合;

对所述第一特征集合进行多尺度特征融合,得到第二特征集合;

采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合;

基于所述第三特征集合,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合,包括:

获取目标卷积核集合,其中,所述目标卷积核集合中包括多个目标卷积核、且各个目标卷积核的参数通过随机初始化后训练获得;

针对所述第二特征集合中的每个第二特征,采用多个目标卷积核分别执行如下处理:

采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,其中,所述多个第四特征与所述多个目标卷积核一一对应;

将所述多个第四特征进行连接,得到所述第二特征对应的第三特征。

在一个可能的实施方式中,所述采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,包括:

采用每个所述目标卷积核执行以下处理:

基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征;

对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征;

对所述第二特征的增强特征进行维度变换,生成所述第二特征对应的第四特征。

在一个可能的实施方式中,所述目标卷积核集合包括第一卷积核集合和第二卷积核集合;以及

所述基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征,包括:

针对每个所述第一卷积核执行以下处理:

采用所述第一卷积核,对所述第二特征进行降维,得到所述第二特征对应的第五特征;

针对每个所述第二卷积核执行以下处理:

采用所述第二卷积核,对所述第二特征对应的第五特征进行特征提取,得到所述第二特征对应的第六特征;

对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征;

基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征,包括:

对所述第二特征对应的第六特征进行维度变换,得到第一变换特征、第二变换特征和第三变换特征;

将所述第一变换特征、所述第二变换特征和所述第三变换特征,作为所述第二特征对应的第七特征。

在一个可能的实施方式中,所述基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征,包括:

确定所述第一变换特征和所述第二变换特征的第一乘积;

将所述第一乘积,确定为所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征,包括:

确定所述注意力特征和所述第三变换特征的第二乘积;

将所述第二乘积,确定为所述第二特征的增强特征。

在一个可能的实施方式中,所述基于所述第三特征集合,对所述待检测图像进行目标检测,包括:

对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征;

基于所述目标特征,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征,包括:

从所述第三特征集合中,确定尺度最小的第三特征;

对所述尺度最小的第三特征进行特征提取,得到所述第三特征集合中尺度次小的第三特征对应的融合特征;

将所述第三特征集合中,除所述尺度最小的第三特征之外的其他第三特征的集合,确定为第三特征子集;

按照尺度由小到大的顺序,依次针对所述第三特征子集中的各个第三特征执行如下计算处理:

计算所述第三特征与所述第三特征对应的融合特征相加的结果;

在所述第三特征并非所述第三特征子集中尺度最大的第三特征的情况下,将所述结果确定为下次执行所述计算处理的所述第三特征对应的融合特征;

在所述第三特征为所述第三特征子集中尺度最大的第三特征的情况下,将所述尺度次小的第三特征对应的融合特征,以及各次执行所述计算处理得到的结果,分别插值至预设尺寸,得到插值特征集合;

对所述插值特征集合中的各个插值特征进行特征融合,得到所述待检测图像的目标特征。

第二方面,本公开实施例提供一种目标检测装置,上述装置包括:

获取单元,用于获取待检测图像;

提取单元,用于对所述待检测图像进行多尺度特征提取,得到第一特征集合;

融合单元,用于对所述第一特征集合进行多尺度特征融合,得到第二特征集合;

处理单元,用于采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合;

检测单元,用于基于所述第三特征集合,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合,包括:

获取目标卷积核集合,其中,所述目标卷积核集合中包括多个目标卷积核、且各个目标卷积核的参数通过随机初始化后训练获得;

针对所述第二特征集合中的每个第二特征,采用多个目标卷积核分别执行如下处理:

采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,其中,所述多个第四特征与所述多个目标卷积核一一对应;

将所述多个第四特征进行连接,得到所述第二特征对应的第三特征。

在一个可能的实施方式中,所述采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,包括:

采用每个所述目标卷积核执行以下处理:

基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征;

对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征;

对所述第二特征的增强特征进行维度变换,生成所述第二特征对应的第四特征。

在一个可能的实施方式中,所述目标卷积核集合包括第一卷积核集合和第二卷积核集合;以及

所述基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征,包括:

针对每个所述第一卷积核执行以下处理:

采用所述第一卷积核,对所述第二特征进行降维,得到所述第二特征对应的第五特征;

针对每个所述第二卷积核执行以下处理:

采用所述第二卷积核,对所述第二特征对应的第五特征进行特征提取,得到所述第二特征对应的第六特征;

对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征;

基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征,包括:

对所述第二特征对应的第六特征进行维度变换,得到第一变换特征、第二变换特征和第三变换特征;

将所述第一变换特征、所述第二变换特征和所述第三变换特征,作为所述第二特征对应的第七特征。

在一个可能的实施方式中,所述基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征,包括:

确定所述第一变换特征和所述第二变换特征的第一乘积;

将所述第一乘积,确定为所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征,包括:

确定所述注意力特征和所述第三变换特征的第二乘积;

将所述第二乘积,确定为所述第二特征的增强特征。

在一个可能的实施方式中,所述基于所述第三特征集合,对所述待检测图像进行目标检测,包括:

对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征;

基于所述目标特征,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征,包括:

从所述第三特征集合中,确定尺度最小的第三特征;

对所述尺度最小的第三特征进行特征提取,得到所述第三特征集合中尺度次小的第三特征对应的融合特征;

将所述第三特征集合中,除所述尺度最小的第三特征之外的其他第三特征的集合,确定为第三特征子集;

按照尺度由小到大的顺序,依次针对所述第三特征子集中的各个第三特征执行如下计算处理:

计算所述第三特征与所述第三特征对应的融合特征相加的结果;

在所述第三特征并非所述第三特征子集中尺度最大的第三特征的情况下,将所述结果确定为下次执行所述计算处理的所述第三特征对应的融合特征;

在所述第三特征为所述第三特征子集中尺度最大的第三特征的情况下,将所述尺度次小的第三特征对应的融合特征,以及各次执行所述计算处理得到的结果,分别插值至预设尺寸,得到插值特征集合;

对所述插值特征集合中的各个插值特征进行特征融合,得到所述待检测图像的目标特征。

第三方面,本公开实施例提供一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行上述存储器中存储的计算机程序,且上述计算机程序被执行时,实现本公开上述第一方面的目标检测方法中任一实施例的方法。

第四方面,本公开实施例提供一种计算机可读存储介质,该计算机程序被处理器执行时,实现如上述第一方面的目标检测方法中任一实施例的方法。

第五方面,本公开实施例提供一种计算机程序,该计算机程序包括计算机可读代码,当该计算机可读代码在设备上运行时,使得该设备中的处理器执行用于实现如上述第一方面的目标检测方法中任一实施例的方法中各步骤的指令。

本公开实施例提供的目标检测方法,通过获取待检测图像之后,对待检测图像进行多尺度特征提取,得到第一特征集合,然后,对第一特征集合进行多尺度特征融合,得到第二特征集合,随后,采用多头通道注意力算法,对第二特征集合中的各个第二特征进行处理,得到第三特征集合,最后,基于第三特征集合,对待检测图像进行目标检测。由此方法,采用多头通道注意力算法进行特征筛选得到第三特征集合,并基于第三特征集合,对待检测图像进行目标检测,可以提高目标检测的准确度。

附图说明

图1为本公开实施例提供的一种目标检测方法的流程示意图;

图2为本公开实施例提供的一种第三特征集合的确定过程的流程示意图;

图3A为本公开实施例提供的一种第四特征的确定过程的流程示意图;

图3B为本公开实施例的一个应用场景示意图;

图3C为针对图3B的应用场景中的第三特征集合的确定过程的流程示意图;

图3D为针对图3B的应用场景中的第三特征的确定过程的流程示意图;

图3E为针对图3B的应用场景中的目标特征的确定过程的流程示意图;

图4为本公开实施例提供的一种目标检测装置的结构示意图;

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。

本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象,既不代表任何特定技术含义,也不表示它们之间的逻辑顺序。

还应理解,在本实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。

还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。

另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,上述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。为便于对本公开实施例的理解,下面将参考附图并结合实施例来详细说明本公开。显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

图1为本公开实施例提供的一种目标检测方法的流程示意图。如图1所示,该方法具体包括:

101、获取待检测图像。

在本实施例中,待检测图像,可以是待对其进行目标检测的图像。其中,待检测图像中的目标可以是文本、预设图像等。

102、对待检测图像进行多尺度特征提取,得到第一特征集合。

在本实施例中,多尺度特征提取,也即对待检测图像进行不同尺度(也即尺寸)的缩放后,对各个尺度的图像分别提取特征。

其中,每个尺度,可以对应第一特征集合中的一个第一特征。

作为示例,可以对待检测图像进行4个尺度的特征提取,从而得到包含4个第一特征的第一特征集合。

上述第一特征,可以采用特征图的方式表征。

具体地,以文本检测(也即上述目标为文本)为例,参照图3B-图3E,对本实施例进行示例性说明:

如图3B所示,图3B为本公开实施例的一个应用场景示意图。在图3B中,可以将输入图像(也即上述待检测图像)输入Backbone(主干网络)进行特征提取,得到不同层级的特征,从而获得第一特征集合。因为Backbone是金字塔的结构(如ResNet等),因此可以在其中抽取4个不同大小的特征图(也即上述第一特征集合)。假设输入的待检测图像的尺寸为640×640,则可以分别抽取4个大小为160×160、80×80、40×40、20×20的特征图,从而获得包含4个第一特征的第一特征集合。

其中,上述Backbone,表示一种深度学习主干网络,用于提取图像特征,如ResNet、MobileNet(均为深度学习网络)等。

下面返回图1。

103、对第一特征集合进行多尺度特征融合,得到第二特征集合。

在本实施例中,可以采用向量或矩阵加法,或者,采用拼接的方式,对第一特征集合进行多尺度特征融合,从而得到第二特征集合。

其中,第二特征集合中的第二特征的数量,可以大于、小于或等于第一特征集合中的第一特征的数量。

作为示例,继续参照图3C,图3C为针对图3B的应用场景中的第三特征集合的确定过程的流程示意图。在图3C中,假设第一特征集合包含第一特征C2、第一特征C3、第一特征C4、第一特征C5。其中,第一特征C2的分辨率为160×160,第一特征C3的分辨率为80×80,第一特征C4的分辨率为40×40,第一特征C4的分辨率为20×20。在此基础上,可以采用如下方式,来执行上述步骤103:

首先,第一特征C5通过一层卷积(卷积核尺寸可以为3×3)进行特征提取,得到第二特征P5。

之后,第二特征P5通过Upsample(上采样)层进行上采样,大小变为40×40,然后和第一特征C4相加得到第二特征P4。

然后,第二特征P4通过Upsample层进行上采样,大小变为80×80,然后和第一特征C3相加得到第二特征P3。

最后,第二特征P3通过Upsample层进行上采样,大小变为160×160,然后和第二特征C2相加得到第二特征P2。

由此,可以获得包括第二特征P2、第二特征P3、第二特征P4和第二特征P5的第二特征集合。

下面返回图1。

104、采用多头通道注意力算法,对第二特征集合中的各个第二特征进行处理,得到第三特征集合。

在本实施例中,可以采用多头通道注意力(MHCA,multi-head channelattention)算法,对第二特征集合中的各个第二特征分别进行处理,得到第三特征集合。其中,第三特征集合中的第三特征,可以与第二特征集合中的第二特征一一对应。

作为示例,如图3C所示,采用通道注意力算法,对第二特征P2进行处理,得到第三特征P2+;采用通道注意力算法,对第二特征P3进行处理,得到第三特征P3+;采用通道注意力算法,对第二特征P4进行处理,得到第三特征P4+;采用通道注意力算法,对第二特征P5进行处理,得到第三特征P5+。由此,获得包括第三特征P2+、第三特征P3+、第三特征P4+、第三特征P5+的第三特征集合。

这里,如何采用多头通道注意力算法,对第二特征集合中的各个第二特征进行处理,得到第三特征集合,请参照后续描述,在此暂不赘述。

需要说明的是,在本公开的启示下,还可以采用除本公开记载之外的其他方式,来执行上述步骤104,在此不再赘述。

105、基于第三特征集合,对待检测图像进行目标检测。

在本实施例的一些可选的实现方式中,可以采用如下方式,来执行上述步骤105:

第一步,对第三特征集合进行多尺度特征融合,得到待检测图像的目标特征。

这里,可以采用向量或矩阵加法,或者,采用拼接的方式,对第三特征集合进行多尺度特征融合,获得融合结果,将该融合结果作为待检测图像的目标特征。

第二步,基于目标特征,对待检测图像进行目标检测。

作为示例,如图3B所示,可以将目标特征(Feature Map)输入至解码器(Decoder),从而获得包括待检测图像的中的文本的文本框,以便对待检测图像进行目标检测。

可以理解,上述可选的实现方式中,通过对第三特征集合中的各个第三特征进行多尺度特征融合,并将融合结果(也即目标特征)应用于目标检测,进一步提高了目标检测的准确度。

在上述可选的实现方式中的一些应用场景下,可以采用如下方式(包括步骤一至步骤六),来执行上述第一步:

步骤一,从第三特征集合中,确定尺度最小的第三特征。其中,尺度越小的特征(包括第三特征)图中的单个像素点所对应的待检测图像中的像素点的数量越少,尺度越小的特征(包括第三特征)图包含的像素点的数量越多。

步骤二,对尺度最小的第三特征进行特征提取,得到第三特征集合中尺度次小的第三特征对应的融合特征。也即,第三特征集合中尺度次小的第三特征对应的融合特征即为:对尺度最小的第三特征进行特征提取的结果。

步骤三,将第三特征集合中,除尺度最小的第三特征之外的其他第三特征的集合,确定为第三特征子集。

步骤四,按照尺度由小到大的顺序,依次针对第三特征子集中的各个第三特征执行如下计算处理(包括子步骤一和子步骤二):

子步骤一,计算第三特征与第三特征对应的融合特征相加的结果。

子步骤二,在第三特征并非第三特征子集中尺度最大的第三特征的情况下,将结果确定为下次执行计算处理的第三特征对应的融合特征。

这里,上述计算处理的执行次数,比第三特征子集中的第三特征的数量少1。

由此,可以分别得到第三特征子集中的各个第三特征的融合特征,以及尺度最大的第三特征与该尺度最大的第三特征对应的融合特征相加的结果。

作为示例,可以参照图3C,在图3C中,尺度最小的第三特征P2+经过一层卷积进行特征提取,得到尺度次小的第三特征P3+对应的融合特征F2。融合特征F2通过stride(步长)为2的卷积层进行下采样,大小变为80×80,然后和第三特征P3+相加得到融合特征F3。融合特征F3通过stride为2的卷积层进行下采样,大小变为40×40,然后和第三特征P4+相加得到融合特征F4。融合特征F4通过stride为2的卷积层进行下采样,大小变为20×20,然后和第三特征P5+相加得到尺度最大的第三特征对应的融合特征相加的结果F5。

步骤五,在第三特征为第三特征子集中尺度最大的第三特征的情况下,将尺度次小的第三特征对应的融合特征,以及各次执行计算处理得到的结果,分别插值至预设尺寸,得到插值特征集合。

继续上述示例,可以将尺度次小的第三特征对应的融合特征F2,以及各次执行计算处理得到的结果F3、F4和F5插值到160×160的尺寸(也即上述预设尺寸),得到插值特征集合。

步骤六,对插值特征集合中的各个插值特征进行特征融合,得到待检测图像的目标特征。

作为示例,插值特征集合可以通过一层卷积进行融合,得到多尺度融合后的高维特征(也即上述目标特征,Feature Map)。该特征包含了不同尺度的信息,可以用于不同尺度的文本检测。如图3B所示,该高维特征可以输入至Decoder(解码器)模块。Decoder包含一层卷积和两层反卷积,可以将图像从160×160的尺寸变为640×640的原图(也即上述待检测图像)大小,最终得到文本概率图。然后寻找文本概率图中的连通域,可以得到最终的文本框。

可以理解,上述应用场景下,通过对不同尺度的第三特征进行特征提取、相加、插值等处理,利用所得到的目标特征进行目标检测,进一步提高了目标检测的准确度。

本公开实施例提供的目标检测方法,通过获取待检测图像,之后,对待检测图像进行多尺度特征提取,得到第一特征集合,然后,对第一特征集合进行多尺度特征融合,得到第二特征集合,随后,采用多头通道注意力算法,对第二特征集合中的各个第二特征进行处理,得到第三特征集合,最后,基于第三特征集合,对待检测图像进行目标检测。由此方法,采用多头通道注意力算法,进行特征筛选得到第三特征集合,并基于第三特征集合,对待检测图像进行目标检测,可以提高目标检测的准确度。

图2为本公开实施例提供的一种第三特征集合的确定过程的流程示意图。如图2所示,该方法具体包括:

201、获取目标卷积核集合,其中,目标卷积核集合中包括多个目标卷积核、且各个目标卷积核的参数通过随机初始化后训练获得。

202、针对第二特征集合中的每个第二特征,采用多个目标卷积核分别执行如下处理(包括步骤211和步骤212):

211、采用多个目标卷积核,分别针对第二特征执行卷积处理,得到多个第四特征,其中,多个第四特征与多个目标卷积核一一对应。

212、将多个第四特征进行连接,得到第二特征对应的第三特征。

作为示例,请参照图3D,图3D为针对图3B的应用场景中的第三特征的确定过程的流程示意图。

在图3D中,以第二特征P2为例,采用多个目标卷积核分别对第二特征P2执行上述步骤211和步骤212。通过多个(图示中为3个)目标卷积核分别针对第二特征P2执行卷积处理,得到多个(图示中为3个)第四特征(也即图3E中的Channel Attention)。图3D中,每个目标卷积核包括一个1×1卷积核和一个3×3卷积核。

之后,将多个第四特征进行连接,得到第二特征P2对应的第三特征P2+(也即图3D中的FeatureMap)。

可以理解,获得第二特征P3对应的第三特征P3+、第二特征P4对应的第三特征P4+、第二特征P5对应的第三特征P5+的方式,可以参考以上获得第二特征P2对应的第三特征P2+的执行方式,在此不再赘述。

需要说明的是,除以上所记载的内容之外,本实施例还可以包括与图1对应的实施例中所描述的技术特征,进而实现图1所示目标检测方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。

还需要说明的是,在本公开的启示下,还可以采用除本公开记载之外的其他方式,来执行上述步骤211,在此不再赘述。

本公开实施例提供的目标检测方法,通过将多个第四特征进行连接,以实现对第二特征的特征增强,从而可以进一步提高目标检测的准确度。

图3A为本公开实施例提供的一种第四特征的确定过程的流程示意图。本方法可以应用于智能手机、笔记本电脑、台式电脑、便携式计算机、服务器等一个或多个电子设备上。此外,本方法的执行主体可以是硬件,也可以是软件。当上述执行主体为硬件时,该执行主体可以为上述电子设备中的一个或多个。例如,单个电子设备可以执行本方法,或者,多个电子设备可以彼此配合来执行本方法。当上述执行主体为软件时,本方法可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不作具体限定。

具体而言,如图3A所示,该方法具体包括:

301、采用每个目标卷积核执行以下处理(包括步骤311-步骤313):

311、基于第二特征和目标卷积核,确定第二特征的注意力特征(Attention Map)。

在本实施例的一些可选的实现方式中,目标卷积核集合包括第一卷积核集合和第二卷积核集合。也即,每个目标卷积核包括一个第一卷积核和一个第二卷积核。第一卷积核与第二卷积核的尺寸不同。

在此基础上,可以采用如下方式,执行上述步骤311:

首先,针对每个第一卷积核执行以下步骤一:

步骤一,采用第一卷积核,对第二特征进行降维,得到第二特征对应的第五特征。其中,第二特征对应的第五特征,可以是采用第一卷积核,对第二特征进行降维而获得的结果。

这里,通过执行步骤一所获得的第二特征对应的第五特征的数量,与第一卷积核中的第一卷积核的数量,可以相等。

之后,针对每个第二卷积核执行以下步骤二至步骤四:

步骤二,采用第二卷积核,对第二特征对应的第五特征进行特征提取,得到第二特征对应的第六特征。其中,第二特征对应的第六特征,可以是采用第二卷积核,对第二特征对应的第五特征进行特征提取所获得的结果。

这里,该步骤二中获得的第六特征的数量,与上述步骤一中获得的第五特征的数量,可以相等。该步骤二中获得的第六特征,与上述步骤一中获得的第五特征,一一对应。

步骤三,对第二特征对应的第六特征进行维度变换,得到第二特征对应的第七特征。其中,第二特征对应的第七特征,可以是对第二特征对应的第六特征进行维度变换而得到的结果。

这里,该步骤三中获得的第七特征的数量,与上述步骤二中获得的第六特征的数量,可以相等。该步骤三中获得的第七特征,与上述步骤二中获得的第六特征,一一对应。

步骤四,基于第二特征对应的第七特征,生成第二特征的注意力特征(AttentionMap)。

可以理解,上述可选的实现方式中,通过采用第一卷积核,对第二特征进行降维,得到第二特征对应的第五特征,然后,采用第二卷积核,对第二特征对应的第五特征进行特征提取,得到第二特征对应的第六特征,之后,对第二特征对应的第六特征进行维度变换,得到第二特征对应的第七特征,随后,基于第二特征对应的第七特征,生成第二特征的注意力特征,进而基于多个注意力特征进行拼接而获得的特征进行目标检测,由此,可以进一步提高目标检测的准确度。

在上述可选的实现方式中的一些应用场景下,可以采用如下方式执行上述步骤三:

首先,对第二特征对应的第六特征分别进行维度变换,分别得到第一变换特征、第二变换特征和第三变换特征。

其中,第一变换特征的维度、第二变换特征的维度、第三变换特征的维度可以分别为预先确定的不同维度。作为示例,第一变换特征的维度可以是25600×C,第二变换特征的维度可以是C×25600,第三变换特征的维度可以是25600×C。其中,C为通道数。

这里,第二特征对应的第六特征的数量为3,也即目标卷积核集合的基数为3。但需要说明的是,本实施例中,第二特征对应的第六特征的数量也可以是其他数值。

之后,将第一变换特征、第二变换特征和第三变换特征,作为第二特征对应的第七特征。

需要说明的是,在本公开的启示下,还可以采用除本公开记载之外的其他方式,来执行上述步骤三和/或步骤四,在此不再赘述。

可以理解,上述应用场景中,通过对第二特征对应的第六特征进行维度变换而得到的第一变换特征、第二变换特征和第三变换特征,来进行目标检测,进一步提高了目标检测的准确度。

在上述应用场景中的一些情况中,可以采用如下方式执行上述步骤四:

首先,确定第一变换特征和第二变换特征的第一乘积。其中,第一乘积,可以是第一变换特征和第二变换特征的乘积。

之后,将第一乘积,确定为第二特征的注意力特征。

可以理解,上述情况中,将第一变换特征和第二变换特征的乘积,作为第二特征的注意力特征,可以进一步提高目标检测的准确度。

312、对第二特征的注意力特征进行特征增强,生成第二特征的增强特征。

在上述情况中的一些示例中,可以采用如下方式,执行上述步骤312:

首先,确定注意力特征和第三变换特征的第二乘积。其中,第二乘积,可以是注意力特征和第三变换特征的乘积。

之后,将第二乘积,确定为第二特征的增强特征。

可以理解,上述示例中,通过将注意力特征和第三变换特征的乘积,确定为第二特征的增强特征,可以进一步提高目标检测的准确度。

313、对第二特征的增强特征进行维度变换,生成第二特征对应的第四特征。

作为示例,请继续参照图3D。在图3D中,第二特征P2分别通过三个1×1卷积(第一卷积核)进行降维,得到第二特征P2对应的第五特征,然后,第五特征通过3x3卷积(第二卷积核)进行特征提取,得到第二特征P2对应的第六特征Q、第六特征K、第六特征V。此时的第六特征的大小为160×160×C。其中,C为通道数。

接下来,第六特征Q、第六特征K、第六特征V通过维度变换(Reshape)模块改变维度。其中,第六特征Q的维度变为25600×C,第六特征K的维度变为C×25600,第六特征V的维度变为25600×C。

之后,第六特征Q和第六特征K进行矩阵乘积得到维度为25600×25600的注意力特征(Attention Map)。

第六特征V乘以注意力特征得到增强后的特征,也即增强特征。其中,增强特征的维度为25600×C。

随后,经过维度变换(Reshape)模块还原回160×160×C维度,得到第四特征(即图3D中的FeaturMap也即图3E中的Channel Attention)。

为了实现多头,如图3E所示,多个第四特征连接在一起,形成第二特征P2的高维特征图,也即第三特征P2+。

需要说明的是,除以上所记载的内容之外,本实施例还可以包括与图1和/或图2对应的实施例中所描述的技术特征,进而实现图1和/或图2所示目标检测方法的技术效果,具体请参照图1和/或图2相关描述,为简洁描述,在此不作赘述。

还需要说明的是,在本公开的启示下,还可以采用除本公开记载之外的其他方式,来执行上述步骤311,在此不再赘述。

本公开实施例提供的目标检测方法,通过确定第二特征的注意力特征,之后对注意力特征进行特征增强,得到增强特征,然后对增强特征进行维度变换,进而进行目标检测,由此,可以进一步提高目标检测的准确度。

图4为本公开实施例提供的一种目标检测装置的结构示意图。具体包括:

获取单元401,用于获取待检测图像;

提取单元402,用于对所述待检测图像进行多尺度特征提取,得到第一特征集合;

融合单元403,用于对所述第一特征集合进行多尺度特征融合,得到第二特征集合;

处理单元404,用于采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合;

检测单元405,用于基于所述第三特征集合,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合,包括:

获取目标卷积核集合,其中,所述目标卷积核集合中包括多个目标卷积核、且各个目标卷积核的参数通过随机初始化后训练获得;

针对所述第二特征集合中的每个第二特征,采用多个目标卷积核分别执行如下处理:

采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,其中,所述多个第四特征与所述多个目标卷积核一一对应;

将所述多个第四特征进行连接,得到所述第二特征对应的第三特征。

在一个可能的实施方式中,所述采用多个所述目标卷积核,分别针对所述第二特征执行卷积处理,得到多个第四特征,包括:

采用每个所述目标卷积核执行以下处理:

基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征;

对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征;

对所述第二特征的增强特征进行维度变换,生成所述第二特征对应的第四特征。

在一个可能的实施方式中,所述目标卷积核集合包括第一卷积核集合和第二卷积核集合;以及

所述基于所述第二特征和所述目标卷积核,确定所述第二特征的注意力特征,包括:

针对每个所述第一卷积核执行以下处理:

采用所述第一卷积核,对所述第二特征进行降维,得到所述第二特征对应的第五特征;

针对每个所述第二卷积核执行以下处理:

采用所述第二卷积核,对所述第二特征对应的第五特征进行特征提取,得到所述第二特征对应的第六特征;

对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征;

基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征对应的第六特征进行维度变换,得到所述第二特征对应的第七特征,包括:

对所述第二特征对应的第六特征进行维度变换,得到第一变换特征、第二变换特征和第三变换特征;

将所述第一变换特征、所述第二变换特征和所述第三变换特征,作为所述第二特征对应的第七特征。

在一个可能的实施方式中,所述基于所述第二特征对应的第七特征,生成所述第二特征的注意力特征,包括:

确定所述第一变换特征和所述第二变换特征的第一乘积;

将所述第一乘积,确定为所述第二特征的注意力特征。

在一个可能的实施方式中,所述对所述第二特征的注意力特征进行特征增强,生成所述第二特征的增强特征,包括:

确定所述注意力特征和所述第三变换特征的第二乘积;

将所述第二乘积,确定为所述第二特征的增强特征。

在一个可能的实施方式中,所述基于所述第三特征集合,对所述待检测图像进行目标检测,包括:

对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征;

基于所述目标特征,对所述待检测图像进行目标检测。

在一个可能的实施方式中,所述对所述第三特征集合进行多尺度特征融合,得到所述待检测图像的目标特征,包括:

从所述第三特征集合中,确定尺度最小的第三特征;

对所述尺度最小的第三特征进行特征提取,得到所述第三特征集合中尺度次小的第三特征对应的融合特征;

将所述第三特征集合中,除所述尺度最小的第三特征之外的其他第三特征的集合,确定为第三特征子集;

按照尺度由小到大的顺序,依次针对所述第三特征子集中的各个第三特征执行如下计算处理:

计算所述第三特征与所述第三特征对应的融合特征相加的结果;

在所述第三特征并非所述第三特征子集中尺度最大的第三特征的情况下,将所述结果确定为下次执行所述计算处理的所述第三特征对应的融合特征;

在所述第三特征为所述第三特征子集中尺度最大的第三特征的情况下,将所述尺度次小的第三特征对应的融合特征,以及各次执行所述计算处理得到的结果,分别插值至预设尺寸,得到插值特征集合;

对所述插值特征集合中的各个插值特征进行特征融合,得到所述待检测图像的目标特征。

本实施例提供的目标检测装置可以是如图4中所示的目标检测装置,可执行如图1-3E中目标检测方法的所有步骤,进而实现图1-3E所示目标检测方法的技术效果,具体请参照图1-3E相关描述,为简洁描述,在此不作赘述。

图5为本公开实施例提供的一种电子设备的结构示意图,图5所示的电子设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。电子设备500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。

其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本公开实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。

其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序5022中。

在本实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:

获取待检测图像;

对所述待检测图像进行多尺度特征提取,得到第一特征集合;

对所述第一特征集合进行多尺度特征融合,得到第二特征集合;

采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合;

基于所述第三特征集合,对所述待检测图像进行目标检测。

上述本公开实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本公开的上述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图5中所示的电子设备,可执行如图1-3E中目标检测方法的所有步骤,进而实现图1-3E所示目标检测方法的技术效果,具体请参照图1-3E相关描述,为简洁描述,在此不作赘述。

本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的目标检测方法。

上述处理器用于执行存储器中存储的目标检测程序,以实现以下在电子设备侧执行的目标检测方法的步骤:

获取待检测图像;

对所述待检测图像进行多尺度特征提取,得到第一特征集合;

对所述第一特征集合进行多尺度特征融合,得到第二特征集合;

采用多头通道注意力算法,对所述第二特征集合中的各个第二特征进行处理,得到第三特征集合;

基于所述第三特征集合,对所述待检测图像进行目标检测。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施方式而已,并不用于限定本公开的保护范围,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

相关技术
  • 一种衣物烘干装置
  • 一种衣物烘干装置
  • 衣物整理装置、烘干系统及烘干方法
  • 烘干系统、衣物处理装置及烘干系统控制方法
  • 一种衣物处理用试剂装置及衣物处理装置
  • 一种衣物烘干装置的烘干控制方法及衣物烘干装置
  • 一种衣物烘干装置的烘干控制方法及衣物烘干装置
技术分类

06120116516692