掌桥专利:专业的专利平台
掌桥专利
首页

一种目标检测方法、系统、装置及存储介质

文献发布时间:2023-06-19 11:32:36


一种目标检测方法、系统、装置及存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种目标检测方法、系统、装置及存储介质。

背景技术

目标检测是计算机视觉中的基本任务之一,已经提出了许多高性能的通用目标检测器。当前流行的检测方法通常可以分为两种:两级目标检测器和单级目标检测器。两步法在各种基准上均取得了可喜的结果,而单步法则保持了更快的检测速度。然而,当前的常规水平检测器对于许多实际应用具有基本的局限性。

现有的传统目标检测模型都是基于不旋转(即平行于x轴或y轴)的矩形(horizontal)的锚(anchor)进行物体位置的预测,而在类似场景文本检测和遥感对象检测中,对象可以出现在任何方向和位置,如图2所示,如果采用传统矩形框去预测每一个物体,就会不可避免地把其他对象物体圈进去,造成预测不准确的情况。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种目标检测方法、系统、装置及存储介质,采用通用旋转目标检测模型框架进行检测。

本发明所采用的技术方案是:

一种目标检测方法,包括以下步骤:

输入待检测图片,对所述待检测图片进行特征提取,获得不同感知域的特征图;

根据所述特征图获取候选框的偏移量,根据所述偏移量对所述特征图进行特征对齐,得到对齐特征图;

根据所述对齐特征图提取方向特征,根据所述方向特征获取所述候选框的最终的偏移量;

根据所述方向特征获取方向无关特征,根据所述方向无关特征对所述候选框的种类进行预测。

进一步,所述根据所述特征图获取候选框的偏移量,根据所述偏移量对所述特征图进行特征对齐,得到对齐特征图,包括:

利用卷积滤波器G对所述特征图F

利用卷积滤波器G对特征图F′

根据所述偏移量t和对齐卷积滤波器H对特征图F

进一步,所述偏移量t为t=(△x,△y,△w,△h,△θ),通过以下公式更新所述候选框的位置信息:

x′=x+△x

y′=y+△y

w′=w+△w

h′=h+△h

θ=△θ

其中,x、y代表坐标,w代表宽度,h代表高度,θ代表角度偏移量。

进一步,通过以下公式获得对齐特征图Y:

其中,p=(x,y)表示特征图中特征点位置,r=(r

进一步,所述根据所述对齐特征图提取方向特征,包括:

采用有源旋转滤波器提取所述对齐特征图的方向特征Y

进一步,所述有源旋转滤波器通过以下方式构建获得:

构建有源旋转滤波器V,对所述有源旋转滤波器V进行顺时针旋转N-1次,获得N个方向不同的滤波器,其中,每一次旋转角度

每一次旋转过程包括以下步骤:

采用双线性内插法得到有源旋转滤波器的位置,实现滤波器坐标的变换;

对于有源旋转滤波器的通道旋转角度θ,以滤波器通道为时域,对时域进行离散傅里叶变换,利用循环移位性质,在频谱上乘以e

进一步,所述根据所述方向特征获取方向无关特征,包括:

对所述方向特征Y

本发明所采用的另一技术方案是:

一种目标检测系统,包括以下步骤:

特征提取模块,用于输入待检测图片,对所述待检测图片进行特征提取,获得不同感知域的特征图;

特征对齐模块,用于根据所述特征图获取候选框的偏移量,根据所述偏移量对所述特征图进行特征对齐,得到对齐特征图;

旋转模块,用于根据所述对齐特征图提取方向特征,根据所述方向特征获取所述候选框的最终的偏移量;

识别模块,用于根据所述方向特征获取方向无关特征,根据所述方向无关特征对所述候选框的种类进行预测。

本发明所采用的另一技术方案是:

一种目标检测装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是:

一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是:本发明先提取检测图片的特征,根据提取的特征解决候选框旋转造成特征不对齐的现象,以及通过提取方向特征对候选框进行预测,提高预测精准度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种目标检测方法的步骤流程图;

图2是本发明实施例中采用传统矩形框进行预测的示意图;

图3是本发明实施例中采用一种旋转目标检测模型进行预测的示意图;

图4是本发明实施例中一种目标检测方法的结构示意图;

图5是本发明实施例中旋转目标检测模型框架组成流程图;

图6是本发明实施例中特征对齐模块的流程图;

图7是本发明实施例中旋转检测模块的流程图;

图8是本发明实施例中旋转目标检测模型的细化流程图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

现有的旋转模型检测的模型,都是从传统目标检测模型继承而来,因此会有一个很明显的弊端,就是特征不对齐的问题。造成特征不对齐的原因,是因为这些模型继承了传统目标检测提取特征的方法,而这些方法基于不旋转的矩形框来提取特征,从图2中可以很明显的看到,如果用不旋转的矩形框提取某个物体的特征,很容易就会把相邻的其他物体的部分特征会混淆进去,影响训练效果。

如图1和图4所示,本实施例提供一种目标检测方法,包括以下步骤:

S1、输入待检测图片,对待检测图片进行特征提取,获得不同感知域的特征图。

利用卷积神经网络模型对输入的RGB图片进行特征提取,得到不同感知域的特征图F

可采用分类模型的卷积层进行特征提取,现今表现比较出色的分类模型有很多,例如resnet,inception-net,densenet,vgg等等,其中resnet模型用的最多。这些模型一开始是用于物体分类,现今目标检测的模型都会先把分类模型的全连接预测层去掉,只保留它的卷积层用来提取初步的图像特征。

S2、根据特征图获取候选框的偏移量,根据偏移量对特征图进行特征对齐,得到对齐特征图。

针对每个特征图F

S21、特征图F

F′

S22、利用卷积滤波器对特征图F′

x′=x+△x

y′=y+△y

w′=w+△w

h′=h+△h

θ=△θ

S23、利用对齐卷积滤波器H对特征图F

S3、根据对齐特征图提取方向特征,根据方向特征获取候选框的最终的偏移量,并对候选框进行调整。最后调整获得的候选框如图3所示。

其中,采用有源旋转滤波器提取对齐特征图的方向特征Y

有源旋转滤波器通过以下方式构建获得:

构建有源旋转滤波器V,尺寸为K×K×N,对滤波器V进行顺时针旋转N-1次,得到N个方向不同的滤波器,每一旋转角度

对于方向特征图Y

S4、根据方向特征获取方向无关特征,根据方向无关特征对候选框的种类进行预测。

对方向特征图Y

如图5所示,本实施例还提供一种旋转目标检测模型框架,该模型包括三个主要模块:特征提取模块、特征对齐模块和旋转检测模块。

特征提取模块对输入图片进行初步特征提取,该模块通过选取合适的卷积神经网络模型,再通过特征融合算法,生成多个不同感知域的特征图。卷积神经网络具有局部感知和参数共享两个特点,局部感知即卷积神经网络提出每个神经元不需要感知图像中的全部像素,只对图像的局部像素进行感知,然后在更高层将这些局部的信息进行合并,从而得到图像的全部表征信息。不同尺寸的候选框,则需要在不同感知域的特征图下提取对应特征。

上提到的合适的卷积神经网络模型指的是分类模型中去掉全连接预测层后剩下的卷积网络部分,现今大部分的目标检测模型都会用去掉全连接层之后的resnet作为卷积神经网络模型来进行图像特征的提取,当然也有其他目标检测模型采取了其他分类模型例如vgg,inception-net模型作为卷积神经网络模型。这些分类模型都有一个共性,那就是在物体分类上表现出色且模型参数量合理,这个共性也是任何一个合适模型所需要满足的一个条件。因为专利强调的一个框架,因此专利里面并没有对特征提取模块该选择哪一个卷积神经网络模型做限定。

对于特征融合算法,卷积神经网络有很多层的卷积层,而每一层卷积层感知域和包含的语义信息都不一样,例如比较靠后的卷积层感知域比较多,图像语义信息的提炼程度会比较高,这些特征对于大物体的预测是很有帮助,但是对于小物体的预测就很不友好,要想提升模型对于小物体的检测能力,则融合比较靠前的卷积层提取的特征,因为比较靠前的卷积层感知域比较小,特征提炼程度较低,图像细节信息损失没那么大。因此这里提到的特征融合算法指的是融合同一个卷积神经网络模型的不同卷积层之间的特征,然后得到不同感知域的特征图,具体可参考FPN模型。

如附图8所示,特征提取模块的功能可以由resnet-FPN模型完成,resnet-FPN模型通过逆卷积和特征融合的方式生成不同感知域的特征图,不同尺寸的候选框在不同感知域的特征图提取特征可以提升模型检测目标的表现。

特征对齐模块提出了一种通用的对齐方式,该模块由两条分支组成,一条分支负责预测候选框的偏移量,另一条分支则利用预测的偏移量来指引对齐卷积滤波器来进行对齐特征的提取,生成对齐特征图。对齐特征图可以在一定程度上提升旋转检测模块的表现。其中,该通用的对齐方式可概述为:先对特征进行再卷积处理提炼,然后拿处理后的特征来为每一个锚点(anchor)的矩形框偏移量进行预测,接着再根据该偏移量得到旋转的矩形框,最后提取旋转矩形框内的特征,得到对齐特征。

如附图6所示,特征对齐模块由两个分支组成,一条分支负责预测候选框的偏移量,另一条分支则利用预测的偏移量来指引对齐卷积滤波器来进行对齐特征的提取,生成对齐特征图。负责预测偏移量的分支先对输入特征图进行特征处理,特征处理的过程可以3x3卷积模块、3x3卷积模块和1x1卷积模块串联组成,最后处理得到的特征用于候选框偏移量的预测。负责对齐特征提取的分支,则首先利用预测到的偏移量(△x,△y,△w,△h)来更新输入特征图中每一个特征点对应的候选框位置和大小,同时通过偏移量△θ来指引对齐卷积滤波器来提取对齐特征。

旋转检测模块由两条分支组成,其首先利用有源旋转滤波器来捕捉方向特征,增强特征的多样性,降低因旋转物体角度不同所带来的影响,提升模型的泛化能力。其中一分支利用方向特征进行候选框最终偏移量的预测,另一分支则先对方向特征进行池化操作,提取方向无关特征,再用此特征进行候选框类别的预测。

这两个分支分别是物体种类的预测分支以及物体位置的偏移量分支,简而言之,就是一个负责预测物体种类,另一个负责预测物体的位置。其中,方向特征是利用有源旋转滤波器从对齐特征中提取得到的,方向特征可以理解包含丰富方向信息的特征,这些信息对于预测那些倾斜的物体位置来说是很有帮助,但是由于物体种类是与它所处的位置或者是否倾斜无关的,因此可以通过池化操作,去除特征里面的方向信息,得到方向无关特征。

如图7所示,旋转检测模块以对齐特征图作为输入,通过有源旋转滤波器提取方向特征,再通过两个分支进行处理得到最终的预测结果。其中一分支用于偏移量的预测,其以方向特征作为输入,再经过3x3卷积模块、3x3卷积模块和1x1卷积模块的处理,然后利用处理后的特征进行候选框最终偏移量(△x,△y,△w,△h,△θ)的预测。而另一分支用于候选框类别的预测,以方向特征作为输入,通过池化操作去除特征的方向信息,生成方向无关特征,接着由3x3卷积模块、3x3卷积模块和1x1卷积模块进行特征处理,最后利用处理后的特征进行候选框的类别预测。

综上所述,本实施例与现有技术相比,具有如下有益效果:

(1)本实施例提出了一种改进的旋转目标检测模型框架,该模型框架由三个部分组成,分别是特征提取模块,特征对齐模块和旋转检测模块。特征提取模块对输入图片进行初步特征提取,特征对齐模块则是解决候选框旋转造成的特征不对齐现象,旋转检测模块通过提取方向特征来更好地对候选框进行预测。

(2)特征对齐模块提出了一种通用的对齐方式,该模块由两条分支组成,一条分支负责预测候选框的偏移量,另一条分支则利用预测的偏移量来指引对齐卷积滤波器来进行对齐特征的提取,生成对齐特征图。对齐特征图可以在一定程度上提升旋转检测模块的表现。

(3)旋转检测模块利用有源旋转滤波器来捕捉方向特征,增强特征的多样性,降低因旋转物体角度不同所带来的影响,提升模型的泛化能力。

本实施例还提供一种目标检测系统,包括以下步骤:

特征提取模块,用于输入待检测图片,对所述待检测图片进行特征提取,获得不同感知域的特征图;

特征对齐模块,用于根据所述特征图获取候选框的偏移量,根据所述偏移量对所述特征图进行特征对齐,得到对齐特征图;

旋转模块,用于根据所述对齐特征图提取方向特征,根据所述方向特征获取所述候选框的最终的偏移量;

识别模块,用于根据所述方向特征获取方向无关特征,根据所述方向无关特征对所述候选框的种类进行预测。

本实施例的一种目标检测系统,可执行本发明方法实施例所提供的一种目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

本实施例还提供一种目标检测装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

本实施例的一种目标检测装置,可执行本发明方法实施例所提供的一种目标检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种目标检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

相关技术
  • 目标检测方法、目标检测系统、装置及可读存储介质
  • 一种目标检测方法、目标跟踪方法、装置及可读存储介质
技术分类

06120112965009