掌桥专利:专业的专利平台
掌桥专利
首页

目标对象的定位方法、装置、处理器和电子装置

文献发布时间:2023-06-19 10:19:37


目标对象的定位方法、装置、处理器和电子装置

技术领域

本发明涉及图像处理领域,具体而言,涉及一种目标对象的定位方法、装置、处理器和电子装置。

背景技术

机器视觉技术是一门涉及人工智能、神经生物学、心理生物学、计算机科学、图像处理、模式识别等多个领域的交叉学科。其中,机器视觉技术可用于对待检测对象的实际检测、测量和控制。

目标对象的三维定位是视觉技术应用的重要部分之一,其中,三维定位包括对目标对象的检测。然而传统的目标检测算法是根据人工设计的特征来对目标进行检测的,在获取到目标对象的图像之后,对图像进行区域选择,然后再进行特征提取特征,最后通过分类器对特征进行分类。在上述过程中,特征提取是利用人工设计的特征提取器来完成的。

然而,传统的目标检测算法的稳定性较差,仅适用于背景比较简单的场景,如果应用场景中出现光照或者噪声等,会对检测结果造成影响,甚至导致目标检测失败。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象的定位方法、装置、处理器和电子装置,以至少解决现有的三维定位方法存在定位不准确的技术问题。

根据本发明实施例的一个方面,提供了一种目标对象的定位方法,包括:获取相机图像;利用基于深度学习的目标检测方式获取目标对象在相机图像中的预测位置;基于预测位置,通过双目视觉定位方式对目标对象进行三维定位。

进一步地,基于深度学习的目标检测方式包括:特征提取网络模型、区域生成网络模型和分类回归网络模型,目标对象的定位方法还包括:利用特征提取网络模型从相机图像中提取特征图,其中,特征提取网络模型包括:多个特征提取层,多个特征提取层中每个特征提取层包括:卷积层和池化层,且每个特征提取层所包含卷积层与池化层数量不同;利用区域生成网络模型在特征图中生成感兴趣区域;利用分类回归网络模型对特征图和感兴趣区域进行感兴趣区域池化操作,生成特征图向量,并对特征图向量进行特征整合,得到预测位置。

进一步地,目标对象的定位方法还包括:确定双目相机的左相机成像平面和右相机成像平面;基于预测位置对左相机成像平面和右相机成像平面进行立体匹配,得到目标对象的三维定位结果。

进一步地,目标对象的定位方法还包括:获取双目相机的相机参数信息,其中,相机参数信息包括:左右相机之间的距离、视差、焦距、左相机成像平面主点坐标、右相机成像平面主点坐标;获取预测位置的空间坐标信息在左相机成像平面上的第一投影位置的第一坐标信息以及预测位置在右相机成像平面上的第二投影位置的第二坐标信息;利用空间坐标信息、第一坐标信息、第二坐标信息以及相机参数信息计算得到三维定位结果。

进一步地,目标对象的定位方法还包括:利用左右相机之间的距离、视差、左相机成像平面主点坐标、第一坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,或者,利用左右相机之间的距离、视差、右相机成像平面主点坐标、第二坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,其中,由第一坐标轴与第二坐标轴所确定的坐标平面平行于左相机成像平面和右相机成像平面;利用左右相机之间的距离、视差和焦距计算得到第三坐标轴上的第三坐标值,其中,第三坐标轴平行于左相机光轴和右相机光轴;基于第一坐标值、第二坐标值和第三坐标值确定三维定位结果。

进一步地,目标对象的定位方法还包括:通过相机标定对左相机成像平面和右相机成像平面进行立体校准和对齐。

根据本发明实施例的另一方面,还提供了一种目标对象的定位装置,包括:第一获取模块,用于获取相机图像;第二获取模块,用于利用基于深度学习的目标检测方式获取目标对象在相机图像中的预测位置;定位模块,用于基于预测位置,通过双目视觉定位方式对目标对象进行三维定位。

根据本发明实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的目标对象的定位方法。

根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序被设置为运行时执行上述的目标对象的定位方法。

根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的目标对象的定位方法。

在本发明实施例中,采用深度学习技术与双目视觉技术相结合的方式,在获取相机图像之后,通过基于深度学习的目标检测方法获取目标对象在相机图像中的预测位置,并基于预测位置通过双目视觉定位方式对目标对象进行三维定位。

在上述过程中,通过深度学习的目标检测方式对目标对象进行粗定位,在此基础上,再通过双目视觉定位方式对粗定位的定位结果进行再次定位,从而得到准确的定位结果。另外,由于对目标对象进行了两次定位,因此,可避免实际应用中光照或噪声对定位结果的影响,进而保证了定位结果的准确性。

由此可见,本申请所提供的方案达到了对目标对象进行三维定位的目的,从而实现了提高目标对象的定位结果的准确性的技术效果,进而解决了现有的三维定位方法存在定位不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种目标对象的定位方法的流程图;

图2是根据本发明实施例的一种可选的Faster R-CNN目标检测的框架示意图;

图3是根据本发明实施例的一种可选的VGG-16网络的网络结构示意图;

图4是根据本发明实施例的一种可选的双目视觉定位的流程图;

图5是根据本发明实施例的一种可选的双目相机的成像模型示意图;

图6是根据本发明实施例的一种可选的三维定位的示意图;

图7是根据本发明实施例的一种目标对象的定位装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例,提供了一种目标对象的定位方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的目标对象的定位方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,获取相机图像。

在步骤S102中,相机图像至少包括目标对象。例如,在工器件的检测中,可通过相机对多个工器件进行拍摄,得到相机图像,即该相机图像中包括多个工器件,其中,目标对象可以为存在异常的异常工器件。然后,工器件检测装置在对相机图像进行分析,以确定目标对象的位置,最后,工器件检测装置可控制机械手等根据异常工器件的位置从多个工器件中捡出异常工器件。

需要说明的是,上述相机图像可以为由单独的相机进行拍摄得到的图像,也可以是由双目摄像机进行拍摄得到的图像。另外,在本申请中,相机图像中可以包含复杂的背景,即本申请所提供的方法能够在复杂的环境背景下实现对目标对象的位置的准确定位。

步骤S104,利用基于深度学习的目标检测方式获取目标对象在相机图像中的预测位置。

在步骤S104中,可利用基于深度学习的目标检测算法对目标对象进行检测,并框出目标对象在相机图像中的位置(即预测位置),其中,该测位置仅是目标对象在相机图像中的大概位置,并不是精确的位置。

需要说明的是,通过深度学习的目标检测方式可有效解决复杂场景下目标检测算法稳定性差的问题。

步骤S106,基于预测位置,通过双目视觉定位方式对目标对象进行三维定位。

需要说明的是,由步骤S104可知,步骤S104得到的目标对象的位置并不是精确的位置,为了得到精准的位置,可基于双目视觉定位的方法对目标对象的位置进行进一步的确定。其中,双目视觉定位方法是用两部相机来进行定位的方法,即用两部固定于不同位置的相机对目标对象进行拍摄,然后分别获得目标对象在两部相机像平面上的坐标,在已知两部相机精确的相对位置的情况下,可采用几何方法得到目标对象在某部相机的坐标系中的坐标,即确定了目标对象的位置。

基于上述步骤S102至步骤S106所限定的方案,可以获知,在本发明实施例中,采用深度学习技术与双目视觉技术相结合的方式,在获取相机图像之后,通过基于深度学习的目标检测方法获取目标对象在相机图像中的预测位置,并基于预测位置通过双目视觉定位方式对目标对象进行三维定位。

容易注意到的是,在上述过程中,通过深度学习的目标检测方式对目标对象进行粗定位,在此基础上,再通过双目视觉定位方式对粗定位的定位结果进行再次定位,从而得到准确的定位结果。另外,由于对目标对象进行了两次定位,因此,可避免实际应用中光照或噪声对定位结果的影响,进而保证了定位结果的准确性。

由此可见,本申请所提供的方案达到了对目标对象进行三维定位的目的,从而实现了提高目标对象的定位结果的准确性的技术效果,进而解决了现有的三维定位方法存在定位不准确的技术问题。

在一种可选的实施例中,在获取相机图像之后,可基于深度学习的目标检测方式对目标对象在相机图像中的位置进行检测,其中,基于深度学习的目标检测算法包括:特征提取网络模型、区域生成网络模型和分类回归网络模型。可选的,上述基于深度学习的目标检测算法可以为但不限于Faster R-CNN(快速目标卷积神经网络),其中,图2为Faster R-CNN目标检测的框架示意图。由图2可知,相机图像经过卷积层处理之后,得到相机图像的特征图,然后再提取特征,经过ROI(Region of Interest,感兴趣区域)池化层处理后,输出至分类器中对特征进行分类。

具体的,首先利用特征提取网络模型从相机图像中提取特征图,然后利用区域生成网络模型在特征图中生成感兴趣区域,最后,利用分类回归网络模型对特征图和感兴趣区域进行感兴趣区域池化操作,生成特征图向量,并对特征图向量进行特征整合,得到预测位置。其中,特征提取网络模型包括:多个特征提取层,多个特征提取层中每个特征提取层包括:卷积层和池化层,且每个特征提取层所包含卷积层与池化层数量不同。

可选的,在特征提取网络模型中,可使用VGG-16网络来完成特征提取的。例如,图3示出了一种可选的VGG-16网络的网络结构示意图,由图3可知,VGG-16网络的特征提取部分包括多个特征提取层,图3示出了包含五个特征提取层的场景(图3中的每个虚线框表示一个特征提取层),每个特征提取层均由卷积层和池化层组成,并且每个特征提取层包含的卷积层与池化层数量有所不同,例如,在图3中,第一个特征提取层包括两个3×3、通道为64的卷积层和一个池化层。

在得到特征图之后,在区域生成网络模型中,将特征提取网络模型中生成的特征图作为区域生成网络模型的输入,在特征图上生成感兴趣区域,即ROI区域。然后将特征提取网络模型中生成的特征图和区域生成网络模型生成的感兴趣区域进行感兴趣区域池化操作,生成特征图向量,再将生成的特征图向量输入到两个全连接层中进行特征整合,最终联合两个输出层进行分类和回归,得到目标对象在相机图像中的预测位置。

需要说明的是,由于通过深度学习的目标检测方式对相机图像进行检测得到的预设位置并不准确,为了提高定位的准确性,在得到预测位置之后,基于预测位置通过双目视觉定位方式对目标对象进行三维定位。具体的,首先确定双目相机的左相机成像平面和右相机成像平面,然后基于预测位置对左相机成像平面和右相机成像平面进行立体匹配,得到目标对象的三维定位结果。

可选的,图4示出了一种可选的双目视觉定位的流程图,由图4可知,首先获取相机图像,然后对双目相机进行标定,再使用标定后的双目相机对目标对象进行检测,最后通过立体匹配,实现对目标对象的三维定位。

其中,图5示出了双目相机的成像模型,在图5中,平面v

在一种可选的实施例中,在基于预测位置对左相机成像平面和右相机成像平面进行立体匹配,得到三维定位结果的过程中,首先获取双目相机的相机参数信息,然后获取预测位置的空间坐标信息在左相机成像平面上的第一投影位置的第一坐标信息以及预测位置在右相机成像平面上的第二投影位置的第二坐标信息,并利用空间坐标信息、第一坐标信息、第二坐标信息以及相机参数信息计算得到三维定位结果。其中,相机参数信息包括:左右相机之间的距离、视差、焦距、左相机成像平面主点坐标、右相机成像平面主点坐标。例如,在图6所示的三维定位的示意图中,B为左右相机之间的距离,f为焦距,P(X

进一步的,在得到双目相机的相机参数信息、第一坐标信息和第二坐标信息之后,再利用空间坐标信息、第一坐标信息、第二坐标信息以及相机参数信息计算得到三维定位结果。具体的,首先,利用左右相机之间的距离、视差、左相机成像平面主点坐标、第一坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,或者,利用左右相机之间的距离、视差、右相机成像平面主点坐标、第二坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,然后再利用左右相机之间的距离、视差和焦距计算得到第三坐标轴上的第三坐标值,最后,基于第一坐标值、第二坐标值和第三坐标值确定三维定位结果。其中,由第一坐标轴与第二坐标轴所确定的坐标平面平行于左相机成像平面和右相机成像平面,第三坐标轴平行于左相机光轴和右相机光轴。

需要说明的是,可根据左相机成像平面主点坐标、第一坐标信息计算得到第一坐标值和第二坐标值,也可根据右相机成像平面主点坐标、第二坐标信息计算得到第一坐标值和第二坐标值,在实际应用中,可根据需求进行选择。

此外,还需要说明的是,上述第一坐标轴为空间坐标系中的X轴,第二坐标轴为空间坐标系中的Y轴,例如,在图5中,X

其中,第一坐标值X

在上式中,B为左右相机之间的距离,u

第二坐标值Y

在上式中,B为左右相机之间的距离,v

第三坐标值Z

在上式中,B为左右相机之间的距离,f为焦距,d为视差。

根据上述第一坐标值、第二坐标值和第三坐标值得到的三维定位结果如下:

需要说明的是,为了提高三维定位结果的准确性,在完成图像获取、相机标定、目标检测之后,通过相机标定对左相机成像平面和右相机成像平面进行立体校准和对齐。

由上述内容可知,本申请通过将深度学习技术和双目视觉技术结合在一起,解决了现有的目标三维定位所存在的定位不准确的问题,提出了“两级定位方法”,即通过基于深度学习的目标检测算法完成目标检测,即“粗定位”,再利用图像处理技术结合双目视觉定位原理,完成对目标的三维定位,即“精定位”,提高了目标三维定位的准确度。

实施例2

根据本发明实施例,还提供了一种目标对象的定位装置的实施例,其中,图7是根据本发明实施例的目标对象的定位装置的示意图,如图7所示,该装置包括:第一获取模块701、第二获取模块703以及定位模块705。

其中,第一获取模块701,用于获取相机图像;第二获取模块703,用于利用基于深度学习的目标检测方式获取目标对象在相机图像中的预测位置;定位模块705,用于基于预测位置,通过双目视觉定位方式对目标对象进行三维定位。

需要说明的是,上述第一获取模块701、第二获取模块703以及定位模块705对应于上述实施例中的步骤S102至步骤S106,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。

可选的,基于深度学习的目标检测方式包括:特征提取网络模型、区域生成网络模型和分类回归网络模型,第二获取模块包括:提取模块、第一生成模块以及第二生成模块。其中,提取模块,用于利用特征提取网络模型从相机图像中提取特征图,其中,特征提取网络模型包括:多个特征提取层,多个特征提取层中每个特征提取层包括:卷积层和池化层,且每个特征提取层所包含卷积层与池化层数量不同;第一生成模块,用于利用区域生成网络模型在特征图中生成感兴趣区域;第二生成模块,用于利用分类回归网络模型对特征图和感兴趣区域进行感兴趣区域池化操作,生成特征图向量,并对特征图向量进行特征整合,得到预测位置。

可选的,定位模块包括:第一确定模块以及匹配模块。其中,第一确定模块,用于确定双目相机的左相机成像平面和右相机成像平面;匹配模块,用于基于预测位置对左相机成像平面和右相机成像平面进行立体匹配,得到目标对象的三维定位结果。

可选的,匹配模块包括:第三获取模块、第四获取模块以及第一计算模块。其中,第三获取模块,用于获取双目相机的相机参数信息,其中,相机参数信息包括:左右相机之间的距离、视差、焦距、左相机成像平面主点坐标、右相机成像平面主点坐标;第四获取模块,用于获取预测位置的空间坐标信息在左相机成像平面上的第一投影位置的第一坐标信息以及预测位置在右相机成像平面上的第二投影位置的第二坐标信息;第一计算模块,用于利用空间坐标信息、第一坐标信息、第二坐标信息以及相机参数信息计算得到三维定位结果。

可选的,第一计算模块包括:第二计算模块、第三计算模块以及第二确定模块。其中,第二计算模块,用于利用左右相机之间的距离、视差、左相机成像平面主点坐标、第一坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,或者,利用左右相机之间的距离、视差、右相机成像平面主点坐标、第二坐标信息计算得到第一坐标轴上的第一坐标值与第二坐标轴上的第二坐标值,其中,由第一坐标轴与第二坐标轴所确定的坐标平面平行于左相机成像平面和右相机成像平面;第三计算模块,用于利用左右相机之间的距离、视差和焦距计算得到第三坐标轴上的第三坐标值,其中,第三坐标轴平行于左相机光轴和右相机光轴;第二确定模块,用于基于第一坐标值、第二坐标值和第三坐标值确定三维定位结果。

可选的,目标对象的定位装置还包括:调整模块,用于通过相机标定对左相机成像平面和右相机成像平面进行立体校准和对齐。

实施例3

根据本发明实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述实施例1中的目标对象的定位方法。

实施例4

根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序被设置为运行时执行上述实施例1中的目标对象的定位方法。

实施例5

根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述实施例1中的目标对象的定位方法。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 目标对象的定位方法、装置、处理器和电子装置
  • 由电子装置的处理器实施的方法和操作电子装置的处理器
技术分类

06120112500372