掌桥专利:专业的专利平台
掌桥专利
首页

目标检测方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 20:02:18


目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域,尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

在通过摄像头对物体进行检测时,可通过双目深度估计进行处理,双目深度估计是通过分析两个摄像头(或者图像)之间的视差信息来估计场景中物体的距离或深度。

目前,在通过卷积神经网络计算双目视差时,通常根据双目深度估计网络输出的深度期望值和数据真值直接进行惩罚项(loss)估计,然后梯度回传更新网络结构,但是,该种方式会计算出带有偏差的梯度,从而导致深度估计并不准确。

发明内容

本申请提供了一种目标检测方法、装置、电子设备及存储介质,以解决双目深度估计网络深度估计不准确的技术问题。

第一方面,本申请提供了一种目标检测方法,所述方法包括:

通过双目摄像头获取待测物体的目标图像;

将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值;

将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合;其中,每个所述整数对应一个系数,所有系数的和为一;

根据所述线性组合确定目标真值;

根据所述目标真值和所述深度期望值进行无偏深度估计,以确定双目摄像头检测到的所述待测物体的距离。

可选地,所述N等于3,所述将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合,包括:

其中,A、B和C为三个连续整数,B为所述数据真值的整数部分,△d为所述数据真值的小数部分,△d∈(-0.5,0.5),x,y和z为系数,x≧0,z≧0,y﹥x,y﹥z。

可选地,根据所述线性组合确定目标真值,包括:

对所述线性组合进行计算,得到如下表达式:

其中,将y的计算值作为所述目标真值。

可选地,将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值,包括:

其中,D表示深度期望值,

可选地,根据所述目标真值和所述深度期望值进行无偏深度估计,包括:

根据所述目标真值和所述深度期望值通过KL散度进行无偏深度估计。

可选地,根据所述目标真值和所述深度期望值通过KL散度进行无偏深度估计,包括:

将所述目标真值作为y

对y

将计算结果作为无偏惩罚项,以进行无偏深度估计。

可选地,根据所述目标真值和所述深度期望值进行无偏深度估计,包括:

根据所述目标真值和所述深度期望值通过交叉熵进行无偏深度估计。

第二方面,本申请提供了一种无偏深度估计装置,所述装置包括:

获取模块,用于通过双目摄像头获取待测物体的目标图像;

输出模块,用于将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值;

转换模块,用于将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合;其中,每个所述整数对应一个系数,所有系数的和为一;

确定模块,用于根据所述线性组合确定目标真值;

估计模块,用于根据所述目标真值和所述深度期望值进行无偏深度估计,以确定双目摄像头检测到的所述待测物体的距离。

第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的目标检测方法的步骤。

第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的目标检测方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过双目摄像头获取待测物体的目标图像;将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值;将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合;其中,每个所述整数对应一个系数,所有系数的和为一;根据所述线性组合确定目标真值;根据所述目标真值和所述深度期望值进行无偏深度估计。该方法,可以将数据真值的浮点数进行转换,得到使用N个连续整数表达的数据真值的线性组合,根据线性组合确定目标真值,根据目标真值和深度期望值进行无偏深度估计,从而提高深度估计的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。

图1为本申请一个实施例提供的一种目标检测方法的流程示意图;

图2为本申请一个实施例提供的一种目标检测装置的结构示意图;

图3为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

下文的公开提供了许多不同的实施例或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。

在现有技术中,双目深度估计网络输出为soft regression,通过计算softmax()之后,得到每个d的概率,然后通过加权累加,得到最终的深度期望值和数据真值,再根据度期望值和数据真值直接计算loss。在计算过程中,每个权重输出通过softmax层之后,会乘以d,d代表的是轴上的位置,表示每一个位置估计的深度,而d的大小会直接影响到反向传播时得到的权重,导致权重不同,但是每一个位置的物理意义上的权重应该是相同的,因此,得到的数值并不准确。

为了解决现有技术中双目深度估计网络深度估计不准确的技术问题,本申请提供了一种目标检测方法,能实现提高深度估计的准确性。

本申请第一实施例提供了一种目标检测方法,如图1,方法包括:

步骤101,通过双目摄像头获取待测物体的目标图像。

步骤102,将目标图像输入双目深度估计网络进行处理,输出目标图像的深度期望值和数据真值。

一个实施例中,目标图像的深度期望值和数据真值可以通过如下方式计算得出:

其中,D表示深度期望值,

步骤103,将数据真值的浮点数进行转换,得到使用N个连续整数表达的数据真值的线性组合,其中,每个整数对应一个系数,所有系数的和为一。

一个实施例中,以N等于3进行举例说明,将数据真值的浮点数进行转换,得到使用N个连续整数表达的数据真值的线性组合,包括:

在上式中,A、B和C为三个连续整数,其中,GT(ground truth)表示数据真值,B为数据真值的整数部分,△d为数据真值的小数部分,△d∈(-0.5,0.5),x,y和z为系数,x≧0,z≧0,y﹥x,y﹥z。通过该式子,将数据真值表达为使用三个连续整数的线性组合。

步骤104,根据线性组合确定目标真值。

一个实施例中,根据线性组合确定目标真值,包括:

对线性组合进行计算,得到如下表达式:

本实施例中,将线性组合中的A、B、C以及x+y+z=1代入Ax+By+Cz=GT,可以计算出y和z的值,将y的计算值作为目标真值。通过本实施例得到的y是一个无偏的值。

步骤105,根据目标真值和深度期望值进行无偏深度估计,以确定双目摄像头检测到的待测物体的距离。

该方法,可以将数据真值的浮点数进行转换,得到使用N个连续整数表达的数据真值的线性组合,根据线性组合确定目标真值,根据目标真值和深度期望值进行无偏深度估计,从而提高深度估计的准确性,基于准确的深度估计可进一步的根据双目视差确定双目摄像头检测到的待测物体的距离。

一个实施例中,可以根据目标真值和深度期望值通过KL散度进行无偏深度估计,也可以根据目标真值和深度期望值通过交叉熵进行无偏深度估计。

在一个具体地实施例中,根据目标真值和深度期望值通过KL散度进行无偏深度估计,包括:

将目标真值作为y

对y

将计算结果作为无偏惩罚项,以进行无偏深度估计。

本实施例中,通过对y

基于同一技术构思,本申请第二实施例提供了一种目标检测装置,如图2,所述装置包括:

获取模块201,用于通过双目摄像头获取待测物体的目标图像;

输出模块202,用于将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值;

转换模块203,用于将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合;其中,每个所述整数对应一个系数,所有系数的和为一;

确定模块204,用于根据所述线性组合确定目标真值;

估计模块205,用于根据所述目标真值和所述深度期望值进行无偏深度估计,以确定双目摄像头检测到的所述待测物体的距离。

该装置,可以将数据真值的浮点数进行转换,得到使用N个连续整数表达的数据真值的线性组合,根据线性组合确定目标真值,根据目标真值和深度期望值进行无偏深度估计,从而提高深度估计的准确性。

如图3所示,本申请第三实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,

存储器113,用于存放计算机程序;

在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的目标检测方法,包括:

通过双目摄像头获取待测物体的目标图像;

将所述目标图像输入双目深度估计网络进行处理,输出所述目标图像的深度期望值和数据真值;

将所述数据真值的浮点数进行转换,得到使用N个连续整数表达的所述数据真值的线性组合;其中,每个所述整数对应一个系数,所有系数的和为一;

根据所述线性组合确定目标真值;

根据所述目标真值和所述深度期望值进行无偏深度估计,以确定双目摄像头检测到的所述待测物体的距离。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请第四实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的目标检测方法的步骤。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术分类

06120116581693