掌桥专利:专业的专利平台
掌桥专利
首页

图像深度估计方法和装置、电子设备、计算机可读存储介质

文献发布时间:2023-06-19 11:57:35


图像深度估计方法和装置、电子设备、计算机可读存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种图像深度估计方法和装置、电子设备、计算机可读存储介质。

背景技术

随着图像深度估计相关技术的不断发展,其越来越广泛地应用在计算机视觉领域,例如广泛用于机器人导航、增强现实、三维重建、自动驾驶等多个领域。其中,图像深度估计指的是估计图像中每个像素相对拍摄源的距离的过程。在对图像或视频进行深度估计时,常用方法包括双目深度估计、单目深度估计等。通过单目深度估计可以从单张图像中估计出每个像素对应的三维深度值,输出深度图。而双目深度估计需要从两张图像中估计出每个像素对应的三维深度值,输出深度图。显然,单目深度估计方法的成本较低,且由于其成本较低,因此得到了广泛的普及。

但是,单目深度估计在对图像进行深度估计时,所得出的深度图中的深度信息的准确性较低。

发明内容

本申请实施例提供了一种图像深度估计方法和装置、电子设备、计算机可读存储介质,可以提高深度估计所得到的深度图的准确性。

一种图像深度估计方法,所述方法包括:

对待处理图像进行图像分割得到图像分割结果,并对所述图像分割结果进行特征提取,得到中间图像;其中,所述中间图像中属于同一目标内部的各像素点的像素值相同;

基于所述中间图像和所述待处理图像,对所述待处理图像进行深度估计,得到所述待处理图像的深度图。

一种图像深度估计装置,所述装置包括:

中间图像获取模块,用于对待处理图像进行图像分割得到图像分割结果,并对所述图像分割结果进行特征提取,得到中间图像;其中,所述中间图像中属于同一目标内部的各像素点的像素值相同;

深度图生成模块,用于基于所述中间图像和所述待处理图像,对所述待处理图像进行深度估计,得到所述待处理图像的深度图。

一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述的蓝牙通信方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的蓝牙通信方法的步骤。

该图像深度估计方法和装置、电子设备、计算机可读存储介质,对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像。其中,中间图像中属于同一目标内部的各像素点的像素值相同。基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图。首先,经过图像分割可以将属于同一目标的区域划分在一起得到图像分割结果,再对图像分割结果进行特征提取得到中间图像,且在进行特征提取时将图像分割结果中同一目标内部的各像素点赋值为相同的值,因此,中间图像就可以提高同一目标的连贯性和整体性。最后,基于中间图像和待处理图像,对待处理图像进行深度估计,就可以实现由中间图像对深度估计的过程进行约束,以提高所得到的深度图的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一个实施例中图像深度估计方法的应用环境图;

图2为一个实施例中图像深度估计方法的流程图;

图3为一个实施例中待处理图像及图像分割结果的示意图;

图4为一个实施例中中间图像的示意图;

图5为图2中基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图方法的流程图;

图6为图5中将待处理图像与中间图像进行融合得到第一融合结果方法的流程图;

图7为一个具体的实施例中图像深度估计方法的流程图;

图8为一个具体的实施例中图像深度估计方法的示意图;

图9为一个实施例中图像深度估计装置的结构框图;

图10为一个实施例中电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

随着图像深度估计相关技术的不断发展,其越来越广泛地应用在计算机视觉领域,例如广泛用于机器人导航、增强现实、三维重建、自动驾驶等多个领域。在对图像或视频进行深度估计时,常用方法包括双目深度估计、单目深度估计等。其中,传统方法在采用单目深度估计对图像进行深度估计时,仅基于一张待处理图像进行特征提取,再进行深度估计,会导致所得到的深度图中同一目标对应的区域的深度信息不连贯、即深度信息不准确的问题。因此,在后续进行三维重建时,重建后的同一个目标会出现断层,不能将同一个目标重建为一个整体。

因此,为了解决这个问题,本申请实施例中提出了一种图像深度估计方法,不再仅基于一张待处理图像进行特征提取,再进行深度估计。而是,对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像。其中,中间图像中属于同一目标内部的各像素点的像素值相同。再基于中间图像和待处理图像这两个维度,对待处理图像进行深度估计,得到待处理图像的深度图。因此,提高了所得到的深度图的准确性。

图1为一个实施例中图像深度估计方法的应用场景图。如图1所示,该应用环境包括电子设备120,该电子设备120包括至少一个摄像头。通过电子设备120对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像;其中,中间图像中属于同一目标内部的各像素点的像素值相同。基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图。这里,电子设备140可以是手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、穿戴式设备(智能手环、智能手表、智能眼镜、智能手套、智能袜子、智能腰带等)、智能家居、车载设备等任意终端设备。

图2为一个实施例中图像深度估计方法的流程图。本实施例中的图像深度估计方法,以运行于图1中的电子设备120上为例进行描述。该图像深度估计方法包括:

步骤220,对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像;其中,中间图像中属于同一目标内部的各像素点的像素值相同。

其中,待处理图像为通过电子设备的单目摄像头拍摄所得到的单张图像或电子设备中存储的基于单目摄像头所拍摄的单张图像。在采用单目深度估计方法进行深度估计时,可以基于单张的待处理图像得到该待处理图像的深度图。具体的,首先,电子设备对该待处理图像进行图像分割得到图像分割结果。其中,图像分割是指将图像划分成互不相交的区域的过程。因此,在图像分割结果中可以将属于同一目标的区域划分在一起。可以采用Unet神经网络对该待处理图像进行图像分割,在此不对Unet神经网络进行赘述。如图3所示,左图为待处理图像,右图为对待处理图像进行图像分割所得到的图像分割结果。从右图的图像分割结果中可以看出,属于同一目标的区域被划分在一起。

然后,电子设备对图像分割结果进行特征提取,得到中间图像。其中,图像分割结果中包括多个目标对应的不同区域。具体的,可以将图像分割结果中同一目标内部的各像素点赋予相同的像素值。如此,在中间图像中就可以保证同一目标的连贯性和整体性。在中间图像中可以减少属于同一目标的区域之间的差别,增加不属于同一目标的区域之间的差别。这里,电子设备可以是将不同目标内部的各像素点分别赋予不同的像素值,以进行区分不同的目标。电子设备也可以是将不同目标内部的各像素点均赋予相同的像素值,本申请对此不做限定。

另外,电子设备还可以在将图像分割结果中同一目标内部的各像素点赋予相同的像素值的同时,将同一目标边缘的各像素点赋予相同的像素值或将所有目标边缘的各像素点赋予相同的像素值。这里,每个目标内部的像素点的像素值与该目标边缘的像素点的像素值不同。如此,就可以将每个目标与其他目标进行区分。

步骤240,基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图。

电子设备在得到了中间图像和待处理图像之后,基于中间图像和待处理图像,对待处理图像进行深度估计。具体的,可以从中间图像和待处理图像的组合中进行特征提取,得到第一特征图。再单独对待处理图像进行特征提取,得到第二特征图。最后,根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图。

本申请实施例中,电子设备对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像。其中,中间图像中属于同一目标内部的各像素点的像素值相同。基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图。首先,经过图像分割可以将属于同一目标的区域划分在一起得到图像分割结果,再对图像分割结果进行特征提取得到中间图像,且在进行特征提取时将图像分割结果中同一目标内部的各像素点赋值为相同的值,因此,中间图像就可以保证了同一目标的连贯性和整体性。最后,基于中间图像和待处理图像,对待处理图像进行深度估计,就可以实现由中间图像对深度估计的过程进行约束,以提高所得到的深度图的准确性。

在一个实施例中,对图像分割结果进行特征提取,得到中间图像包括:

对图像分割结果进行边缘检测得到边缘检测结果;

基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。

具体的,电子设备在对图像分割结果进行特征提取,得到中间图像时,首先对图像分割结果进行边缘检测得到边缘检测结果;其次,基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。

图像边缘(目标边缘)是图像最基本的特征,所谓边缘是指图像局部特性的不连续性、或图像灰度或结构等信息的突变处也称之为边缘。例如,灰度级的突变、颜色的突变、纹理结构的突变等。边缘是一个区域的结束,也是另一个区域的开始,利用该特征可以分割图像。可以采用边缘检测算子来对图像分割结果进行边缘检测得到边缘检测结果。其中,边缘检测算子可以分为以下三类:(1)一阶导数的边缘算子:通过模板作为核与图像的每个像素点做卷积和运算,然后选取合适的阈值来提取图像的边缘。例如,Roberts算子、Sobel算子和Prewitt算子。(2)二阶导数的边缘算子:依据于二阶导数过零点,例如,Laplacian算子,此类算子对噪声敏感。(3)其他边缘算子:前面两类边缘算子均是通过微分算子来检测图像边缘,还有一种就是Canny算子,其是在满足一定约束条件下推导出来的边缘检测最优化算子。

具体的,边缘检测结果可以包括检测出图像分割结果中的每个像素点为边缘像素点或为非边缘像素点。然后,基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。即对图像分割结果中的边缘像素点或非边缘像素点,分别进行像素值替换得到中间图像。如图4所示,为一个实施例中的中间图像的示意图,将图像分割结果中边缘像素点的像素值均替换为统一的像素值,将非边缘像素点的像素值均替换为另一个统一的像素值,就生成了中间图像。由于,边缘像素点对应于目标边缘、非边缘像素点对应于目标内部,且将边缘像素点赋予统一的像素值、将非边缘像素值也赋予另一个统一的像素值得到中间图像。因为中间图像中所有目标内部的像素值相同,所以,中间图像就可以保证了同一目标的连贯性和整体性。

本申请实施例中,电子设备在对图像分割结果进行特征提取,得到中间图像时,首先对图像分割结果进行边缘检测得到边缘检测结果;其次,基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。通过边缘检测的方式,将图像分割结果中边缘像素点的像素值均替换为统一的像素值,将图像分割结果中非边缘像素点的像素值均替换为另一个统一的像素值,得到中间图像。由于中间图像中所有目标内部的像素值相同,因此,中间图像就可以保证了同一目标的连贯性和整体性。

在一个实施例中,边缘检测结果包括边缘像素点及非边缘像素点;基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像,包括:

将各个边缘像素点的像素值替换为第一像素值,并将各个非边缘像素点的像素值替换为第二像素值;

基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。

具体的,边缘检测结果可以包括检测出图像分割结果中的每个像素点为边缘像素点或为非边缘像素点。然后,基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。即对图像分割结果中的边缘像素点或非边缘像素点,分别进行像素值替换得到中间图像。结合图4所示,将图像分割结果中各个边缘像素点的像素值均替换为第一像素值,将各个非边缘像素点的像素值均替换为第二像素值。基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。

由于,边缘像素点对应于目标边缘、非边缘像素点对应于目标内部,且将各个边缘像素点均赋予第一像素值、将各个非边缘像素值均赋予第二像素值,得到中间图像。因为中间图像中所有目标内部的像素值相同,所以,中间图像就可以保证了同一目标的连贯性和整体性。

本申请实施例中,电子设备在基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像时,首先将各个边缘像素点的像素值替换为第一像素值,并将各个非边缘像素点的像素值替换为第二像素值。再基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。因为于中间图像中所有目标内部的像素值相同,所以,中间图像就可以保证了同一目标的连贯性和整体性。

在一个实施例中,第一像素值大于第二像素值。

具体的,边缘检测结果可以包括检测出图像分割结果中的每个像素点为边缘像素点或为非边缘像素点。然后,基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。即对图像分割结果中的边缘像素点或非边缘像素点,分别进行像素值替换得到中间图像。结合图4所示,将图像分割结果中边缘像素点的像素值均替换为统一的像素值,将非边缘像素点的像素值均替换为另一个统一的像素值,就生成了中间图像。为了使得不同目标之间的区别更加明显,因此,可以设置第一像素值大于第二像素值,使得边缘像素点的像素值大于非边缘像素点的像素值。因为像素值越大则该像素点越白,即该像素值越亮。所以,在中间图像中可以使得目标边缘的像素点相对于目标内部的像素点更加明显。

由于,边缘像素点对应于目标边缘、非边缘像素点对应于目标内部,且将各个边缘像素点均赋予第一像素值、将各个非边缘像素值均赋予第二像素值,得到中间图像。因为中间图像中所有目标内部的像素值相同,所以,中间图像就可以保证了同一目标的连贯性和整体性。

本申请实施例中,电子设备在基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像时,首先将各个边缘像素点的像素值替换为第一像素值,并将各个非边缘像素点的像素值替换为第二像素值,且第一像素值大于第二像素值。因为像素值越大则该像素点越白,即该像素值越亮。所以,在中间图像中可以使得目标边缘的像素点相对于目标内部的像素点更加明显。

最后,再基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。那么,在所得到的中间图像中,可以使得目标边缘的像素点相对于目标内部的像素点更加明显。以便于在后续基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图时,能够在保证了同一目标的连贯性和整体性的同时,使得目标边缘的深度信息更加准确。

在一个实施例中,将各个边缘像素点的像素值替换为第一像素值,并将各个非边缘像素点的像素值替换为第二像素值,包括:

将各个边缘像素点的像素值替换为255,并将各个非边缘像素点的像素值替换为0。

具体的,结合图4所示,将图像分割结果中边缘像素点的像素值均替换为统一的像素值,将非边缘像素点的像素值均替换为另一个统一的像素值,就生成了中间图像。为了使得不同目标之间的区别更加明显,因此,可以设置第一像素值大于第二像素值,使得边缘像素点的像素值大于非边缘像素点的像素值。因为像素值越大则该像素点越白,即该像素值越亮。所以,在中间图像中可以使得目标边缘的像素点相对于目标内部的像素点更加明显。例如,若待处理图像为8位图,则可以配置第一像素值为255(即配置第一像素值为8位图最大的灰度值),配置第二像素值为0(即配置第一像素值为8位图最小的灰度值)。如此,将图像分割结果中各个边缘像素点的像素值替换为255,并将各个非边缘像素点的像素值替换为0,得到中间图像。如此,所得到的中间图像中可以使得目标边缘的像素点相对于目标内部的像素点的像素值的差值达到了最大,因此,在中间图像中可以使得目标边缘的像素点相对于目标内部的像素点达到最明显的效果。若待处理图像为16位图,则同理可以配置第一像素值为16位图下的最大的灰度值,配置第二像素值为16位图下最小的灰度值。本申请对待处理图像属于哪种位图不进行限定,

同时,边缘像素点对应于目标边缘、非边缘像素点对应于目标内部,且将各个边缘像素点均赋予为255、将各个非边缘像素值均赋予为0,得到中间图像。因为中间图像中所有目标内部的像素值相同,所以,中间图像就可以保证了同一目标的连贯性和整体性。

本申请实施例中,电子设备在基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像时,首先将各个边缘像素点的像素值替换为255,并将各个非边缘像素点的像素值替换为0。因为像素值越大则该像素点越白,即该像素值越亮。所以,在中间图像中可以使得目标边缘的像素点相对于目标内部的像素点更加明显。

最后,再基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。那么,在所得到的中间图像中,可以使得目标边缘的像素点相对于目标内部的像素点更加明显。以便于在后续基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图时,能够在保证了同一目标的连贯性和整体性的同时,使得目标边缘的深度信息更加准确。

在一个实施例中,如图5所示,步骤240,基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图,包括:

步骤242,将待处理图像与中间图像进行融合得到第一融合结果,对第一融合结果进行特征提取,得到第一特征图。

在对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像之后,将待处理图像与中间图像进行融合得到第一融合结果。其中,可以采用vgg16、MobileNet等神经网络进行特征提取,本申请对此不做限定。具体的,待处理图像中每个像素点均具有唯一的像素值,中间图像中每个像素点也具有唯一的像素值。例如,中间图像中各个边缘像素点的像素值为第一像素值,各个非边缘像素点的像素值为第二像素值。

然后,基于待处理图像中每个像素点的像素值、中间图像中每个像素点的像素值进行融合,得到第一融合结果。具体的,图像融合(Image Fusion)是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等,最大限度的提取各自信道中的有利信息,最后综合成高质量的图像。

其中,图像融合可以分为三个层次:数据级融合、特征级融合、决策级融合。数据级融合也称像素级融合,是指直接对传感器采集来得数据进行处理而获得融合图像的过程,数据级融合的优点是保持尽可能多得现场原始数据,提供其它融合层次所不能提供的细微信息。像素级融合中有空间域算法和变换域算法,空间域算法中又有多种融合规则方法,如逻辑滤波法,灰度加权平均法,对比调制法等;变换域中又有金字塔分解融合法,小波变换法。

在特征级融合中,可以保证不同图像包含信息的特征,如红外光对于对象热量的表征,可见光对于对象亮度的表征等等。

决策级融合主要在于主观的要求,同样也有一些规则,如贝叶斯法,D-S证据法和表决法等。

因此,可以将待处理图像与中间图像进行像素级融合、特征级融合或决策级融合中的任何一种图像融合操作,得到第一融合结果。在得到了第一融合结果之后,对第一融合结果进行特征提取,得到第一特征图。具体,可以采用CNN卷积网络对第一融合结果进行特征提取,得到第一特征图。本申请并不对CNN卷积网络的类型做出限定。

步骤244,对待处理图像进行特征提取,得到第二特征图。

可以采用CNN卷积网络对待处理图像进行特征提取,得到第二特征图。这里的CNN卷积网络可以与得到第一特征图的CNN卷积网络相同,也可以不同,本申请对此不做出限定。

步骤246,根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图。

可以将第一特征图及第二特征图进行融合,得到第二融合结果。再采用神经网络对第二融合结果进行深度估计,得到待处理图像的深度图。

本申请实施例中,首先,电子设备将待处理图像与中间图像进行融合得到第一融合结果,对第一融合结果进行特征提取,得到第一特征图。因为中间图像可以提高同一目标的连贯性和整体性,那么,基于中间图像所得的第一特征图,也就能够对同一目标的连贯性和整体性进行一定程度的约束。其次,对待处理图像进行特征提取,得到第二特征图。而第二特征图中保留了待处理图像中所有的特征,提高了待处理图像中特征的完整性。因此,最后根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图。就实现了不仅仅依赖单张的待处理图像进行深度估计,而是依赖于中间图像与待处理图像的融合结果、待处理图像,从这两个不同的维度来进行深度估计。且能够在深度图中提高同一目标的深度信息的连贯性和整体性的同时,提高了待处理图像中深度信息的完整性。最终,提高了所得到的深度图的准确性。

在一个实施例中,如图6所示,步骤242,将待处理图像与中间图像进行融合得到第一融合结果,包括:

步骤242a,从待处理图像中获取每个像素点的色彩通道值。

在对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像之后,将待处理图像与中间图像进行融合得到第一融合结果。具体的,待处理图像中每个像素点均具有唯一的像素值,其中,像素值可以以色彩通道值的形式进行表示。因此,可以从待处理图像中获取每个像素点的色彩通道值。例如,若待处理图像采用RGB值来表示,则每个像素点对应RGB这三个色彩通道的灰度值,即R通道的灰度值、G通道的灰度值、B通道的灰度值。即每个像素点的像素值可以表示为(R、G、B)。

步骤242b,从中间图像中获取目标像素点的像素值,作为像素点的新增通道值;目标像素点与待处理图像中的像素点的坐标相同。

其中,中间图像中每个像素点也具有唯一的像素值。例如,中间图像中各个边缘像素点的像素值为第一像素值,各个非边缘像素点的像素值为第二像素值。从中间图像中获取与待处理图像中的像素点的坐标相同的目标像素点的像素值,将该像素值作为该像素点的新增通道值,即新增通道的灰度值。

步骤242c,将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值,基于像素点的目标通道值得到第一融合结果;目标通道值包括色彩通道值及新增通道值。

将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值。若将该新增通道称之为X通道,则将像素点的色彩通道值与新增通道值进行组合,所得到的目标通道值为四通道的像素值。例如,此时每个像素点的像素值(目标通道值)可以表示为(R、G、B、X)。即目标通道值包括色彩通道值及新增通道值。

对待处理图像、中间图像中每一对坐标相同的像素点,均将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值,基于像素点的目标通道值就得到了第一融合结果。

本申请实施例中,电子设备在将待处理图像与中间图像进行融合得到第一融合结果时,首先,从待处理图像中获取每个像素点的色彩通道值。其次,从中间图像中获取目标像素点的像素值,作为像素点的新增通道值。最后,将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值,基于像素点的目标通道值得到第一融合结果;目标通道值包括色彩通道值及新增通道值。将中间图像中目标像素点的像素值作为新增通道值,与待处理图像中对应像素点的色彩通道值进行组合,得到目标通道值,就实现了待处理图像与中间图像的融合,得到了第一融合结果。在第一融合结果中通过新增通道值对色差通道值进行了约束,也就实现了中间图像对待处理图像的约束。因为中间图像就可以提高同一目标的连贯性和整体性,所以再基于第一融合结果所得到的第一特征图,使得在第一特征图中也能够提高同一目标的连贯性和整体性。最终,提高了所得到的深度图的准确性。

在一个实施例中,色彩通道包括RGB色彩通道、HSV色彩通道、HSL色彩通道中的任意一种。每个色彩通道可以表示图像在不同维度下的色彩特征。

具体的,待处理图像中每个像素点均具有唯一的像素值,其中,像素值可以以色彩通道值的形式进行表示。因此,可以从待处理图像中获取每个像素点的色彩通道值。例如,若待处理图像采用RGB值来表示,则此时色彩通道为RGB色彩通道,每个像素点对应RGB这三个色彩通道的灰度值,即R通道的灰度值、G通道的灰度值、B通道的灰度值。即每个像素点的像素值可以表示为(R、G、B)。

同理,若待处理图像采用HSV值来表示,则此时色彩通道为HSV色彩通道,每个像素点对应HSV这三个色彩通道的值,其中,H表示hue(色相)、S表示saturation(饱和度)、V表示value(明度)。即每个像素点的像素值可以表示为(H、S、V)。

同理,待处理图像采用HSL值来表示,则此时色彩通道为HSL色彩通道,每个像素点对应HSL这三个色彩通道的值,其中,H表示hue(色相)、S表示saturation(饱和度)、L表示lightness(亮度)。即每个像素点的像素值可以表示为(H、S、L)。

本申请实施例中,色彩通道包括RGB色彩通道、HSV色彩通道、HSL色彩通道中的任意一种。且每个色彩通道可以表示图像在不同维度下的色彩特征。因此,可以从待处理图像中获取每个像素点的色彩通道值。再将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值,基于像素点的目标通道值得到第一融合结果。就可以得到不同色彩维度下的第一融合结果,进而从不同维度上提高深度图的准确性。

在一个实施例中,根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图,包括:

将第一特征图及第二特征图进行融合,得到第二融合结果;

采用神经网络对第二融合结果进行深度估计,得到待处理图像的深度图。

本申请实施例中,电子设备将第一特征图及第二特征图中的特征值采用加权叠加的方式进行融合,得到第二融合结果。然后,采用神经网络对第二融合结果进行深度估计,得到待处理图像的深度图。就实现了不仅仅依赖单张的待处理图像进行深度估计,而是依赖于中间图像与待处理图像的融合结果、待处理图像,从这两个不同的维度来进行深度估计。且能够在深度图中提高同一目标的深度信息的连贯性和整体性的同时,提高了待处理图像中深度信息的完整性。最终,提高了所得到的深度图的准确性。

在一个具体的实施例中,如图7所示,提供了一种图像深度估计方法,应用于电子设备,包括:

步骤702,对待处理图像进行图像分割得到图像分割结果;

步骤704,对图像分割结果进行边缘检测得到边缘检测结果;边缘检测结果包括边缘像素点及非边缘像素点;

步骤706,将各个边缘像素点的像素值替换为第一像素值(255),并将各个非边缘像素点的像素值替换为;

步骤708,基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像;

步骤710,从待处理图像中获取每个像素点的色彩通道值(R、G、B);

步骤712,从中间图像中获取目标像素点的像素值,作为像素点的新增通道值;目标像素点与待处理图像中的像素点的坐标相同;

步骤714,将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值(R、G、B、X),基于像素点的目标通道值得到第一融合结果;目标通道值包括色彩通道值及新增通道值。

步骤716,对第一融合结果进行特征提取,得到第一特征图;

步骤718,对待处理图像进行特征提取,得到第二特征图;

步骤720,根据第一特征图和第二特征图进行融合,得到第二融合结果;

步骤722,采用神经网络对第二融合结果进行深度估计,得到待处理图像的深度图。

具体的,结合图8所示,为一个实施例中图像深度估计方法的示意图。电子设备从图像数据集中获取单张待处理图像802,可以采用Unet神经网络对待处理图像进行图像分割得到图像分割结果804。再对图像分割结果进行特征提取,得到中间图像806。将待处理图像802与中间图像806进行融合得到第一融合结果808,对第一融合结果进行特征提取,得到第一特征图810。对待处理图像802进行特征提取,得到第二特征图812。根据第一特征图810和第二特征图812进行深度估计,得到待处理图像的深度图814。

本申请实施例中,首先,电子设备将待处理图像与中间图像进行融合得到第一融合结果,对第一融合结果进行特征提取,得到第一特征图。因为中间图像可以提高同一目标的连贯性和整体性,那么,基于中间图像所得的第一特征图,也就能够对同一目标的连贯性和整体性进行一定程度的约束。其次,对待处理图像进行特征提取,得到第二特征图。而第二特征图中保留了待处理图像中所有的特征,提高了待处理图像中特征的完整性。因此,最后根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图。就实现了不仅仅依赖单张的待处理图像进行深度估计,而是依赖于中间图像与待处理图像的融合结果、待处理图像,从这两个不同的维度来进行深度估计。且能够在深度图中提高同一目标的深度信息的连贯性和整体性的同时,提高了待处理图像中深度信息的完整性。最终,提高了所得到的深度图的准确性。

在一个实施例中,如图9所示,一种图像深度估计装置900,该装置包括:

中间图像获取模块920,用于对待处理图像进行图像分割得到图像分割结果,并对图像分割结果进行特征提取,得到中间图像;其中,中间图像中属于同一目标内部的各像素点的像素值相同;

深度图生成模块940,用于基于中间图像和待处理图像,对待处理图像进行深度估计,得到待处理图像的深度图。

在一个实施例中,中间图像获取模块920,包括:

边缘检测单元,用于对图像分割结果进行边缘检测得到边缘检测结果;

像素值替换单元,用于基于边缘检测结果对图像分割结果进行像素值替换,得到中间图像。

在一个实施例中,边缘检测结果包括边缘像素点及非边缘像素点;像素值替换单元,用于将各个边缘像素点的像素值替换为第一像素值,并将各个非边缘像素点的像素值替换为第二像素值;基于各个边缘像素点的第一像素值及各个非边缘像素点的第二像素值,生成中间图像。

在一个实施例中,第一像素值大于第二像素值。

在一个实施例中,像素值替换单元,还用于将各个边缘像素点的像素值替换为255,并将各个非边缘像素点的像素值替换为0。

在一个实施例中,深度图生成模块940,包括:

第一特征图生成单元,用于将待处理图像与中间图像进行融合得到第一融合结果,对第一融合结果进行特征提取,得到第一特征图;

第二特征图生成单元,用于对待处理图像进行特征提取,得到第二特征图;

深度估计单元,用于根据第一特征图和第二特征图进行深度估计,得到待处理图像的深度图。

在一个实施例中,第一特征图生成单元,还用于从待处理图像中获取每个像素点的色彩通道值;从中间图像中获取目标像素点的像素值,作为像素点的新增通道值;目标像素点与待处理图像中的像素点的坐标相同;将像素点的色彩通道值与新增通道值进行组合,得到像素点的目标通道值,基于像素点的目标通道值得到第一融合结果;目标通道值包括色彩通道值及新增通道值。

在一个实施例中,色彩通道包括RGB色彩通道、HSV色彩通道、HSL色彩通道中的任意一种。

在一个实施例中,深度估计单元,还用于将第一特征图及第二特征图进行融合,得到第二融合结果;采用神经网络对第二融合结果进行深度估计,得到待处理图像的深度图。

在一个实施例中,待处理图像为通过单目摄像头所采集的图像。

应该理解的是,虽然所述图中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,所述图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

所述图像深度估计装置中各个模块的划分仅用于举例说明,在其他实施例中,可将图像深度估计装置按照需要划分为不同的模块,以完成所述图像深度估计装置的全部或部分功能。

关于图像深度估计装置的具体限定可以参见上文中对于图像深度估计方法的限定,在此不再赘述。所述图像深度估计装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,还提供了一种电子设备,包括存储器及处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以上各个实施例所提供的一种图像深度估计方法的步骤。

图10为一个实施例中电子设备的内部结构示意图。如图10所示,该电子设备包括通过系统总线连接的处理器和存储器。其中,该处理器用于提供计算和控制能力,支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例所提供的一种图像深度估计方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑、穿戴式设备等任意终端设备。

本申请实施例中提供的图像深度估计装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在电子设备或电子设备上运行。该计算机程序构成的程序模块可存储在电子设备或电子设备的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行图像深度估计方法的步骤。

一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行图像深度估计方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上图像深度估计实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 图像深度估计方法和装置、电子设备、计算机可读存储介质
  • 图像深度估计方法和装置、可读存储介质、电子设备
技术分类

06120113114682