掌桥专利:专业的专利平台
掌桥专利
首页

深度图像生成方法、系统、电子设备及可读存储介质

文献发布时间:2024-04-18 19:58:26


深度图像生成方法、系统、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域,尤其涉及一种深度图像生成方法、系统、电子设备及计算机可读存储介质。

背景技术

随着机器学习技术的发展,深度学习网络已经应用于众多现实场景中,例如自动驾驶等。在这些应用中,预测结果是十分重要的,若预测错误的像素出现在十分重要的区域,例如:比较细小的障碍物,可能会造成基于深度学习的避让系统失灵。

因此,单目深度估计是深度学习中亟待解决的关键技术,单目深度估计的具体任务指的是预测一张图片中每个像素点的深度。其中,由每个像素点的深度值组成的图片又称为深度图。单目深度估计对于自动驾驶中的障碍物检测、三维场景重建,场景立体分析有着重要的意义。

发明内容

有鉴于此,本申请提出了一种深度图像生成方法、系统、电子设备及计算机可读存储介质,可生成与单目图像对应的深度图像,提高深度估计精度。

第一方面,本申请一实施例提供一种深度图像生成方法,包括:

获取多组原始双目图像,基于所述多组原始双目图像建立含有实例分割标签的数据集;

利用所述含有实例分割标签的数据集训练自编码器网络,得到训练完成的自编码器网络;

获取单目图像,将所述单目图像输入所述训练完成的自编码器网络,得到第一视差图;

对所述第一视差图进行转换,得到所述单目图像对应的深度图像。

于一实施例中,所述多组原始双目图像中的每组原始双目图像均包括第一图像与第二图像,所述利用所述含有实例分割标签的数据集训练自编码器网络,得到训练完成的自编码器网络,包括:将所述第一图像输入所述自编码器网络,得到第二视差图;利用所述实例分割标签对所述第二视差图进行数据处理,得到第三视差图;将所述第一图像与所述第三视差图进行相加,得到所述第二图像的预测图像;利用预设均方差公式计算所述第二图像与所述预测图像的误差;将所述误差作为所述自编码器网络的训练损失,直至训练损失收敛,得到训练完成的自编码器网络。

于一实施例中,所述利用所述实例分割标签对所述第二视差图进行数据处理,得到第三视差图,包括:基于所述实例分割标签生成注意力图像,基于所述注意力图像对所述第二视差图进行融合与修正,得到第三视差图。

于一实施例中,所述预设均方差公式为:

其中,MSE为所述预测图像与所述第二图像的误差,y

于一实施例中,所述第一图像为原始双目图像的左图像,所述第二图像为所述原始双目图像的右图像。

于一实施例中,所述第一图像为原始双目图像的右图像,所述第二图像为原始双目图像的左图像。

第二方面,本申请一实施例提供一种深度图像生成系统,包括:图像获取模块,用于获取多组原始双目图像,基于所述多组原始双目图像建立含有实例分割标签的数据集;模型训练模块,用于利用所述含有实例分割标签的数据集训练自编码器网络,得到训练完成的自编码器网络;图像推论模块,用于获取单目图像,将所述单目图像输入所述训练完成的自编码器网络,得到第一视差图;图像转换模块,用于对所述第一视差图进行转换,得到所述单目图像对应的深度图像。

于一实施例中,所述多组原始双目图像中的每组原始双目图像均包括第一图像与第二图像,所述模型训练模块,包括:图像生成单元,用于将所述第一图像输入所述自编码器网络,得到第二视差图;数据处理单元,用于利用所述实例分割标签对所述第二视差图进行数据处理,得到第三视差图;第一计算单元,用于将所述第一图像与所述第三视差图进行相加,得到所述第二图像的预测图像;第二计算单元,用于利用预设均方差公式计算所述第二图像与所述预测图像的误差;模型训练单元,用于将所述误差作为所述自编码器网络的训练损失,直至训练损失收敛,得到训练完成的自编码器网络。

第三方面,本申请一实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行第一方面所述的深度图像生成方法。

第四方面,本申请一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面所述的深度图像生成方法。

本申请实施方式提供的深度图像生成方法、系统、电子设备及计算机可读存储介质,通过将双目图像与实例分割图像结合作为训练自编码器网络的训练数据,只需将单目图像输入自编码器网络,即可输出视差图,通过视差图转换即可生成与单目图像对应的深度图像,可以提高深度估计精度题。

附图说明

图1为本申请一实施例的深度图像生成方法的步骤流程示意图。

图2为图1所示的深度图像生成方法的一步骤流程的细分流程示意图。

图3为本申请一实施例的深度图像生成系统的功能模块示意图。

图4为图3所示的深度图像生成系统的功能模块的细分功能示意图。

主要元件符号说明

深度图像生成系统 20

图像获取模块 21

模型训练模块 22

图像推论模块 23

图像转换模块 24

图像生成单元 221

数据处理单元 222

第一计算单元 223

第二计算单元 224

模型训练单元 225

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式:

下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。

需要说明的是,本申请实施例中“至少一个”是指一个或者多个,多个是指两个或两个以上。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。

需要说明的是,本申请实施例中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

请参阅图1,为本申请一实施例提供的深度图像生成方法的步骤流程示意图。

具体地,该深度图像生成方法可以包括:

S100,获取多组原始双目图像,基于多组原始双目图像建立含有实例分割标签的数据集。

在本实施例中,获取原始双目图像可以是从图像采集设备直接获取的图像,例如:图像采集设备为摄像机等,也可以从存储设备获取的预先存储的图像,例如:存储设备为U盘等,还可以是通过网络从网站服务器获取的图像,从本实施例对原始双目图像的获得方式不作限定。

在本实施例中,实例分割为图像中可能包括属于同一类别的多个实例,需要对其进行区分。例如,对于一目标图像,该目标图像中可能包括属于人这一类别的数量为多个,即包括多个人,在实例分割中,需要对这多个人进行区分,每个人都可以得到相应的实例分割标签。对原始双目图像进行实例分割处理,可以得到原始双目图像的实例分割标签。根据原始双目图像的实例分割标签,得到含有实例分割标签的数据集。

S200,利用含有实例分割标签的数据集训练自编码器网络,得到训练完成的自编码器网络。

在本实施例中,利用基于多组原始双目图像建立的含有实例分割标签的数据集训练自编码器网络,可以得到较好的训练效果,具体训练步骤可以参阅图2所示的训练流程示意图。

S300,获取单目图像,将单目图像输入训练完成的自编码器网络,得到第一视差图。

在本实施例中,可以由单目相机来获取单目图像,单目图像可以包含任意场景的图片。

自编码器网络的样本数据来自双目图像,也就是说,利用双目图像的视差来指导单目图像深度的预测,可以提高深度预测的精确度。

S400,对第一视差图进行转换,得到单目图像对应的深度图像。

在本实施例中,获取单目图像后,将单目图像输入至经过训练得到的自编码器网络,自编码器网络输出单目图像对应的第一视差图,而不是深度图像。因此,还需要根据自编码器网络输出的第一视差图、拍摄单目图像的单目相机的镜头基线距离和镜头焦距,对第一视差图进行转化,从而得到确定单目图像对应的深度图像。

进一步结合图2所示,在本实施例中,多组原始双目图像中的每组原始双目图像均包括第一图像与第二图像,自编码器网络可以通过以下步骤训练完成:

S210,将第一图像输入自编码器网络,得到第二视差图。

S220,利用实例分割标签对第二视差图进行数据处理,得到第三视差图。

在本实施例中,可以基于实例分割标签生成注意力图像,基于注意力图像作为注意力机制的导引,对第二视差图进行融合与修正,得到更精细的第三视差图。

S230,将第一图像与第三视差图进行相加,得到第二图像的预测图像。

S240,利用预设均方差公式计算第二图像与预测图像的误差。

在本实施例中,预设均方差公式可以为:

其中,MSE为预测图像与第二图像的误差,y

S250,将误差作为自编码器网络的训练损失,直至训练损失收敛,得到训练完成的自编码器网络。

在本实施例中,第一图像可以为原始双目图像的左图像,第二图像可以为原始双目图像的右图像。在其他实施例中,第一图像可以为原始双目图像的右图像,第二图像可以为原始双目图像的左图像。也就是说,视差图可以是以左视图为基准得到的左视图对应的视差图,也可以是以右视图为基准得到的右视图对应的视差图,本实施例对此不作限定。

本申请中自编码器网络的训练样本数据来自含有实例分割标签的原始双目图像,也就是说,本申请利用了双目视差来指导单目图像深度的预测。因此,本申请的深度图像生成方法无需大量的标记数据,可以得到较好的训练效果。

进一步结合图3所示,基于与上述实施例中的基于单目相机的物体检测方法相同的思想,本申请还提供一种深度图像生成系统20,该深度图像生成系统20可用于执行上述基于单目相机的物体检测方法。为了便于说明,深度图像生成系统20的功能模块示意图中,仅仅示出了与本申请实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对该深度图像生成系统20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

具体地,在本实施例中,深度图像生成系统20可以应用在电子设备中,深度图像生成系统20可以包括:图像获取模块21,用于获取多组原始双目图像,基于多组原始双目图像建立含有实例分割标签的数据集;模型训练模块22,用于利用含有实例分割标签的数据集训练自编码器网络,得到训练完成的自编码器网络;图像推论模块23,用于获取单目图像,将单目图像输入训练完成的自编码器网络,得到第一视差图;图像转换模块24,用于对第一视差图进行转换,得到单目图像对应的深度图像。

在本实施例中,多组原始双目图像中的每组原始双目图像均包括第一图像与第二图像,进一步结合图4所示,模型训练模块22可以包括:图像生成单元221,用于将第一图像输入自编码器网络,得到第二视差图;数据处理单元222,用于利用实例分割标签对第二视差图进行数据处理,得到第三视差图;第一计算单元223,用于将第一图像与第三视差图进行相加,得到第二图像的预测图像;第二计算单元224,用于利用预设均方差公式计算第二图像与预测图像的误差;模型训练单元225,用于将误差作为自编码器网络的训练损失,直至训练损失收敛,得到训练完成的自编码器网络。

本申请还公开一种电子设备,电子设备包括处理器和存储器,存储器用于存储指令,处理器用于调用存储器中的指令,使得电子设备执行上述实施例中的深度图像生成方法的步骤。其中,电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,终端设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

本申请还公开一种计算机可读存储介质,计算机可读存储介质存储计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述实施例中的深度图像生成方法的步骤。其中,存储介质可以是U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施方式提供的深度图像生成方法、系统、电子设备及计算机可读存储介质,通过以双目图像与实例分割图像结合训练自编码器网络,只需使用单目图像作为输入,自编码器网络即可输出视差图,通过视差图转换即可得到深度图像,可以提高深度估计精度,解决了深度重建中细节部分恢复效果差的问题。

本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本申请,而并非用作为对本申请的限定,只要在本申请的实质精神范围之内,对以上实施例所作的适当改变和变化都落在本申请要求保护的范围之内。

相关技术
  • 图像呈现方法、系统、电子设备和计算机可读存储介质
  • 引导电子设备系统开机的方法,电子设备,可读存储介质
  • 网页生成方法、装置、电子设备及计算机可读存储介质
  • 特征生成方法、装置、电子设备及计算机可读存储介质
  • 图片生成方法、服务器、电子设备及可读存储介质
  • 模型生成方法、图像生成方法、装置、电子设备及可读存储介质
  • 深度图像的生成方法及装置、计算机可读介质和电子设备
技术分类

06120116488572