掌桥专利:专业的专利平台
掌桥专利
首页

一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法

文献发布时间:2024-07-23 01:35:21


一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法

技术领域

本发明涉及集成成像3D显示领域,特别涉及一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法。

背景技术

显示技术发展至今,已有多种方式实现3D显示,在这些方法中,集成成像3D显示技术以其无需辅助设备、无需相干光源、无观看视疲劳,并且能够提供全视差、连续视点、全彩色、实时的真3D图像,被认为是最具前景的3D显示技术之一。在集成成像3D显示的实现过程中,三维图像的捕获、处理和显示技术的研究一直是人们的研究兴趣所在。

1908年G.Lippmann提出全光学3D拍摄法,这种初始的集成成像3D场景捕获和重现方式,依照光路可逆原理,利用微透镜阵列记录和重现3D场景在不同视角上的信息。在此过程中,每个透镜元从不同方向记录3D场景的小部分信息,在后焦平面上生成一幅对应该透镜元视角的元素图像,所有的元素图像组成一张包含该3D场景且视角数量与微透镜阵列相对应的微单元图像阵列。随后,重构过程使用与捕获过程参数相同的微透镜阵列,与微单元图像阵列精密耦合,微透镜阵列聚集还原图像元像素发出的光线从而完成原3D场景的重构,到此为一个完整的集成成像3D显示过程。

长达100多年的集成成像显示技术研究中,以上述方式为基线衍生出了多种3D场景捕获方式。当前的主流三维图像捕获方法可依照3D场景分为两个大类,一类是采用相机阵列或特殊光学元件对真实场景进行拍摄的捕获方式,另一类是对计算机建模的3D模型设置虚拟相机阵列进行场景捕获的计算机生成法。使用实体相机进行拍摄的方式包括扫描式3D拍摄法、摄像机阵列3D拍摄法等。这类方法旨在使用相机作为单个元素图像的记录元件,获取质量更高的微图像阵列,从而获得更好的3D重构效果。扫描式3D拍摄法将相机安置在可移动的平台上,通过平台平移来采集不同视角的场景信息,但是在此过程中要求场景绝对静止,且耗时较长。摄像机阵列3D拍摄法用等间距排列的摄像机阵列来代替微透镜阵列,每个图像元由一个摄像机拍摄得到,有很高的分辨率,且不存在深度反转问题,但这个方法的明显存在着庞大的相机数量造成的高成本问题与相机阵列的矫正、匹配带来的复杂系统问题。稀疏相机阵列法大幅度减小拍摄时的相机个数,通过稀疏相机阵列获取3D场景的视差图像阵列,在计算机中建立像素映射模型,将视差图像阵列转换为微图像阵列,从而实现集成成像3D显示。然而这种方式虽然减小了相机个数,相较于使用微透镜阵列成本和系统复杂度依然较高。

计算机生成法作为目前集成成像捕获和处理3D场景信息的主流方式,相对于拍摄法具有低成本、低系统复杂度、可适用于大场景、无机械误差等优点。计算机生成法的核心步骤为在计算机中建立3D场景,根据重构步骤的微透镜阵列参数设置拍摄此3D场景的虚拟相机阵列,每一个虚拟相机代表一个捕获场景的视角,将所有虚拟相机渲染的局部场景图像按照对应的相机序列逐一拼接即可得到含有该3D场景信息的微单元图像阵列。然而计算机生成法也存在着明显的缺陷,首先相较于拍摄法,计算机生成法需要对3D场景进行建模,最终得到的是虚拟场景而非真实场景;第二,每一个虚拟相机渲染一张局部图像直到最终合成微单元图像阵列需要大量算力,时间损耗较长,难以实现高效的集成成像过程。

发明内容

有鉴于此,本发明的目的在于提供一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法,旨在解决上述问题。

为实现上述目的,本发明采用如下技术方案:

在本发明一具体实施例中,提供一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法,所述方法包括以下步骤:

S1:获取一张三维场景单视点2D图像;

S2:以全光场数据集作为训练集,采用卷积神经网络,训练获得4D光场生成模型;所述4D光场生成模型,用于预测步骤S1获取的所述2D图像中每条射线的光线深度和遮挡关系;其中,所述4D光场生成模型包括:以扩张卷积获得用于估计光线深度的深度估计功能模块、以3D卷积构建残差块并用于预测遮挡和非朗伯效应的残差块功能模块;

S3:输入步骤S1中获得的所述单视点2D图像,调用所述4D光场生成模型,预测生成以输入模型的所述单视点2D图像为中心的N×N视差图像阵列;其中,所述4D光场生成模型的残差块功能模块根据所述深度估计功能模块估计的所述光线深度来进行随视角的变化的新视图合成;

S4:通过所述4D光场生成模型中的深度估计功能模块,对所述单视点2D图像的原属光场中的光线深度进行精准估计并输出至映射算法中的外部参数深度L,通过所述映射算法并在外部参数深度L的调控下将视差图像阵列无损映射为微单元图像阵列;

S5:采用一个普通摄像模块作为集成成像采集和重构系统,搭配对应参数的微透镜阵列获得重构3D场景。

在一具体实施方式中,三维场景的单视点2D图像可以通过光学方法对真实3D场景进行拍摄,也可以通过计算机对虚拟3D场景合成获得。

在一具体实施方式中,所述4D光场生成模型根据朗伯颜色一致性,以任意连续的常数作为步长扫描输入光场图像,以学习不同视角下每条射线的光线深度和遮挡关系。

在一具体实施方式中,所述4D光场生成模型中,以2D卷积和扩张卷积构建深度预测网络用于预测光场的所述光线深度,以3D卷积构建残差块用于预测遮挡关系和非朗伯反射,用所述光线深度随角度变化代替3D体素扭曲生成新视图的方式合成光场,构建端到端的4D光场生成模型。

在一具体实施方式中,合成新视角的过程中不以点云或3D体素的方式进行3D估计与重建,而是以所述4D光场生成模型为基础,通过改变射线入射和出射点,预测变化后所述射线线所表示的物体的所述光线深度变化,进而合成变化后的视图。

在一具体实施方式中,将视所述差图像阵列映射为所述微单元图像阵列的算法基于SPOC算法推算得到,根据搭建的集成成像3D显示系统参数推算具体公式。

在一具体实施方式中,映射视场大于等于微单元图像阵列以使视差图像阵列中的像素能够完整的映射到微单元图像中而没有像素遗漏。

本发明与现有技术相比具有以下有益效果:

1、本发明可用于真实3D场景的捕获,也可用于虚拟3D场景的捕获;

2、本发明无需特殊光学元件、大量摄像设备和长时间渲染,因此无需复杂工艺和材料支持,不用耗费高成本采购相机阵列,没有校对和调试相机阵列的时间成本和虚拟相机阵列摄像渲染的时间成本;

3、本发明将从捕获3D场景到重构3D场景的集成成像系统简化为一个摄像设备、一个处理器和一个3D显示器,使得集成成像3D显示系统具有实时性、便携性。

附图说明

图1是本发明实施例提出的种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法的流程图;

图2是本发明实施例提供的一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法概念图;

图3是本发明实施例中预测光线深度用于生成视差图像阵列的网络模型示意图;

图4是本发明实施例中生成的视差图像阵列;

图5是本发明实施例中合成的微单元图像;

图6是本发明实施例为进一步体现微单元图像所放大的微单元图像局部。

具体实施方式

下面详细说明本发明的一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法的一个典型实施例,对本发明做出进一步的具体描述。有必要在此指出的是,以下实施例只用于本发明做出进一步的说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出一些非本质的改进和调整,仍属于本发明的保护范围。

如图1-图2所示,在本发明第一实施例中,提供一种基于卷积神经网络生成视差图像阵列的集成成像3D显示方法,所述方法包括以下步骤:

S1:获取一张三维场景单视点2D图像;

S2:以全光场数据集作为训练集,采用卷积神经网络,训练获得4D光场生成模型;所述4D光场生成模型,用于预测步骤S1获取的所述2D图像中每条射线的光线深度和遮挡关系;其中,所述4D光场生成模型包括:以扩张卷积获得用于估计光线深度的深度估计功能模块、以3D卷积构建残差块并用于预测遮挡和非朗伯效应的残差块功能模块;

以全光场作为训练集,以4D光线深度表示物体,代替以几何估计表示物体的视图合成方法,建立学习光线深度与视角信息间关系的卷积神经网络模型,如图3所示,网络结构可表示为:

Conv(3,3,a,b)~leakyrelu~Conv(3,3,b,c)~leakyrelu~Conv(3,3,c,d)~leakyrelu~

Conv(3,3,d,d,r

leakyrelu~Conv(3,3,d,d,r

~leakyrelu~Conv(3,3,e,f)~tanh

3DConv(3,3,3,a,b)~leakyrelu~3DConv(3,3,3,b,b)~leakyrelu~3DConv(3,3,3,b,b)

~leakyrelu~3DConv(3,3,3,b,b)~leakyrelu~3DConv(3,3,3,b,c)~tanh

(1)

其中前十层预测光线深度,后五层预测遮挡,Conv(3,3,x,y,r

全光场数据集是用做模型训练的数据集,4D光场是一种数学建模,全光场表示在某一个范围内收集某个光场的所有光线,通俗的讲就是在被采集光场的n×n个视角的视差图像阵列。

S3:输入步骤S1中获得的所述单视点2D图像,调用所述4D光场生成模型,预测生成以输入模型的所述单视点2D图像为中心的N×N视差图像阵列;其中,所述4D光场生成模型的残差块功能模块根据所述深度估计功能模块估计的所述光线深度来进行随视角的变化的新视图合成;

S4:通过所述4D光场生成模型中的深度估计功能模块,对所述单视点2D图像的原属光场中的光线深度进行精准估计并输出至映射算法中的外部参数深度L,通过所述映射算法并在外部参数深度L的调控下将视差图像阵列无损映射为微单元图像阵列;

值得一提的是,由于步骤S3中,生成3D场景的N×N视点信息的视差图像阵列,集成成像3D显示受显示器分辨率I×J限制,需要计算适用于显示器的视点个数N和视差图像分辨率i×j。设集成成像3D显示所用的微透镜阵列单个透镜元覆盖像素r×r个,则有:

N=r (2)

本实施例中以分辨率为1280×720的显示器为例,若透镜元覆盖4×4个像素,则根据公式(2)-(4),应生成视差图像4×4个,每个图像分辨率为320×180。

根据以上参数,将摄像设备获得的分辨率为320×180的2D图像作为输入,经与训练集图像相同的处理,输入至卷积神经网络模型,设生成视差图像阵列数量为4×4,获取该2D图像所记录的3D场景的视差图像阵列。

根据所需(2)-(4)所确定的参数,选择生成视差图像数量为N×N。

图5的微单元图像阵列局部放大如图6所示,每个4×4的像素块包含视差图像阵列中对应该像素点的16个视点的像素信息,整张微单元图像阵列包含视差图像阵列中所有视点的像素信息。

S5:采用一个普通摄像模块作为集成成像采集和重构系统,搭配对应参数的微透镜阵列获得重构3D场景。

结合步骤S4参数,搭配透镜元数量为i×j,单个透镜元覆盖N×N个像素的微透镜阵列,使透镜与显示器严格嵌合。具体而言,本实施例中视差图像阵列图像分辨率为320×180,则微单元图像阵列分辨率为1280×720,与显示器分辨率完全吻合,显示时没有信息损失。结合以上参数,搭配透镜元数量为320×180,单个透镜元覆盖4×4个像素的微透镜阵列,使透镜与显示器严格嵌合,最终获得重构的3D场景。

此外,在本实施例中,可选的,三维场景的单视点2D图像可以通过光学方法对真实3D场景进行拍摄,也可以通过计算机对虚拟3D场景合成获得。

可选的,所述4D光场生成模型根据朗伯颜色一致性,以任意连续的常数作为步长扫描输入光场图像,以学习不同视角下每条射线的光线深度和遮挡关系。

可选的,所述4D光场生成模型中,以2D卷积和扩张卷积构建深度预测网络用于预测光场的所述光线深度,以3D卷积构建残差块用于预测遮挡关系和非朗伯反射,用所述光线深度随角度变化代替3D体素扭曲生成新视图的方式合成光场,构建端到端的4D光场生成模型。

可选的,合成新视角的过程中不以点云或3D体素的方式进行3D估计与重建,而是以所述4D光场生成模型为基础,通过改变射线入射和出射点,预测变化后所述射线线所表示的物体的所述光线深度变化,进而合成变化后的视图。

可选的,将视所述差图像阵列映射为所述微单元图像阵列的算法基于SPOC算法推算得到,根据搭建的集成成像3D显示系统参数推算具体公式。

集成成像直接采集微单元图像会有深度反转问题,SOPC是通过一次映射把深度转回来,建立一个从深度反转的微单元图像到深度正确的微单元图像的映射。而在传统SOPC算法中,深度L的取值是近似获得的,而在本实施例中,通过深度估计网络获得较为精确的深度L在结合SPOC算法将将视差图像阵列无损映射为微单元图像阵列。

可选的,映射视场大于等于微单元图像阵列以使视差图像阵列中的像素能够完整的映射到微单元图像中而没有像素遗漏。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

相关技术
  • 一种集成成像桌面3D显示的自适应微图像阵列生成方法
  • 一种集成成像桌面3D显示的自适应微图像阵列生成方法
技术分类

06120116679645