掌桥专利:专业的专利平台
掌桥专利
首页

用于图像处理的设备和方法

文献发布时间:2023-06-19 19:27:02


用于图像处理的设备和方法

技术领域

本发明涉及场景中用于对象渲染的照度估计(estimation of illumination)。

背景技术

增强现实(Augmented Reality,AR)应用比以往任何时候都更受欢迎,用户每天都需要更逼真的增强功能。协调是通过将从一个图像中提取的前景图像与另一个图像的背景相结合来匹配两个图像外观的任务,从而产生逼真的最终合成效果。这是AR中的一个关键概念,它允许应用程序在不破坏幻觉的情况下向场景添加元素。这项任务的一个关键部分需要从背景中检索照度信息并将其无缝应用于前景。

为成功调整这些外观,人们面临三大挑战:外观协调,涉及匹配全局图像特征,如亮度、饱和度等;几何协调,涉及全包前景定位与背景具有几何一致性;照度协调,涉及恢复照度信息以及正确地重新照亮前景。

照度估计是一个不适定问题,因为它需要反转光源、几何反射和遮挡、相机属性的影响。由于场景的3D特性,估计空间中特定点处的光线这一任务本质上呈3D变化,即照度相对于该点的3D位置发生变化。

有几种现有的方法可用于检索全局光照或以相机为中心的定向照明。然而,这些方法并不能满足增强现实应用的要求。最近的一些空间变化方法可以通过密集或稀疏的方法检索照明方向。然而,尽管照明不是2D任务,但它们都不能在3D中自由移动所添加的对象。

在现实世界中恢复照度非常昂贵,通常需要大量的场景准备或大型装备。现有的方法均使用对抗样本,以弥合合成图像与真实图像之间的差距。通常使用照度检索技术来恢复照度,并以可通过现有商用渲染器快速模拟的表示形式来提供,包括2D空间变化估计。

已提出一种现有方法,该方法从智能手机前置摄像头提取照度以用于屏幕亮度目的。然而,从该方法中检索的光照信息仅与场景亮度有关,而不测量方向或颜色。另一方面,其它方法需要多视图作为输入。像这些现有方法的概念检索场景照度的全局表示,以相机的位置为中心。这些方法大多在用于优化所使用的CNN和光信息表示的数据方面存在分歧,例如,使用环境图与光源。这些方法无法提取空间中其它点的照度信息,需要在空间中移动传感器以进行新的估计。现有方法难以从区域光或软表面反射中提取光照信息。其它现有方法基于输入图像全景检索以自我为中心的光照估计。

一些现有方法能够提供2D空间变化的照度信息,需要恢复可见几何表面上的光照信息。由于图像的该区域的颜色信息包含光信息的关键指标,例如,明亮的区域很可能意味着强光聚焦,这简化了这项任务。这些方法不仅局限于2.5D变化的光线估计,而且无法预测空间中附近没有表面的点处的光线。

其它现有方法包括恢复光源位置。这些方法在可提取的现有光源数量方面受到限制,并且无法恢复强反射和区域光。一些现有方法需要将已知物体插入场景中。通过已知物体的反射,可以恢复该位置的光信息。上文提及的现有工作均未处理用于照度估计的全3D场景采样。

需要制定一种用于准确估计场景内三维照明条件的方法。

发明内容

根据一方面,本发明提供了一种包括图像处理器装置的设备,所述图像处理器装置用于实现作为端到端处理管道的一部分的基于图像的计算模型,所述处理管道用于通过以下方式进行操作:接收表示场景的颜色特定图像数据;接收所述场景的深度数据;使用所述基于图像的计算模型处理所述颜色特定图像数据,以形成所述场景的特征图;根据所述特征图和所述深度数据形成照度图,所述照度图表示所述场景中一组三维位置的照度估计。这种布置使得能够将深度信息整合到照度估计中,而无需在整个三维空间中进行直接测量。在实施例中,所述基于图像的计算模型可以是神经网络模型。

在实施例中,可以从所述设备的相机接收所述颜色特定图像数据。可以从所述设备的深度传感器接收所述深度数据或者接收所述深度数据作为基于所述颜色特定图像数据的估计。这种布置使得能够利用三维照度图,即使所述设备没有深度测量能力。

在实施例中,确定所述场景内选定位置处的照度可以包括:移位所述照度图的参照系使其以所述选定位置为中心,并且基于所述照度图的光照点在所述参照系中心处所述选定位置周围的空间分布来组合这些光照点。能够移动所述照度图的所述参照系,而不是针对所述场景内不同的坐标集进行重新计算,大大减少了所需处理的计算开销。需要同时表示多个选定位置时情况尤其如此,因为也可以通过实现所述参照系的移位来表示多个选定位置。

在实施例中,所述照度图包括多个光照点,对于所述颜色特定图像的相应像素,每个光照点表示以下各项中的一个:(i)照度级别和(ii)照度色调。所述照度图还可以包括表示对应于每个光照点的深度的数据。在实施例中,通过提取神经网络模型从所述照度图中提取所述选定位置处的所述照度的特征向量表示。这些特征以单独或组合的方式工作,以提供用于估计真实或虚拟场景内照明条件的高效且计算成本低的系统。

根据第二方面,本发明提供了一种用于通过图像处理器装置处理图像的计算机实现的方法,所述图像处理器装置用于实现作为端到端处理管道的一部分的基于图像的计算模型,所述方法包括:接收表示场景的颜色特定图像数据;接收所述场景的深度数据;使用所述基于图像的计算模型处理所述颜色特定图像数据,以形成所述场景的特征图;根据所述特征图和所述深度数据形成照度图,所述照度图表示所述场景中一组三维位置的照度估计。通过将深度和照度数据组合在一起,可以估计三维场景表面之间的点处的照度。

在实施例中,所述方法还可以包括通过以下方式确定所述场景内选定位置的照度:移位所述照度图的参照系使其以所述选定位置为中心;基于所述照度图的光照点在所述参照系中心处所述选定位置周围的空间分布来组合这些光照点。能够移动所述照度图的所述参照系,而不是针对所述场景内不同的坐标集进行重新计算,大大减少了所需处理的计算开销。

在实施例中,所述方法还可以包括通过提取神经网络模型从所述照度图中提取所述选定位置处的所述照度的特征向量表示。此外,所述方法可以包括处理所述特征向量表示,以生成颜色特定球谐表示、深度球谐表示以及对所述选定位置处照度的几何距离估计指示。所述几何距离估计指示可以包括一个或多个球谐系数,并且所述球谐表示各自包括表示相应近似度的36个系数,每个系数乘以3个颜色通道。

在实施例中,所述方法可以包括实现鉴别器神经网络,以通过以下方式验证所述处理管道的输出:区分对应于合成图像的所述特征向量与对应于真实图像的所述特征向量,以生成梯度;通过梯度反转层处理所述梯度;利用处理后的梯度优化所述基于图像的计算模型和提取神经网络模型。所述基于图像的计算模型可以是神经网络。因此,可以在需要最少实际数据记录的情况下优化所述方法,同时仍然生成准确估计三维空间中的照度的照度图。

附图说明

现将参考附图通过示例的方式对本发明进行描述。在附图中:

图1示出了所提出的管道前半部分的概览图;

图2示出了所提出的管道后半部分的概览图;

图3示出了如何通过在选定位置周围渲染立方图来收集光照信息;

图4示出了示例场景,其中人造物体位于场景内的选定位置;

图5示出了位于场景内选定位置的一系列人造物体;

图6示出了用于实现所提出的图像处理管道的示例设备。

具体实施方式

目前提出的方法是端到端的3D空间变化照明估计管道,该管道检索所述场景中任意3D位置处的照度信息。所述管道使用直接从传感器接收或从图像估计的彩色图像和深度信息作为输入。所述输出直接作为标准表示提供,其由现成的渲染器提供本地支持。目前提出的方法通过对抗性学习优化来支持现实世界的AR应用,因此不再需要收集昂贵的实际照度数据。

具体地,所提出的方法利用图像和深度测量来构建描述空间变化的3D照明的3D特征结构。可以在任意位置对这种3D特征结构(也称为照度图)进行采样。

所提出的方法是端到端深度学习管道,包括允许利用颜色特定输入图像(例如,RGB、CMYK等)以及逐像素深度测量的可区分投影操作。所提出的方法可以对所述场景中任意3D位置的光照信息进行采样,从而对所述场景中所有可见点进行完整的3D采样,而不仅仅是可见表面。

从所述3D场景中提取信息的采样方法依赖相对于要采样的目标点或选定位置定位特征结构(也称为点云或照度图)。这不需要额外的可学习参数或模型开销,减少了对内存有限的手持设备的内存需求。通过利用所述点云参照系的移位,可以同时对多个3D位置进行采样。也就是说,可以通过实现所述参照系的移位来同时表示多个选定位置。这还可以提高应用程序的潜在吞吐量。

所提出的方法可以利用颜色特定图像数据和深度图对抗样本进行优化,以支持实际应用。结果表明,所提出的方法能够恢复照明源的以自我为中心的方向。

所提出方法的核心是允许通过球谐系数预测和3D采样控制进行光照估计。这种方法不需要多视图或全景图像。此外,所述方法不需要其反射用于照度检索的已知物体的存在。

图1示出了所提出的管道前半部分100的概览图。所述管道的这一部分包括所述照度图110的生成。颜色特定图像102将原始照度数据提供给基于图像的计算模型104。所述基于图像的计算模型104获取所述颜色特定图像数据102,并生成所述图像中场景的特征图106。所述特征图106包括包含在所述颜色特定图像数据102中的照度信息的提取。所述基于图像的计算模型104可以是神经网络模型。深度数据108由所述管道接收,然后可以将该数据与所述特征图106组合以形成照度图110。所述照度图110表示所述场景中一组三维位置的照度估计。也就是说,所述照度图包括使得能够估计所述场景中三维空间内各个位置处的照度质量的信息。

可以从执行所述场景渲染的设备的相机或与其连接的相机接收所述颜色特定图像数据。可以从所述设备的深度传感器接收所述深度数据或者接收所述深度数据作为基于所述颜色特定图像数据的估计。

所提出的3D变化光照估计方法首先接收2D颜色特定图像(例如,大小为640x480)作为输入。

所提出的方法首先将该颜色特定图像馈送到CNN,以提供特征图。在示例性实现方式中,已将现有神经网络DenseNet的前四个块用于此目的。然后,通过该步骤对所述图像数据进行编码,从而提供20x15x256特征图。所述特征图的具体尺寸可以通过消融研究来确定。对所述特征图106进行优化,以描述场景光照信息。

大约在所述管道的中间位置,所提出的方法使用深度测量108来改进照度检索并允许3D空间变化的目标采样。然后将所述特征图的前两个维度(表示所述输入图像的空间结构)投射到3D空间中,从而产生点云或照度图。在上述示例性实现方式中,这将产生大小为300x(256+3)的照度图,其中,300为已投射的空间位置数量,256为它们的对应特征加上三个以自我为中心的空间维度。

所生成的照度图可以包括多个光照点,对于所述颜色特定图像的相应像素,每个光照点表示以下各项中的一个:(i)照度级别和(ii)照度色调。在三维空间中,所述照度图还可以包括表示对应于每个光照点的深度的数据。

图2示出了所提出的管道后半部分200的概览图。所述管道的这一部分确定所述场景内选定位置202处的照度。为实现这一点,可以通过将所述照度图110的原点设置为选定位置202并创建移位后的照度图,来将所创建的照度图重新以任何目标位置为中心。然后,可以使用提取神经网络204(例如PointNet网络)从所述照度图110中提取中间特征向量表示中的照度。也就是说,确定所述场景内选定位置的照度包括:移位所述照度图的参照系使其以所述选定位置为中心;基于所述照度图的光照点在所述参照系中心处所述选定位置周围的空间分布来组合这些光照点。然后,可以通过提取神经网络模型从所述照度图中提取所述选定位置处的所述照度的特征向量表示。

然后,可以处理所生成的特征向量。处理所述特征向量表示,以生成颜色特定球谐表示206、深度球谐表示208以及对所述选定位置处照度的几何距离估计指示。因此,作为该处理的结果,所提出的管道输出所述场景在所述选定位置处的照度的球谐函数(SphericalHarmonic,SH)表示以及与几何距离估计相关的附加输出,该附加输出也采用一个或多个SH系数的形式。与几何距离估计相关的附加输出可以有助于进行更好的遮挡估计。这两个SH表示206、208都可以使用36x3个系数,其中,3是指所述颜色特定图像数据中的颜色通道数量,36是指所述颜色特定图像数据的近似度。

此外,所提出的方法利用对抗学习技术来弥合合成图像与真实图像之间的差距。为此,采用一种鉴别器神经网络,该网络经过训练,以区分对应于合成或真实图像的中间特征向量。然后,通过梯度反转层(Gradient Reversal Layer,GRL)210对该网络生成的所述梯度进行处理,然后再将其用于所述基于图像的计算模型(包含神经网络时)和所述提取神经网络。也就是说,实现鉴别器神经网络以验证所述处理管道的输出包括:区分对应于合成图像的所述特征向量与对应于真实图像的所述特征向量,以生成梯度;通过梯度反转层处理所述梯度;利用处理后的梯度优化所述基于图像的计算模型和提取神经网络模型。

所提出的方法通过结合基于GPU的光线跟踪引擎和逼真的室内场景来生成合成数据。室内2D渲染是从具有随机化参数的场景中生成的。所述随机化参数可以包括多种布局,包括卧室、客厅、浴室和厨房;具有随机纹理和随机化材料特性的墙壁和地板;对象的随机放置(例如取自SceneNet),同时具有适当的随机化纹理和材料特性;以及不同的照明布置、颜色和强度。

对于这些渲染中的每一个,可以在观察空间中的4个位置处对所述光信息进行采样。所提出的用于生成2D数据集的方法通过使光线穿过所述渲染的4个象限中的每一个,来对一个点进行采样。虽然现有方法随后可以选择靠近表面的位置,但本文提出的3D数据集可以在所述场景内距相机的任何距离处进行随机采样。

图3示出了如何通过在选定位置周围渲染立方图来收集所述光照信息。然后可以使用所述立方图来生成目标SH系数。具体而言,图3示出了所述图像数据302a-c内三个不同的选定位置。然后,每个选定位置302a-c具有自己的立方图304a-c,这些立方图以所述相应的选定位置302a-c为中心进行渲染。然后,图3示出了这些立方图304a-c中的每一个所得到的SH表示306a-c。

在训练期间,可以通过执行不同的颜色校正、添加高斯和椒盐噪声以及水平翻转来增强渲染。对所述立方图进行相应修改。

所创建的训练数据集可以包括16000个未校正图像。其中,为每个图像收集4个探针,总共提供64000个探针。所述探针从表面上和表面下进行收集。这提供了总体的3D控制。所述训练数据包括具有随机表面纹理(例如,每个房间10种)和随机光源(例如,每个房间10个)的真实房间布局。此外,还有随机摆放的家具。

用于优化所提出管道的损失函数是多个损失的组合,下面将详细说明每个损失。

首先,对所提出的方法进行优化,以估计SH格式的光照信息。为实现这一点,根据以下等式,最大程度地减小表示有色光“SH”的预测和地面真值36x3系数之间的L2距离:

其中,SH'和SH分别为预测和地面真值深度SH系数,i是指SH阶数。

此外,根据以下等式,最大程度地减小所述深度SH系数“DSH”之间的距离:

/>

其中,DSH'和DSH分别为预测和地面真值深度SH系数,i是指SH阶数。

采用通过所述GRL进行优化的对抗任务。例如,所使用的损失函数可以是简单的二值交叉熵损失:

L

其中,c'和c是预测和地面真值域分类二值化标志。

这些损失可以与同等权重相结合。

图4示出了示例场景400,其中人造物体402位于场景内的选定位置。所述物体402是一个球体,已根据在所述场景内的位置进行了渲染,呈现出被照亮的状态。可以看出,所述物体402并未明显靠近任何特定表面,并且其照度为位于所述场景内物体之间(而不是位于已存在另一物体的位置)的自由空间中的物体的照度。所述球体的左侧面存在较亮的区域,以与所述场景左侧前景中的较亮光线保持一致,并且所述球体的右侧和顶部表面具有更多阴影,以与所述场景的低矮天花板和较暗的远角保持一致。

图5示出了位于场景500内选定位置的一系列人造物体502a-c。所述物体502a-c是球体,其中较小的球体比较大的球体距离观察者更远。所述球体已根据在所述场景内的位置进行了渲染,呈现出被照亮的状态。可以看出,所述物体502a-c并未明显靠近任何特定表面,并且其照度为位于所述场景内物体之间(而不是位于已存在另一物体的位置)的自由空间中的物体的照度。同样,距离较近的球体502a更亮,代表房间前半部分的照明。距离最远的球体502c被更多地照亮,以与几乎没有光线的房间后部保持一致。可以看出,所述球体502c不仅根据其正后方的背景被照亮,而且所述球体与其后方的地面的深度不同,因此所述球体502c已被渲染为具有表面照度以保持其在所述场景中的3D位置。

图6示出相机的示例,所述相机用于实现所述图像处理器,以对相机1101中图像传感器1102拍摄的图像进行处理。此类相机1101包括一些板载处理能力。这可以由所述处理器1104提供。所述处理器1104还可以用于所述设备的基本功能。所述相机通常还包括存储器1103。

收发器1105能够通过网络与其它实体1110、1111通信。这些实体可以在物理上远离所述相机1101。所述网络可以是公共可访问网络,例如互联网。所述实体1110、1111可以基于云。在一示例中,实体1110是计算实体,实体1111是命令和控制实体。这些实体是逻辑实体。实际上,它们中的每一个都可以由一个或多个物理设备(例如,服务器和数据存储区)提供,并且两个或多个所述实体的功能可以由单个物理设备提供。用于实现实体的每个物理设备包括处理器和存储器。所述设备还包括收发器,用于向设备1101的收发器1105发送数据并从该收发器接收数据。所述存储器以非瞬时方式存储代码,所述代码可由所述处理器执行,以通过本文描述的方式实现相应实体。

所述命令和控制实体1111可以训练所提出方法中使用的所述神经网络模型。这通常是一项计算密集型任务,即使可以高效地描述所获得的模型,因此可以高效地在云中执行所述算法的开发,可以预见的是云中有大量能量和计算资源可用。可以预见的是,这比在典型相机上形成此类模型更高效。然而,上文在当前提出的方法的上下文中描述了使其能够在具有有限存储器资源的设备上实现的情况。

在一实现方式中,在云中开发所述算法后,所述命令和控制实体即可自动形成相应的模型并使其传输到相关相机设备。在该示例中,通过处理器1104在所述相机1101处实现一组预训练的神经网络模型。

在另一可能的实现方式中,可以由所述相机传感器1102捕获图像,并且可以由所述收发器1105将所述图像数据发送到云端,以在所述系统中进行处理。然后,可以将所生成的目标图像发送回所述相机1101。

在另一可能的实现方式中,可以由所述相机传感器1102捕获图像,并且可以由所述设备的所述图像处理器装置直接处理所述图像数据和所述深度数据,而无需外部系统的辅助。

因此,可以通过多种方式部署所述方法,例如部署在云中、所述设备上或专用硬件中。如上所述,云设施可以执行训练,以开发新算法或改进现有算法。根据数据语料库附近的计算能力,所述训练可以在靠近源数据的位置进行,也可以在云中进行,例如使用推理引擎。所述系统还可以在所述相机处、在专用硬件或云中实现。

申请方在此单独公开本文描述的每一个体特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识,能够基于本说明书将此类特征或组合作为整体实现,而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题,并且不限于权利要求的范围。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于前文描述可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

相关技术
  • 用于摄像画图机的图像处理方法、系统、设备和存储介质
  • 图像处理方法、图像处理装置和电子设备
  • 一种图像处理方法、图像处理装置及终端设备
  • 一种图像处理方法、图像处理装置及终端设备
  • 图像处理设备和图像处理方法
  • 图像处理设备、图像处理方法、用于图像处理方法的程序、以及记录有用于图像处理方法的程序的记录介质
  • 用于颜色校正的图像处理设备和图像处理方法、以及包括该图像处理设备的图像处理系统
技术分类

06120115918347