掌桥专利:专业的专利平台
掌桥专利
首页

一种图像处理方法、装置、电子设备和存储介质

文献发布时间:2024-04-18 19:59:31


一种图像处理方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能领域,具体涉及一种图像处理方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的发展,人们对于三维视觉技术的需求越来越高。NeRF由于其使用多层感知器对三维场景的辐照度和密度进行编码,然后通过可微分的体渲染方式合成新视角图像,而得到了大量的应用。现有技术中会使用两张宽基线的全景图作为输入构建两个网格,将Mesh投影到目标视图,并通过补全网络融合两个网格上的颜色,但是基于上述现有技术采用曲面的混合方式得到目标视角图像,经常会产生重叠伪影。

并且,已有的NeRF系列方法只能处理透视图像,在处理全景图像时,需要将全景图像转换为透视图像,由于每个透视视图的视场有限,会导致信息丢失和性能不佳。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备和存储介质,可以在已有视角参考全景图的输入条件下合成新视角下的目标全景图。

本申请实施例提供一种图像处理方法,包括:

获取多个视角下的参考全景图;

调用球形深度计算模块计算每个所述参考全景图对应的球形深度;

对所述球形深度进行卷积操作,得到所述参考全景图对应的几何特征;

对所述参考全景图进行特征提取操作,得到所述参考全景图对应的外观特征;

对所述几何特征和所述外观特征进行特征拼接,得到每个视角下的所述参考全景图对应的拼接后图像特征;

基于所述拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与所述参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;

对所述对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

相应的,本申请实施例提供一种图像处理装置,包括:

获取单元,用于获取多个视角下的参考全景图;

调用单元,用于调用球形深度计算模块计算每个所述参考全景图对应的球形深度;

卷积单元,用于对所述球形深度进行卷积操作,得到所述参考全景图对应的几何特征;

特征提取单元,用于对所述参考全景图进行特征提取操作,得到所述参考全景图对应的外观特征;

特征拼接单元,用于对所述几何特征和所述外观特征进行特征拼接,得到每个视角下的所述参考全景图对应的拼接后图像特征;

对齐单元,用于基于所述拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与所述参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;

渲染单元,用于对所述对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

可选的,在本申请的一些实施例中,所述调用单元可以包括投影子单元和计算子单元,如下:

投影子单元,用于根据球形投影,找到所述第一参考全景图中第一像素点在所述第二参考全景图中对应的第二像素点;

计算子单元,用于根据所述第一像素点与所述第二像素点之间的相似程度,计算每个所述参考全景图对应的球形深度。

可选的,在本申请的一些实施例中,所述投影子单元可以包括扫描子单元和像素点查找子单元,如下:

扫描子单元,用于针对所述第一参考全景图中第一像素点的不同深度进行球形扫描,得到多个深度候选;

像素点查找子单元,用于根据球形投影找到每个所述深度候选在所述第二参考全景图中对应的第二像素点。

可选的,在本申请的一些实施例中,所述扫描子单元可以包括调用子单元和预测子单元,如下:

调用子单元,用于调用单目深度网络对第一参考全景图中第一像素点进行球形深度预测,得到每个所述第一像素点对应的第一球形深度;

预测子单元,用于通过高斯分布预测多个所述第一球形深度对应的深度候选。

可选的,在本申请的一些实施例中,所述预测子单元具体可以用于通过高斯分布,将搜索空间切分为多个子区间,所述子区间对应的区间概率相同;将每个所述子区间的中间点作为所述第一球形深度对应的深度候选。

可选的,在本申请的一些实施例中,所述计算子单元具体可以用于获取所述第一像素点与所述第二像素点在局部特征之间的相似度,得到相似度集合;利用卷积操作,将所述相似度集合进行降维操作,得到降维后相似度集合;对所述降维后相似度集合进行解码操作,得到球形深度。

可选的,在本申请的一些实施例中,所述特征拼接子单元具体可以用于将所述几何特征通过多层感知器解码成可见度信息;通过预设聚合网络聚合所述外观特征和所述可见度信息,得到每个视角下的所述参考全景图对应的拼接后图像特征。

可选的,在本申请的一些实施例中,所述对齐子单元具体可以用于基于所述拼接后图像特征,采用球形投影将所述参考全景图中的像素点坐标转化为球形极坐标;将所述球形极坐标转化为笛卡尔系坐标;基于笛卡尔系坐标的所述参考全景图,将球形辐射场中的三维采样点与所述参考全景图中对应的像素点对齐,得到对齐后的球形辐射场。

本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的图像处理方法中的步骤。

本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的图像处理方法中的步骤。

此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的图像处理方法中的步骤。

本申请实施例提供了一种图像处理方法、装置、电子设备和存储介质,可以获取多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。本申请针对全景图,设计了一种处理遮挡的可泛化球形辐射场,直接对全景图进行操作,无需将全景图转换为透视图,从而可以在已有视角参考全景图的输入条件下合成新视角下的目标全景图。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理方法的场景示意图;

图2是本申请实施例提供的图像处理方法的第一流程图;

图3是本申请实施例提供的图像处理方法的第二流程图;

图4是本申请实施例提供的网络总体设计示意图;

图5是本申请实施例提供的球形深度估计模块示意图;

图6是本申请实施例提供的第一对比实验结果;

图7是本申请实施例提供的第二对比实验结果;

图8是本申请实施例提供的图像处理装置的结构示意图;

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、电子设备和存储介质。具体地,本申请实施例提供适用于电子设备的图像处理装置,该电子设备可以为终端等设备,该终端可以包括手机、平板电脑、笔记本电脑、或个人计算机(PC,Personal Computer)等。

可以理解的是,本实施例的图像处理方法可以是在服务器上执行的,也可以是由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

参考图1,以该电子设备为服务器为例,本申请实施例提供的图像处理的系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等。

其中,服务器11,可以用于当接收到终端10发送的多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图,然后将目标全景图发送给终端10。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群。

上述服务器11获取目标虚拟画面数据的步骤,也可以由终端10执行。

终端10,可以用于:获取多个视角下的参考全景图,并将其发送给服务器11;接收来自服务器11的目标全景图。其中,终端10可以包括手机、平板电脑、笔记本电脑、或个人计算机(PC,Personal Computer)等。

本申请实施例提供的图像处理方法涉及人工智能(AI,ArtificialIntelligence)领域中的计算机视觉(CV,Computer Vision),具体涉及计算机视觉中的增强现实(AR,Augmented Reality)技术领域。本申请实施例可以实现通过已有视角的全景图的输入条件下合成新视角下的全景图。

其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中,计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉,并进一步进行图像处理,使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、三维物体重建、虚拟现实、增强现实等技术,还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

可以理解的是,在本申请的具体实施方式中,涉及到用户信息(如参考全景图)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。本申请实施例将以图像处理方法由服务器执行为例来进行说明,具体的,由集成在服务器中的图像处理装置来执行。如图2所示,该图像处理方法的具体流程如下:

S201、获取多个视角下的参考全景图。

其中,全景图是通过广角的表现手段以及绘画、相片、视频、三维模型等形式,尽可能多表现出周围环境的图像。随着视角的不同,最终获得的全景图也存在区别,比如,360全景是通过对专业相机捕捉整个场景的图像信息或者使用建模软件渲染过后的图片,使用软件进行图片拼合,并用专门的播放器进行播放,即将平面照片或者计算机建模图片变为360度全观,用于虚拟现实浏览,把二维的平面图模拟成真实的三维空间,呈现给观赏者。

在一实施例中,如图4所示,本申请实施例即可获取多个视角下的参考全景图,以便用于虚拟现实中的虚拟漫游,只需要用户输入自己拍摄的几张视角不同的全景图,就可以应用本申请技术方案合成任意视角下的目标全景图,以便用户进行六自由度的探索。其中,多个视角下的参考全景图可以为从不同视角观察物体所得到的图像,比如,从不同的位置观察物体得到的图像即可认定为不同视角下的图像。由于本申请技术方案是希望通过已有视角的全景图的输入条件下合成新视角下的全景图,因此本申请实施例可以选取不同位置观察物体所得的图像作为多个视角下的参考全景图,这样可以尽可能的收集到所需素材,以便实现合成新视角下全景图的目的。

比如,景点管理者可以输入几张不同视角的景点全景图,就可以应用本申请技术方案合成任意视角下景点的目标全景图,从而达到用户无需走出家门,即可游览名山大川的效果。

其中,虚拟现实技术囊括计算机、电子信息、仿真技术,其基本实现方式是以计算机技术为主,利用并综合三维图形技术、多媒体技术、仿真技术、显示技术、伺服技术等多种高科技的最新发展成果,借助计算机等设备产生一个逼真的三维视觉、触觉、嗅觉等多种感官体验的虚拟世界,从而使处于虚拟世界中的人产生一种身临其境的感觉。

其中,虚拟漫游是虚拟现实技术的重要分支,其特点是被漫游的对象是已客观真实存在着的,只不过漫游形式是异地虚拟的而已,同时,漫游对象制作是基于对象的真实数据。它在多维信息空间上创建一个虚拟信息环境,能使用户具有身临其境的沉浸感,具有与环境完善的交互作用能力,并有助于启发构思。

S202、调用球形深度计算模块计算每个参考全景图对应的球形深度。

其中,图像深度是指存储每个像素所用的位数,也能够用于度量图像的色彩分辨率。图像深度确定了彩色图像的每个像素可能有的色彩数,或者确定灰度图像的每个像素可能有的灰度级数。图像深度决定了色彩图像中可能出现的最多的色彩数,或者灰度图像中的最大灰度等级。在本申请实施例中,由于是利用球形深度计算模块,基于与相机中心点之间的距离对参考全景图进行计算,因此最终得到的图像深度为球形深度。

比如,在本申请实施例中,可以应用如图5所示的球形深度计算模块计算每个参考全景图对应的球形深度。

可选的,在一实施例中,步骤“调用球形深度计算模块计算每个参考全景图对应的球形深度”,可以包括:

根据球形投影,找到第一参考全景图中第一像素点在第二参考全景图中对应的第二像素点;

根据第一像素点与第二像素点之间的相似程度,计算每个参考全景图对应的球形深度。

其中,如图5所示,多个视角下的参考全景图包括参考视角对应的第一参考全景图、以及源视角对应的第二参考全景图,也即,第一参考全景图和第二参考全景图是基于不同视角获取到的。另外,在一实施例中,若需要针对第一参考全景图进行计算,则将第一参考全景图对应的视角确定为参考视角,将第二参考全景图对应的视角确定为源视角;相应的,若需要针对第二参考全景图进行计算,则将第二参考全景图对应的视角确定为参考视角,将第一参考全景图对应的视角确定为源视角。

比如,如图5所示,图中的(u,v)

可选的,在一实施例中,步骤“根据球形投影,找到第一参考全景图中第一像素点在第二参考全景图中对应的第二像素点”,包括:

针对第一参考全景图中第一像素点的不同深度进行球形扫描,得到多个深度候选;

根据球形投影找到每个深度候选在第二参考全景图中对应的第二像素点。

比如,如图5所示,为球形深度计算模块内部结构的示意图。首先,获取参考视角对应的第一参考全景图、以及源视角对应的第二参考全景图,其中,参考视角和源视角为不同的视角,并通过图像编码器分别提取第一参考全景图对应的图像特征、以及第二参考全景图对应的图像特征。可以将参考视角对应的第一参考全景图中第一像素点表示为(u,v)

可选的,在一实施例中,步骤“针对第一参考全景图中第一像素点的不同深度进行球形扫描,得到多个深度候选”,包括:

调用单目深度网络对第一参考全景图中第一像素点进行球形深度预测,得到每个第一像素点对应的第一球形深度;

通过高斯分布预测多个第一球形深度对应的深度候选。

比如,在宽基线下,有些区域可能只在一个视角可见,在其他视角被遮挡,在这种情况下360°多视角立体视觉(MVS)难以产生准确的深度估计。为了解决上述问题,本申请实施例可以利用360°单目深度来指导360°多视角立体视觉的深度采样。

其中,宽基线是指摆放在不同视角位置处的相机相距很远。

其中,多视角立体视觉(Multiple View Stereo,MVS)是对立体视觉的推广,能够在多个视角(从外向里)观察和获取景物的图像,并以此完成匹配和深度估计。

可以将参考视角对应第一参考全景图中的像素点表示为(u,v),并利用单目深度网络对第一参考全景图中的像素点进行球形深度预测,得到每个像素点(u,v)对应的球形深度μ

可选的,在一实施例中,步骤“通过高斯分布预测多个第一球形深度对应的深度候选结果”,包括:

通过高斯分布,将搜索空间切分为多个子区间,子区间对应的区间概率相同;

将每个子区间的中间点作为第一球形深度对应的深度候选结果。

具体来说,第一参考全景图中第一像素点的搜索空间可以被定义为[μ

其中,

在一实施例中,考虑到单目深度中存在误差,可以使用N

可选的,在一实施例中,步骤“根据第一像素点与第二像素点之间的相似程度,计算每个参考全景图对应的球形深度”,包括:

获取第一像素点与第二像素点在局部特征之间的相似度,得到相似度集合;

利用卷积操作,将相似度集合进行降维操作,得到降维后相似度集合;

对降维后相似度集合进行解码操作,得到球形深度。

比如,本申请实施例可以使用特征向量之间的差值作为相似度度量方式,可以计算(u,v)

S203、对球形深度进行卷积操作,得到参考全景图对应的几何特征。

比如,如图4所示,获取到球形深度后,可以通过卷积操作,分别从第j个全景视角对应的球形深度中提取出参考全景图对应的几何特征G

S204、对参考全景图进行特征提取操作,得到参考全景图对应的外观特征。

比如,如图4所示,可以通过特征提取操作,分别从第j个全景视角对应的参考全景图中提取外观特征W

S205、对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征。

比如,如图4所示,可以通过特征拼接操作,将属于同一视角下的几何特征和外观特征进行拼接,如将第1个全景视角对应的外观特征W

S206、基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场。

由于在宽基线下,球形辐射场往往容易过拟合于训练视角,难以产生令人满意的新视角。为了解决这个问题,本申请实施例可以通过聚合来自输入全景图的局部特征将360场景先验融入到球形辐射场。

在现有技术中,可以将全景图转化为透视图,然后已有的可泛化神经辐射场可以在透视图的输入条件下用于合成新的360视角。但是,如果将三维采样点投影到透视图源视角中,由于透视图有限的视野,这些点可能会落到图像边界外部,或者位于透视图相机背后(z-深度<0)。这个问题会在聚合特征过程中引入错误的特征,并导致较差的渲染结果。

为了克服这个问题,如图4所示,我们采用球形投影直接将三维采样点p

可选的,在一实施例中,步骤“对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征”,可以包括:

将几何特征通过多层感知器解码成可见度信息;

通过预设聚合网络聚合外观特征和可见度信息,得到每个视角下的参考全景图对应的拼接后图像特征。

比如,本申请实施例可以模仿神经射线(NeuRay)来聚合外观特征和几何特征,但是我们不采用现有技术中的透视图和平面深度进行特征的聚合,而是采用全景图和球形深度进行特征的聚合。如图4所示,可以分别从第j个全景视角提取外观特征W

f

根据一个输入全景图的局部几何特征g,预测的可见度函数v(t)表示一个球形深度为t的点对于输入全景图来说可见的概率。v(t)(v(t)∈[0,1])被表示为v(t)=1-o(t),其中,o(t)是遮挡的概率。为了参数化o(t),本申请实施例采用了N

其中,μ

S207、对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

其中,体渲染属于一种渲染技术,它的目的是为了处理密度较小的非固体的渲染。为了建模这种非刚性物体的渲染,体渲染把气体等物质抽象成一团飘忽不定的粒子群。光线在穿过这类物体时,其实就是光子在跟粒子发生碰撞的过程。

其中,球形辐射场如图4所示,是为了渲染一个像素点,NeRF从一个给定的视角投射光线,并将这条光线参数化表示成p(t)=o+td,t∈R

其中,c∈R

L=∑||c-c

其中,c

其中,NeRF可以简要概括为用一个MLP(全连层而非卷积,加上激活层)神经网络去隐式地学习一个静态3D场景,实现复杂场景的任意新视角合成(渲染)。

另外,由于全景图使用的是全景的像素网格坐标,但是NeRF里面的坐标系统全是笛卡尔系的,因此,本申请实施例可以通过采用球形投影,将全景图中的一个像素点(u,v)转化为球形极坐标

比如,在本申请实施例获取到对齐后的球形辐射场之后,就可以应用上述球形辐射场体渲染的方案,对对齐后的球形辐射场进行体渲染,得到相应的颜色和密度,从而生成任意视角下的目标全景图。

以下为对本申请技术方案进行评测的结果:

首先,可以采用PSNR(Peak Signal-to-Noise Ratio,峰值信噪比),SSIM LPIPS(结构相似性指数)和WS-PSNR作为评测指标。我们在Matterport3D,Replica,Residential上面作实验。对于Matterport3D和Replica,我们利用HabitatAPI来生成256×256的透视图(六面立方体cube-maps),并将这些透视图拼接成一张512×1024的全景图。我们使用长度为3的全景图序列来训练评估。中间的视角基于第一个和最后一个视角合成。我们在Matterport3D数据集上,在相机基线为1.0、1.5、2米的条件下进行了对比实验,其中相机基线指的是第一个和最后一个视角的相机中心的距离。在Residential和Replica数据集上,我们评估时的相机基线分别大概是0.3和1米。

其次,可以设定N

再次,可以进行对比实验,可以将我们的方法和S-NeRF(NeRF的球形变体)、IBRNet(学习基于多视图图像的渲染)、NeuRay(神经射线)和OmniSyn进行了对比实验。我们从头开始训练S-NeRF,因为它是一个逐场景优化的方法。其他的方法都是在Matterport3D上面预训练,并在其他未见过的测试场景上进行直接测试。我们将Matterport3D和Replica中全景图对应的原有的cube maps(透视图切片)输入到IBRNet和NeuRay。由于Residential数据集只有ERP(equirectangular projection等矩形映射)格式的全景图,我们将全景图从ERP拆成cube-maps。为了评估,对于IBRNet和NeuRay,我们使用球形投影来渲染全景视角,使用他们原有的透视投影来聚合局部特征。我们使用NeuRay*和IBRNet*来表示NeuRay和IBRNet这种渲染全景图的变体。

在Matterport3D和Replica数据集上,我们定量地和基线方法做了对比实验。结果可以在表格1和表格2中可见。我们的方法几乎在几乎所有的指标上都超过了其他方法。我们在图3中展示了定性的对比结果。IBRNet*和NeuRay*基于透视投影聚合局部特征。由于局限的视野,3D采样点往往会投影到源透视图的边界外,或者出现在源透视相机后面(z-深度小于0)。这样聚合的局部特征可能是错误的,导致很差的渲染结果。对于OmniSyn,它的渲染结果包含很明显的鬼影重叠瑕疵,这在图3的样例1中的沙发明显地可以看到。和前面的方法都不同地是,我们的方法是一个可泛化的球形辐射场,由于使用球形坐标系,更适合于球形图像。我们的方法在合成物体边界的清晰程度上显示出它在像素对齐上的优越性。此外,我们在Residential数据集上和S-NeRF、IBRNet*、NeuRay*作了对比实验,S-NeRF的渲染结果中出现了明显的漂浮物,在图4的样例1的天花板处可以看到。由于将全景图转化成透视图是信息有损的,IBRNet*和NeuRay*的渲染结果里面包含明显的瑕疵。与此不同的是,我们的方法在Residential上展现了优越的泛化效果。

表1

表1即为在Matterport3D数据集上的定量对比实验结果。

表2

表2即为在Replica和Residential数据集上的定量对比实验结果。

如图6所示,为在Matterport3D和Replica数据集上的定性对比实验结果。最左边是测试视角下的ground truth全景图,右边是对红色框和蓝色框中的渲染结果进行放大之后的各个方法的结果,从左往右分别是IBRNet*,OmniSyn,NeuRay*,我们的方法和GroundTruth。

如图7所示,为在Residential数据集上的定性对比实验结果。最左边是测试视角下的ground truth全景图,右边是对红色框和蓝色框中的渲染结果进行放大之后的各个方法的结果,从左往右分别是S-NeRF,IBRNet*,NeuRay*,我们的方法和Ground Truth。

由上可知,本实施例可以获取多个视角下的参考全景图;调用球形深度计算模块计算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。本申请针对全景图,设计了一种处理遮挡的可泛化球形辐射场,直接对全景图进行操作,无需将全景图转换为透视图,从而可以通过已有视角的全景图的输入条件下合成新视角下的全景图。

根据前面实施例所描述的方法,以下将以该图像处理装置具体集成在终端举例作进一步详细说明。

如图3所示,本申请实施例提供的图像处理方法具体通过如下实施例进行说明:

S301、电子设备获取参考视角下的第一参考全景图和源视角下的第二参考全景图。

S302、电子设备根据球形投影,找到第一参考全景图中第一像素点在第二参考全景图中对应的第二像素点。

在一实施例中,在宽基线下,有些区域可能只在一个视角可见,在其他视角被遮挡,在这种情况下360°多视角立体视觉(MVS)难以产生准确的深度估计。为了解决上述问题,本申请实施例可以利用360°单目深度来指导360°多视角立体视觉的深度采样。

比如,如图5所示,为球形深度计算模块内部结构的示意图。可以将参考视角对应第一参考全景图中的像素点表示为(u,v),并利用单目深度网络对第一参考全景图中的像素点进行球形深度预测,得到每个像素点(u,v)对应的球形深度μ

然后使用高斯分布假设在单目深度附近产生深度候选。具体来说,第一参考全景图中第一像素点的搜索空间可以被定义为[μ

其中,

总体来说,可以将参考视角对应的第一参考全景图中第一像素点表示为(u,v)

在一实施例中,考虑到单目深度中存在误差,可以使用N

S303、电子设备根据第一像素点与第二像素点之间的相似程度,估算每个参考全景图对应的球形深度。

比如,本申请实施例可以使用特征向量之间的差值作为相似度度量方式,可以计算(u,v)

S304、电子设备对球形深度进行卷积操作,得到参考全景图对应的几何特征。

S305、电子设备对参考全景图进行特征提取操作,得到参考全景图对应的外观特征。

S306、电子设备对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征。

比如,如图4所示,可以通过特征拼接操作,将属于同一视角下的几何特征和外观特征进行拼接,如将第1个全景视角对应的外观特征W

S307、电子设备基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场。

由于在宽基线下,球形辐射场往往容易过拟合于训练视角,难以产生令人满意的新视角。为了解决这个问题,本申请实施例可以通过聚合来自输入全景图的局部特征将360场景先验融入到球形辐射场。

在现有技术中,可以将全景图转化为透视图,然后已有的可泛化神经辐射场可以在透视图的输入条件下用于合成新的360视角。但是,如果将三维采样点投影到透视图源视角中,由于透视图有限的视野,这些点可能会落到图像边界外部,或者位于透视图相机背后(z-深度<0)。这个问题会在聚合特征过程中引入错误的特征,并导致较差的渲染结果。

为了克服这个问题,如图4所示,我们采用球形投影直接将三维采样点p

在一实施例中,本申请实施例可以模仿神经射线(NeuRay)来聚合外观特征和几何特征,但是我们不采用现有技术中的透视图和平面深度进行特征的聚合,而是采用全景图和球形深度进行特征的聚合。如图4所示,可以分别从第j个全景视角提取外观特征W

f

根据一个输入全景图的局部几何特征g,预测的可见度函数v(t)表示一个球形深度为t的点对于输入全景图来说可见的概率。v(t)(v(t)∈[0,1])被表示为v(t)=1-o(t),其中,o(t)是遮挡的概率。为了参数化o(t),本申请实施例采用了N

其中,μ

S308、电子设备对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

其中,球形辐射场如图4所示,是为了渲染一个像素点,NeRF从一个给定的视角投射光线,并将这条光线参数化表示成p(t)=o+td,t∈R

其中,c∈R

L=∑||c-c

其中,c

其中,NeRF可以简要概括为用一个MLP(全连层而非卷积,加上激活层)神经网络去隐式地学习一个静态3D场景,实现复杂场景的任意新视角合成(渲染)。

另外,由于全景图使用的是全景的像素网格坐标,但是NeRF里面的坐标系统全是笛卡尔系的,因此,本申请实施例可以通过采用球形投影,将全景图中的一个像素点(u,v)转化为球形极坐标

比如,在本申请实施例获取到对齐后的球形辐射场之后,就可以应用上述球形辐射场体渲染的方案,对对齐后的球形辐射场进行体渲染,得到相应的颜色和密度,从而生成任意视角下的目标全景图。

由上可知,本实施例可以通过电子设备获取多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。本申请针对全景图,设计了一种处理遮挡的可泛化球形辐射场,直接对全景图进行操作,无需将全景图转换为透视图,从而可以通过已有视角的全景图的输入条件下合成新视角下的全景图。

为了更好地实施以上方法,本申请实施例还提供一种图像处理装置,其中,该图像处理装置具体可以集成在终端等设备上,如图8所示,该图像处理装置可以包括获取单元801、调用单元802、卷积单元803、特征提取单元804、特征拼接单元805、对齐单元806、以及渲染单元807,如下:

获取单元801,用于获取多个视角下的参考全景图;

调用单元802,用于调用球形深度计算模块计算每个所述参考全景图对应的球形深度;

卷积单元803,用于对所述球形深度进行卷积操作,得到所述参考全景图对应的几何特征;

特征提取单元804,用于对所述参考全景图进行特征提取操作,得到所述参考全景图对应的外观特征;

特征拼接单元805,用于对所述几何特征和所述外观特征进行特征拼接,得到每个视角下的所述参考全景图对应的拼接后图像特征;

对齐单元806,用于基于所述拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与所述参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;

渲染单元807,用于对所述对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

可选的,在本申请的一些实施例中,所述调用单元可以包括投影子单元和计算子单元,如下:

投影子单元,用于根据球形投影,找到所述第一参考全景图中第一像素点在所述第二参考全景图中对应的第二像素点;

计算子单元,用于根据所述第一像素点与所述第二像素点之间的相似程度,计算每个所述参考全景图对应的球形深度。

可选的,在本申请的一些实施例中,所述投影子单元可以包括扫描子单元和像素点查找子单元,如下:

扫描子单元,用于针对所述第一参考全景图中第一像素点的不同深度进行球形扫描,得到多个深度候选;

像素点查找子单元,用于根据球形投影找到每个所述深度候选在所述第二参考全景图中对应的第二像素点。

可选的,在本申请的一些实施例中,所述扫描子单元可以包括调用子单元和预测子单元,如下:

调用子单元,用于调用单目深度网络对第一参考全景图中第一像素点进行球形深度预测,得到每个所述第一像素点对应的第一球形深度;

预测子单元,用于通过高斯分布预测多个所述第一球形深度对应的深度候选。

可选的,在本申请的一些实施例中,所述预测子单元具体可以用于通过高斯分布,将搜索空间切分为多个子区间,所述子区间对应的区间概率相同;将每个所述子区间的中间点作为所述第一球形深度对应的深度候选。

可选的,在本申请的一些实施例中,所述计算子单元具体可以用于获取所述第一像素点与所述第二像素点在局部特征之间的相似度,得到相似度集合;利用卷积操作,将所述相似度集合进行降维操作,得到降维后相似度集合;对所述降维后相似度集合进行解码操作,得到球形深度。

可选的,在本申请的一些实施例中,所述特征拼接子单元具体可以用于将所述几何特征通过多层感知器解码成可见度信息;通过预设聚合网络聚合所述外观特征和所述可见度信息,得到每个视角下的所述参考全景图对应的拼接后图像特征。

可选的,在本申请的一些实施例中,所述对齐子单元具体可以用于基于所述拼接后图像特征,采用球形投影将所述参考全景图中的像素点坐标转化为球形极坐标;将所述球形极坐标转化为笛卡尔系坐标;基于笛卡尔系坐标的所述参考全景图,将球形辐射场中的三维采样点与所述参考全景图中对应的像素点对齐,得到对齐后的球形辐射场。

由上可知,本申请实施例可以通过获取单元801获取多个视角下的参考全景图;通过调用单元802调用球形深度估算模块估算每个参考全景图对应的球形深度;通过卷积单元803对球形深度进行卷积操作,得到参考全景图对应的几何特征;通过特征提取单元804对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;通过特征拼接单元805对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;通过对齐单元806基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;通过渲染单元807对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。本申请针对全景图,设计了一种处理遮挡的可泛化球形辐射场,直接对全景图进行操作,无需将全景图转换为透视图,从而可以通过已有视角的全景图的输入条件下合成新视角下的全景图。

本申请实施例还提供一种电子设备,如图9所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:

该电子设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器901是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体控制。可选的,处理器901可包括一个或多个处理核心;优选的,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。

存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器902还可以包括存储器控制器,以提供处理器901对存储器902的访问。

电子设备还包括给各个部件供电的电源903,优选的,电源903可以通过电源管理系统与处理器901逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元904,该输入单元904可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能,如下:

可以获取多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,本实施例可以获取多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。本申请针对全景图,设计了一种处理遮挡的可泛化球形辐射场,直接对全景图进行操作,无需将全景图转换为透视图,从而可以通过已有视角的全景图的输入条件下合成新视角下的全景图。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如,该指令可以执行如下步骤:

可以获取多个视角下的参考全景图;调用球形深度估算模块估算每个参考全景图对应的球形深度;对球形深度进行卷积操作,得到参考全景图对应的几何特征;对参考全景图进行特征提取操作,得到参考全景图对应的外观特征;对几何特征和外观特征进行特征拼接,得到每个视角下的参考全景图对应的拼接后图像特征;基于拼接后图像特征,采用球形投影将球形辐射场中的三维采样点与参考全景图中对应的像素点对齐,得到对齐后的球形辐射场;对对齐后的球形辐射场进行体渲染,得到任意视角下的目标全景图。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种图像处理方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 检索相似数据的方法、装置、设备及计算机可读存储介质
  • 一种构件识别方法、装置、设备及计算机可读存储介质
  • 验钞器测试方法和装置、计算机可读的存储介质和ATM机
  • 空调室外机的控制方法、装置及计算机可读存储介质
  • 分层存储方法、分层存储装置及计算机可读存储介质
  • 相似机构件查找方法、装置及计算机可读存储介质
  • 相似用户查找装置、方法及计算机可读存储介质
技术分类

06120116519282