掌桥专利:专业的专利平台
掌桥专利
首页

一种面向室内场景三维语义分割的虚拟视图选择方法和装置

文献发布时间:2023-06-19 19:30:30


一种面向室内场景三维语义分割的虚拟视图选择方法和装置

技术领域

本发明涉及三维场景理解技术领域,尤其涉及三维场景的语义分割方法和装置。

背景技术

在虚拟现实、增强现实、智能机器人等应用中,精确地对室内场景进行语义分割有助于智能体对该场景有更深的理解,可以使应用与该场景更好地进行交互。

现有技术中,对室内场景三维语义分割任务,大多方法通过将三维几何进行转化,形成点云、体素或者三维网格,再通过合适的三维深度学习网络直接进行分割,这种方法由于缺少了二维图片的信息,对几何形状不明显的物体分割效果较差;部分方法使用了二维图片信息和三维几何信息相结合的方式,但普遍采用原始扫描的图片,因为原始扫描的图片视场小、角度有限,难以解决物体之间相互遮挡、光照不一致等问题。有方法使用了虚拟视图来视图解决该问题,但虚拟视图选择没有规律,会导致很多质量很低的图片,增加了大量计算的同时,降低了分割结果的准确性。

总之,对室内场景的三维语义分割技术还有待提升。

发明内容

本发明提供一种面向室内场景三维语义分割的虚拟视图选择方法和装置,以深度强化学习为基础,训练一个预测场景各区域不确定度分数的打分网络,并根据网络预测的不确定度选择虚拟视图视角,使虚拟视图尽可能覆盖不确定度高的区域,利用这些虚拟视图和场景的几何特征,优化该三维场景的语义分割结果。

第一方面,本发明提供了一种基于虚拟视图选择的室内场景三维语义分割方法,所述方法包括:

利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;

利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;

根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;

结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果。

根据本发明提供的对三维室内场景的三维语义分割方法,所述利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果,包括:

将三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示。

将体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量。

将该场景的几何特征向量输入基础三维语义分割网络的分类器,得到该场景的三维语义分割初步结果。

根据本发明提供的对三维室内场景的三维语义分割方法,所述利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度,包括:

建立一个3D-UNet架构的三维不确定度打分网络,其输入是三维场景的特征向量和三维语义分割初步结果,输出是该场景的不确定度分布图。

利用三维场景的语义分割人为标注的真实标签,和该场景的初步分割结果进行比较,用以监督不确定度打分网络。

根据本发明提供的对三维室内场景的三维语义分割方法,所述根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图,包括:

基于输入三维场景,计算场景中每个体素的法向方向向量。

基于各体素的三维坐标和法向向量,使用k-means算法进行聚类,将三维场景划分成多个区域。

对每个区域的总不确定度进行排序,选取总不确定度高的部分区域为选定区域。

对选定区域进行多角度虚拟视图生成和渲染。

根据本发明提供的对三维室内场景的三维语义分割方法,所述结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果,包括:

使用二维语义分割网络将生成的虚拟视图进行语义分割。

建立各虚拟视图的像素位置和室内三维场景的体素位置的对应关系。

将虚拟视图的语义分割结果和其相对应的体素的三维语义分割结果进行融合。

根据本发明提供的对三维室内场景的三维语义分割方法,所述监督训练不确定度打分网络的深度强化学习过程,包括:

随机初始化不确定度打分网络权值θ;

对场景S,所述不确定度打分网络输出场景各体素的不确定度;

随机地将场景各个区域赋值0或1,选取所有赋值为1的区域,对选取区域进行虚拟视图选择和渲染;

根据所述虚拟视图分割与结合方法得到二维三维联合分割结果p

比较p

使用所述激励项Reward更新不确定度打分网络权值θ;

对场景S重复上述过程。

第二方面,本发明提供一种基于虚拟视图选择的室内场景三维语义分割装置,所述装置包括:

三维语义分割网络模块,用于对室内场景进行初步语义分割,得到室内场景的特征向量和语义分割初步结果;

深度强化学习模块,用于训练不确定度打分网络,估计场景各处的不确定度大小;

虚拟视图选取模块,用于根据场景的不确定度选择合适的虚拟视图取景区域,并从恰当角度渲染虚拟视图;

联合优化模块,用于结合虚拟视图的二维语义分割结果和原三维几何信息,提升室内场景的三维语义分割结果的精确度。

本发明提供一种面向室内场景三维语义分割的虚拟视图选择方法和装置。利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,得到三维室内场景的语义分割结果。本发明在优化三维室内场景语义分割结果的过程中,利用深度强化学习监督了场景不确定度的生成,同时引入了虚拟视图渲染方法,保证了原本分割结果较差的位置上有更多的信息,使得三维室内场景语义分割的准确性显著提高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的面向三维室内场景三维语义分割的虚拟视图选取方法的流程示意图;

图2是本发明提供的面向三维室内场景三维语义分割的虚拟视图选取装置的结构示意图;

图3是本发明提供的实现面向三维室内场景三维语义分割的虚拟视图选取的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图3描述本发明的面向三维室内场景三维语义分割的虚拟视图选取方法和装置。

第一方面,本发明提供一种面向三维室内场景三维语义分割的虚拟视图选取方法,如图1所示,所述方法包括:

S11、利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果。

将三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示。将体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量。将该场景的几何特征向量输入基础三维语义分割网络的分类器,得到该场景的三维语义分割初步结果。

S12、利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;

建立一个3D-UNet架构的三维不确定度打分网络,其输入是三维场景的特征向量和三维语义分割初步结果,输出是该场景的不确定度分布图。利用三维场景的语义分割人为标注的真实标签,和该场景的初步分割结果进行比较,用以监督不确定度打分网络。

S13、根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;

基于三维场景,计算场景中每个体素的法向方向向量。基于各体素的三维坐标和法向向量,使用k-means算法进行聚类,将三维场景划分成多个区域。对每个区域的总不确定度进行排序,选取总不确定度高的部分区域为选定区域。对选定区域进行多角度虚拟视图生成和渲染。

S14、结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果。

使用二维语义分割网络将生成的虚拟视图进行语义分割。建立各虚拟视图的像素位置和室内三维场景的体素位置的对应关系。将虚拟视图的语义分割结果和其相对应的体素的三维语义分割结果进行计算结合。

本发明在优化三维室内场景语义分割结果的过程中,利用深度强化学习监督了场景不确定度的生成,同时引入了虚拟视图渲染方法,保证了原本分割结果较差的位置上有更多的信息,使得三维室内场景语义分割的准确性显著提高。

在上述各实施例的基础上,作为一种可选的实施例,所述利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果,包括:

将三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示;

具体的,将ScanNet V2室内场景数据集中的某一场景进行体素化,将场景分为边长为5cm的小方块,并将所有方块内部包含场景点云中的点的体素均进行标记,得到一个三维稀疏矩阵。

将体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量;

具体的,将体素组成的三维稀疏矩阵,通过三维语义分割网络骨架,通过稀疏卷积操作,得到该场景的高维几何特征向量。

其中,所述三维语义分割网络骨架为Minkouski Engine中的MinkowskiUNet的编码器部分,专门用于空间上稀疏张量的稀疏卷积操作。

将该场景的几何特征向量输入基础三维语义分割网络的分类器,得到该场景的三维语义分割初步结果。

具体的,将场景的高维几何特征通过MinkowskiUNet的解码器部分,进行反卷积和反池化操作,重新得到每个体素对应的一个低维向量,所述向量中的每一个数值高低代表该体素属于某一种语义分类的概率高低。将每个体素对应的低维向量经过Softmax函数进行归一化,得到该体素对应不同语义类别的概率,概率最高的类别即为网络对该体素语义分割的预测结果。

在上述各实施例的基础上,作为一种可选的实施例,所述利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度,包括:

建立一个3D-UNet架构的三维不确定度打分网络;

具体的,所述不确定度打分网络的输入是三维场景的特征向量和三维语义分割初步结果所拼接而成的特征张量,网络输出是该场景的不确定度分布图。

所述不确定度打分网络基于Minkowski Engine,包括MinkowsUNet的编码器部分和解码器部分,网络输出得到每一个体素对应一个数值,所述数值即为该体素的不确定度分数。

利用三维场景的语义分割人为标注的真实标签,和该场景的初步分割结果进行比较,用以监督不确定度打分网络。

具体的,所述室内场景三维语义分割网络对每个体素将预测一个概率分布,表示该体素属于各个语义的可能性;将该场景的语义分割的人工标注结果视为真值;将人工标注真值和所述预测概率分布进行比较,可以得出该体素预测是否正确的结论,并可以得出在人工标注的那一个分类上,网络预测出的概率大小。

在上述各实施例的基础上,作为一种可选的实施例,所述根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图,包括:

基于三维场景,计算场景中每个体素的法向方向向量;

具体的,使用open3D库中的Vertex normal estimation模块,可以对所述室内场景点云中的每个点的法向进行估计。为了降低计算量并同时保证所述体素法向方向向量的计算准确性,可以先对所述室内场景点云进行基于体素的下采样操作,得到精简点云,再对其进行点的法向估计。

对于所述场景的每个体素,将其中包含的精简点云中的点的法向进行向量平均,得到所属场景每个体素的法向方向向量。

基于各体素的三维坐标和法向向量,使用k-means算法进行聚类,将三维场景划分成多个区域;

具体的,将体素的空间坐标Pos的三维坐标x y z和法向向量N的三个维度分量N

其中,所述聚类算法采用k-means算法,k-means算法的最大聚类个数取值为20和r

其中,r

对每个区域的总不确定度进行排序,选取总不确定度高的部分区域为选定区域;

具体的,所述区域总不确定度的计算方法为,将该区域所有的体素的不确定度相加。所述区域总不确定度越高,说明该区域中包含的不确定度高的体素越多,进而说明对该区域的初步三维语义分割结果越不准确。

得到每个区域的总不确定度后,我们将选择总不确定度最高的k个区域,使得这k个区域中不确定度高于τ

对选定区域进行多角度虚拟视图生成和渲染。

具体的,对每个选定区域计算其平均法向,因为区域经过聚类,其内体素的法向大致均为一个方向,所以可以用区域的平均法向代表该区域内物体的正面朝向。

以所述区域平均法向为中心轴,作与其夹角为45°的圆锥曲面,用三条轴将该圆锥曲面平均分为三份。所述三条轴选择为三个相机的主光轴方向,沿该方向对所述区域进行取景,并进行虚拟视图渲染。

其中,相机FOV选择为90,相机与该区域的距离选择为使渲染所得画面恰好能够完全覆盖所述区域,虚拟视图渲染采用Open3D库中的Visualization模块。

在上述各实施例的基础上,作为一种可选的实施例,所述根据本发明提供的对三维室内场景的三维语义分割方法,所述用虚拟视图和原三维场景三维信息结合,优化三维室内场景的语义分割结果,包括:

使用二维语义分割网络将生成的虚拟视图进行语义分割;

具体的,使用CMX(Cross-Modal Fusion for RGB-X Semantic Segmentationwith Transformers)网络对所述虚拟视图进行二维语义分割。

其中,CMX网络为多模态语义分割网络,输入为RGB-X类型的图片,输出为图片每个像素的语义分类结果。将虚拟视图中每个像素对应的室内场景中的体素的三维坐标和虚拟视图中每个像素对应点的深度合并,作为网络的X模态输入。其中,CMX网络的骨干网络为Mit-B5,网络参数由ScanNet V2场景数据集上渲染的虚拟视图训练得到。

建立各虚拟视图的像素位置和室内三维场景的体素位置的对应关系;

具体的,可以通过如下公式计算体素坐标Pos

其中,K为相机内参矩阵,T为相机外参矩阵。f

将虚拟视图的语义分割结果和其相对应的体素的三维语义分割结果进行计算结合。

具体的,我们对每个体素找出对应的各虚拟视图,并计算出该体素对应的虚拟视图中的像素点位置。对于所有的所述虚拟视图,计算对应像素点的分类概率向量的交叉熵数值,并选取交叉熵最小的4个虚拟视图作为所选虚拟视图。

对于上述所选虚拟视图,将4个对应像素点的分类概率向量进行平均,将其结果与所述体素的三维语义分割结果概率向量一起,输入到一个双层全连接网络中,得到结果为一个总概率向量,表示该体素最终的语义分割结果概率向量。

在上述各实施例的基础上,作为一种可选的实施例,所述监督训练不确定度打分网络的深度强化学习过程,包括:

随机初始化不确定度打分网络权值θ;

对场景S,不确定度打分网络输出场景各体素的不确定度;

随机地将场景各个区域赋值0或1,选取所有赋值为1的区域,对选取区域进行虚拟视图选择和渲染;

根据所述虚拟视图分割与结合方法得到二维三维联合分割结果p

比较p

使用所述激励项Reward更新不确定度打分网络权值θ;

对场景S重复上述过程。

具体的,Reward计算方法为,对每个体素v,其第i次预测结果中,正确标签的概率为

对每个体素v,其奖励函数为R

对整个场景,整体的奖励函数为R(Reward),

第二方面,对本发明提供的面向三维室内场景三维语义分割的虚拟视图选取装置进行描述,下文描述的面向三维室内场景三维语义分割的虚拟视图选取装置与上文描述的面向三维室内场景三维语义分割的虚拟视图选取方法可相互对应参照。图2是本发明提供的面向三维室内场景三维语义分割的虚拟视图选取装置的结构示意图,如图2所示,所述装置包括:

初始语义分割模块21,用于对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;

不确定度估计模块22,用于训练不确定度打分网络,估计场景各处的不确定度;

虚拟视图选取模块23,用于根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;

语义分割优化模块24,用于结合虚拟视图和原三维场景三维信息,优化三维室内场景的语义分割结果。

在上述各实施例的基础上,作为一种可选的实施例,所述初始语义分割模块,包括:

场景体素化单元,用于将三维场景的点云进行体素化,得到以5厘米为边长的体素构成的三维场景几何表示;

场景特征提取单元,用于将所述体素输入一个基础三维语义分割网络骨架,得到该场景的几何特征向量;

场景语义分割单元,用于将该场景的几何特征向量输入基础三维语义分割网络的分类器,得到该场景的三维语义分割初步结果。

在上述各实施例的基础上,作为一种可选的实施例,所述不确定度估计模块,包括:

不确定网络单元,用于建立一个3D-UNet架构的三维不确定度打分网络;

所述不确定度打分网络的输入是三维场景的特征向量和三维语义分割初步结果所拼接而成的特征张量,网络输出是该场景的不确定度分布图。

网络监督单元,用于利用三维场景的语义分割人为标注的真实标签,和所述场景的初步分割结果进行比较,监督不确定度打分网络。

在上述各实施例的基础上,作为一种可选的实施例,所述虚拟视图选取模块,包括:

体素法向计算单元,用于计算场景中每个体素的法向方向向量;

体素聚类单元,用于基于各体素的三维坐标和法向向量,使用k-means算法进行聚类,将三维场景划分成多个区域;

区域选取单元,用于对每个区域的总不确定度进行排序,选取总不确定度高的部分区域为选定区域;

虚拟视图生成单元,用于对选定区域进行多角度虚拟视图生成和渲染。

在上述各实施例的基础上,作为一种可选的实施例,所述语义分割优化模块,包括:

二维语义分割单元,用于使用二维语义分割网络将生成的虚拟视图进行语义分割;

二维三维映射单元,用于建立各虚拟视图的像素位置和室内三维场景的体素位置的对应关系;

二维三维语义融合单元,用于将虚拟视图的语义分割结果和其相对应的体素的三维语义分割结果进行融合。

综上,本发明利用深度强化学习监督了场景不确定度的生成,同时引入了虚拟视图渲染方法和装置,保证了原本分割结果较差的位置上有更多的信息,使得三维室内场景语义分割的准确性显著提高,在场景理解、虚拟现实、增强现实、机器人等领域有重要应用。

图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行面向室内场景三维语义分割的虚拟视图选择方法,该方法包括:利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,优化三维室内场景的语义分割结果。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的面向室内场景三维语义分割的虚拟视图选择方法,该方法包括:利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,优化三维室内场景的语义分割结果。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向室内场景三维语义分割的虚拟视图选择方法,该方法包括:利用基于体素的三维深度学习网络对三维室内场景进行初步语义分割,得到三维场景的特征向量和语义分割结果;利用特征向量和初始分割结果,利用深度强化学习的方法,训练不确定度打分网络,估计场景各处的不确定度;根据场景的不确定度选择合适的虚拟视图取景区域,从恰当角度渲染虚拟视图;用虚拟视图和原三维场景三维信息结合,优化三维室内场景的语义分割结果。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种面向道路场景的三维语义地图构建和存储方法
  • 一种基于语义分割的三维室内场景重建方法
  • 一种基于语义分割的三维室内场景重建方法
技术分类

06120115938350