掌桥专利:专业的专利平台
掌桥专利
首页

一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统

文献发布时间:2024-04-18 20:02:18


一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统

技术领域

本发明涉及三维场景构建及视频生成领域,具体涉及一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统。

背景技术

近年来,随着对元宇宙应用的3D创作工具需求不断增长,对3D场景生成技术的关注也在迅速增加。现有工具通常需要专业建模师操作,并需要大量的手动劳动,这既耗时又低效。因此,为了减少3D场景创作对专业建模师的需求、简化3D建模的流程并降低3D建模的门槛,通过文本描述生成可控3D场景的技术或软件具有非常大的潜力和需求。

然而,基于描述性文本生成沉浸式3D场景从多个角度来看都具有挑战性,包括文本-3D数据对的数量局限性以及生成场景过程中如何确保场景语义和几何信息的对齐等等。

近期,神经辐射场(Neural Radiance Fields,NeRF)和扩散模型的结合使基于描述性文本生成3D场景的技术有了进一步的发展,一些方法采用了强大的预训练文本生成图像的扩散模型作为优化3D表示的强先验来解决3D数据有限的问题,但由于2D先验扩散模型缺乏对3D模型的感知,此类方法生成的场景通常缺乏三维一致性,并且生成的几何形状相对简单。另一部分方法引入了单目深度估计模型作为强大的几何先验,并采用形变-补全(Warping-inpainting)的方法进行渐进式三维场景重建,尽管这类方法部分解决了一致性问题,但它们主要集中在室内场景的重建并且难以处理大规模的室外场景生成,主要原因为两方面:(1)由于该类方法采用显示的3D网格作为统一的三维表示,室外场景深度估计的噪声会导致场景几何形状的大幅拉伸而失真。(2)该类方法的技术路线中由于缺乏高效的矫正机制导致几何和外观误差的积累。

发明内容

本发明针对现有技术的不足,提供一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法及系统,本发明旨在根据对室内或室外场景的纯文本描述和预设定的一组相机轨迹,在保证三维一致性的前提下对相应场景图片进行生成和三维建模,合成符合相机轨迹的三维漫游视频。

本发明的目的是通过以下技术方案实现的:一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法,该方法包括以下步骤:

(1)获取相机轨迹输入和文本提示词输入,并使用预训练的文本-图像潜在扩散生成模型,根据输入文本提示词生成相机轨迹初始位姿下的初始场景图;

(2)采用预训练的单目图像深度估计模型提取初始场景图像的深度图先验;

(3)在初始相机位姿附近选择多个相机位姿点,基于初始相机位姿下的场景图和深度图渲染出选定相机位姿点下的场景图,并利用预训练的图像潜在扩散生成模型对新的场景图的空白处进行补全,将得到的所有场景图,及其对应的深度图和预训练的图像特征提取模型提取的二维特征图作为支撑数据集;

(4)构建三平面特征提取模型将特征图的二维特征映射为三平面特征,构建神经辐射场解码模型根据三平面特征采样解码出粗糙场景图,设计光度损失,通过支撑数据集训练优化三平面特征提取模型和神经辐射场解码模型;构建用于优化粗糙场景图的具有几何感知的渲染图像优化模型并进行预训练;

(5)取相机轨迹的下一个位姿,从三平面特征空间中进行采样,并通过神经辐射场解码模型进行体渲染得到新的相机位姿下的粗糙场景图和相关特征图;

(6)将粗糙场景图和相关特征图作为条件输入具有几何感知的渲染图像优化模型进行细化;

(7)对经过细化的新相机位姿场景图的部分光线,以及支撑数据集中部分场景图的部分光线进行随机采样,进一步优化三平面特征对三维场景的表达,并将经过细化的新相机位姿场景图合并入支撑数据集;重复步骤(5)-步骤(7)直到相机轨迹中的所有相机位姿都得到对应的场景图;

(8)根据相机轨迹依此从支撑数据集中取出场景图,按照特定帧率合成漫游视频。

进一步地,步骤(3)中,基于初始相机位姿和初始场景图渲染出初始相机位姿附近位姿对应的有缺失场景图的方法为:对于初始场景图I

其中,K表示相机内参矩阵,P

进一步地,作为支撑数据集的图像特征采用预训练的图像特征提取模型,将支撑数据集中的所有图像送入预训练的图像特征提取模型,通过多层特征提取之后得到的低分辨率二维特征作为输出特征;支撑数据集中的深度图采用预训练的单目图像深度估计模型,以所有支撑数据集图像作为输入,每张图像的对应深度图作为输出。

进一步地,所述三平面特征提取模型由二维特征投影模型和三平面特征压缩模型构成;所述二维特征投影模型通过在可见体素上获取和聚合支撑数据集中相邻视图的二维特征,将二维平面特征转换为三维全局体特征;所述三平面特征压缩模型采用三个独立的多层感知机编码器将三维全局体特征投影到三个正交的特征平面上,得到三平面特征。

进一步地,所述将二维平面特征转换为三维全局体特征,具体为:

对于每个相邻视角i和其对应的二维特征图F

进一步地,所述神经辐射场解码模型的具体实现方法为:

给定一个沿着方向d打出的相机光线r上三维空间点p,其坐标为(i,j,k),将该点正交投影到三平面特征空间的每一个面上,三平面分别记为M

其中,r(t)=o+td表示从相机中心o发射的方向为d的相机光线上的采样点的三维坐标;t表示光线上的点到原点的距离,t

对应目标相机位姿深度图的深度预测值

进一步地,用于训练三平面特征提取模型和神经辐射场解码模型的光度损失由像素损失和深度损失组成,所述像素损失约束生成场景图的内容一致性,所述深度损失用来约束生成场景图的几何一致性。

进一步地,具有几何感知的渲染图像优化模型由经过微调的预训练的图像潜在扩散生成模型构成,具体包括:

以体渲染得到的粗糙场景图进行加噪得到的加噪场景图作为输入,在基础稳定扩散模型旁路增加由体渲染粗糙场景图对应二维特征图作为条件输入的特征适配器,并将特征适配器的输出结果与基础稳定扩散模型每一个逆扩散时间步输出的去噪图像进行叠加;

预训练过程中的损失函数L

其中,∈

在预训练过程中,基础稳定扩散模型冻结,仅更新特征适配器的网络参数。

此外,本发明还提供一种纯文本引导的任意轨迹三维场景构建及漫游视频生成系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行上述的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行上述的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

和现有技术相比,本发明主要具有如下优点:

(1)现有技术只支持室内场景360°或180°的旋转视角场景重建,本发明为文本驱动的沉浸式三维场景生成任务提供统一的解决方案,并支持室内和室外场景生成以及任意相机轨迹的漫游。

(2)本发明提出通过三平面特征替代空间体特征作为三维表示,大大减少了存储所需的参数量,并在保证场景三维一致性的前提下提高了场景生成的效率。

(3)本发明提出了基于几何感知的优化模型,通过显示注入三维信息对粗糙视图进行了细化,从而大大提高了重建图像的质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法的网络模型结构示意图。

图2为本发明一实施例提供的一种纯文本引导的任意轨迹三维场景构建及漫游视频生成方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。

如图1、2所示,本发明实施例提供的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法的一种可行的实施步骤如下:

步骤(1)、获取一组预设相机轨迹以及用于描述场景的文本提示词。

本实施例中预设相机轨迹必须连续,获取的相机轨迹采样点根据相机轨迹按一定步长进行定长采样得到。此外,关于场景的文本提示词可以是室内场景、室外场景或者虚拟场景具有的物体、背景等,但需要保证场景一致性,在整个场景的建模过程中保持文本提示词不变,另外,本实施例不支持具有动态物体的场景描述。

步骤(2)、通过预训练的文本-图像潜在扩散生成模型,根据文本提示词生成相机轨迹初始位姿下的场景图像作为初始场景图,并采用预训练的单目图像深度估计模型提取初始场景图的深度图先验。

优选地,本实施例中采用的预训练的文本-图像潜在扩散生成模型采用公开的预训练稳定扩散模型sd-v1-5版本。预训练的单目图像深度估计模型采用NeW CRFs方法,该方法用视觉transformer作为编码器,神经窗口全连接条件随机场作为解码器构建网络模型对单张图像深度进行预测。

步骤(3)、将初始相机位姿下的场景图映射到附近的多个相机位姿对应的场景图中,并利用针对图像补全任务预训练的图像潜在扩散生成模型对场景图的空白处进行补全。

具体的映射方法为:对于初始场景图I

其中,K表示相机内参矩阵,P

在本实施例中,图像空缺补全采用的预训练模型为公开的预训练稳定扩散模型sd-v1-5-inpainting版本,该模型以有缺失场景图和表示空缺部分的图像掩膜作为输入,完整的清晰图像作为输出。

步骤(4)、利用预训练的图像特征提取模型提取初始相机位姿和附近位姿下场景图的二维特征,并将所有场景图,及其对应的深度图和二维特征图作为支撑数据集。

优选地,本实施例中采用的预训练的图像特征提取模型采用开源模型DINOv2,对于一张224×224大小的输入图片,输出为1个类别token和256个图像块token。

步骤(5)、构建三平面特征提取模型将特征图的二维特征映射为三平面特征,构建神经辐射场解码模型根据三平面特征采样解码出粗糙场景图,设计光度损失,利用支撑数据集对两种模型进行训练,构建用于优化粗糙场景图的具有几何感知的渲染图像优化模型并进行预训练。

本实施例中,三平面特征提取模型由二维特征投影模型和三平面特征压缩模型构成。其中,二维特征投影模型通过在可见体素上获取和聚合支撑数据集中相邻视图的二维特征,将二维平面特征转换为三维全局体特征,具体方法为:对于每个相邻视角i和其对应的二维特征图F

本实施例中,神经辐射场解码模型的具体实现方法为:

给定一个沿着方向d打出的相机光线r上三维空间点p,其坐标为(i,j,k),将该点正交投影到三平面特征空间的每一个面上,三平面分别记为M

其中,r(t)=o+td表示从相机中心o发射的方向为d的相机光线上的采样点的三维坐标;t表示光线上的点到原点的距离,t

此外,对应目标相机位姿深度图的深度预测值

其中,t表示光线上的点到原点的距离,t

优选地,本实施例中的光度损失由像素损失和深度损失组成,像素损失约束生成场景图的内容一致性,深度损失用来约束生成场景图的几何一致性。光度损失L由像素损失L

其中,R表示支撑数据集中的图像对应的光线集合,

本实施例中,具有几何感知的渲染图像优化模型由经过微调的预训练的图像潜在扩散生成模型构成,具体包括:

以体渲染得到的粗糙场景图进行加噪得到的加噪场景图作为输入,在基础稳定扩散模型旁路增加由体渲染粗糙场景图对应二维特征图作为条件输入的特征适配器,并将特征适配器的输出结果与基础稳定扩散模型每一个逆扩散时间步输出的去噪图像进行叠加。预训练过程中的损失函数L

其中,∈

在预训练过程中,基础稳定扩散模型冻结,仅更新特征适配器的网络参数。

可选地,具有几何感知的渲染图像优化模型中的特征适配器的具体架构由多层卷积块拼接而成,其中卷积块指由卷积层、批归一化层和激活层构成的一个单元。

步骤(6)、取相机轨迹中的下一个待采样位姿,从三平面特征中进行采样,利用神经辐射场解码器进行体渲染得到粗糙场景图、深度图以及二维特征图,将粗糙场景图输入预训练的具有几何感知的渲染图像优化模型进行细化,对经过细化的新相机位姿场景图的部分光线,以及支撑数据集中部分场景图的部分光线进行随机采样,进一步优化三平面特征对三维场景的表达,并将经过细化的新相机位姿场景图合并入支撑数据集。重复步骤(6)直至相机轨迹中的所有相机位姿都被采样完。本实施例中,每一个待采样位姿下的图片采样过程如下:

给定一个沿着方向d打出的相机光线r上三维空间点p,将该点正交投影到三平面特征空间的每一个面上,通过双线性插值采样该点在三平面上的条件特征M

其中,r(t)=o+td表示从相机中心o发射的方向为d的相机光线上的采样点的三维坐标;t表示光线上的点到原点的距离,t

此外,对应目标相机位姿深度图的深度预测值

其中,t表示光线上的点到原点的距离,t

步骤(7)、根据相机轨迹和采样步长依此从支撑数据集中取出场景图,按照特定帧率合成漫游视频。

此外,本实施例还提供一种纯文本引导的任意轨迹三维场景构建及漫游视频生成系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述的纯文本引导的任意轨迹三维场景构建及漫游视频生成方法。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术分类

06120116581040