掌桥专利:专业的专利平台
掌桥专利
首页

一种基于神经网络的自适应渲染帧时空外插方法和装置

文献发布时间:2024-04-18 19:53:33


一种基于神经网络的自适应渲染帧时空外插方法和装置

技术领域

本发明属于实时渲染技术领域,具体涉及一种基于神经网络的自适应渲染帧时空外插方法和装置。

背景技术

随着真实感渲染算法的发展以及高帧率高分辨率显示设备的出现,人们对于实时渲染生成帧的延迟和质量的需求更加迫切。尽管专用的显示计算硬件也在迭代进步,但在复杂场景效果和高质量图形渲染管线下还很难达到目标延迟和功耗。虚拟场景的图形渲染序列帧,在时间和空间上都具有非常大的相关性,由此通过时间和空间上的超分辨率来以少量的计算开销代替完整渲染一帧高分辨率高帧率的画面。

利用传统运动补偿的算法,可以在着色器管线中提高时空采样率。如专利文献US20190238854A1公开了一种根据顶点集和运动向量获得外插渲染帧的方法,但是仅仅通过顶点集和运动向量在屏幕空间对材质纹理进行采样的方法,很难处理出现遮挡的区域,无法保证所计算的外插帧内容被正确渲染,在提高帧率的同时使得视觉质量大幅度下降。关于复杂运动估计和运动补偿,很难用传统的启发式算法求解。

针对单一运动向量估计不准确的问题,专利文献CN112203073A公开了一种利用固定点迭代方法生成外插运动矢量的异步帧外推方法,并利用深度缓存指导运动矢量的转换。但对于图像帧外推来说,仅仅预测几何运动还不足以外插出准确的光照、反射变化,这让其在多样化的场景中应用受到限制。

此外,空间上采样技术也被用来减少渲染时的延迟。专利文献US20210366082公开了一种使用机器学习处理上采样特征图并生成高分辨率重建帧的方法,但带来的帧率提升相较神经网络的计算成本非常有限。专利文献US20200342571公开了一种通过注视点渲染技术在时间上超采样多帧合成更高分辨率的技术,该方法可以提高了注视点周围的采样质量,但因为没有进行时域上的外插,所以无法降低多帧渲染带来的固有延迟。

发明内容

鉴于上述,本发明的目的是提供一种基于神经网络的自适应渲染帧时空外插方法和装置,通过引入可学习运动向量合成范式,可以在现有渲染管线中使用,可以低延迟、自适应地生成未来多帧的高质量渲染帧。

为实现上述发明目的,本发明提供的一种基于神经网络的自适应渲染帧时空外插方法,根据自适应外插策略在需要外插时,执行以下外插过程:

获取图形渲染管线中的历史渲染帧和当前几何缓冲帧;

采用神经网络模型根据历史渲染帧和当前几何缓冲帧预测可学习运动向量以及重建图像残差;

利用可学习运动向量对历史渲染帧进行重投影,并将重建图像残差添加到重投影结果中以得到外插渲染帧。

优选地,所述神经网络模型包括初始编码模块、解码模块以及输出解码模块;

所述初始编码模块用于对输入的历史渲染帧和当前几何缓冲帧进行初始编码得到历史渲染帧编码特征和当前几何缓冲帧编码特征;

所述解码模块用于依据初始编码模块输出的所有特征进行解码得到当前时刻的解码特征和可学习运动向量;

所述输出解码模块用于对当前时刻的解码特征进行再解码得到重建图像残差。

优选地,所述神经网络模型包括还包括循环编码模块;

所述循环编码模块用于基于特征串流实现循环编码,将上一时刻的解码特征、几何缓冲帧编码特征以及渲染帧编码特征堆叠后,输入至长短时期记忆网络中,经过计算当前时刻的循环编码特征;

所述解码模块依据当前几何缓冲帧编码特征和当前时刻的循环编码特征进行解码得到当前时刻的解码特征和可学习运动向量。

优选地,所述解码模块包括多尺度解码层,在当前尺度的解码层中,利用上一尺度解码层输出的中间可学习运动向量对输入的历史渲染帧编码特征或循环编码特征进行重投影,对上一尺度解码层输出的中间解码特征、重投影结果和当前几何缓冲帧编码特征进行解码得到当前尺寸下输出的中间解码特征和中间可学习运动向量。

优选地,所述历史渲染帧包括非透明物体的场景辐照度数据和非几何缓冲区的着色数据;

神经网络模型针对非透明物体的场景辐照度数据生成对应的第一可学习运动向量,针对非几何缓冲区的着色数据分别生成对应的第二可学习运动向量;

分别利用第一可学习运动向量和第二可学习运动向量对历史渲染帧进行重投影,并将重建图像残差以及两个重投影结果叠加以得到外插渲染帧。

优选地,利用第一可学习运动向量对历史渲染帧的重投影结果参与叠加之前,需要经过基本色调制,调制后重投影加过参与叠加以得到外插渲染帧。

优选地,所述自适应外插策略包括:在显示当前帧之前,根据显示需求选择当前帧是否外插,若当前帧不需要外插,则执行原有渲染管线的流程,若当前帧选择外插时,执行外插过程;

在执行外插过程时,历史渲染帧类型为渲染类型或神经类型,其中渲染类型是指经过渲染管线得到的历史渲染帧数据,神经类型是指神经网络模型输出可学习运动向量;

还包括采用连续外插多帧时,在每个时刻,采用神经类型数据,即将历史渲染帧替换为利用上一帧的可学习运动向量对历史渲染帧进行重投影结果,将当前几何缓冲帧中的几何运动向量替换为上一帧的可学习运动向量。

优选地,所述神经网络模型在被应用之前需要经过参数优化,参数优化时采用的损失函数Loss为:

Loss

优选地,当非几何缓冲区的着色数据包括场景透明物体颜色数据、场景透明物体遮挡透明度数据、以及场景天空盒颜色数据时,Loss

Loss

Loss

为实现上述发明目的,实施例还提供了一种基于神经网络的自适应渲染帧时空外插装置,包括获取模块、预测模块、重建模块;

所述获取模块用于获取渲染管线中的历史渲染帧和当前几何缓冲帧;

所述预测模块用于采用神经网络模型根据历史渲染帧和当前几何缓冲帧预测可学习运动向量以及重建图像残差;

所述重建模块用于利用可学习运动向量对历史渲染帧进行重投影,并将重建图像残差添加到重投影结果中以得到外插渲染帧。

与现有技术相比,本发明具有的有益效果至少包括:

可以由输入的低分辨率历史渲染帧数据和当前几何缓冲帧数据,得到高分辨率的高质量的外插渲染帧。该方法生成的可学习运动向量精确匹配了历史渲染帧的像素级运动规律,包括透明物体、粒子系统、反射区域、动态阴影区域、动态遮挡区域的运动,从而大幅减少了外插重投影产生的无效区域,缓解了对无效区域进行内涂生成光照结果的不稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是实施例提供的基于神经网络的自适应渲染帧时空外插方法的流程图;

图2是实施例提供的基于神经网络的自适应渲染帧时空外插方法的实例流程框图;

图3是实施例提供的自适应渲染帧时空外插流程图;

图4是实施例提供的基于神经网络的自适应渲染帧时空外插装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

经研究,现在的图形渲染管线产生的高分辨率高帧率的需求是非常高的,在同时满足高质量绘制复杂场景的要求下,现有图形硬件规格仍然是一大瓶颈。对于一系列连续的渲染帧来说,时间和空间上的相关性使得插值算法能够在相比显示帧率更低的采样频率之下对图形管线渲染的帧进行外插,以达到减少图形硬件开销的条件下,输出更高帧率和分辨率的高质量渲染帧。具体来说,三维场景中物体的几何运动信息,可以通过帧间的数据缓存计算得到,通过结合物体的法线、深度、金属度、粗糙度等几何材质信息,可以得到着色输入在时间上的变化规律,同时根据低分辨率的图像恢复出高分辨率的渲染结果。经过上述研究,实施例提供了一种基于神经网络的自适应渲染帧时空外插方法和装置,可以通过对时间上运动预测和空间上的超分辨率得到一帧或者高质量外插渲染帧。

如图1所示和图2所示,实施例提供的基于神经网络的自适应渲染帧时空外插方法,根据自适应外插策略在需要外插时,执行以下外插过程。

其中,自适应外插策略包括:在显示当前帧之前,根据显示需求选择当前帧是否外插,若当前帧不需要外插,则执行原有渲染管线的流程,若当前帧选择外插时,执行外插过程;在执行外插过程时,历史渲染帧类型为渲染类型或神经类型,其中渲染类型是指经过渲染管线得到的历史渲染帧数据,神经类型是指神经网络模型输出可学习运动向量。

具体地,外插过程包括以下步骤:

步骤1,获取图形渲染管线中的历史渲染帧和历史几何缓冲帧以及当前几何缓冲帧。

实施例中,从图形渲染管线中获得历史渲染帧和当前几何缓冲帧,其中,历史渲染帧包括非透明物体的场景着色数据和非几何缓冲区的着色数据。非透明物体的场景着色数据经过基本色解调制,该非透明物体的场景辐照度数据将被输入至神经网络模型。非几何缓冲区的着色数据包括场景透明物体颜色数据、场景透明物体遮挡透明度数据、以及场景天空盒颜色数据,这些非几何缓冲区的着色数据直接输入至神经网络模型。

几何缓冲帧是指利用图像渲染管线对场景数据进行几何信息的渲染,得到光栅化的几何缓冲区数据,具体包括法线贴图、深度贴图、粗糙度贴图、金属度贴图等,这些数据直接输入至神经网络模型。

步骤2,采用神经网络模型根据历史渲染帧和历史几何缓冲帧以及当前几何缓冲帧预测可学习运动向量以及重建图像残差。

实施例中,神经网络模型包括初始编码模块、解码模块以及输出解码模块;其中,初始编码模块用于输入的历史渲染帧和当前几何缓冲帧进行初始编码得到历史渲染帧编码特征和当前几何缓冲帧编码特征;解码模块用于解码模块用于依据初始编码模块输出的所有特征进行解码得到当前时刻的解码特征和可学习运动向量;输出解码模块用于对当前时刻的解码特征进行再解码得到重建图像残差。

在解码模块中,可学习运动向量的合成路径包括:

其中,

实施例中,还可以引入基于特征串流的循环策略时,神经网络模型还包括循环编码模块,该循环编码模块用于基于特征串流实现循环编码,将上一时刻的解码特征(或解码特征的压缩结果)、历史渲染帧编码特征以及历史几何缓冲帧编码特征堆叠后,输入至长短时期记忆网络中,经过计算当前时刻的循环编码特征,使用基于特征串流的连续多帧时空外插来循环编码历史帧,这样历史帧的编码特征(该编码特征包括历史渲染帧编码特征以及当前几何缓冲帧编码特征)将被逐帧缓存下来,并可以在进行未来帧外插的时候复用。

当引入循环编码模块时,解码模块用于依据当前几何缓冲帧编码特征和当前时刻的循环编码特征进行解码得到当前时刻的解码特征和可学习运动向量。

实施例中,编码模块和解码模块都可以采用金字塔结构,解码模块包括多尺度解码层,在当前尺度的解码层中,利用上一尺度解码层输出的中间可学习运动向量对输入的历史渲染帧编码特征或循环编码特征进行重投影,对上一尺度解码层输出的中间解码特征、重投影结果和当前几何缓冲帧编码特征进行解码得到当前尺寸下输出的中间解码特征和中间可学习运动向量,解码模块的最后一尺度解码层的输出即为解码模块的最终输出。

实施例中,针对神经网络模型输入历史渲染帧和历史几何缓冲帧的分辨率是一致的,预测的未来帧的分辨率可以和前两者一致或成倍放大的,更大分辨率的未来帧通过调整解码模块中网络上采样层数得到,解码模块的网络上采样层数大于编码模块中网络下采样层数时,神经网络即具备空间外插能力。

在进行渲染帧时空外插时,通过对多个历史帧输入到初始编码模块中,可以得到多个历史渲染帧编码特征,基于该多个历史渲染帧编码特征进行可学习运动向量和重建图像残差的预测。

步骤3,利用可学习运动向量对历史渲染帧进行重投影,并将重建图像残差添加到重投影结果中以得到外插渲染帧。

实施例中,在重建过程中,利用可学习运动向量对历史渲染帧进行重投影得到重投影结果,并将该重投影结果与神经网络模型输出的重建图像残差叠加到一起得到外插渲染帧。

实施例中,当历史渲染帧包括非透明物体的场景辐照度数据和非几何缓冲区的着色数据时,神经网络模型将针对不同输入生成对应的可学习运动向量,具体地,当输入为非透明物体的场景辐照帧度数据时,神经网络模型依据非透明物体的场景辐照帧度数据和历史几何缓冲帧以及当前几何缓冲帧预测生成第一可学习运动向量,当输入为非几何缓冲区的着色数据时,神经网络模型依据非几何缓冲区的着色数据和历史几何缓冲帧以及当前几何缓冲帧预测生成第二可学习运动向量,此时重建过程为:分别利用第一可学习运动向量和第二可学习运动向量对历史渲染帧进行重投影得到两个重建结果,并将重建图像残差以及两个重投影结果叠加以得到外插渲染帧。

还需要说明的是,由于非透明物体的场景着色数据经过解调制后得到的场景辐照度数据输入至神经网络模型,因此在利用第一可学习运动向量对历史渲染帧的重投影结果参与叠加之前,需要经过基本色调制,调制后重投影加过参与叠加以得到外插渲染帧,具体调制过程为:将重建的高动态范围辐照度(即重投影结果)乘以基本色。

实施例中,所述神经网络模型在被应用之前需要经过参数优化,参数优化时采用的损失函数Loss为:

Loss

在一个具体实例中,当非几何缓冲区的着色数据包括场景透明物体颜色数据、场景透明物体遮挡透明度数据、以及场景天空盒颜色数据时,Loss

Loss

如图3所示,上述实施例提供的基于神经网络的自适应渲染帧时空外插方法可嵌入到自适应渲染帧时空外插管线中,该时空外插管线可以根据需要外插一帧或者连续多帧渲染帧。该时空外插管线可以混合接受图形渲染管线的渲染结果和神经网络模型输出的重投影结果作为输入,神经网络模型的运算和重建过程会自适应编码有效信息。当连续外插多帧策略启用时,历史渲染帧的输入从图形渲染管线的缓冲数据变更为神经网络张量数据,具体为:在每个时刻,将历史渲染帧替换为利用上一帧的可学习运动向量对历史渲染帧进行重投影结果,将历史几何缓冲帧以及当前几何缓冲帧中的几何运动向量替换为上一帧的可学习运动向量。

基于同样的发明构思,如图4所示,实施例还提供了一种基于神经网络的自适应渲染帧时空外插装置,包括获取模块、预测模块、重建模块,其中,获取模块用于获取渲染管线中的历史渲染帧和当前几何缓冲帧;预测模块用于采用神经网络模型根据历史渲染帧和当前几何缓冲帧预测可学习运动向量以及重建图像残差;重建模块用于利用可学习运动向量对历史渲染帧进行重投影,并将重建图像残差添加到重投影结果中以得到外插渲染帧。

需要说明的是,上述实施例提供的基于神经网络的自适应渲染帧时空外插装置在进行渲染帧时空外插时,应以上述各功能模块的划分进行举例说明,可以根据需要将上述功能分配由不同的功能模块完成,即在终端或服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于神经网络的自适应渲染帧时空外插装置与基于神经网络的自适应渲染帧时空外插方法实施例属于同一构思,其具体实现过程详见基于神经网络的自适应渲染帧时空外插方法实施例,这里不再赘述。

上述实施例提供的基于神经网络的自适应渲染帧时空外插方法和装置,支持半透明物体分离的多帧时空外插,还支持同时对不透明和半透明物体分别进行时空外插。

上述实施例提供的基于神经网络的自适应渲染帧时空外插方法和装置,以自适应的策略外插一帧或者多帧渲染帧,在管线中应用时可以根据渲染开销和目标帧率分辨率选择连续外插的帧数和分辨率。该方法通过提出自适应的多帧连续外插框架和基于可学习运动向量的运动估计算法,有效地解决了动态遮挡、阴影、反射等效果在时间上的连续预测问题,提高了时空外插渲染帧生成的质量。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

技术分类

06120116338082