掌桥专利:专业的专利平台
掌桥专利
首页

一种基于动态NeRF的体积视频处理方法及系统

文献发布时间:2024-05-31 01:29:11


一种基于动态NeRF的体积视频处理方法及系统

技术领域

本发明涉及体积视频技术领域,尤其涉及一种基于动态NeRF的体积视频处理方法及系统。

背景技术

体积视频是一种新颖的视觉表征技术,允许观众从任何角度进行观察。由于其强大的3D真实感和交互性,体积视频在元宇宙、虚拟现实等领域具有巨大的应用潜力。然而,体积视频通常需要多个摄像机从不同角度进行采集,导致数据量是传统2D视频的数倍,这对体积视频的存储和传输带来了巨大的挑战。因此,体积视频的高效压缩技术至关重要。

基于图像的体积视频压缩方法在密集捕获的而2D图像序列中插值新视图,并可以通过2D视频编解码器进行压缩。然而,这种方法合成视图的质量不如基于几何的3D重建方法。基于几何的解决方案涉及动态点云的重建和压缩,但它们容易受到遮挡和无纹理区域的影响。

最近,使用神经辐射场(NeRF)来表征3D场景的浪潮兴起。NeRF利用大型多层感知器(MLP)来拟合3D场景中点的颜色和密度。与点云相比,NeRF可以从新视角中渲染逼真的图像。因此,NeRF适合体积视频压缩。但是,NeRF的计算复杂度较高,为实际流媒体传输带来了巨大的挑战。因此,一些工作重点关注利用显式特征,例如3D网格、哈希表和张量来加速NeRF的渲染。使用显式特征会产生额外的存储消耗,许多工作在不影响渲染速度的情况下成功实现了NeRF的显式特征压缩。然而,这些工作仅针对静态场景,在压缩动态场景的显式特征方面的工作较少,ReRF是该领域的代表性工作。

ReRF将动态神经辐射场划分为大小相等的特征网格组(GOF)。每个GOF中的第一帧指定为I帧,使用完整的特征网格表示。后续帧称为P帧,采用紧凑的运动网格和残差网格表示。ReRF引入了针对特征网格和残差网格的压缩方法,将它们编码成更小的比特流。然而,准确估计3D运动网格是一项具有挑战性的任务。在ReRF中,运动网格被下采样以减少存储消耗,因此很难完全消除帧间特征网格的冗余。此外,ReRF中动态辐射场的建模和压缩过程是分开的,缺乏端到端的优化,压缩效率不理想。

因此,急需提出一种表征更加紧凑的基于动态NeRF的体积视频处理方案,充分发挥AI编码的优势与NeRF高质量3D重建的优势,从而实现体积视频的高效重建和压缩。

发明内容

本发明提供一种基于动态NeRF的体积视频处理方法及系统,以解决现有技术中辐射场表征冗余、压缩效率低的问题。

为解决上述技术问题,本发明是通过如下技术方案实现的:

根据本发明的第一方面,提供一种基于动态NeRF的体积视频处理方法,其包括:

将辐射场的表示分解为系数场、基场;

根据时间戳将动态序列划分为等间隔的画面组,引入残差场作为所述基场的特征补偿;

根据采样点的坐标,利用三线性插值分别在所述系数场、所述基场中得到系数特征、基特征;

将所述系数特征、所述基特征进行合并,映射为颜色、密度;

基于所述采样点的坐标、所述颜色和所述密度进行体积渲染,得到给定像素点的渲染颜色;

将所述系数特征、所述基特征进行量化、熵编码,压缩动态NeRF;

构建损失函数,训练所述动态NeRF。

较佳地,所述根据时间戳将动态序列划分为等间隔的画面组,引入残差场作为所述基场的特征补偿,具体包括:

对于新的时间戳,取出前一帧的基场

还包括:引入正则化项

较佳地,所述根据采样点的坐标,利用三线性插值分别在所述系数场、所述基场中得到系数特征、基特征,具体包括:

根据采样点的坐标x,利用三线性插值分别在所述系数场C、所述基场B中得到系数特征c(x)、基特征b(x)的公式为:

c(x)=interp(x,C),

b(x)=interp(γ(x),B);

其中,在索引基场时,引入了锯齿形坐标变换γ(x)。

较佳地,所述将所述系数特征、所述基特征进行合并,映射为颜色、密度,具体包括:

将所述系数特征c(x)、所述基特征b(x)进行哈达玛积合并,再与视觉方向d输入多层传感器,输出对应坐标点的颜色c、密度σ:

较佳地,在将所述系数特征、所述基特征进行合并,映射为颜色、密度之前,还包括:

对于得到的所述系数特征、基特征,进行均匀随机噪声模拟量化。

较佳地,所述均匀随机噪声模拟量化具体包括:

对于量化y得到

较佳地,所述损失函数包括:所述渲染颜色与实际颜色间的差别、所述模拟量化的码率损失以及所述正则化项。

较佳地,所述模拟量化的码率损失,具体为:

通过计算

码率损失估计为:

较佳地,,所述损失函数具体为:所述渲染图像与实际图像之间的L2损失、所述码率损失

根据本发明的第二方面,提供一种基于动态NeRF的体积视频处理系统,其包括:

辐射场分解模块,用于将辐射场的表示分解为系数场、基场;

动态序列划分模块,用于根据时间戳将动态序列划分为等间隔的画面组,引入残差场作为所述基场的特征补偿;

特征获取模块,用于根据采样点的坐标,利用三线性插值分别在所述系数场、所述基场中得到系数特征、基特征;

特征映射模块,用于将所述系数特征、所述基特征进行合并,映射为颜色、密度;

体积渲染模块,用于基于所述采样点的坐标、所述颜色和所述密度进行体积渲染,得到给定像素点的渲染颜色;

动态NeRF压缩模块,用于将所述系数特征、所述基特征进行量化、熵编码,压缩动态NeRF;

动态NeRF训练模块,用于构建损失函数,训练所述动态NeRF。

根据本发明的第三方面,提供一种电子设备,其包括:

处理器;

以及,用于存储处理器可执行指令的存储器;

其中,所述处理器通过运行所述可执行指令实现上述任一项所述方法中的步骤。

本发明提供的基于动态NeRF的体积视频处理方法及系统,将辐射场的表示分解为系数场、基场;根据时间戳将动态序列划分为等间隔的画面组,引入残差场作为基场的特征补偿,使得动态辐射场的表征更紧凑;并且在辐射场优化的目标函数中构建了损失函数,将动态辐射场的建模和压缩进行了端到端的联合优化,与现有的ReRF相比能实现更高的压缩效率。

本发明的一可选方案中,在辐射场优化的目标函数中引入了码率约束,可以使得建模得到的辐射场表征具有低熵特性,更适合压缩,率失真性能更优化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一实施例的基于动态NeRF的体积视频处理方法的流程图;

图2为本发明的一较佳实施例的基于动态NeRF的体积视频处理方法的流程图;

图3为本发明的一较佳实施例的基于动态NeRF的体积视频处理方法的示意图;

图4a为本发明与现有ReRF在Dna-rendering数据集的训练集的性能对比示意图;

图4b为本发明与现有ReRF在Dna-rendering数据集的测试集的性能对比示意图;

图4c为本发明与现有ReRF在ReRF数据集的训练集的性能对比示意图;

图4d本发明与现有ReRF在ReRF数据集的测试集的性能对比示意图;

图5为本发明一实施例的基于动态NeRF的体积视频处理系统的示意图;

图6本发明一实施例的的处理效果示意图;

图7为本发明一实施例的电子设备的示意图;

附图标记说明:

11-辐射场分解模块;

12-动态序列划分模块;

13-特征获取模块;

14-特征映射模块;

15-体积渲染模块;

16-动态NeRF压缩模块;

17-动态NeRF训练模块;

21-处理器;

22-内部总线;

23-网络接口;

24-内存;

25-存储器。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明的一实施例的基于动态NeRF的体积视频处理方法的流程图。请参考图1,本实施例中,提供一种基于动态NeRF的体积视频处理方法,其包括S11-S14:

S11:将辐射场的表示分解为系数场、基场;

可实施地,系数场可表示为单尺度的3D网格C

比如,在一实施方式中,采用DiF显式的表征,将辐射场的表示分解为系数场和基场,分别表示为单尺度的3D网格Ct、多尺度的3D网格Bt。基场捕捉信号的共性,而系数场则代表信号的空间特征变化。

S12:根据时间戳将动态序列划分为等间隔的画面组(GOP);引入残差场作为基场的特征补偿;

可实施地,GOP的第一帧为I帧,其余帧为P帧;P帧与前一帧共享基场。

比如,在一实施方式中,根据时间戳将动态序列划分为等间隔的GOP,GOP的第一帧为I帧,其余帧为P帧。P帧与前一帧共享基场,同时引入一个残差场Rt作为基场的特征补偿。

S13:根据采样点的坐标,利用三线性插值分别在系数场、基场中得到系数特征、基特征;

S14:将系数特征、基特征进行合并,映射为颜色、密度;

S15:基于采样点的坐标、颜色和密度进行体积渲染,得到给定像素点的渲染颜色;

S16:将系数特征、基特征进行量化、熵编码,压缩动态NeRF;

S17:构建损失函数,训练动态NeRF。

本发明上述实施例S11-S14,动态辐射场的表征更紧凑;并且将动态辐射场的建模和压缩进行了端到端的联合优化,率失真性能更优化,与现有的ReRF相比能实现更高的压缩效率。

为了更好的实现压缩,一实施例中,请参考图2,S13:与S14之间还包括:S21:对于得到的系数特征、基特征,进行均匀随机噪声模拟量化。

均匀随机噪声模拟量化的引入使得优化得到的辐射场表征对量化操作鲁棒,可以避免辐射场的优化过程中量化导致的无效梯度反向传播,不会在压缩时因量化造成渲染质量大幅下降。

一实施例中,损失函数包括:渲染颜色与实际颜色之间的L2损失、模拟量化的码率损失以及正则化项。在训练期间引入模拟量化的码率约束,可以使得NeRF表征具有低熵特性,更适合压缩。

为了能实现对视频的更好处理,在一较优实施例中,请参考图3,S12动态序列划分具体包括:

对于新的时间戳,取出前一帧的基场

还包括:引入正则化项

采用该S12动态序列划分技术,使得辐射场显式特征在时域上的更新是增量的,消除了时域上的特征冗余,仅用残差进行表示更适合压缩。正则化项的引入可以确保时间连续性并且便于压缩残差网络。

在一较优实施例中,S13特征获取具体包括:

根据采样点的坐标x,利用三线性插值分别在系数场C、基场B中得到系数特征c(x)、基特征b(x)的公式为:

c(x)=interp(x,C),

b(x)=interp(γ(x),B);

其中,在索引基场时,引入了锯齿形坐标变换γ(x)。

采用该S13特征获取技术,使得辐射场显式特征本身更加紧凑,有效降低了辐射场显示特征的分辨率,更加适合压缩。

一实施例中,S14特征映射具体包括:

将系数特征c(x)、基特征b(x)进行哈达玛积合并,再与视觉方向d输入多层传感器,输出对应坐标点的颜色c、密度σ,公式如下:

在一较优实施例中,请参考图3,均匀随机噪声模拟量化具体包括:

引入均匀随机噪声,模拟量化引起的信息损失:

其中

针对辐射场显式特征估计码率损失能指导辐射场的优化,使得优化得到的辐射场显式特征具有低熵特性,更加适合压缩。

在一较优实施例中,模拟量化的码率损失的估计具体包括:

假设3D网格内的所有参数都遵循拉普拉斯分布,建立两个可训练的参数μ和b,分别表示拉普拉斯分布的均值和方差,并在训练过程中不断更新。因此,量化的PMF近似表示为:

码率损失估计为:

损失函数具体为:渲染图像与实际图像之间的L2损失、码率损失

本发明上述的优选技术特征,在互不冲突的前提下,可以采用任一个或任意多个组合使用。

下面对上述实施例的基于动态NeRF的体积视频处理方法的结果进行评估,选择了ReRF数据集的3个视频序列和Dna-rendering数据集的4个视频序列作为测试序列,每个测试序列包含150帧图像。使用ReRF作为当前最先进的动态NeRF体积视频压缩方法。

对本发明实施例与现有技术中的ReRF进行了测试比较,请参考图4a-4d。如图4a所示为本发明实施例(ours)与ReRF在Dna-rendering数据集的训练集上的性能对比图,BD-rate为-66.54%;如图4b所示为本发明实施例(ours)与ReRF在Dna-rendering数据集的测试集上的性能对比图,BD-rate为-28.71%。如图4c所示为本发明实施例(ours)与ReRF在ReRF数据集的训练集上的性能对比图,BD-rate为-45.50%;如图4d所示为本发明(ours)与ReRF在ReRF数据集的测试集上的性能对比图,BD-rate为-33.24%。可以明显看出,本发明实施例在两个数据集上的率失真性能均优于ReRF。

另外,为了进一步对比,采用本发明实施例的体积视频处理技术与现有的ReRF对多个体积视频进行了处理,得出:本发明可实现更真实、更身临其境的场景渲染,同时消耗更少的存储空间。

基于相同的技术构思,在本发明一实施例中,还提供一种基于动态NeRF的体积视频处理系统,请参考图5,其包括:

辐射场分解模块11,用于将辐射场的表示分解为系数场、基场;

动态序列划分模块12,用于根据时间戳将动态序列划分为等间隔的画面组(GOF),引入残差场作为基场的特征补偿;

特征获取模块13,用于根据采样点的坐标,利用三线性插值分别在系数场、基场中得到系数特征、基特征;

特征映射模块14,用于将系数特征、基特征进行合并,映射为颜色、密度;

体积渲染模块15,用于基于采样点的坐标、颜色和密度进行体积渲染,得到给定像素点的渲染颜色;

动态NeRF压缩模块16,用于将系数特征、基特征进行量化、熵编码,压缩动态NeRF;

动态NeRF训练模块17,用于构建损失函数,训练动态NeRF。

一实施例中,基于动态NeRF的体积视频处理系统还包括:

噪声模拟量化模块,用于对于得到的系数特征、基特征,进行均匀随机噪声模拟量化。

一实施例中,动态NeRF训练模块中的损失函数为:渲染图像与实际图像之间的L2损失、码率损失、正则化项的加权和。

本发明上述基于动态NeRF的体积视频处理系统实施例中的各个模块,具体实现的技术可以参照上述基于动态NeRF的体积视频处理方法实施例中对应的步骤,在此不再赘述。

图6本发明一实施例的动态NeRF体积视频处理的效果示意图,图中橙色线为本发明的处理效果,绿色线为现有ReRF的处理效果。在图6中,与ReRF相比,本实施例实现了更真实、更身临其境的场景渲染,同时消耗更少的存储空间。具体来说,本实施例擅长渲染更清晰的细节,例如面部特征和佩戴的配饰。ReRF渲染的图像在面部特征上表现出严重的扭曲,并且缺乏配件的细节。相比之下,本实施例准确地渲染了面部特征并捕捉了配件的复杂细节,展示了其优越的性能。

基于相同的技术构思,在本发明一实施例中,还提供一种电子设备,请参考图7。包括处理器;以及,用于存储处理器可执行指令的存储器;其中,处理器通过运行可执行指令实现上述任一项基于动态NeRF的体积视频处理方法中的步骤。具体的,在硬件层面,该设备包括处理器21、内部总线22、网络接口23、内存24以及存储器25,当然还可能包括其他业务所需要的硬件。本发明一个或多个实施例可以基于软件方式来实现,比如由处理器21从存储器25中读取对应的计算机程序到内存24中然后运行。当然,除了软件实现方式之外,本发明一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的描述中,参考术语“一种实施方式”、“一种实施例”、“具体实施过程”、“一种举例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种基于动态视频分析的身份识别方法及系统
  • 一种视频文件处理方法、终端、服务器以及系统
  • 一种视频图像处理方法、装置及系统
  • 一种视频会议的处理方法和系统
  • 一种基于人工智能的动态乳腺超声视频全病灶实时检测和分割装置、系统及图像处理方法
  • 一种基于人工智能的动态乳腺超声视频全病灶实时检测和分割装置、系统及图像处理方法
技术分类

06120116623960