掌桥专利:专业的专利平台
掌桥专利
首页

基于神经辐射场的超低带宽视频通话传输系统和方法

文献发布时间:2023-06-19 19:16:40


基于神经辐射场的超低带宽视频通话传输系统和方法

技术领域

本发明涉及一种视频通话传输系统,具体地,涉及一种基于神经辐射场的超低带宽视频通话传输系统和方法。

背景技术

三维数字人重建模型,尤其是数字人脸重建模型,是当下计算机视觉和计算机图形学正火热的研究问题。三维数字人脸对于增强现实AR以及虚拟现实VR等远程呈现应用以及视频编辑(如电影工业中的视觉配音)都是必不可少的。这些应用需要一个对于人脸外貌真实可信的重建,并希望重建模型能够改变视角方向和头部位姿(常见于VR中)以及能够改变表情(例如视觉配音)。以往的人脸重建模型通过显式的几何与材质特征(如反照率albedo与反射率reflectance)来表示人脸(头),但这种方法是十分有难度的,这是因为人的皮肤还会有一些例如次表面散射效应,且眼睛是高度反光的以及头发的几何特征十分复杂且有着很精细的细节,使得这种显示的表示方法效果较差。尽管借助一些多镜头多视角的摄像棚可以比较容易地解决对皮肤表面高质量几何特征的显式重建,但头发部分却通常只是通过检索和细化发型来近似,给人一种很不真实的视觉效果。

与此同时,时下对于人像视频通话和视频传输的使用和研究也受到很多人的关注。近几年,人们的生活方式越来越由线下转到线上,线上学习,线上办公,线上娱乐等等,各种各样的云端服务层出不穷,而在这其中视频通话和传输占有很重要的地位:学生的教学转为线上,为了不降低教学质量,需要开启线上多人视频会议来帮助学生更好地学习,线上办公汇报亦是如此,除此之外,疫情所导致的封控和隔离,也只有视频通话能够构建我们与亲人之间“面对面”的沟通桥梁;再如线上娱乐如直播,短视频等,对于人像视频通话和传输也有着大量的需求,其中一些虚拟形象的直播(主播将自己的面部以虚拟形象展现在观众面前,可粗略捕捉其面部表情),则对于视频通话有了更高的要求。

更进一步,无论是人像视频通话还是视频传输,都有一个需要考虑的重要问题,即在传输时视频所需要的带宽。另一方面在一些比较特殊的视频传输场景下,如一些带宽极度受到限制的场景,空地通信、水下通信、极地科考、地月通信和空间站通信等等,以及人数足够多的多人超大型线上会议,有着对于足够低带宽的需求。

降低视频带宽最为主要的方法就是视频压缩,多年以来人们设计出许多不同的方法来压缩视频,已经有很长的历史,从首次出现帧间压缩的方法,到DCT图像压缩,再到首个视频压缩协议H.120,之后首个在商业上成功的数字视频编码标准H.261,再到2020年发布的H.266/VCC标准;各种方法基于视频信息存在时间冗余,空间冗余,编码冗余和视觉冗余的特性,通过去除冗余来实现视频压缩以降低视频传输所需的带宽。这些不断精进的视频压缩方法使得更加高清的视频通话和传输成为了可能,但其在面对上述的特殊情况或许也会捉襟见肘。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于神经辐射场的超低带宽视频通话传输系统和方法。

根据本发明的一个方面,提供一种基于神经辐射场的超低带宽视频通话传输系统,包括:

三维数字人脸重建模块,所述三维数字人脸重建模型能够从输入的人脸图像中提取人脸表情特征;并能够以人脸表情特征为输入隐式地控制人脸表情,实现三维重建;

视频通话演示模块,所述视频通话演示模块展示实时的视频通话过程,其包括服务器发送端和客户接收端,所述服务器发送端利用所述三维数字人脸重建模块采集的人脸表情特征传输至客户接收端;

人脸特征压缩模块,所述人脸特征压缩模块与所述服务器发送端连接,将传输的人脸表情特征进行压缩;

人脸特征聚类分析模块,所述人脸特征聚类分析模块与所述客户接收端连接,对接收的经所述人脸特征压缩模块压缩后的人脸表情特征进行聚类分析、利用所述三维数字人脸重建模块进行采样预渲染和结果替代,实现视频通话的实时性。

优选地,所述三维数字人脸重建模块具有将输入的人脸图像与人脸表情特征一一对应的特质,实现人脸表情特征替代人脸图像传输,用于降低带宽;

所述人脸特征压缩模块对传输的人脸表情特征进行再次用于降低传输带宽的压缩;

所述人脸特征聚类分析模块对所述客户接收端对接收到的人脸表情特征进行渲染再呈现的过程实现实时性。

优选地,所述三维数字人脸重建模型,包括:

面部追踪单元,所述面部追踪单元估计给定人脸图像中的人脸位姿和人脸表情特征;

提取背景单元,所述提取背景单元解耦给定人脸图像中的人脸与背景,分别得到目标人脸与背景;

动态神经辐射场单元,所述动态神经辐射场单元动态隐式地表示以所述目标人脸为主体的场景;

人脸立体渲染单元,所述人脸立体渲染单元对所述动态神经辐射场单元表示的目标人脸为主体的场景渲染生成人脸图像;

其中,所述面部追踪单元提取的所述人脸位姿和人脸表情特征作为所述动态神经辐射场单元的部分输入;

所述提取背景单元提取的所述目标人脸和背景,用于所述人脸立体渲染单元在训练阶段对损失的计算和测试阶段人脸图像的生成。

优选地,所述动态神经辐射场单元将所述面部追踪单元获得的所述人脸位姿P、人脸表情特征δ以及可学习隐码γ共同作为条件参数进行限制,使用一个多层感知机MLP表示人脸的动态神经辐射场单元D

其中,所述多层感知机MLP,其输入包括五类参数,分别为:一个由(x,y,z)组成的三维空间中某点的位置p、一个由(θ,φ)组成二维的视角方向

优选地,所述辐射颜色RGB和体素密度σ为所述动态神经辐射场单元D

将所述面部追踪单元获取的人脸表情特征δ和人脸位姿P经过嵌入网络和注意网络处理,得到处理结果;

将所述处理结果结合所述隐码获得编码后的特征;

将所述编码后的特征输入到8个依序排列的256通道数的全连接层网络;

将三维空间中某点的位置p作为第五个256通道数的全连接层网络的输入;

所有全连接层网络皆使用ReLu作为激活函数,最后一个全连接层网络输出体素密度σ和一个256维的特征向量;将所述256维的特征向量与所述视角方向

优选地,所述嵌入网络和注意网络,分别对人脸表情特征进行加窗嵌入和平滑处理;所述可学习隐码γ补偿调和在所述面部追踪单元中人脸表情特征和人脸位姿中的误差。

优选地,所述人脸立体渲染单元模拟相机射线穿过每帧人脸图像的每个像素的采样过程,对经过所述动态神经辐射场单元得到的体素密度σ和辐射颜色RGB进行累积,得到最终图像像素点值G,包括:

在已知一条相机射线

其中RGB

优选地,所述的人脸特征聚类分析模块,包括:

人脸特征采集单元,所述人脸特征采集单元对多个不同主体分别进行人脸视频采集,并获取所有人脸表情特征整合到一起;

聚类分析单元,所述聚类分析单元对所述人脸特征采集单元得到的人脸表情特征进行k-means聚类分析,计算每类人脸表情特征点到其聚类中心的距离,并求和对比,最终确定最佳的聚类数目;

采样和预渲染单元,所述采样和预渲染单元对所述聚类分析后的每一类人脸特征点按比例进行采样,并通过三维数字人脸重建模型对采样点进行预渲染,得到渲染结果存储下来;

结果替代单元,将所述传输来的目标人脸特征与聚类采样得到的人脸特征进行比较,选取距离最近的特征的预渲染结果,近似地代替当前传输来的人脸特征的渲染结果。

优选地,所述的人脸特征压缩模块,包括:

残差编码压缩单元,所述残差编码压缩单元对人脸表情特征进行残差编码压缩;

DCT编码压缩单元,所述DCT编码压缩单元对人脸表情特征进行DCT编码压缩;

所述视频通话演示模块中,所述服务器发送端通过python中socket库构建,与客户接收端相连,用于向客户接收端发送目标人脸表情特征;所述客户接收端通过python中socket库构建,与所述服务器发送端相连,用于接收传输来的人脸表情特征,并进行渲染结果展示。

根据本发明的第二个方面,提供一种基于神经辐射场的超低带宽视频通话传输方法,采用上述的基于神经辐射场的超低带宽视频通话传输系统,包括:

提取图像中的人脸表情特征;

对所述人脸表情特征进行压缩;

将压缩后的人脸表情特征从服务器发送端发送至客户接收端;

在所述客户接收端对接收到的人脸特征进行聚类分析和采样预渲染结果替代实现视频通话的实时性。

与现有技术相比,本发明实施例具有如下至少一种有益效果:

本发明实施例提供一种基于神经辐射场的超低带宽视频通话系统和方法,通过三维重建模型中实现人脸重建模型,并根据模型将人脸表情特征与人脸图像一一对应的特性,由原本的人脸视频的传输转为人脸特征的传输,并通过聚类分析和特征压缩,最终实现了超低带宽近乎实时的人脸视频通话传输效果;

本发明实施例提供的动态神经辐射场,通过隐式的方式对以人脸为主体的三维场景进行表示,而非采用显式的重建方式,能够对场景的光照以及其他细节有更好的重建效果,同时具有无限分辨率渲染的有点;在原始神经辐射场的基础上,使用人脸表情特征和人脸位姿作为条件输入,从而实现了动态地控制重建人脸表情和人脸朝向,最终实现了高拟真度的人脸重建;

本发明实施例提供的人脸特征压缩模块,考虑到了向量形式的人脸表情特征其表示仍有冗余,采用了无损熵编码和残差量化编码等压缩方式对用于传输的人脸表情特征进行进一步的压缩,从而进一步降低了传输的带宽;

本发明实施例提供的人脸特征聚类分析模块,首次考虑到人脸表情在通话时随时间分布的聚类特性,并以此为依据,构建视频通话人脸表情特征数据库,进一步地通过采样和预渲染结果替代的方式,最终满足了实时视频通话传输的需求。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中的基于神经辐射场的超低带宽视频通话传输系统的结构框图;

图2为图1的结构框图进一步说明的示意图;

图3为本发明一个优选实施例中的三维数字人脸重建模块整体框架图;

图4为本发明一个优选实施例中的动态神经辐射场的网络结构图;

图5为本发明一个优选实施例中的基于神经辐射场的超低带宽视频通话传输方法的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

参照图1和图2所示,本发明提出的一种基于神经辐射场的超低带宽视频通话传输系统的一实施例,其包括:

三维数字人脸重建模块,该模块能够从输入的人脸图像中提取人脸表情特征;并能够以人脸表情特征为输入隐式地控制人脸表情,实现三维重建;

视频通话演示模块,该模块展示实时的视频通话过程,其包括服务器发送端和客户接收端,服务器发送端将人脸表情特征传输至客户接收端;

人脸特征压缩模块,该模块与服务器发送端连接,将传输的人脸表情特征进行压缩;

人脸特征聚类分析模块,该模块与客户接收端连接,对接收的人脸表情特征进行聚类分析、采样预渲染和结果替代实现视频通话的实时性。

本实施例中,三维数字人脸重建模块,其从人脸图像中提取出人脸特征进行超低带宽视频通话传输;用于隐式地表示人脸,实现人脸重建,新位姿新表情人脸的生成以及人脸驱动,通过输入人脸表情特征直接控制人脸表情的生成;人脸特征聚类分析模块,实现所述人脸特征进行超低带宽视频通话传输的实时性;用于解决用人脸特征的传输代替人脸图像的传输进行超低带宽视频通话时,因接收端需要对人脸特征进行渲染而导致视频通话的非实时问题;人脸特征压缩模块,用于对超低带宽视频通话传输中所传输的人脸特征的进一步压缩;视频通话演示模块,用于展示近乎实时的超低带宽视频通话传输过程。

在本发明的一个优选实施例中,提供三维数字人脸重建模块的优选结构,参照图3所示,三维数字人脸重建模块,包括面部追踪单元、提取背景单元、动态神经辐射场单元和人脸立体渲染单元;面部追踪单元估计给定人脸图像中的人脸位姿和人脸表情特征;提取背景单元解耦给定人脸图像中的人脸与背景,分别得到目标人脸与背景;动态神经辐射场单元动态隐式地表示以所述目标人脸为主体的场景;人脸立体渲染单元对所述动态神经辐射场单元表示的目标人脸为主体的场景渲染生成人脸图像。

需要说明的是,面部追踪单元提取的所述人脸位姿和人脸表情特征作为所述动态神经辐射场单元的部分输入;提取背景单元提取的所述目标人脸和背景,用于所述人脸立体渲染单元在训练阶段对损失的计算和测试阶段人脸图像的生成。

参照图4,为一个较优实施例中的动态神经辐射场的网络结构图。动态神经辐射场模型将人头位姿P,人脸表情特征δ以及可学习隐码γ共同作为条件参数进行限制,使用了一个多层感知机(MLP)来表示人脸的动态神经辐射场D

进一步的,动态神经辐射场单元的网络处理过程为:

S1,将面部追踪单元获取的人脸表情特征δ和人脸位姿P经过嵌入网络(EmbeddingMLP和注意网络Attention Net处理,得到处理结果;

S2,将S1中的处理结果结合隐码获得编码后的特征;

S3,将S2编码后的特征输入到8个依序排列的256通道数的全连接层网络;

S4,将三维空间中某点的位置p作为第五个256通道数的全连接层网络的输入;

S5,所有全连接层网络皆使用ReLu作为激活函数,最后一个全连接层网络输出体素密度σ和一个256维的特征向量;将该256维的特征向量与所述视角方向

本实施例中,嵌入网络(Embedding MLP)和注意网络(Attention Net),用于对人脸特征进行加窗嵌入和平滑处理,使得渲染得到的人脸视频更加平滑且自然;

本实施例中,可学习隐码γ用于补偿调和在面部表情估计和人脸位姿估计中的误差,增添其关联性。

在本发明的另一个优选实施例中,提供人脸立体渲染单元的实现过程。人脸立体渲染单元模拟相机射线穿过每帧人脸图像的每个像素的采样过程,对经过所述的动态神经辐射场模型得到的体素密度和RGB进行累积,得到最终图像像素点值C,即某相机视角下沿着某相机射线立体渲染得到的(人脸图像的)一个像素点的值。

一较佳实施例中,将上述最终图像像素点值的获取过程具体表示为:

在已知一条相机射线

其中RGB

本实施例中,人脸立体渲染单元基于其模拟三维空间射线的特性,充分地考虑到了人脸在三维空间中的信息,从而可以获取更真实准确的某视角下人脸图像的像素值。

在本发明的一优选实施例中,人脸特征聚类分析模块包括聚类分析单元、采样和预渲染单元和结果替代单元;聚类分析单元,用于对人脸特征进行k-means聚类分析,通过计算点到聚类中心的距离和确定最佳的聚类数目。采样和预渲染单元,用于对聚类后的特征点按每一类的比例进行采样,并通过三维数字人脸重建模型预渲染得到渲染结果存储下来。结果替代单元,用于对传输来的人脸特征与聚类采样得到的特征进行比较,选取距离最近的特征的预渲染结果,近似地代替当前传输来的人脸特征的渲染结果。

本实施例中的人脸特征聚类分析模块,本发明实施例提供的人脸特征聚类分析模块,首次考虑到人脸表情在通话时随时间分布的聚类特性,并以此为依据,构建视频通话人脸表情特征数据库,进一步地通过采样和预渲染结果替代这种以空间换取时间的方式,最终满足了实时视频通话传输的需求。

在本发明的一个优选实施例中,人脸特征压缩模块包括残差编码压缩模块和DCT编码压缩模块;残差编码压缩模块用于对人脸特征进行进一步的残差编码压缩;DCT编码压缩模块用于对人脸特征进行进一步的DCT编码压缩。

参见图5,基于相同的发明构思,本发明提供一种基于神经辐射场的超低带宽视频通话传输方法,其过程为:

S100,提取图像中的人脸表情特征;

S200,对S100中提取的人脸表情特征进行压缩;

S300,将S200中压缩后的人脸表情特征从服务器发送端发送至客户接收端;

S400,在客户接收端对接收到的人脸特征进行聚类分析和采样预渲染结果替代实现视频通话的实时性。

本实施例,首先通过增添人脸位姿和表情特征作为条件输入的方式,构建动态神经辐射场实现了三维数字人脸重建模型;之后根据人脸重建模型将人脸表情特征与人脸图像一一对应的特性,将人脸特征代替人脸视频进行传输;与此同时,对人脸特征进行聚类分析和采样预渲染结果替代实现视频通话的实时性,并且对人脸特征进行进一步的特征压缩;最终结合上述流程,实现了近乎实时的超低带宽的人脸视频通话传输过程,并可通过视频通话演示模块进行展示。

该方法提供一种超低带宽视频通话传输的新思路。不同与以往仅仅以图像为基础或者对几何和材质特征显式建模的方法,本发明使用一种场景表示网络对人脸隐式表示,并使用立体渲染的方式从这种隐式表示中生成得到人脸图像。为了实现面部的动态变化,本发明增添了人脸表情特征输入以显示地控制人脸表情。并且,本发明模型的优化只需要单相机的人脸视频数据而无需如多相机的特殊设定。同时,受到模型将表情特征与人脸图像对应的启发,鉴于当下对线上视频通话带宽的更高要求,本发明提出以表情特征传输代替人脸视频输出以实现超低带宽视频传输的新思路,并实现了这种思路下的视频通话实时性和特征进一步压缩。最终本发明通过实验表明了模型可以实现高拟真的人脸驱动,以及用人脸特征做替代传输的新思路能够实现近乎实时的超低带宽视频通话传输。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

相关技术
  • 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统
  • 基于神经辐射场的计算全息场生成方法及装置
技术分类

06120115849973