掌桥专利:专业的专利平台
掌桥专利
首页

一种个性化头相关传输函数预测方法及系统

文献发布时间:2024-04-18 20:00:50


一种个性化头相关传输函数预测方法及系统

技术领域

本发明属于空间音频技术领域,具体涉及一种个性化头相关传输函数预测方法及系统。

背景技术

头相关传输函数(Head Related Transfer Function,HRTF)在空间音频技术中具有重要的作用。HRTF表征了声波由声源经过头部、耳廓和躯干等生理结构到达人耳鼓膜的过程。不同个体生理参数的差异性导致其HRTF各不相同,在空间音频重放中使用个性化的HRTF可以有效提升重放效果。然而,个性化HRTF通常需要在消声环境下利用特制设备进行测量,且非常耗时,这导致个性化HRTF难以真正应用。

目前,广泛采用生理参数的相似性从已有的HRTF数据库中选择或者利用生理参数合成HRTF幅度谱来得到个性化HRTF,但由于HRTF的生成过程过于复杂,现有基于生理参数的个性化HRTF预测方法难以很好地表征不同方向的声源传播过程中与人体各个生理参数之间物理过程。

现有技术中,一些方法尝试利用被试的三维扫描数据预测出全空间个性化HRTF。此类HRTF个性化生成方法需要较高的计算成本和计算时间,导致个性化HRTF生成系统耗时长、占用计算资源大,从而限制其在空间音频重放中的应用。同时,现有深度学习方法易导致预测HRTF之间存在峰值、谷点频率变化的间断或幅度值的跳变,进而影响HRTF渲染后的用户听感。

发明内容

本发明的目的在于克服现有技术易导致预测HRTF之间存在峰值、谷点频率变化的间断或幅度值的跳变,进而影响HRTF渲染后用户听感的缺陷。

为了实现上述目的,本发明提出了一种个性化头相关传输函数预测方法,包括:

步骤S101:通过鼻尖和双耳耳屏特征点位的坐标对包含被试者肩部、头部和耳部的三维扫描数据进行姿态标定;

步骤S102:将三维扫描数据输入训练好的生理特征提取模型,得到生理结构特征;

步骤S103:将生理结构特征输入训练好的垂面HRTF共享特征生成模型,生成垂面HRTF共享特征;

步骤S104,将垂面HRTF共享特征输入训练好的HRTF预测模型,预测各垂面目标HRTF幅度谱。

作为上述方法的一种改进,所述生理特征提取模型、垂面HRTF共享特征生成模型和HRTF预测模型为DNN或CNN网络模型。

作为上述方法的一种改进,步骤101中三维扫描数据姿态标定由双耳耳屏点和鼻尖方位确定,经由姿态变换后双耳耳屏点处于y轴上并关于原点对称,鼻尖点处于x轴正向。

作为上述方法的一种改进,所述生理特征提取模型,包括三个结构相同的网络块和一层平均池化层;每个网络块包括两层卷积层、两层批归一化、两层激活层和一层最大值池化层;将一个网络块的输出与输入进行加性跳跃连接后输入下一个网络块。

作为上述方法的一种改进,所述垂面HRTF共享特征生成模型,包括两个结构相同的网络块和一层全连接层;每个网络块包括一层全连接层、一层批归一化层、一层激活层和一层随机失活层。

作为上述方法的一种改进,所述HRTF预测模型,包括一层卷积层、一层批归一化层和一层激活层。

本申请还提供一种个性化头相关传输函数预测系统,基于上述任一方法实现,所述系统包括:

姿态标定模型,用于通过鼻尖和双耳耳屏特征点位的坐标对包含被试者肩部、头部和耳部的三维扫描数据进行姿态标定;

提取生理结构特征模块,用于将三维扫描数据输入训练好的生理特征提取模型,得到生理结构特征;

生成垂面HRTF共享特征模块,用于将生理结构特征输入训练好的垂面HRTF共享特征生成模型,生成垂面HRTF共享特征;和

HRTF预测模块,用于将垂面HRTF共享特征输入训练好的HRTF预测模型,预测各垂面目标HRTF幅度谱。

与现有技术相比,本发明的优势在于:

本发明通过深度学习的方法从包含被试者肩部、头部、耳部的三维扫描数据中提取表征被试者生理结构的生理特征,提出表征不同垂面HRTF间共同特征的垂面特征以增强预测HRTF在不同方向、频点间的连续性,通过将垂面特征根据不同水平角进行不同特征变化即可得到目标预测HRTF幅度谱,最终建立被试者生理结构与全空间目标HRTF幅度谱之间的映射关系,使得给定包含被试者肩部、头部、耳部的三维扫描数据,实现对全空间个性化HRTF幅度谱的预测。

附图说明

图1所示为本申请实施例提供的个性化头相关传输函数预测方法的流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明。

本申请人通过对现有技术方案的深入分析,发现现有深度学习方法易导致预测HRTF之间存在峰值、谷点频率变化的间断或幅度值的跳变,进而影响HRTF渲染后的用户听感。造成此问题的根本原因在于,现有个性化生成方法多在不同频点或者不同方向上分别建模,并未考虑到HRTF不同频点、方向间的连续性。此外,现有技术虽然加速了三维扫描数据的处理速度,但目前基于深度学习使用被试者三维扫描数据进行HRTF个性化的建模方法仅使用被试者耳部信息,而忽略了主要影响中低频HRTF的肩部、头部结构。

由此,本申请提供了一种个性化头相关传输函数预测方法及系统,该方法包括:

通过鼻尖和双耳耳屏特征点位的坐标对包含被试者肩部、头部、耳部的三维扫描进行姿态标定;三维扫描的姿态标定由双耳耳屏点和鼻尖方位确定,经由姿态变换后双耳耳屏点应处于y轴上并关于原点对称,鼻尖点应处于x轴正向。

从被试者三维扫描数据中得到生理结构特征(表征被试生理结构的一维特征向量);提取生理特征时采用具有三个结构相同的网络块和一层平均池化层的神经网络模型进行。每个网络块包括两层卷积层、两层批归一化、两层激活层和一层最大值池化层。将一个网络块的输出与输入进行加性跳跃连接后输入下一网络块。

从生理结构特征生成垂面HRTF共享特征(二维特征向量形式的各垂面的HRTF共享的谱特征);生成垂面HRTF共享特征时采用具有两个结构相同的网络块和一层全连接层的神经网络模型进行,每个网络块包括一层全连接层、一层批归一化层、一层激活层和一层随机失活层。垂面HRTF共享特征表征了不同垂面上HRTF幅度谱之间的共同特征,如峰值、谷点频率的变化范围等仅与被试者生理结构相关而与水平角无关的个性化特征。

从垂面HRTF共享特征,根据不同的水平角进行特征变化,预测各垂面目标HRTF幅度谱(三维向量形式的各垂面目标HRTF幅度谱);此垂面HRTF共享特征表征不同垂面上HRTF幅度谱之间的共同特征,如峰值、谷点频率的变化范围等仅与被试者生理结构相关而与水平角无关的个性化特征。预测各垂面目标HRTF幅度谱时采用具有三个结构相同的网络块和一层卷积层的神经网络模型进行,每个网络块包括一层卷积层、一层批归一化层和一层激活层。

建立被试者三维扫描数据和目标全空间个性化HRTF幅度谱之间的映射模型;

给定新被试者的三维扫描数据,即可通过三个神经网络模块生成目标全空间个性化HRTF幅度谱。

本发明通过深度学习的方法从包含被试者肩部、头部、耳部的三维扫描数据中提取表征被试者生理结构的生理特征,提出表征不同垂面HRTF间共同特征的垂面特征以增强预测HRTF在不同方向、频点间的连续性,通过将垂面特征根据不同水平角进行不同特征变化即可得到目标预测HRTF幅度谱,最终建立被试者生理结构与全空间目标HRTF幅度谱之间的映射关系,使得给定包含被试者肩部、头部、耳部的三维扫描数据,实现对全空间个性化HRTF幅度谱的预测

本申请创新性的使用包含被试肩部、头部、耳部的三维扫描进行HRTF的个性化,并提出“垂面特征”使网络整体考虑到了HRTF不同频点、方向间的连续性,进而可以做到对HRTF比较好的个性化预测。

实施例1:

图1为本申请实施例1提供的一种个性化头相关传输函数预测方法的流程图。

如图1所示的个性化头相关传输函数预测方法,具体实现步骤如下:

步骤S101,通过鼻尖和双耳耳屏特征点位的坐标对包含被试者肩部、头部、耳部的三维扫描进行姿态标定。

具体地,在得到包含被试者肩部、头部、耳部的三维扫描后,通过将三维扫描进行平移、旋转等操作后,使得被试者三维扫描的鼻尖点位于x轴正向,双耳耳屏点分别位于y轴正负轴且关于原点对称。

步骤S102,从被试者三维扫描数据中得到生理结构特征。

具体地,采用具有三个结构相同的网络块和一层平均池化层的神经网络模型,利用标定后的被试者三维扫描数据,得到被试的生理结构特征。每个网络块包括两层卷积层、两层批归一化、两层激活层和一层最大值池化层。将一个网络块的输出与输入进行加性跳跃连接后输入下一网络块。

步骤S103,从生理结构特征生成垂面HRTF共享特征。

具体地,采用具有两个结构相同的网络块和一层全连接层的神经网络模型将步骤S102得到的生理特征生成各垂面共享的HRTF特征。每个网络块包括一层全连接层、一层批归一化层、一层激活层和一层随机失活层。

步骤S104,从垂面HRTF共享特征预测各垂面目标HRTF幅度谱。

具体地,采用具有三个结构相同的网络块和一层卷积层的神经网络模型,基于步骤S103输出的垂面共享HRTF特征预测各个垂面上的目标HRTF幅度谱。每个网络块包括一层卷积层、一层批归一化层和一层激活层。

给定新被试者的三维扫描数据,即可通过步骤102-步骤104生成目标全空间个性化HRTF幅度谱。

本申请使用的神经网络模型为DNN或CNN。

本发明通过深度学习的方法从三维扫描数据中提取表征被试生理结构的特征,进而建立被试生理结构与全空间目标HRTF幅度谱之间的映射关系,使得给定被试的三维扫描数据,实现对全空间个性化HRTF幅度谱的预测。

本发明利用已有HRTF数据库中数据,通过深度学习方法建立被试生理结构与全空间目标HRTF幅度谱之间的映射模型,使得给定被试的三维扫描数据,实现对全空间个性化HRTF幅度谱的预测。

实施例2:

本申请还提供一种个性化头相关传输函数预测系统,基于上述方法实现,所述系统包括:

姿态标定模型,用于通过鼻尖和双耳耳屏特征点位的坐标对包含被试者肩部、头部、耳部的三维扫描数据进行姿态标定;

提取生理结构特征模块,用于将三维扫描数据输入训练好的生理特征提取模型,得到生理结构特征;

生成垂面HRTF共享特征模块,用于将生理结构特征输入训练好的垂面HRTF共享特征生成模型,生成垂面HRTF共享特征;

HRTF预测模块,用于将垂面HRTF共享特征输入训练好的HRTF预测模型,预测各垂面目标HRTF幅度谱。

本发明还可提供一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。

其中,用户接口可以包括显示器、键盘或者点击设备。例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。

在本上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:

执行上述方法的步骤。

上述方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行上述公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合上述公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本发明还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种校正关系获取装置、方法及校正光探测元件的装置
  • 获取有效注册表键值名的方法以及装置
  • 获取推荐系统最优参数组合的方法及装置
  • 获取角度天线组合质量关系表的方法及相关装置
  • 获取角度天线组合质量关系表的方法及相关装置
技术分类

06120116537653