掌桥专利:专业的专利平台
掌桥专利
首页

用于音频信号处理的装置、方法和计算机程序

文献发布时间:2024-04-18 19:52:40


用于音频信号处理的装置、方法和计算机程序

本申请是2019年5月7日提交的申请号为201980046030.7、发明名称为“用于音频信号处理的装置、方法和计算机程序”的专利申请的分案申请。

技术领域

本公开的示例涉及一种用于音频信号处理的装置、方法和计算机程序。该装置、方法和计算机程序可被配置为处理空间音频信号。

背景技术

当音频信号被两个或更多个麦克风捕获时,可以处理音频信号以从音频信号获得空间信息。这可以包括有关这样的方向的信息,声音相对于麦克风从该方向到达。空间信息可以用于使音频信号能够被渲染以为用户提供现实的空间音频体验。

发明内容

根据本公开的各种但并非全部的示例,提供了一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置标识第一能量参数并标识第二能量参数。

能量参数可以包括比率。

可以针对每个频带确定方向和能量参数。

可以使用与第一方向和/或第一能量参数不同的频带来标识第二方向和/或第二能量参数。

可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。

第一方向可以对应于声音的第一到达方向,而第二方向可以对应于声音的第二到达方向。

可以同时捕获所述第一音频信号和所述第二音频信号。

可以从同时捕获的音频信号中标识出所述第一方向和所述第二方向。

可以通过在至少第一音频信号和第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。

可以在时频域中执行相干性分析。

相干性分析可以包括标识在第一音频信号和第二音频信号之间具有最高相干性水平的时间延迟。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置定义围绕一个方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。

相干性分析可以包括估计对于第一方向的能量比和估计对于第二方向的能量比。

存储器电路和计算机程序代码可被配置为与处理电路一起,使装置获得至少第三音频信号,其中所述第三音频信号被所述麦克风阵列捕获,其中,所述麦克风阵列包括至少三个麦克风。

可以作为空间音频捕获过程的一部分标识所述第一方向和/或所述第二方向。

存储器电路和计算机程序代码可被配置为与处理电路一起使该装置向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得第一音频信号和第二音频信号和元数据能够用于合成空间音频信号,其中该元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

根据本公开的各种但并非全部的示例,提供了一种装置,包括用于以下的元件(means):获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

该装置可被配置为执行以下描述的任何方法。

根据本公开的各种但并非全部的示例,提供了一种电子设备,其包括如上所述的装置和多个麦克风。

该电子设备可以包括被配置为实现无线通信的一个或多个收发器。

根据本公开的各种但不一定全部的示例,提供了一种方法,该方法包括:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少第一音频信号和第二音频信号之间的延迟参数来标识第一方向和第二方向。

该方法可以包括标识第一能量参数和标识第二能量参数。

能量参数可以包括比率。

可以针对每个频带确定方向和能量参数。

可以使用与第一方向和/或第一能量参数不同的频带来标识第二方向和/或第二能量参数。

其中,可以使用比用于标识第一方向和/或第一能量参数的频带更宽的频带来标识第二方向和/或第二能量参数标识。

第一方向可以对应于声音的第一到达方向,而第二方向可以对应于声音的第二到达方向。

可以同时捕获所述第一音频信号和所述第二音频信号。

可以从同时捕获的音频信号中标识出所述第一方向和所述第二方向。

可以通过在至少所述第一音频信号和所述第二音频信号之间的不同延迟下使用相干性分析来标识方向和/或能量参数。

可以在时频域中执行相干性分析。

相干性分析可以包括标识具有在所述第一音频信号和所述第二音频信号之间的最高相干性水平的时间延迟。

该方法可以包括定义围绕方向的角度范围并且从相干性分析中省略来自该角度范围的方向以标识所述第二方向。

相干性分析可以包括估计对于第一方向的能量比和估计对于第二方向的能量比。

该方法可以包括获得至少第三音频信号,其中所述第三音频信号被所述麦克风阵列捕获,其中,所述麦克风阵列包括至少三个麦克风。

可以作为空间音频捕获过程的一部分,标识所述第一方向和/或所述第二方向。

该方法可以包括向一个或多个合成器提供至少第一音频信号、第二音频信号和元数据以使得所述第一音频信号和所述第二音频信号和所述元数据能够用于合成空间音频信号,其中所述元数据包括指示所述第一方向和所述第二方向的信息和/或指示所述第一能量比和所述第二能量比的信息。

根据本公开的各种但并非全部的示例,提供了一种包括计算机程序指令的计算机程序,该计算机程序指令在由处理电路执行时促使:获得至少第一音频信号和第二音频信号,其中该第一音频信号和该第二音频信号由包括至少两个麦克风的麦克风阵列捕获;针对多个频带,标识至少第一方向;以及针对多个频带,标识至少对应的第二方向;其中,通过使用在至少所述第一音频信号和所述第二音频信号之间的延迟参数来标识所述第一方向和所述第二方向。

根据本公开的各种但并非全部的示例,提供了一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部的示例,提供了一种携带上述计算机程序的电磁载波信号。

根据本公开的各种但并非全部的示例,提供了一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和该计算机程序代码被配置为与该处理电路一起使该装置:接收至少第一音频信号、第二音频信号和元数据;使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号,其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

根据本公开的各种但并非全部的示例,提供了一种装置,包括用于以下的元件:接收至少第一音频信号、第二音频信号和元数据;使得能够使用所述第一音频信号和所述第二音频信号和所述元数据来合成空间音频信号,其中所述元数据包括指示第一方向和第二方向的信息和/或指示第一能量比和第二能量比的信息。

附图说明

为了更好地理解有助于理解详细描述的各种示例,现在将仅以示例方式参考附图,其中:

图1示出了示例装置;

图2示出了示例电子设备;

图3示出了示例方法;

图4示出了示例系统;

图5示出了示例分析处理器;

图6示出了示例空间分析过程;

图7示出了用于标识第二方向的示例方法;

图8示出了示例合成处理器;

图9示出了可以由空间合成模块执行的空间合成的另一示例方法;

图10A和10B是估计方向和第一方向的能量比的曲线图;

图11A和11B是估计方向和第一方向和第二方向的能量比的曲线图;

图12示出了示例电子设备;

图13示出了另一示例电子设备;以及

图14示出了另一示例电子设备。

具体实施方式

本公开的示例涉及空间音频处理。在本公开的示例中,可以标识声音的两个或更多个到达方向。声音可以在频谱和时间上同时发生。也就是说,声音可以同时被麦克风检测到,并且还可以覆盖一些相同的频带。在一些示例中,可以基于麦克风信号同时检测声音。本公开的示例减少了所渲染的音频中的伪像(artifact),并且因此提供了改进的空间音频输出。可以使用处理技术来实现该方法。在本公开的示例中,该方法不依赖于被用于捕获以特定配置和/或特定类型的麦克风设置的音频信号的麦克风。这使得本发明能够与诸如移动电话的设备一起使用,其中所使用的麦克风的类型和设备内麦克风的布置可以受到该设备内其他硬件组件、设备形状和/或其他因素的限制。

图1示意性地示出了根据本公开的示例的装置101。图1所示的装置101可以是芯片或芯片组。在一些示例中,装置101可被提供在诸如音频捕获设备之类的设备内。在一些示例中,装置101可被提供在诸如移动电话或其他通信设备的电子设备内。

装置101包括控制电路103。控制电路103可以提供用于控制电子设备的元件。控制电路103还可以提供用于执行本公开的示例的方法或方法的至少一部分的元件。

装置101包括处理电路105和存储器电路107。处理电路105可被配置为从存储器电路107读取和向存储器电路107写入。处理电路105可以包括一个或多个处理器。处理电路105还可以包括输出接口以及输入接口,通过输出接口处理电路105输出数据和/或命令,通过输入接口向处理电路105输入数据和/或命令。

存储器电路107可被配置为存储计算机程序109,该计算机程序109包括计算机程序指令(计算机程序代码111),该计算机程序指令在被加载到处理电路105中时控制装置101的操作。计算机程序109的计算机程序指令提供使装置101能够执行上述示例方法的逻辑和例程。通过读取存储器电路107,处理电路105能够加载并执行计算机程序109。

计算机程序109可以经由任何合适的传递机制到达装置101。传递机制可以是例如非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)的记录介质、或切实体现计算机程序的制品。传递机制可以是被配置为可靠地传输计算机程序109的信号。该装置可以将计算机程序109作为计算机数据信号来传播或发送。在一些示例中,可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个人局域网上的IPv6)ZigBee、ANT+、近场通信(NFC)、射频标识、无线局域网(无线LAN)之类的无线协议或任何其他合适的协议,向装置101发送计算机程序代码109。

尽管存储器电路107在图中被示为单个组件,但是应当理解,它可被实现为一个或多个单独的组件,其中一些或全部可以是集成/可移动的和/或可以提供永久/半永久的/动态的/缓存的存储。

尽管处理电路105在图中被示为单个组件,但是应当理解,它可被实现为一个或多个单独的组件,其中一些或全部可以是集成/可移动的。

应当将对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用理解为不仅包括具有不同架构(例如单/多处理器架构、精简指令集计算(RISC)和顺序(冯·诺依曼)/并行架构)的计算机,还包括专用电路,例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、信号处理设备和其他处理电路。对计算机程序、指令、代码等的引用应理解为涵盖用于可编程处理器或固件的软件,例如硬件设备的可编程内容,无论是用于处理器的指令还是用于固定功能设备、门阵列或可编程逻辑器件等的配置设置。

在本申请中使用的术语“电路”指的是以下所有内容:

(a)仅硬件的电路实施方式(例如仅采用模拟和/或数字电路的实施方式)和

(b)电路和软件(和/或固件)的组合,例如(如适用):(i)处理器的组合或(ii)处理器/软件(包括数字信号处理器)的部分、软件和存储器,它们一起工作以使诸如移动电话或服务器之类的装置执行各种功能,和

(c)需要软件或固件用于运行的电路(例如微处理器或微处理器的一部分),即使物理上并不存在该软件或固件。

该“电路”的定义适用于本申请中该术语的所有使用,包括任何权利要求。作为另一示例,如在本申请中使用的,术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分及其(或它们)附带的软件和/或固件的实施方式。术语“电路”还将覆盖(例如,如果适用于特定的权利要求要素)用于移动电话的基带集成电路或应用处理器集成电路或在服务器、蜂窝网络设备或其他网络中的类似集成电路。

图2示出了根据本公开的示例的示例电子设备201。电子设备201包括装置101、用户接口203,多个麦克风205和一个或多个收发器207。应当理解,图2中仅示出了说明书中所指的组件,并且电子设备201可以包括图2中未示出的附加组件。例如,电子设备201还可以包括电源和其他合适的组件。

用户接口203可以包括使得电子设备201的用户能够进行用户输入和/或使得能够向用户提供输出的任何元件。在一些示例中,用户接口203可以包括显示器。显示器可以是触敏显示器,其可以使得能够将信息提供给用户,并且还可以使用户能够进行触摸用户输入。在本公开的其他示例中可以使用其他类型的用户接口。

多个麦克风205包括被配置成将声音信号转换成电输出信号的任何元件。麦克风205因此可以捕获声音信号并且提供音频信号作为输出。音频信号可以是表示捕获的声音信号的电信号。

在本公开的示例中,电子设备201可以包括多个麦克风205。多个麦克风205可被设置在麦克风阵列中。多个麦克风205可以包括两个或更多个麦克风205。例如,诸如移动电话的电子设备201可以包括三个或更多个麦克风205。其他类型的电子设备201可以包括其他数量的麦克风。

多个麦克风205可以在空间上分布在电子设备201内,使得不同的麦克风205位于电子设备201内的不同位置。麦克风205的位置可以至少部分地由电子设备201的其他组件确定。例如,在用户接口203包括显示器的情况下,第一麦克风可以位于显示器的第一端,第二麦克风可以位于显示器的第二端。

收发器207可以包括用于接收和/或发送信息的任何合适的元件。收发器207可包括一个或多个发射机和/或接收机。收发器207可以使得能够在电子设备201与另一实体之间进行无线连接。无线连接可以是例如蜂窝连接、Wi-Fi连接、蓝牙连接的无线连接或任何其他合适类型的连接。

电子设备201可以是任何合适类型的电子设备201。在一些示例中,电子设备201可以是通信设备,诸如移动电话、个人计算机或其他合适的设备。在一些示例中,电子设备可以是诸如照相机的成像设备,其可被配置为记录静止的和/或视频图像。电子设备201可以是手持设备,其可以在电子设备201的正常使用期间被握在用户的手中。

图3示出了可以使用所描述的装置101和电子设备201来实现的示例方法。

该方法包括,在框301处,获得至少第一音频信号和第二音频信号。第一音频信号和第二音频信号可以从可以提供给装置101的多个麦克风205输出。第一音频信号和第二音频信号可以由包括多个麦克风的麦克风阵列捕获。可以通过第一麦克风捕获第一音频信号,并且可以通过第二麦克风捕获第二音频信号。麦克风205可以位于电子设备201内的不同位置,以使第二音频信号与第一音频信号相比的延迟(反之亦然)给出有关声音相对于麦克风205到达的方向的信息。

第一音频信号和第二音频信号是同时被捕获的。这可以使得能够从同时捕获的音频信号中标识出第一方向和第二方向。

在框303处,该方法包括标识针对多个频带的至少第一方向。第一方向对应于声音的第一到达方向。第一声音可被标识为从第一方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行相干性分析来标识第一方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第一方向。在一些示例中,可以针对频带的至少一个子集确定第一方向。

相干性分析可以在时频域中执行。相干性分析包括标识在第一音频信号和第二音频信号之间具有最高相关性水平的时间延迟。

该方法还包括,在框305处,标识针对多个频带的至少第二方向。第二方向对应于声音的第二到达方向。第二声音可被标识为从第二方向到达。可以通过以至少第一音频信号和第二音频信号之间的多个不同延迟执行进一步的相干性分析来标识第二方向。可以针对检测到的声音的不同频带执行相干性分析。可以针对多个频带中的每一个确定第二方向。在一些示例中,可以针对频带的至少一个子集确定第二方向。

用于标识第二方向的进一步的相干性分析可以包括与用于标识第一方向的相干性分析类似的过程。在一些示例中,用于标识第二方向的相干性分析可以使用与用于标识第一方向的相干性分析不同的频带。在一些示例中,用于标识第二方向的相干性分析比用于标识第一方向的相干性分析使用更宽的频带。

在本公开的示例中,相干性分析可以包括估计对于第一方向的能量参数,并且进一步的相干性分析可以包括估计对于第二方向的能量参数。能量参数可以是比率。在其他示例中,能量参数可以是方向稳定性指数或任何其他合适的参数。可以针对多个频带确定能量参数。可以针对多个频带中的每个频带来确定能量参数。在一些示例中,可以针对多个频带中的子集确定能量参数。

在一些示例中,进一步的相干性分析可以包括定义围绕第一方向的角度范围,并且从进一步的相干性分析中省略不在该角度范围中的方向以标识第二方向。

在一些示例中,可以通过使用空间音频捕获过程来标识第一方向和/或第二方向和/或能量参数。

在图3的示例中,该方法包括获得第一音频信号和第二音频信号。应当理解,在其他示例中,该方法可以包括获得两个以上的音频信号。例如,如果获得了三个或更多个音频信号,则可以实现三维方向的分析。在这样的示例中,该方法可以包括获得至少第三音频信号,其中第三音频信号被第三麦克风捕获。

图4示出了根据本公开的示例的示例系统401。系统401包括电子设备201和渲染设备403。应当理解,在一些示例中,系统401可以包括附加设备。例如,可以提供存储设备来存储来自电子设备201的信号,以便渲染设备403可以访问它们。

电子设备201可以是如图2所示的设备,或者是任何其他合适类型的电子设备,其包括两个或更多个麦克风205。在图2的示例中,电子设备201包括移动电话。在本公开的其他示例中可以使用其他类型的电子设备201。

电子设备201包括多个麦克风205。多个麦克风205可被配置成阵列,其中多个麦克风205彼此在空间上分布。多个麦克风205被配置为捕获两个或更多个音频信号411。

电子设备201被配置为使得由多个麦克风205捕获的音频信号411被提供给处理电路103。处理电路103可被配置为分析音频信号411。处理电路103因此可以提供分析处理器405。

处理电路103可被配置为分析音频信号411以确定这样的方向,声音从相对于麦克风205的该这样的方向到达。处理电路103可被配置为标识声音的两个或更多个到达方向。处理电路103可被配置为针对多个不同频带标识声音的两个或更多个到达方向。

处理电路103可被配置为针对每个频带标识声音的两个或更多个到达方向。

一旦方向被标识,处理电路103就提供数据输出信号413。数据输出信号413包括指示捕获的音频信号的信息。在一些示例中,数据输出信号413可以包括处理的音频信号。例如,诸如降噪、均衡、增益控制或任何其他合适的过程之类的过程可能已经被应用于音频信号。

数据输出信号413还可以包括元数据。元数据可以包括与捕获的音频信号有关的空间信息。空间信息可以包括与两个或更多个到达方向以及那些方向中的每个方向的能量比有关的信息。空间信息可以包括作为处理电路103执行的分析的结果而获得的信息。

电子设备201可被配置为发送输出数据信号413。电子设备201的一个或多个收发器207可以使输出数据信号413能够通过无线通信链路或任何其他合适类型的通信链路来发送。

在图4的示例系统中,数据输出信号413被发送给渲染设备403。渲染设备403可以包括处理电路103,并且数据输出信号413可被提供给渲染设备403内的处理电路103。在其他示例中,可以将数据输出信号413提供给处理电路103,处理电路103然后可被配置为将数据输出信号413发送给单独的渲染设备403。

在图4的示例中,渲染设备403包括耳机。在其他示例中,数据输出信号413可被发送给其他类型的设备,例如数据输出信号413可被发送给一个或多个远程服务器以使数据输出信号能够被远程存储。当数据输出信号413存储在远程服务器中时,远程服务器可以由一个或多个设备(例如渲染设备403)访问。

渲染设备403可以包括可被配置为获得电输入信号并将电输入信号转换为可听输出信号的任何元件。在图4的示例系统401中,渲染设备403包括头戴式耳机。头戴式耳机可被配置为向用户提供双耳音频输出。在本公开的其他示例中可以使用其他类型的渲染设备403。例如,渲染设备403可以是扬声器或任何其他类型的渲染设备。

当渲染设备403获得数据输出信号413时,数据输出信号413可被提供给处理电路103。处理电路103可被配置为合成已经由渲染设备403获得的数据输出信号413。渲染设备403的处理电路103因此可以提供合成处理器407。

在图4的示例中,渲染设备403的处理电路103可被配置为使用数据输出信号413的元数据来提供双耳输出信号415。双耳输出信号415可以是空间输出信号,其使得用户能够感知捕获的音频的空间特性。在本公开的其他示例中可以提供其他类型的空间输出信号。例如,在渲染设备403包括一个或多个扬声器的情况下,空间输出信号可以包括多声道信号。

在图4的示例系统401中,电子设备201被配置为既捕获音频信号又处理音频信号。应当理解,在其他示倒系统401中,音频捕获和音频处理可以由两个或更多个不同的设备执行。例如,音频捕获可以由诸如移动电话或成像捕获设备的电子设备201执行,并且音频处理可以由诸如一个或多个服务器的远程处理设备执行。

同样在图4的示例系统中,捕获电子设备201和渲染设备403被提供为单独的设备。在其他示例中,捕获音频信号的电子设备201也可被布置为渲染音频信号。例如,电子设备201可以在第一时间点捕获并处理音频信号。数据输出信号413然后可以在稍后的时间点被相同电子设备201存储和访问,以使数据输出信号413能够被呈现给用户可听见的信号。在其他示例中,数据输出信号413可在麦克风205正在检测音频信号时被临时存储和渲染。这可以使得音频信号在被捕获之后立即和/或以很小的延迟被渲染。

图5示出了根据本公开的示例的分析处理器405。分析处理器405可以设置有音频捕获设备和/或设置在音频处理设备内。如上所述,分析处理器405可被设置在电子设备201内。分析处理器405可以由电子设备201的处理电路103提供。

分析处理器405被配置为接收音频信号411作为输入。音频信号411可以包括由多个麦克风205捕获的信号。

分析处理器405包括传输模块501、空间分析模块503和复用模块505。应当理解,在本公开的其他示例中,分析处理器405可以包括不同的模块。

传输模块501可以包括用于创建传输音频信号的元件。可以使用任何适当的过程来创建传输音频信号511。在一些示例中,可以从输入音频信号411中选择传输音频信号511。在一些示例中,传输音频信号511可以从输入音频信号411下缩混(downmix),或使用波束成形技术或任何其他合适的过程从输入音频信号411处理。在一些示例中,可以通过处理输入音频信号411来获得传输音频信号511。输入音频信号411的处理可以包括噪声衰减、均衡、增益控制和/或任何其他合适的处理。

传输音频信号511可以包括任何合适数量的信号。在一些示例中,传输音频信号可以包括两个传输音频信号。

在一些示例中,传输模块501还可以包括对传输音频信号511进行编码的元件。任何合适的处理都可以用于编码。例如,可以使用高级音频编码(AAC)、增强语音服务(EVS)或任何其他合适的音频编码技术。

空间分析模块503包括用于确定输入音频信号411的方向性信息的元件。空间分析模块505可以提供包括空间元数据513的输出信号。空间元数据513包括与捕获的音频信号有关的空间信息。空间元数据513可以包括使捕获的音频的空间特性能够被重新创建的任何信息。在一些示例中,空间元数据513可以包括与两个或更多个到达方向以及多个频带中的那些方向中的每个方向的能量比有关的信息。在一些示例中,空间元数据513可以包括与两个或更多个到达方向以及每个可用频带的那些方向中的每个方向的能量比有关的信息。空间元数据513可以包括作为由空间分析模块505执行的分析的结果而获得的信息。空间元数据513可以在频带中被提供。

传输音频信号511和空间元数据513被提供作为到复用模块505的输入。复用模块505包括用于复用传输音频信号511和空间元数据513以提供数据输出信号413的元件。

图6示出了示例空间分析过程。示例性空间分析过程可以由空间分析模块505或通过任何其他合适的元件来执行。

在框601处,获得音频信号411。音频信号411可以从多个麦克风205获得。

在框603处,将音频信号411从时域变换到时频域。在图6的示例中,该变换通过使用短时傅立叶变换(STFT)来执行。在其他示例中,该变换可以使用复数正交镜滤波器组(complex quadrature mirror filterbank)(QMF)或任何其他合适的元件来执行。

在框605处,该变换的输出被提供为时频域音频信号611。时频域音频信号611可被标示为S

在框607处,分析时频域音频信号611以获得第一方向613和对于该第一方向的能量比615。在框607处,可以分析时频域音频信号611以针对每个频带产生方向θ

在框607处执行的分析的输出是第一方向信号613和第一能量比信号615,第一方向信号613包括第一方向θ

在框609处,分析时频域音频信号611以获得第二方向θ

在框609处执行的分析的输出是第二方向信号617和第二能量比信号619,第二方向信号617包括第二方向θ

可以使用任何合适的方法来估计第一方向θ

其中N表示用于将音频信号411从时域变换到时频域的STFT变换的长度。

对于给定的频带k和给定的时间索引n使两个麦克风声道之间的相关性最大化的延迟τ

其中,Re表示结果的实部,*表示复共轭。基于到达两个麦克风205的声音的最大时间延迟来选择被搜索的延迟D

由于麦克风205的物理分布是已知的,例如根据电子设备内的麦克风205的配置,因此可以从估计的延迟τ

因此,角度θ

一旦已经估计了第一方向,就可以确定能量比r

在该描述的示例中,输入音频信号411包括两个麦克风声道。这可以使得能够在单个平面中的180度弧内估计方向。如果提供了两个以上的麦克风声道,则这可以使得能够在更大的角度范围内估计方向。例如,它可以使得能够在360度之内估计方向,或者可以使得能够进行三维估计。

图7示出了可以在本公开的一些示例中使用的用于标识第二方向的方法。图7的方法可以由分析处理器405或通过任何其他合适的元件来执行。

在框701处,获得时频域音频信号611。时频域音频信号611可以使用图6的方法或任何其他合适的方法来获得。

在框703处,针对不同的延迟计算由不同的麦克风获得的音频信号之间的相干性。可以通过时移一个或多个麦克风声道来创建延迟。这在框705处提供了输出信号,该输出信号包括指示延迟的信息和指示相干性的信息。

在框703处,可以针对不同的频带计算相干性。用于估计第二方向的相干性的频带可以与用于估计第一方向的相干性的频带不同。用于估计第二方向的频带的边界可以与用于估计第一方向的频带的边界不同。也就是说,与第二方向相比,用于第二方向的b

从关系γ’(k,n,τ)中获得对于给定频带k和给定时间索引n的麦克风声道之间的延迟估计

在框707处,选择提供最大相干性Y’

在框711处,计算与所标识的延迟相对应的临时方向α′

在框711处,也可以计算围绕临时方向α′

α’

其中2ξ是弧的宽度。弧的宽度可以是30度或任何其他合适的角宽度。

这在框713处给出输出,该输出包括指示所计算的方向和具有归一化形式的对应相干性的信息。该信息可以包括与弧内的角度β′

框711处的过程还在框715处产生输出,该输出包括指示弧的信息。在框717处,指示弧的信息用于选择弧之外的延迟。这在框719处给出了弧外的延迟和弧外的相干性γ′

在框721处,选择提供最大相干性Y′

在框725处,计算与所标识的延迟τ′

在框729处,从在框711和725获得的方向α′

阈值χ可以是任何合适的角度范围。在一些示例中,阈值χ可以是20度。

在此示例中,绝对值运算符|.|还可以在获得绝对值之前将角度差包裹(wrap)到±180度。

在框729处,还估计第二能量比。在一些示例中,可以从相干性Y′

在一些示例中,可以调整第二能量比r′

r″

r″

在一些示例中,由于第一能量比对应于主方向,所以第二能量比r

r

r

因此,框727处给出了输出729,其包括第二方向θ

在一些示例中,可以在第二方向θ

在图7的示例中,从两个麦克风205获得时频域音频信号611。这使得能够针对180度弧估计方向和能量比。应当理解,在本公开的其他示例中,可以从多于两个麦克风205获得时频域音频信号611。这可以使得能够在360度弧中获得方向和能量比。在这样的示例中,可以修改图7的方法以使得能够使用附加的时频域音频信号611。

例如,在时频域音频信号611包括从三个麦克风获得的至少三个音频信号的情况下,对第一时频域样本S

图8示出了根据本公开的示例的合成处理器407。可以在渲染设备403内提供合成处理器407。可以通过渲染设备403的处理电路103来提供合成处理器407。

合成处理器407包括解复用模块801和空间合成模块803。应当理解,在本公开的其他示例中,合成处理器407可以包括不同的模块。

合成处理器407被配置为接收数据输出信号413作为输入。数据输出信号413可以包括可以如上所述获得的传输音频信号511和空间元数据513。

数据输出信号413作为输入被提供给解复用模块801。解复用模块801包括用于将数据输出信号413解复用为传输音频信号511和空间元数据513的元件。在一些示例中,数据输出信号413也可被解码。使用的解码器类型可以取决于在传输模块中使用的编码的类型。

传输音频信号511和空间元数据513被提供作为对空间合成模块803的输入。空间合成模块803可以包括可被配置为合成传输音频信号511和空间元数据513以提供双耳输出信号415的任何元件。应当理解,在本公开的其他示例中,可以提供其他类型的空间音频信号作为输出。

可以使用任何合适的方法来合成传输音频信号511和空间元数据513,以提供双耳输出信号415。例如,在一些示例中,可以将频带信号乘以三个不同的因子以获得三个不同的频带信号。可以将频带信号乘以因子

可以使用头部相关传递函数(HRTF)来获得方向信号,其中渲染设备403包括耳机。可以在本公开的其他示例中使用用于获得方向信号的其他方法。例如,在渲染设备403包括扬声器的情况下,可以通过使用振幅平移或任何其他合适的手段来获得方向信号。

在一些示例中,也可以处理环境能量。对环境能量执行的处理可以取决于正在使用的渲染设备403的类型。例如,在渲染设备403包括耳机的情况下,表示环境能量的信号可以在频带上被去相关并且被调整,以便提供双耳扩散场相干性。在渲染设备403包括一个或多个扬声器的情况下,环境能量可被去相关并且在空间上分配给可用扬声器。

图9示出了可以由空间合成模块803执行的空间合成的另一示例方法。

在框901处,接收输入音频信号。输入音频信号可以包括空间元数据,该空间元数据包括关于多个不同方向的信息。

在框903处,将输入音频信号变换到时频域。在图9的示例方法中,通过使用STFT将音频信号变换到时频域。在本公开的其他示例中可以使用用于执行变换的其他元件。在框905处,这提供了时频域输入信号。

在框907处,对时频域输入信号进行自适应处理。在一些示例中,可以使用混合矩阵来自适应地处理时频域输入信号。在一些示例中,也可以通过使用去相关来自适应地处理时频域输入信号。除混合矩阵之外,还可以使用去相关。在框909处,这提供了时频域输出信号。

在框911处,可通过使用逆STFT或任何其他合适的过程在框913处将时频域输出信号变换回时域,以提供空间化音频输出。

为了使混合矩阵能够用于时频域输入信号的自适应处理,该方法还可以包括使得能够形成(formulate)混合矩阵的块。在图9的示例中,在框921处,从音频输入估计输入协方差矩阵。在框923处,这提供了指示输入信号的总能量的输出,并且在框931处,还提供了指示输入协方差矩阵的输出。

在框925处,指示输入信号的总能量和空间元数据927的输出被用于确定目标协方差矩阵。在框933处,提供包括目标协方差矩阵的输出。

在框929处,使用目标协方差矩阵和实际协方差矩阵来形成混合矩阵。混合矩阵可以是最佳混合矩阵。如上所述,形成的混合矩阵在框935处被作为输出提供,并且可以在框907处被如上使用。

用于确定目标协方差矩阵的方法可以取决于正用于渲染空间音频的渲染设备403的类型。例如,在渲染设备包括一个或多个扬声器的情况下,与渲染设备包括耳机的情况相比,可以使用不同的方法。

例如,在渲染设备403包括扬声器的情况下,可以基于输入协方差矩阵来估计目标协方差矩阵的总能量E。总能量可以是输入协方差矩阵的对角元素之和。应当理解,可以针对不同的时间索引n和频带k确定能量E。然而,为了清楚起见,在以下描述中,在不必要时省略了时间和频率索引n和k。

一旦确定了总能量E,就在互不相关的部分中确定目标协方差矩阵C

C

环境或非方向性部分C

其中I是单位矩阵,M是输出声道的数量。环境或非方向性部分C

方向性部分C

其中v

因此,目标协方差矩阵C

在渲染设备403包括耳机的示例中,可以提供双耳输出。为了提供双耳输出,可以使用类似的方法来确定目标协方差矩阵C

在提供双耳输出的情况下,则可以将环境或非方向性部分C

其中c

同样,在要提供双耳输出的情况下,方向部分C

因此,双耳输出的目标协方差矩阵C

在空间输出包括球形谐波输出(例如全景声(Ambisonics)输出)的情况下,用于确定目标协方差矩阵C

在一些示例中,该方法还包括确定原型矩阵。该原型矩阵基于输入信号定义用于渲染的参考输出信号。可以参考原型矩阵来形成最小二乘优化混合解决方案。在渲染设备403包括扬声器的情况下,原型矩阵可被配置为使得相对于音频输入的左声道优化用于左手侧扬声器的信号,以及类似地相对于音频输入的右声道优化用于右手侧扬声器的信号。可以相对于左手侧和右手侧的总和来优化中央声道。在渲染设备403包括耳机的情况下,原型矩阵可被配置为使得用于左耳输出信号的参考声道是左音频输入信号,并且类似地,用于右耳输出信号的参考声道是右音频输入信号。原型矩阵可以使用任何合适的过程来确定。

图10A和10B是所估计方向和针对第一方向的能量比的曲线图。图10A是以度为单位的所估计的第一角度相对于以秒为单位的时间的曲线图,而图10B是对于相同时间段的所估计的能量比的曲线图。剩余能量也显示在图10B的曲线图上。

图11A和11B是所估计方向和针对第一方向和第二方向的能量比的曲线图。图11A是以度为单位的所估计的第一角度和所估计的第二角度相对于以秒为单位的时间的曲线图,图11B是对于相同时间段的所估计的能量比的曲线图。图11B的曲线图示出了针对第一方向的和针对第二方向的能量比。剩余能量也显示在图11B的曲线上。

绘制在图10A至11B中的结果是从其中在无声环境中模拟两个噪声源的模拟场景中获得的。在+30度处模拟第一声源,在-30度处模拟第二声源。第一声源比第二声源大1dB。由模拟的声源提供的声音场景是通过模拟的麦克风阵列205捕获的。麦克风阵列205包括两个彼此间隔14cm的麦克风。

图10A和10B示出了仅估计第一方向时获得的结果。在这些结果中,估计的方向主要指向更大声的声源,但是在某些情况下,估计的方向也指向次要的、较安静的声源。这可以导致在渲染的音频信号中可以感知的伪像。

同样如图10B所示,能量比与环境能量相比较低。有大量的能量被确定为在剩余能量中,剩余能量被再现为环境能量。由于再现环境能量所需的去相关性,这可以导致消声(anechoic)的声音场景被转换成更混响(reverberant)的声音场景。

图11A和图11B示出其中第一方向和第二方向都被估计的结果。在这种情况下,对于每个时间帧,第一方向或第二方向指向声源。因此,当再现音频信号时,提供了稳定的音频对象,并且没有由波动引起的伪像。

同样如图11B所示,由于大多数能量可归因于第一方向或第二方向,因此环境能量的能量比要低得多。这导致较少的声音被再现为环境声音,因此可以保留模拟的环境的消声音响效果(anechoic acoustics)。因此,这提供了改善的音频质量。

图12示出了可以在本公开的示例中使用的示例电子设备201。在图12的示例中,电子设备201包括麦克风阵列205、分析处理器405、合成处理器407、压缩模块1201和存储元件1203。分析处理器405、合成处理器407、压缩模块1201和存储元件1203可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411提供给控制电路103。在图12的示例中,音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。

分析处理器405被配置为处理音频信号411以提供传输音频信号511和空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。

电子设备201被配置为使得传输音频信号511和空间元数据513被提供给合成处理器407。合成处理器407被配置为处理传输音频信号511和空间元数据513以提供双耳输出信号415。在本公开的其他示例中可以提供各种类型的空间输出信号。

可以将双耳输出信号415提供给压缩模块1201。压缩模块1201可以包括可被配置为减小用于存储的双耳输出信号415的大小的任何元件。在图12的示例中,压缩模块1201包括高级音频编码(AAC)压缩模块。压缩模块1201提供压缩的双耳输出信号1211作为输出。

压缩的双耳输出信号1211被提供给存储元件1203。存储元件1203可以包括存储器电路107或任何其他合适的元件。压缩的双耳输出信号1211可以与空间元数据513一起存储,使得可以利用压缩的双耳输出信号1211来检索空间元数据。

压缩的双耳输出信号1211可以从存储元件1203中取出来,以使得能够为用户渲染空间音频。在用户使用耳机作为渲染设备的情况下,可以通过直接再现存储的压缩双耳输出信号1211来渲染空间音频。如果用户使用不同类型的渲染设备,则其他类型的空间音频输出(例如多声道)可以通过使用存储的空间元数据513处理压缩的双耳输出信号1211来获得。

图13示出了可以在本公开的示例中使用的另一示例电子设备201。在图13的示例中,电子设备201包括麦克风阵列205、分析处理器405、编码器模块1301和发射机1305。分析处理器405和编码器模块1301可以通过控制电路103或任何其他合适的元件来提供。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411提供给控制电路103。在图13的示例中,音频信号411被提供给分析处理器405。分析处理器405可以是如上所述配置。

分析处理器405被配置为处理音频信号411以提供传输音频信号511和空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。

电子设备201被配置为使得传输音频信号511和空间元数据513被提供给编码器模块1301。编码器模块1301可以包括可被配置为将传输音频信号511和空间元数据513处理为适合传输的格式的任何元件。在图13的示例中,编码器模块1301包括被配置为接收音频信号和相关联的空间元数据作为输入的编码器。编码器被配置为将传输音频信号511和空间元数据513编码并复用到比特流1303。编码器提供比特流513作为输出。在本公开的示例中可以使用任何合适类型的编码器模块1301。

比特流1303被提供给发射机1305,以使比特流1303能够被发送给另一设备。另一个设备可以是渲染设备。在这样的示例中,解码器可被渲染设备用来解码比特流1303。在其他示例中,比特流1303可被发送给诸如远程服务器的存储设备。远程服务器可被配置为使得渲染设备能够从远程服务器访问比特流1303。应当理解,在本公开的其他示例中,比特流1303可被存储在电子设备201中,而不是被发送给另一设备。

图14示出了可以在本公开的示例中使用的另一示例电子设备201。在图14的示例中,电子设备201包括麦克风阵列205、分析处理器405和合成处理器407。可以通过控制电路103或任何其他合适的元件来提供分析处理器405和合成处理器407。电子设备201可以是移动电话或任何其他合适类型的电子设备。

麦克风阵列205可以包括多个麦克风。麦克风阵列205可以包括两个或更多个麦克风。麦克风205可以在空间上分布在电子设备201内,以使得能够捕获空间音频。例如,第一麦克风可以位于电子设备201的第一端,第二麦克风可以位于电子设备201的不同端。

麦克风阵列205被配置为捕获音频信号411并将捕获的音频信号411提供给控制电路103。在图14的示例中,音频信号411被提供给分析处理器405以及合成处理器407。

分析处理器405被配置为处理音频信号411以提供空间元数据513。空间元数据513可以包括指示第一方向以及第二方向的信息,并且还可以包括指示对于第一方向的能量比和对于第二方向的能量比的信息。

合成处理器407被配置为处理空间元数据513和音频信号411以提供空间音频信号1401。在一些示例中,可以在将音频信号411提供给合成处理器407之前对其进行处理。在一些示例中,音频信号411的全部可被提供给合成处理器407。在其他示例中,仅音频信号411的子集需要被提供给合成处理器407。

合成处理器407被配置为处理传输音频信号511和空间元数据513以提供空间输出信号1401。空间输出信号1401可以是双耳输出信号、扬声器输出信号、全景声信号或任何其他合适类型的信号。

空间输出信号1401可以由诸如耳机或扬声器之类的任何合适的渲染设备来再现。在一些示例中,空间输出信号1401可被存储在电子设备201中或被发送给另一设备。

在上述示例中,电子设备201包括移动电话。应当理解,在本公开的其他示例中可以使用其他类型的电子设备201。例如,电子设备201可以是成像设备。成像设备可被布置为捕获用于虚拟现实应用程序的图像和音频。这可以需要获取空间音频和多个图像。

在一些示例中,合成处理器407可被配置为代替双耳处理或除双耳处理之外还执行音频聚焦。音频聚焦可以包括波束成形或任何其他合适类型的音频聚焦。音频聚焦可以包括基于第一方向和第二方向的估计在频带上应用进一步的增益修改。这可以使得能够当声音的到达方向与聚焦方向不同时对声音信号进行衰减。在一些示例中,合成处理器407还可被配置为对环境声音进行衰减以相对于环境声音强调直接声音。

本公开的示例提供了改进的空间音频。在存在两个或更多个突出音频源的情况下,本公开的示例可以提供改进的空间音频。音频源可以在干燥的声学环境中,但是本公开的示例也可以在其他类型的环境中使用。本公开的示例可以减少空间音频中的伪像。伪像可以是由不同的突出音频源之间的波动引起的。然而,在本公开的示例中,可以标识每个突出的音频源,并且因此可能将消除波动。

该示例方法还减少可以由去相关引起的伪像,因为一些环境能量被再现为第二方向的一部分。因此,这减少了去相关的剩余能量,并因此减少了这可以引起的任何伪像。

在本公开的一些示例中,可能无法确定第二方向。在这样的示例中,可以仅使用第一方向来实现本公开。即使不能确定第二方向,这仍然使得能够提供足够质量的音频信号。

可以使用任何类型的麦克风阵列来实现本公开的示例。不需要将麦克风205配置为特定的空间布置。这使得本公开能够在诸如移动电话之类的电子设备201中实现,其中麦克风205的位置可以受到用户接口和/或电子设备201的其他硬件组件的限制。

在本说明书中描述的示例中,术语“耦合”是指在操作上耦合。在包括零个组件的耦合组件之间可以提供任何数量的组件。

在本文档中,术语“包括”以包括性而非排他性含义使用。也就是说,对包括Y的X的任何引用都表示X可以仅包括一个Y或可以包括一个以上的Y。如果要使用具有排他性含义的“包括”,则在上下文中通过提及“仅包括一个……”或使用“由……组成”使之更清楚。

在该简要描述中,已经参考了各种示例。关于示例的特征或功能的描述指示那些特征或功能存在于该示例中。不管是否明确指出,在本文中使用术语“示例”或“例如”或“可以”表示这种特征或功能至少在所描述的示例中存在,并且它们可以但不一定存在于某些或所有其他示例中。因此,“示例”、“例如”或“可以”是指一类示例中的特定实例。实例的属性可以是仅该实例的属性,也可以是该类的属性,或者是该类的子类的属性,该子类包括该类中的一些但不是全部实例。因此,隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下用于该另一示例,但是不必必须在该另一示例中使用。

尽管在前面的段落中已经参考各种示例描述了本发明的实施例,但是应当理解,可以在不脱离所要求保护的本发明范围的情况下对给出的示例进行修改。

可以以非明确描述的组合之外的组合来使用在先前描述中描述的特征。

尽管已经参考某些特征描述了功能,但是无论是否描述,那些功能都可以由其他特征来执行。

尽管已经参考某些实施例描述了特征,但是无论是否描述,那些特征也可以存在于其他实施例中。

尽管尽力在前述说明书中引起对被认为特别重要的本发明的那些特征的注意,但是应该理解,本申请人要求保护在此之前参考和/或在附图中示出(无论是否已特别强调)的任何可获专利的特征或特征的组合。

相关技术
  • 用于调整、制造、以及操作无线电收发信机、移动收发信机、基站收发信机的调整电路和装置、方法、以及计算机程序、和用于计算机程序或指令的存储设备
  • 用于定位和移除拖车联轴器的方法、用于定位拖车联轴器的装置以及计算机程序产品
  • 音频信号处理方法、装置、设备和存储介质
  • 一种音频处理装置、终端设备及信号处理方法
  • 一种用于使数字信号和相关码相关的方法、装置、计算机程序、芯片组或数据结构
  • 音频信号处理装置、音频信号处理方法和计算机程序
  • 音频信号处理装置、音频信号处理方法和计算机程序
技术分类

06120116331262