掌桥专利:专业的专利平台
掌桥专利
首页

针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法

文献发布时间:2023-06-19 13:45:04


针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法

本申请是基于申请号为201580035127.X、申请日为2015年6月22日、发明名称为“针对HOA数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法”的专利申请的分案申请。

技术领域

本发明涉及用于针对HOA数据帧表示的压缩而确定表示与所述HOA数据帧中的特定数据帧的通道信号相关联的非差分增益值所需的最小整数比特数的方法。

背景技术

表示为HOA的高阶高保真度立体声响复制提供了表示三维声音的一种可能性。其他技术是波场合成(WFS)或如22.2的基于通道的方法。与基于通道的方法相比,HOA表示提供了与特定扬声器设置无关的优点。然而,这种灵活性是以在特定扬声器设置上回放HOA表示所需要的解码过程为代价的。与所需扬声器的数量通常很大的WFS方法相比,HOA也可以被呈现为仅包括几个扬声器的设置。HOA的另一个优点是还可以采用相同的表示而不必对耳机的双耳渲染进行任何修改。

HOA基于通过截断的球面谐波函数(SH)展开来表示复合谐波平面波幅度的空间密度。每个展开系数是角频率的函数,角频率可以由时域函数等效地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设成由O个时域函数组成,其中,O表示展开系数的数量。这些时域函数在下文中将被等效地称为HOA系数序列或HOA通道。

HOA表示的空间解析度随着展开的最大阶数N的增长而提高。遗憾的是,展开系数O的数量随着阶数N呈二次方增长,特别地,O=(N+1)

先前,在EP 2665208 A1、EP 2743922 A1、EP 2800401 Al中提出了HOA声场表示的压缩,参见2014年1月的MPEG-H 3D音频的ISO/IEC JTC1/SC29/WG11、N14264、WD1-HOA文本。这些方法的共同点在于:它们都执行声场分析并且将给定的HOA表示分解成方向分量和残余环境分量。一方面,最终压缩的表示被假设成由若干量化信号组成,这些量化信号由方向信号和基于向量的信号的感知编码以及环境HOA分量的相关系数序列产生。另一方面,最终压缩的表示包括与量化信号相关的附加边信息,根据其压缩版本重构HOA表示需要所述边信息。

在被传递至感知编码器之前,要求这些中间时域信号具有在[-1,1]的值范围内的最大幅度,这是为实现当前可用的感知编码器而产生的要求。为了当对HOA表示进行压缩时满足该要求,在感知编码器之前使用平滑地衰减或放大输入信号的增益控制处理单元(参见EP 2824661 A1和上面提到的ISO/IEC JTC1/SC29/WG11 N14264文献)。所产生的信号修改被假设成是可逆的并且被逐帧地应用,其中特别地,连续帧之间的信号幅度的变化被假设成“2”的幂。为了便于该信号修改在HOA解压缩器中的倒置,相应的归一化边信息包括在总边信息中。该归一化边信息可以由底数为“2”的指数构成,这些指数描述了两个连续帧之间的相对幅度变化。由于连续帧之间的较小幅度变化比较大幅度变化更有可能发生,因此根据上面提到的ISO/IEC JTCl/SC29/WG11 N14264文献利用游程运行长度编码(runlength code)对这些指数进行编码。

发明内容

例如,在从开始至结束没有任何时间跳跃地对单个文件解压缩的情况下,在HOA解压缩中使用差分编码的幅度变化来重构原始信号幅度是可行的。然而,为了便于随机访问,独立的访问单元必须存在于编码表示(其通常是比特流)中以使得能够与来自在先帧的信息无关地从期望的位置(或至少在其附近)开始解压缩。这种独立的访问单元必须包含由增益控制处理单元引起的从第一帧一直到当前帧的总绝对幅度变化(即,非差分增益值)。假设两个连续帧之间的幅度变化是“2”的幂,则通过底数为“2”的指数来描述总绝对幅度变化就足够了。为了对该指数进行高效编码,在应用增益控制处理单元之前了解信号的可能的最大增益是必要的。然而,该知识高度依赖于对要压缩的HOA表示的值范围的约束规范。遗憾的是,MPEG-H 3D音频文献ISO/IEC JTC1/SC29/WG11 N14264仅提供用于输入HOA表示的格式的描述,而没有对值范围设定任何约束。

本发明要解决的问题是提供表示非差分增益值所需的最小整数比特数。该问题通过权利要求1中公开的方法来解决。在相应的从属权利要求中公开了本发明的有利的附加实施方式。

本发明确立了输入HOA表示的值范围与信号在HOA压缩器中应用增益控制处理单元之前的可能的最大增益之间的相互关系。

基于该相互关系,针对输入HOA表示的值范围的给定规范、针对底数为“2”的指数的有效编码来确定所需比特的量,以在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的修改信号的总绝对幅度变化(即,非差分增益值)。

此外,一旦计算用于对指数编码的所需比特量的规则被确定,本发明就使用用于验证给定HOA表示是否满足所需值范围约束的处理,使得给定HOA表示能够被正确压缩。

原则上,本发明的方法适合于针对HOA数据帧表示的压缩而确定用于表示所述HOA数据帧中的特定HOA数据帧的通道信号的非差分增益值所需的最小整数比特数β

并且其中,所述HOA数据帧表示在空间域中被渲染为O个虚拟扬声器信号w

并且其中,计算最大允许幅度值

所述方法包括以下步骤:

-通过以下子步骤a)、b)、c)中的一个或更多个从所述归一化HOA数据帧表示中形成所述通道信号:

a)为了表示所述通道信号中的主要声音信号,将所述HOA系数序列c(t)的向量乘以混合矩阵A,混合矩阵A的欧几里德范数不大于“1”,其中,混合矩阵A表示所述归一化HOA数据帧表示的系数序列的线性组合;

b)为了表示所述通道信号中的环境分量c

c)选择所述HOA系数序列c(t)的一部分,其中,所选择的系数序列与对其实施空间变换的环境HOA分量的系数序列相关,并且描述所选择的系数序列的数量的最小阶数N

-将用于表示所述通道信号的所述非差分增益值所需的所述最小整数比特数β

其中,

并且其中,对于计算

附图说明

参考附图描述了本发明的示例性实施方式,在附图中示出了:

图1 HOA压缩器;

图2 HOA解压缩器;

图3虚拟方向Ω

图4对于HOA阶数(N

图5虚拟扬声器在位置Ω

图6球坐标系。

具体实施方式

即使没有明确描述,也可以在任何组合或子组合中使用以下实施方式。

在下文中,介绍HOA压缩和解压缩的原理以提供存在上述问题的更详细背景。该介绍的基础是在MPEG-H 3D音频文档ISO/IEC JTCl/SC29/WG11 N14264(也参见EP 2665208A1、EP 2800401 A1和EP 2743922 A1)中描述的处理。在N14264中,“方向分量”被扩展至“主要声音分量”。作为方向分量,主要声音分量被假设成部分地由方向信号连同用于根据方向信号预测原始HOA表示的多个部分的一些预测参数一起来表示,方向信号是指具有被假设为从其冲击听者的相应方向的单声道信号。另外,主要声音分量被假设为由“基于向量的信号”表示,基于向量的信号是指具有限定基于向量的信号的方向分布的相应向量的单声道信号。

HOA压缩

图1示出了在EP 2800401 A1中描述的HOA压缩器的总体架构。该HOA压缩器的总体架构具有图1A所示的空间HOA编码部以及图1B所示的感知编码部及源编码部。空间HOA编码器提供由I信号连同描述如何创建其HOA表示的边信息一起构成的第一压缩HOA表示。在对两个编码的表示进行多路复用之前,在感知编码器和边信息源编码器中对I信号进行感知编码,并且对边信息进行源编码。

空间HOA编码

在第一步骤中,将原始HOA表示的当前第k帧C(k)输入至方向和向量估计处理步骤或阶段11,该当前第k帧C(k)被假设成提供元组集

使用两个元组集

在环境分量修改处理步骤或阶段13中,根据由目标分配向量v

另外,如果所选择的系数序列的索引在连续帧之间变化,则执行系数序列的淡入淡出。

此外,假设环境HOA分量C

暂时预测的已修改环境HOA分量C

步骤/阶段14中的通道分配利用由分配向量v

信号帧y

在空间HOA解码器中,增益控制处理步骤/阶段15,...,151中的增益修改被假设成通过使用由指数e

HOA解压缩

图2示出了在EP 2800401 A1中描述的HOA解压缩器的总体架构。该总体架构由HOA压缩器部件的配对部件构成,所述配对部件以相反的顺序布置并且包括图2A所示的感知解码部和源解码部以及图2B所示的空间HOA解码部。

在感知解码部和源解码部(代表感知解码器和边信息源解码器)中,解复用步骤或阶段21从比特流接收输入帧

空间HOA解码

在空间HOA解码部中,感知解码的信号

全部I个经增益校正的信号帧

在主要声音合成步骤或阶段26中,利用元组集

在环境合成步骤或阶段27中,利用在第k个帧中活跃的环境HOA分量的系数序列的索引的集合

最后,在HOA组成步骤或阶段28中,将环境HOA分量帧

此后,空间HOA解码器根据I个信号和边信息来创建重构的HOA表示。

在位于编码侧的情况下,环境HOA分量被变换为方向信号,在步骤/阶段27中在解码器侧进行该变换的逆变换。

在HOA压缩器内的增益控制处理步骤/阶段15,...,151之前,信号的可能最大增益十分依赖于输入HOA表示的值范围。因此,首先限定输入HOA表示的有意义的值范围,随后在进入增益控制处理步骤/阶段之前对信号的可能最大增益做出结论。

输入HOA表示的归一化

为了使用本发明的处理,要先执行对(总)输入HOA表示信号的归一化。对于HOA压缩,执行逐帧处理,其中关于在高阶高保真度立体声响复制的章节Basics中的公式(54)中指定的时间连续HOA系数序列的向量c(t),将原始输入HOA表示的第k个帧C(k)限定为

其中,k表示帧索引,L为(在采样中的)帧长度,O=(N+1)

如EP 2824661 A1中所提及的,从实际角度来看,HOA表示的有意义的归一化不是通过对个别HOA系数序列

通过限定HOA系数序列的值范围来限定虚拟扬声器信号的值范围的优点在于:如常规扬声器信号假定PCM表示的情况那样,虚拟扬声器信号的值范围可以被直观地设置为等于区间[-1,1]。这导致空间上均匀分布的量化误差,使得在与实际聆听相关的域中有利地应用量化。该背景中的一个重要方面是每采样比特数可以被选择成与通常用于常规扬声器信号的比特数(即,16)一样低,与通常需要更高的每采样比特数(例如,24或甚至32)的HOA系数序列的直接量化相比,这提高了效率。

为了详细描述空间域中的归一化处理,所有虚拟扬声器信号以向量被概括为w(t):=[w

其中,(·)

,渲染处理可以用公式表示为矩阵乘积

w(t)=(Ψ)

使用这些定义,对虚拟扬声器信号的合理要求是:

这意味着每个虚拟扬声器信号的幅度需要落入范围[-1,1]内。时间t的时刻由所述HOA数据帧的采样值的采样索引l和采样周期T

扬声器信号的总的幂因此满足条件

HOA数据帧表示的渲染和归一化在图1A的输入C(k)的上游执行。

增益控制之前的信号值范围结果

假设输入HOA表示的归一化是根据输入HOA表示的归一化小节中的描述执行的,下面考虑被输入至HOA压缩器中的增益控制处理单元的信号y

图1A和图2B中未描绘I个通道中包含仅一个或更多个HOA系数序列的情况,即,在这种情况下,不需要HOA分解、环境分量修改块和相应的合成块。

HOA表示的值范围结果

时间连续的HOA表示是通过c(t)=Ψw(t), (8)

从虚拟扬声器信号中获得的,公式(8)是公式(5)的逆运算。

因此,使用公式(8)和公式(7)来如下限制所有HOA系数序列的总的幂:

||c(lT

在球面谐波函数的N3D归一化的假设下,模矩阵的欧几里德范数的平方可以写成:||Ψ||

其中,

图3示出了根据上面提到的Fliege等人的文章的虚拟方向

结合所有先前的论证和考虑,提供如下HOA系数序列的幅度的上限:

其中,第一个不等式直接从范数定义得出。

重要的是注意:公式(6)中的条件意味着公式(11)中的条件,但是相反的情况不成立,即,公式(11)不意味着公式(6)。

另一个重要方面是:在虚拟扬声器位置近似均匀分布的假设下,模矩阵Ψ的表示关于虚拟扬声器位置的模向量的列向量几乎彼此正交并且每个都具有欧几里德范数N+1。该特性意味着:除了乘法常数之外,空间变换几乎保持欧几里德范数,即,

||c(lT

真实的范数||c(lT

主要声音信号的值范围结果

两种类型的(方向的和基于向量的)主要声音信号的共同点在于:它们对HOA表示的贡献由具有欧几里德范数N+1的单个向量

在方向信号的情况下,该向量与关于某个信号源方向Ω

该向量借助于HOA表示将方向束描述为信号源方向Ω

下面考虑D个主要声音信号x

x(t)=[x

这些信号必须基于以下矩阵来确定:

V:=[v

该矩阵由表示单声道主要声音信号x

为了主要声音信号x(t)的有意义的提取,规定以下约束:

a)每个主要声音信号是作为原始HOA表示的系数序列的线性组合而获得的,即

x(t)=A·c(t), (18)

其中,

b)混合矩阵A应当被选择成使得其欧几里德范数不超过值“1”,即,

并且使得原始HOA表示与主要声音信号的HOA表示之间的残差的欧几里德范数的平方(或幂)不大于原始HOA表示的欧几里德范数的平方(或幂),即

通过将公式(18)代入公式(20)中,可以看出公式(20)与以下约束相当:

其中,I表示单位矩阵。

使用公式(18)、公式(19)和公式(11)根据公式(18)和公式(19)中的约束以及根据欧几里德矩阵与向量范数的兼容性,通过下式来限定主要声音信号的幅度上限:

因此,确保主要声音信号保持在与原始HOA系数序列相同的范围内(与公式(11)比较),即,

如何确定满足约束(20)的混合矩阵的示例是通过计算主要声音信号使得提取之后的残差的欧几里德范数最小来获得的,即,

x(t)=argmin

公式(26)中的最小化问题的解决方案由下式给出:

x(t)=V

其中,(·)

然而,仍然必须选择矩阵V以满足约束(19),即,

在仅方向信号的情况下,其中,矩阵V是关于一些源信号方向Ω

V=[S(Ω

可以通过选择源信号方向Ω

环境HOA分量的系数序列的值范围结果

环境HOA分量是通过从原始HOA表示中减去主要声音信号的HOA表示来计算的,即,c

环境HOA分量的空间变换系数序列的值范围

EP 2743922 A1和上面提到的MPEG文献N14264中提出的HOA压缩处理的另一方面是:环境HOA分量的第一O

用c

因此,使用欧几里德矩阵与向量范数的兼容性,

在上面提到的MPEG文献N14264中,根据上面提到的Fliege等人的文章来选择虚拟方向Ω

通过限制输入HOA表示以满足条件(6),其中条件(6)要求根据该HOA表示创建的虚拟扬声器信号的幅度不超过值“1”,可以保证在以下条件下,信号在增益控制之前的幅度将不超过值

a)所有主要声音信号x(t)的向量是根据公式/限制(18)、(19)和(20)来计算的;

b)如果使用如上述Fliege等人的文章中限定的虚拟扬声器位置,则确定对其实施空间变换的环境HOA分量的第一系数序列的数量O

可以进一步得出结论:对于高达感兴趣的最大阶数N

特别地,从图3可以得出结论:如果假设用于初始空间变换的虚拟扬声器方向

K

因此,为确保感知编码之前的信号位于区间[-1,1]内而通过增益控制施加的最小增益由2eMIN给出,其中,

在信号在增益控制之前的幅度太小的情况下,在MPEG文献N14264中提出可以用高达

因此,在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的已修改信号的总绝对幅度变化的底数为“2”的每个指数,可以假设在区间[e

在信号在增益控制之前的幅度不太小的情况下,公式(42)可以简化为:

可以在增益控制处理步骤/阶段15,...,151的输入处计算该比特数βe。

针对指数使用该比特数β

当在HOA解压缩器中开始对压缩HOA表示进行解压缩时,被分配给一些数据帧的边信息并且除了所接收的数据流

另外的实施方式

当实现如在章节HOA压缩、空间HOA编码、HOA解压缩和空间HOA解码中描述的特定HOA压缩/解压缩系统时,用于对指数编码的比特数β

例如,当假设N

由于虚拟扬声器位置的这种不同选择,即使这些虚拟扬声器信号的幅度在区间[-1,1]内,也不能再保证信号在增益控制之前的幅度将不超过值

在这种情况下,具有以下系统是有利的:该系统基于虚拟扬声器位置的知识而提供虚拟扬声器信号的最大允许幅度以确保相应的HOA表示适合于根据在MPEG文献N14264中描述的处理的压缩。在图5中示出了这样的系统。它采用虚拟扬声器位置

以分贝为单位的值通过下式获得:γ

为了说明:从上面的推导可以看出,如果HOA系数序列的幅度不超过值

则在增益控制处理单元之前的所有信号将相应地不超过该值,这是对适当的HOA压缩的要求。

从公式(9)发现HOA系数序列的幅度由下式限制

||c(lT

因此,如果γ是根据公式(43)设置的并且PCM格式的虚拟扬声器信号满足

||w(lT

则从公式(7)得出

并且满足要求(45)。

即,公式(6)中的最大幅度值“1”由公式(47)中的最大幅度值γ代替。

高阶高保真度立体声响复制的基础

高阶高保真度立体声响复制(HOA)基于对感兴趣的密集区域内的声场的描述,其被假设为没有声源。在该情况下,在感兴趣的区域内的时间t和位置x处的声压p(t,x)的时空行为在物理上完全由齐次波动方程确定。在下文中,假设如图6所示的球坐标系。在所使用的坐标系中,x轴指向前面,y轴指向左侧,z轴指向顶部。空间中的位置x=(r,θ,φ)

然后,从“傅里叶声学”教科书中可以看出,声压关于时间的傅立叶变换由

其中,ω表示角频率,i表示虚数单位,根据下式可以将上述声压关于时间的傅里叶变换展开成球面谐波函数的级数

其中,c

如果声场是通过从由角度元组(θ,φ)指定的所有可能方向到达的无限个具有不同角频率ω的谐波平面波进行叠加来表示的,则可以看出(参见B.Rafaely,“Plane-wavedecomposition of the sound field on a sphere by spherical convolution”,J.Acoust.Soc.Am,卷4(116),第2149至2157页,2004年10月),相应的平面波复幅度函数C(ω,θ,φ)可以由以下球面谐波函数展开式来表示

其中,展开系数

假设各个系数

这些时域函数在这里称为连续时间HOA系数序列,其可以通过下式被集中在单个向量c(t)中

向量c(t)内的HOA系数序列

最终的高保真度立体声响复制格式利用采样频率f

其中,T

实值球面谐波函数的定义

实值球面谐波函数

其中,

相关联的勒让德函数P

其具有勒让德多项式P

本发明的处理可以由单个处理器或电子电路,或者由并行工作和/或在本发明的处理的不同部分中工作的若干处理器或电子电路执行。

用于操作一个或多个处理器的指令可以被存储在一个或更多个存储器中。

技术分类

06120113790556