掌桥专利:专业的专利平台
掌桥专利
首页

多声道音频编码

文献发布时间:2023-06-19 10:00:31


多声道音频编码

技术领域

本申请涉及参数化多声道音频编码。

背景技术

用于在低比特率下对立体声信号进行有损参数化编码的现有技术方法基于如MPEG-4Part 3[1]中标准化的参数化立体声。一般理念是在提取立体声/空间参数后,通过计算来自两个输入声道的降混信号来减少多声道系统的声道数量,该立体声/空间参数作为附带信息被发送给解码器。这些立体声/空间参数通常可以包括声道间电平差ILD、声道间相位差IPD和声道间相干性ICC,它们可在子带中计算,并捕获空间图像到一定程度。

然而,该方法不能补偿或合成声道间时间差(ITD),该声道间时间差例如被期望用于降混或再现使用AB麦克风设置录制的语音或用于合成双耳渲染的场景。ITD合成已通过双耳线索编码(BCC)[2]解决,该BBC通常使用参数ILD和ICC,同时估计ITD并在频域中执行声道对齐。

尽管存在时域ITD估计器,但通常优选ITD估计应用时间到频率变换,这允许对互相关函数进行频谱滤波,并且计算效率高。出于复杂性原因,期望使用也用于提取立体声/空间参数以及可能用于对声道进行降混(这也在BCC方法中进行)的相同变换。

然而,这具有一个缺点:理想而言是在对齐的声道上执行立体声参数的准确估计。但是如果声道在频域中对齐(例如通过频域中的循环移位),这可能会导致分析窗口中的偏移,该偏移可能会负面地影响参数估计。在BCC的情况下,这主要影响ICC的测量,其中即使输入信号实际上是完全相干的,增大的窗口偏移最终也会将ICC值推向零。

因此,目的是提供用于多声道音频编码中的参数计算的构思,其能够补偿声道间时间差,同时避免对空间参数估计的负面影响。

发明内容

该目的是通过所附独立权利要求的主题来实现的。

本申请基于以下发现:在多声道音频编码中,通过计算至少一个比较参数,可以实现改进的计算效率,该至少一个比较参数用于参数化音频编码器所使用的频域中的任意两个声道之间的ITD补偿。参数化编码器可以使用所述至少一个比较参数来减轻上述对空间参数估计的负面影响。

实施例可以包括参数化音频编码器,该参数化音频编码器旨在通过至少一个降混信号以及附加的立体声或空间参数来表示立体声或大体上表示空间内容。这些立体声/空间参数中可以是ITD,在计算剩余的立体声/空间参数之前,可在频域中对其进行估计和补偿。该过程可能会使其他立体声/空间参数偏置,这是原本可能必须通过重新计算频率到时间的变换来以昂贵的方式解决的问题。在所述实施例中,可以通过应用计算便宜的校正方案来在相当程度上减轻该问题,该校正方案可以使用ITD的值和基础变换的某些数据。

实施例涉及一种有损参数化音频编码器,其可以基于加权中/侧变换方法,可以使用立体声/空间参数IPD、ITD以及两个增益因子,并且可以在频域中操作。其他实施例可以使用不同的变换并且可以适当地使用不同的空间参数。

在实施例中,参数化音频编码器可以在频域中能够补偿和合成ITD。它可以具有减轻上述窗口偏移的负面影响的计算高效的增益校正方案的特征。还提出了用于BCC编码器的校正方案。

附图说明

本申请的有利实现是从属权利要求的主题。下面参考附图描述本申请的优选实施例,在附图中:

图1示出了根据本申请的实施例的用于参数化编码器的比较设备的框图;

图2示出了根据本申请的实施例的参数化编码器的框图;

图3示出了根据本申请的实施例的参数解码器的框图。

具体实施方式

图1示出了用于多声道音频信号的比较设备100。如图所示,它可以包括用于一对立体声声道的音频信号的输入,即左音频声道信号l(τ)和右音频声道信号r(τ)。当然,其他实施例可以包括多个声道以捕获声源的空间特性。

在将时域音频信号l(τ)、r(τ)变换到频域之前,可以分别将相同的重叠窗口函数11、21w(τ)应用于左输入声道信号l(τ)和右输入声道信号r(τ)。此外,在实施例中,可以添加某个数量的零填充,这允许频域中的偏移。随后,可以将加窗的音频信号提供给对应的离散傅立叶变换(DFT)块12、22,以执行对应的时间到频率变换。这些可以产生时频区间L

所述频率变换L

用于计算ITD的ITD参数的导出可能涉及计算(可能是加权的)自相关函数或互相关函数。传统上,这可以通过将离散傅立叶逆变换(IDFT)应用于项

补偿测量的ITD的正确方法将是在时域中执行声道对齐,然后将相同的时间到频率变换再次应用到已移位的声道,以便获得ITD补偿的时频区间(bin)。然而,为了节省复杂性,可以通过在频域中执行循环移位来近似该过程。相应地,ITD补偿可以由ITD检测和补偿块20在频域中执行,例如通过分别由循环移位块13和23执行循环移位以产生

以及

其中ITD

在实施例中,这可以使滞后的声道提前ITD

结果,ITD检测和补偿块20可以使用ITD参数ITD

如图1所示,比较和空间参数计算块30可以接收ITD参数ITD

此外,比较和空间参数计算块30可以基于ITD参数ITD

该至少一个比较参数可以用作在计算上高效的校正方案的一部分,以减轻分析窗口w(τ)中上述偏移对参数化编码器的空间/立体声参数估计的负面影响,所述偏移是由ITD检测和补偿模块20内在DFT域中通过循环移位进行的声道对齐导致的。在实施例中,可以计算至少一个比较参数,以用于在解码器处例如从降混信号恢复该一对声道的音频信号。

图2示出了用于立体声音频信号的这种参数化编码器200的实施例,其中图1的比较设备100可以用于提供ITD参数ITD

参数化编码器200可使用已ITD补偿的频率变换L

参数化编码器200可以在比较和空间参数计算块30中基于帧来计算立体声参数,例如IPD。其他实施例可以确定不同的或附加的立体声/空间参数。图2中的参数化编码器200实施例的编码过程可以大致遵循以下步骤,下面将对其进行详细描述。

1.使用加窗DFT对输入信号进行的时间到频率变换

在窗口和DFT块11、12、21、22中

2.频域中的ITD估计和补偿

在ITD检测和补偿模块20中

3.立体声参数提取和比较参数计算

在比较和空间参数计算块30中

4.降混

在降混块40中

5.加窗和重叠添加之前的频率到时间的转换

在IDFT块50中

图2中的参数化音频编码器200的实施例可以基于使用已ITD补偿的频率变换L

对于比较和空间参数计算模块30中的空间参数提取,可以将已ITD补偿的时频区间L

上述两个增益因子可能与该一对已ITD补偿的频率变换L

对于k∈I

以及

所述增益因子中的第一增益因子g

S

使得公式(7)所给出的公式(6)中的预测残差ρ

该第一增益因子g

第二增益因子r

并且可以称为残差增益。残差增益r

在图2所示的编码器实施例中,可使用如下公式(9)中给出的已ITD补偿的频率变换L

且其内积的绝对值在公式(10)中给出:

基于所述能量E

此外,可以使用公式(12)来基于所述能量E

在其他实施例中,可以适当地使用其他方法和/或公式来计算侧增益因子g

如前所述,频域中的ITD补偿通常可以节省复杂性,但是(在没有进一步措施的情况下)具有缺点。理想而言,对于使用AB麦克风设置录制的干净消声的语音,左声道信号l(τ)基本上是右声道r(τ)的延迟(以延迟d来延迟)和缩放(以增益c来缩放)版本。这种情况可以由以下公式(13)表示,其中:

l(τ)=cr(τ-d) (13)。

在对未加窗的输入声道音频信号l(τ)和r(τ)进行适当的ITD补偿后,对侧增益因子g

其中,消失的残差增益因子r

r

然而,如果由ITD检测和补偿块20分别使用循环移位块13和23来如图2中的实施例一样在频域中执行声道对齐,则对应的DFT分析窗口w(τ)也被旋转。因此,在频域中补偿ITD之后,针对右声道的已ITD补偿的频率变换R

w(τ)r(τ) (16),

而针对左声道的已ITD补偿的频率变换L

w(τ+ITD

其中,w是DFT分析窗口函数。

已经观察到,这种频域中的声道对齐主要影响残差预测增益因子r

因此,可以通过使用另一个比较参数在存在非零ITDs的情况下校正(预测)残差增益因子r

在实施例中,这可以通过计算残差增益r

以及由

在实施例中,可以使用ITD参数ITD

W

如果M

在由公式(22)给出的加窗中间信号为

m

该加窗中间信号m

[(1+c

在实施例中,在比较和空间参数计算块30中的比较参数的计算中使用的上述函数等于或近似分析窗口的自相关函数W

基于该归一化的自相关函数

来为残差增益r

因此,在实施例中,在比较和空间参数计算块30中计算的另一比较参数可以包括已校正残差增益r

因此,另一实施例涉及参数化音频编码,该参数化音频编码使用加窗DFT和根据公式(3)的参数IPD(的子集)、根据公式(11)的侧增益g

在经验评估中,可以使用对公式(13)中右声道音频信号r(τ)的不同选择来测试残差增益估计

表1:针对平移白噪声的所测量的残差增益r

对于语音信号r(τ),经常违反时间平坦度假设,这通常会增加残差增益r

表2:针对平移单声道语音的所测量的残差增益r

在使用单个分析窗口w的情况下,可以认为公式(23a)中给出的归一化自相关函数

因此,在实施例中,可以通过对存储在查找表中的分析窗口的自相关函数的归一化版本

对于BCC,如[2]中所述,当估计子带中的声道间相干性(ICC)时,可能会出现类似的问题。在实施例中,可以使用公式(9)的能量E

通过定义,ICC是在补偿ITD之后进行测量的。然而,不匹配的窗口函数w可能会使ICC测量偏置。在由公式(13)描述的上述干净消声的语音设置中,如果在正确对齐的输入声道上计算,则ICC将为1。

然而,偏移(当通过循环移位在频域中补偿ITD

在实施例中,与公式(25)中的残差增益r

因此,另一实施例涉及参数音频编码,该参数音频编码使用加窗DFT和根据公式(3)的参数IPD[的子集]、IPD、根据公式(26)的ICC、以及ITD,其中,根据公式(28)来调整ICC。

在图2所示的参数化编码器200的实施例中,降混块40可以通过在频域中计算由公式(29)给出的降混信号DMX

在公式(29)中,β可以是根据立体声/空间参数计算的实绝对相位调整参数。在其他实施例中,如图2所示的编码方案也可以与任何其他降混方法一起工作。其他实施例可以使用频率变换L

在图2的编码器实施例中,离散傅立叶逆变换(IDFT)块50可以从降混块40接收频域降混信号DMX

此外,如在图2中的实施例中,核心编码器60可以接收域降混信号dmx(τ)以根据MPEG-4Part 3[1]或适当的任何其他合适的音频编码算法来对单个声道音频信号进行编码。在图2的实施例中,核心编码的时域降混信号dmx(τ)可以与ITD参数ITD

图3示出了多声道解码器的实施例。该解码器可以接收组合的信号,该组合的信号包括时域中的单声道/降混输入信号dmx(τ),且包括比较和/或空间参数作为基于帧的附带信息。如图3所示的解码器可以执行以下步骤,下面将对其进行详细描述。

1.使用加窗DFT对输入进行的时间到频率变换

在DFT块80中

2.频域中的缺失残差的预测

在升混和空间恢复块90中

3.频域中的升混

在升混和空间恢复块90中

4.频域的ITD合成

在ITD合成块100中

5.频域到时域的变换,加窗和重叠添加

在IDFT块112、122以及窗口块111、121中

可以通过与用于图2中的编码器的输入音频信号类似的方式来完成单声道/降混信号输入信号dmx(τ)的时间到频率变换。在某些实施例中,可以添加适当量的零填充,以用于频域中的ITD恢复。该过程可以以时频区间DMX

为了恢复降混信号DMX

对于k∈I

在其他实施例中,基于所发送的至少一个比较参数,可以使用不同的方法和公式来恢复降混信号DMX

此外,升混和空间恢复块90可以通过使用由编码器发送的降混信号DMX

对于k∈I

以及

其中β是与公式(29)的降混过程中相同的绝对相位旋转参数。

此外,如图3所示,ITD合成/解补偿块100可以接收解码的已ITD补偿的频率变换

以及

在图3中,可以分别由IDFT块112和122来执行时频区间形式的已ITD解补偿的解码的频率变换的频域到时域的变换

上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]MPEG-4 High Efficiency Advanced Audio Coding(HE-AAC)v2

[2]Jürgen Herre,FROM JOINT STEREO TO SPATIAL AUDIO CODING -RECENTPROGRESS AND STANDARDIZATION,Proc.of the 7th Int.Conference on digital AudioEffects(DAFX-04),Naples,Italy,October 5-8,2004

[3]Christoph Tourney and Christof Faller,Improved Time DelayAnalysis/Synthesis for Parametric Stereo Audio Coding,AES Convention Paper6753,2006

[4]Christof Faller and Frank Baumgarte,Binaural Cue Coding Part II:Schemes and Applications,IEEE Transactions on Speech and Audio Processing,Vol.11,No.6,November 2003。

相关技术
  • 使用解相关器输入信号的预混音的多声道解相关器、多声道音频解码器、多声道音频编码器、方法和计算机程序
  • 用于在参数化多声道操作与单独声道操作之间切换的多声道音频编码器、解码器、方法和计算机程序
技术分类

06120112381585