掌桥专利:专业的专利平台
掌桥专利
首页

使用脉冲处理产生频率增强音频信号的音频处理器和方法

文献发布时间:2023-06-19 12:14:58


使用脉冲处理产生频率增强音频信号的音频处理器和方法

本发明涉及音频信号处理,特别涉及从源音频信号产生频率增强音频信号的概念。

音频信号的储存或传输通常受到严格的比特率限制。过去,当只有非常低的比特率可用时,编码器被迫大幅度地降低传输的音频带宽。如今,现代音频编解码器能够通过使用带宽延伸(bandwidth extension,BWE)方法对宽频带信号进行编码(参考文献[1-2])。

这些算法依赖于高频内容(high-frequency,HF)的参数化表示,通过转置到HF频谱区域(“修补”)从解码信号的波形编码低频部分(low-frequency,LF)产生高频内容。为此,首先产生“原始”补丁,接着后处理所驱动的参数应用在“原始”补丁上。

通常,所述后处理应用于调整重要的感知特性,感知特性在通过转置进行高频产生的过程中尚未考虑,因此需要对凭经验产生的“原始”补丁进行调整。

然而,如果例如复制到某个目标区域的补丁中的频谱精细结构与原始内容的频谱精细结构有很大差异,可能会产生不期望的伪像,并且降低该解码音频信号的感知质量。通常,在这些情况下,所应用的后处理无法完全校正“原始”补丁的错误特性。

本发明的目的在于通过间隙填充或估计高频信号“原始”补丁内容的新颖的信号自适应产生来改善感知质量,其感知地适用于LF信号。

通过已经获得感知地适用的“原始”信号,其他必需的后验校正措施被最小化。此外,感知地适用的原始信号可以允许在LF和HF之间选择比传统方法更低的交叉频率(参考文献[3])。

在BWE方案中,在给定的所谓交叉频率之上的HF频谱区域的重建通常基于频谱修补。通常,HF区域由多个堆栈的补丁组成,并且这些补丁中的每一个源自于低于给交叉频率的LF频谱的带通(band-pass,BP)区域。

最新技术的系统通过将一组相邻的子频带系数从源频谱复制到目标频谱区域,有效地在滤波器组或时间频率转换表示内执行修补。

在下一个步骤中,调整音调、噪度及频谱包络,使得其与原始HF信号的感知特性及包络非常相似,原始HF信号在编码器中被测量到并且作为BWE辅助信息在比特流中传输。

频谱频带复制(Spectral Band Replication,SBR)是现代音频编解码器(如高效先进音频编码(High Efficiency Advanced Audio Coding,HE-AAC))中所采用的一种众所周知的BWE,并且使用以上概述的技术(参考文献[1])。

智能间隙填充(Intelligent Gap Filling,IGF)表示了现代编解码器(如MPEG-H3D音频或3gpp EVS编解码器(参考文献[2]))内的一种半参数化编码技术。由于低比特率限制,IGF可以应用于填充由编码器中的量化处理引入的频谱空洞。

通常,如果受限的比特预算不允许透明编码,则频谱空洞会首先出现在信号的高频(HF)区域,并且越来越多地影响整个频谱范围,以实现最低比特率。

在解码器侧,经由IGF使用以半参数化方式从低频(LF)内容中产生的合成HF内容和由附加参数化辅助信息(如频谱包络调整及频谱“白化水平”)所控制的后处理来替换这样的频谱空洞。

然而,在所述后处理之后,仍然可能存在剩余不匹配,其可能导致伪像的感知。这样的不匹配通常可以包括:

·谐波不匹配:由于错置的谐波分量而导致的跳动伪像(beating artefact)

·相位不匹配:类似脉冲的激励信号的分散导致混浊语音或铜管信号中嗡嗡声的感知消失

·音调不匹配:夸大的或太少的音调

因此,频率及相位校正方法已经被提出,以通过附加的后处理来校正这些类型的不匹配(参考文献[3])。在本发明中,我们已经建议避免在“原始”信号中引入这些伪像,而不是像在现有技术方法中那样在后处理步骤中修复它们。

BWE的其他实施方式通常基于用于估计HF信号的时域技术,通常通过在时域LF波形上应用非线性函数,如整流、平方或幂函数。如此一来,通过使LF失真,产生了协和泛音与不协和泛音的丰富混和物,其可用于作为“原始”信号,以恢复HF内容。

这里,尤其是谐波不匹配是一个问题,因为对于和弦内容,这些技术会产生期望谐波泛音的密集混合物,不可避免地会与不期望的非谐波分量混合。

尽管后处理可能会容易增加噪声,但一旦将它们引入“原始”估计的HF中,则完全无法消除不想要的非谐波音调分量。

本发明的目的是提供一种改善的概念,用于从源音频信号产生频率增强音频信号。

这个目的可以通过权利要求1所述的音频处理器、权利要求17所述的处理音频信号的方法、或权利要求18所述的计算机程序来实现。

本发明基于发现:通过间隙填充或估计的高频(HF)信号“原始”补丁内容的新颖信号自适应产生,获得音频带宽延伸或间隙填充或通常是频率增强的改善感知质量。通过获得感知地适用的“原始”信号,其他必需后验校正措施可以被最小化甚至消除。

指示为波形包络同步脉冲激励(Waveform Envelope Synchronized PulseExcitation,WESPE)的本发明实施例是基于在时域中类脉冲列信号的产生,其中实际脉冲放置被同步到时域包络。后者是从低频(LF)信号所得出,低频信号例如在核心编码器的输出上可获得或从源音频信号的任何其他来源可获得。

根据本发明的一方面的音频处理器配置成用于从源音频信号产生频率增强音频信号,并且包括包络确定器,用于确定源音频信号的至少一部分的时间包络。分析器配置成用于分析时间包络,以确定时间包络的特定特征的数值。这些数值可以是时间数值、或能量、或与特征有关的其它数值。信号合成器被设置用于产生合成信号,其中合成信号的产生包括放置与确定的时间数值有关的脉冲,其中,使用从时间包络的振幅所得出的权重值来加权脉冲,其中振幅与放置脉冲的时间数值有关。存在组合器,用于组合不包含在源音频信号的至少频带与源音频信号,以获得频率增强音频信号。

本发明的优点在于,与从源音频信号有点“盲目”地产生较高频率相比,例如通过使用非线性处理等,本发明提供了一种易于控制的程序,其通过确定源信号的时间包络及通过在时间包络的特定特征处(例如时间包络的局部最大值或时间包络的局部最小值)放置脉冲,或通过总在时间包络的两个局部最小值之间放置脉冲,或关于时间包络的特定特征的任何其它关系。脉冲具有频率内容,其通常在所考虑的整个频率范围内是平坦的。因此,即使使用理论上不理想但接近理想的脉冲,这种非理想脉冲(即与理想狄拉克形状不一致的脉冲)的频率内容在以下范围内仍然相对平坦:例如,在IGF(智能间隙填充)的情况下的0和20kHz之间的感兴趣频率范围内、或在音频延伸的情况下的例如8kHz至16kHz或20kHz之间的频率范围内,其中源信号是受带宽限制的。

因此,由这种脉冲组成的合成信号提供了密集且易于控制的高频内容。通过在每时间包络放置几个脉冲来获得在频谱域中的整形,时间包络例如从源音频信号的帧中提取,因为相对于特定特征所放置的不同脉冲的频率内容在频域中彼此重叠,以便于至少匹配音频信号的时间包络的主要特征或通常是特定特征。由于脉冲所代表的频谱数值的相位彼此锁定的事实,以及由于较佳地通过信号合成器放置多个正脉冲或多个负脉冲,由不同脉冲中的个别脉冲所代表的频谱数值的相位彼此锁定的事实。因此,获得了具有非常有用的频域特性的受控制的合成信号。通常,合成信号是宽带信号,其在整个现有音频频率范围内延伸,即,也延伸到LF范围内。为了实际产生最终信号(其最终地组合了用于频率增强的源音频信号),合成信号的至少频带(诸如高频频带)或通过带通所确定的信号被提取并且添加到源音频信号。

本发明概念具有在时域中完全执行的潜力,即,无需任何特定转换。该时域可以是典型时域,也可以是线性预测编码(linear prediction coding,LPC)滤波后的时域,即时域信号,其已经频谱地白化并且最终需要使用LPC合成滤波器进行处理,以重新引入原始频谱形状,以便于对音频信号渲染有用。因此,包络确定、分析、信号合成、合成信号频带的提取以及最终组合都可以在该时域中进行,这样就可以避免任何通常引起延迟的时间频谱转换或频谱时间转换。然而,本发明的上下文在几个过程中也是灵活的,例如包络确定、信号合成及组合也可以在该频谱域中部分地或全部地执行。因此,本发明的实施方式,即,本发明所需的特定过程是在时域还是在频谱域中实施的,总是可以完全适应于特定应用所需的典型解码器设计的对应框架。在LPC语音编码器的上下文中,本发明的上下文甚至是灵活的,例如,执行LPC激励信号(例如,TCX信号)的频率增强。合成信号与源音频信号的组合是在LPC时域中执行的,并且从LPC时域到正常时域的最终转换是通过LPC合成滤波器来执行的,其中,具体地,在LPC合成滤波器阶段内,针对合成信号的至少一个频带所代表的对应频谱部分执行合成信号的典型较佳的包络调整。因此,通常需要的后处理运算在单个滤波器阶段内与包络调整组合。这样的后处理操作可能涉及LPC合成滤波、语音解码器已知的去加重滤波、诸如低音后滤波操作的其它后滤波操作、或基于在TCX解码器或其他解码器中发现的长期预测(Long Term Prediction,LTP)的其它声音增强后滤波过程。

随后参考附图讨论本发明的较佳实施例,其中:

图1是根据本发明的音频处理器的实施例的框图;

图2是图1的包络确定器的较佳实施例的更详细描述;

图3a是用于计算子频带或全频带音频信号的时间包络的实施例;

图3b是时间包络的产生的可替代实施方式;

图3c示出了用于使用希伯特转换确定分析信号的实施方式的流程图;

图4示出了图1的分析器的较佳实施方式;

图5示出了图1的信号合成器的较佳实施方式;

图6示出了在核心解码器上下文中使用的作为设备的音频处理器或方法的较佳实施例;

图7示出了在LPC域中执行合成信号与源音频信号的组合的较佳实施方式;

图8示出了本发明的另一实施例,其中在频谱域中执行高通滤波或带通滤波、包络调整及源音频信号与合成信号的组合;

图9a示出了关于声音项目“德国男性语音”的频率增强处理中的几个信号;

图9b示出了针对声音项目“德国男性语音”的频谱图;

图10a示出了关于声音项目“音调管”的频率增强处理中的几个信号;

图10b示出了针对声音项目“音调管”的频谱图;

图11a示出了关于声音项目“麦当娜时尚”的频率增强处理中的几个信号;以及

图11b示出了关于声音项目“麦当娜时尚”的频谱增强处理中的几个信号。

图1示出了一种音频处理器,用于从源音频信号在组合器400的输出处产生频率增强音频信号420,源音频信号一方面输入到包络确定器100中,另一方面输入到组合器400中。

包络确定器100配置成用于确定源音频信号的至少一部分的时间包络。包络确定器可以使用全频带源音频号信号,也可以仅使用源音频信号的一频带或一部分,该频带或该部分具有特定较低的边界频率,诸如100、200或500赫兹(Hz)。时间包络从包络确定器100转发到分析器200,用于分析时间包络以确定时间包络的特定特征的数值。这些数值可以是时间数值、或能量、或与特征有关的其它数值。特定特征例如可以是时间包络的局部最大值、时间包络的局部最小值、时间包络的零交叉点或两个局部最小值之间的点或两个局部最大值之间的点,其中,例如这些特征之间的点是与相邻特征具有相同时间距离的数值。因此,这些特定特征也可以是两个局部最小值或两个局部最大值之间的中间点。然而,在较佳实施例中,较佳地使用例如曲线微积分(curve calculus)处理来确定时间包络的局部最大值。时间包络的特定特征的时间数值被转发到信号合成器300用于产生合成信号。合成信号的产生包括放置与确定的时间数值有关的脉冲,其中在放置之前或放置之后,使用从时间包络的振幅所得出的权重值来加权脉冲,振幅与从分析器接收的时间数值有关或与放置脉冲的时间数值有关。

合成信号的至少一个频带、或合成信号的全高频带、或合成信号的几个个别且不同的频带、甚至整个合成信号被转发到组合器400,用于组合不包含在源音频信号的至少频带与源音频信号,以获得频率增强音频信号。

在较佳实施例中,包络确定器被配置成如图2所示。在这个实施例中,源音频号信号或源音频号信号的至少一部分被分解成多个子频带信号,如105处所示。如110处所示,一个或多个或甚至所有子频带被选定或使用,用于确定每一个(选定的)子频带的各个时间包络,如120处所示。如125处所示,时间包络被标准化或被滤波,并且,如130处所示,各个时间包络相互组合,以在包络确定器的输出处获得最终时间包络。最终时间包络可以是通过如图2所示的过程所确定的组合后包络。取决于实施方式,可以提供附加滤波阶段115,以便对各个选定子频带进行标准化或滤波。如果使用所有子频带,则对所有这样的子频带进行标准化或滤波,如框115处所示。当在框120中确定时间包络的子频带已经被标准化或对应地被滤波时,125处所指示的标准化过程可以被绕过,并且对确定的时间包络不执行标准化或滤波的这个过程非常有用。自然地,也可以同时执行过程115、125,或者甚至也可以仅执行确定用于每一个(选定的)子频带120的时间包络的过程,并且时间包络130的后续组合可以在没有框115或125所示的过程的情况下执行。

在进一步的实施方式中,在框105中的分解可以根本不被执行,但是可以由具有低交叉频率的高通滤波来替代,诸如交叉频率为20、50、100或例如低于500Hz的频率,并且从这个高通滤波的结果只有单个时间包络被确定。自然地,高通滤波也是可以避免的,并且从源音频信号(以及通常是源音频信号的帧)仅得出单个时间包络,其中,较佳地在典型地重叠的帧中处理源音频号信号,但是甚至也可以使用非重叠的帧。在框110中指示的选定在特定场景中被实现,例如,当确定特定子频带信号无法满足关于子频带信号特征的特定标准时,或出于任何原因而被排除在最终时间包络的确定之外时。

图5示出了信号合成器300的较佳实施方式。信号合成器300从分析器200接收特征的时间数值及附加地关于包络的其他信息作为输入。在项310中,图5所示的信号合成器300从与时间数值有关的时间包络中得出缩放因子。因此,框310一方面接收包络信息,诸如包络振幅,另一方面接收时间数值。例如,使用压缩函数来执行缩放因子的推导,压缩函数例如平方根函数、幂小于1的幂函数或对数函数。

信号合成器300包括在时间数值处放置305脉冲的过程,其中,较佳地,仅放置负脉冲或仅放置正脉冲,以便于具有与脉冲相关联的相关频谱数值的同步相位。然而,在其它实施例中,通常当基带信号的音调不够高时,执行脉冲的随机放置,例如,取决于从典型可用的间隙填充或带宽延伸辅助信息所得出的其它标准。负脉冲或正脉冲的放置可以通过原始波形的极性来控制。脉冲的极性可以选择,使得其等于具有最高波峰因子的原始波形的极性。换句话说,这意味着正峰值是由正脉冲所模拟,反之亦然。

在步骤315中,使用框310的结果来缩放由框305所获得的脉冲,并且对脉冲执行可选的后处理320。脉冲信号可以使用,并且如框325所示,脉冲信号是经过高通滤波或带通滤波的,以便于获得脉冲信号的频率频带,即,获得转发到组合器的合成信号的至少频带。然而,可选的频谱包络调整330应用于由滤波阶段325所输出的信号,其中这样的频谱包络调整是通过特定包络函数、或从辅助信息所得出的包络参数的特定选择、或者作为可替代方案,例如在盲带宽延伸应用的上下文中从源音频信号所得出的包络参数的特定选择。

图6示出了用于产生频率增强音频信号的一种音频处理器或音频处理的方法的较佳实施例。称为波形包络同步脉冲激励(Waveform Envelope Synchronized PulseExcitation,WESPE)的发明方法是基于类脉冲列信号的产生,其中实际脉冲放置同步到专用时域包络。这个所谓的公共包络是从LF信号所得出的,LF信号是经由一组带通信号在核心解码器20的输出处所获得的,这些带通信号的各个包络组合成一个公共包络。

图6示出了WESPE处理进入到以带宽延伸(band width extension,BWE)功能性为特征的音频解码器中的典型整合,其也是这个新技术的较佳实施例。这个实施方式在持续时间例如为20毫秒(ms)的时间帧上进行操作,可选地,帧之间具有时间重叠,例如50%。

新提出的WESPE BWE的优点

·减少粗糙度和跳动伪像

·信号的谐波连续

·保留脉冲

·适合作为语音BWE

·也可以处理音乐

·BWE交叉可能已经开始于2kHz或更低

·关于音调、音调对准、谐波、相位的自调节BWE

WESPE处理包括以下步骤:

1.时间包络估计100:从核心解码器20获得的该LF信号被分离(105)成带通信号的集合。接下来,为带通信号中的每一个确定120时间包络。可选地,可以对各个包络进行标准化(normalization)或滤波。然后,将所有时间包络组合130到公共包络中。较佳地,组合操作是平均化处理(averaging process)。

2.同步脉冲放置:通过曲线微积分(curve calculus)的应用来分析205从步骤1中得到的公共包络,较佳地针对其局部最大值的位置。获得的最大值候选可选地对它们210的时间距离进行后选定(post-selected)或稳定化。狄拉克脉冲放置305在估计的“原始”信号中,用于在每一个最大值位置处产生HF。可选地,这个处理可以由辅助信息支持。

3.从包络得出各自的脉冲大小缩放:通过从公共包络所得出的时间权重值来加权315在先前的步骤2中组装的脉冲列。

4.后处理、HF提取或间隙填充选择:可选地,对在步骤3中产生的“原始”信号进行后处理320,例如,通过噪声相加,并且对其进行滤波325,用于作为BWE中的HF或作为间隙填充目标图块(tile)信号。

5.能量调整:调整330来自步骤4的滤波信号的频谱能量分布,用于作为BWE中的HF或作为间隙填充目标图块信号。在此,使用来自期望能量分布上的比特流的辅助信息40。

6.HF或间隙填充信号与LF的混合:最后,根据常规的BWE或间隙填充原理,将来自步骤5的调整信号与核心编码器输出30混合400,即通过HP滤波器并且补充LF,或在间隙填充频谱区域中填充频谱空洞。

在下文中,进一步说明WESPE处理中包括的每个步骤的功能、给出示例信号及其对处理结果的影响。

正确的时间公共包络估计是WESPE的关键部分。公共包络允许估计每个时间帧的平均的并因此具有代表性的感知特性。

如果LF信号非常有音调,具有音调f0且具有很强的Δf0间隔的泛音线频谱,则在各个带通信号的每一个中都会出现几条线,如果它们的通带宽度可以容纳它们,则通过所有带通频带内的跳动产生强的相干包络调制。时间包络的平均将保留跨带通包络发现的这种相干包络调制结构,并将在间隔ΔT0=1/(Δf0)的近似等距位置处产生强峰值。后来,通过应用曲线微积分,强脉冲将被放置在这些峰值位置处,从而形成脉冲列,其具有由位置n*Δf0,n=1.....N处的离散等距线组成的频谱。

如果强音调信号根本没有泛音,或者带通滤波器的带宽不能在各个频带中的每一个中容纳这些泛音的一个以上,则调制结构不会出现在所有带通信号中,并因此不会控制平均的公共包络。生成的脉冲放置将基于大部分不规则间隔的最大值,并且会因此吵杂。

对于在公共包络信号中表现出随机局部最大值放置的吵杂LF信号,情况也是如此:这会导致伪随机脉冲放置。

瞬态事件被保留下来,因为在这样的情况下,所有带通信号都共享时间对齐的公共最大值,公共最大值因此也会出现在公共包络中。

应该确定带通尺寸,这样它们可以跨越感知的频带并且针对需待解决的最高频率可以容纳至少2个泛音。为了更好地平均,带通可能会有一些过渡频带重叠。这样一来,估计的信号的音调本质上适应于LF信号。带通可能会排除非常低的频率,例如低于20Hz。

同步时间脉冲放置和缩放是WESPE的另一个关键贡献。同步脉冲放置继承了在公共包络的时间调制中凝聚的代表性感知特性,并且将它们压印成可感知适应的原始全频带信号。

请注意,已知人们对高频内容的感知会通过在关键频带包络中的调制的评估起作用。如之前已经详细描述的,同步到公共LF包络的时间脉冲放置会加强LF和HF之间感知上相关的时间和频谱结构的相似性和对齐性。

在具有强烈且清晰的泛音的非常有音调的信号的情况下,像音调管,WESPE可以通过附加的可选稳定化来确保脉冲放置完全等距,从而导致“原始”信号的非常有音调的HF泛音频谱。

以公共包络对脉冲进行加权可以确保在强脉冲中保留主要的调制,而不太重要的调制会导致弱脉冲,这进一步有助于“原始”信号对LF信号的固有适应的WESPE特性。

在吵杂信号的情况下,如果脉冲放置及加权变得越来越随机,这将导致逐渐吵杂的“原始”信号,这是非常期望的特性。

剩余处理步骤、HF提取、能量调节和混合是进一步的步骤,这些都是将新颖的WESPE处理整合到编解码器中以适应BWE或间隙填充的全部功能所必需的。

图3a示出了用于确定时间包络的较佳实施方式。如135处所示,使用希伯特转换来确定分析信号。框135的输出,即希伯特转换信号用于计算如140处所示的包络ENV(t)。为此,包络的计算是将特定时刻处的原始源音频信号的时间数值进行平方,将特定时刻处的对应希伯特转换数值进行平方,并且相加些平方后的数值,并且对每一个各自时刻的相加结果计算平方根。通过这样的过程,可以以与原始源音频信号a(t)相同的取样分辨率来确定时间包络。自然地,当进入框135及140的输入是由框105所获得的、或由框110选择的、或由图2的框115标准化及滤波后的子频带信号时,执行相同的过程。

用于计算时间包络的另一过程在图3b的框145及150示出。为此,对源音频号信号或来自源音频的子频带的波形进行整流(145),并且对整流后波形进行低通滤波(150),并且低通滤波的结果是源音频信号的包络或是各自子频带信号的包络,其与来自其他子频带的其他此类包络组合,较佳地通过图2的130处所示的平均。

C.Jarne在2017年3月20日发表的“Simple empirical algorithm to obtainsignal envelope in the three steps”示出了用于计算时间包络的其它过程,诸如通过具有有限支持的滑动窗口计算波形的瞬时均方根(RMS)值。其它过程包括计算波形的分段线性近似,其中通过在移动通过数据的窗口中找到并且连接波形的多个峰值所创建的振幅包络。进一步的过程依赖于确定源音频号信号或子频带信号中的永久峰值以及通过内插法得出包络。

用于计算时间包络的其他过程包括解释代表包络的辅助信息、或对从时间噪声塑形(Temporal Noise Shaping,TNS)所知的时域帧所得出的一组频谱值进行频谱域中的预测,其中对应预测系数代表帧的时间包络。

图3c示出了使用图3a中在135处指示的希伯特转换来确定分析信号的较佳实施方式。例如,He Lei等人发表在INTERSPEECH2016-1447,第530-534页的“APraat-BasedAlgorithm to Extract the Amplitude Envelope and Temporal Fine Structure Usingthe Hilbert Transform”说明了用于计算这类希伯特转换的过程。在步骤136中,从信号a(t),例如源音频信号或子频带信号,计算复合频谱。在步骤137中,选择复合频谱的正部或不选择负部。在步骤138中,将复合频谱的正部乘以"-j",并且在步骤139中,相乘结果转换到时域,并且通过采用虚部来获得分析信号

自然地,许多用于确定时间包络的过程是可用的,需要注意的是,时间包络并不一定要实际上“包络”时域信号,但是,当然可以是时域信号的某些最大值或最小值大于或小于这个时间点处的对应包络数值。

图4示出了确定时间包络的特定特征的时间数值的过程的较佳实施例。为此,将平均时间包络引入到框205中,以确定特征的初始时间数值。这些初始时间数值可以是例如时间包络中实际找到的最大的时间数值。如框120所示,通过优化函数、或通过辅助信息、或通过选择或操纵原始特征,从原始时间数值中或从“初始”时间数值中得出放置实际脉冲的特征的最终时间数值。较佳地,框210,根据处理规则或优化函数来操纵初始数值。特别是,实现优化函数或处理规则,使得时间数值放置在具有光栅间距T的光栅中。特别是,光栅间距T和/或光栅在时间包络内的位置使得时间数值及初始时间数值之间的偏差值具有预定特性,其中,在实施例中,偏差值是平方差的总和,和/或预定特性是最小值。因此,在确定初始时间数值之后,放置等距时间数值的光栅,其与初始时间数值的非恒定光栅尽可能地匹配,但是现在显示出清晰且理想的音调行为。可以在与非上取样域相比具有更精细时间粒度的上取样域中确定光栅,或者可以可替代地使用分数延迟,用于以子样本精度进行脉冲放置。

图7示出了本发明在LPC处理的上下文中的另一实施例。例如,如图1或图6所示,图7的音频处理器包括包络确定器100、分析器200(均未在图7中示出)和信号合成器300。然而,与图6相反,核心解码器输出数据,即LF输出30不是时域音频信号,而是在LPC时域中的音频信号。通常可以在转换编码激励(Transform Coded eXcitation,TCX)编码器中找到这种数据作为内部信号表示。

由图7中的音频解码器20产生的TCX数据被转发到图7中所示作为LPC域添加器405的混合器。信号合成器产生TCX频率增强数据。因此,在这个实施例中,由信号合成器产生的合成信号是从作为TCX数据信号的源音频号信号中所得出。因此,在框405的输出处,可获得频率增强音频信号,然而其仍在LPC时域中。随后连接的LPC合成滤波器410执行LPC时域信号到时域的转换。

LPC合成滤波器配置用以如果需要则附加地执行一种去加重,并且附加地,这个时域滤波器配置成用以也对合成信号频带执行频谱包络调整。因此,图7中的LPC合成滤波器410不仅对由音频解码器20输出的TCX数据频率范围执行合成滤波,而且还对频谱频带中的不包含在由音频解码器20输出的TCX数据的数据执行频谱包络调整。通常,这个数据也可以从编码音频信号10获得,即通过音频解码器20提取用于核心频率范围的LPC数据40a,并且附加地提取用于高频带或用于智能间隙填充IGF(图7的40b处指示的一个或多个频带)的频谱包络调整。因此,图1中的组合器或混和器通过LPC域添加器405与图7随后连接的LPC合成滤波器410来实现,使得420处指示的LPC合成滤波器410的输出是频率增强时域音频信号。与图6的过程相反,其中在通过组合器400执行混合操作之前执行频谱包络调整330,图7在混合或组合两个信号之后执行高频带或填充频带的包络调整。

图8示出了图6中示出的过程的进一步实施方式。基本上,图6的实施方式是在时域中执行的,使得框320、325、330、400完全在时域中执行。可替代地,图8的实施方式依赖用于低频带的频谱转换105,然而,这是可选的措施,但是在图8中用于低频带的频谱转换操作105有利于使用图6中带通滤波器组105的实施方式。附加地,图8的实施方式包括频谱转换器345,用于转换脉冲处理器340的输出,脉冲处理器340通常包括图6的脉冲放置305和脉冲缩放315。图8中的脉冲处理器340附加地可以包括稳定器框210作为可选特征,以及极值搜索框205作为可选特征。

然而,高通滤波325、包络调整330及低频带与高频带的组合的过程是通过合成滤波器组来完成,即在频谱域中完成,并且图8中的合成滤波器组400的输出为时域频率增强音频信号420。然而,如果元件400被实现为用于组合不同频带的简单组合器,则框400的输出也可以是全频谱域信号,其通常由随后以任何所需方式进一步处理的频谱数值的框组成。

在下文中,给出了三个示例的特征信号,这些特征信号已使用WESPEBWE进行了带宽延伸。取样率为32kHz,使用具有513行单边频谱的DFT(图8中的框105)提取8个重叠的带通信号。为了实现4kHz高通滤波(图8中的框325)、频谱包络调整(图8中的框330)及LF与HF的混合(图8中的框400),采用具有50%重叠的相似的DFT/IDFT(图8中的框345),被组织为16个均匀缩放因子频带。频谱图中显示的生成信号是从DC到4kHz的非编码PCM,并且由WESPE在从4kHz到16kHz的范围内产生。

图9a显示了波形的简短摘录(1024个样本框)、公共包络及由WESPE生成的同步且缩放脉冲放置。具有轻微分散的大脉冲大约等距离地放置在宽周期结构中。

图9b描绘了整个测试项目的频谱图。混浊语音的垂直脉冲结构在LF和HF之间保持一致对齐,而擦音则表现出类似HF结构的噪声。

因此,图9a显示了WESPE如何建模语音脉冲,显示波形、公共包络及脉冲产生,其中项目为“德国男性语音”。图9b显示了WESPE如何仿真语音脉冲并且显示频谱图。该项目是“德国男性语音”。

图10a显示了波形的简短摘录(1024个样本框)、公共包络及由WESPE生成的同步及缩放脉冲放置。不同的尖锐脉冲等距地放置在狭窄的周期性结构中。图10b描绘了整个测试项目的频谱图。音调管的水平线结构在LF和HF之间保持对齐,但是HF也有些吵杂,并且可以从额外的稳定中受益。

图10a显示了WESPE如何建模谐波,并且显示波形、公共包络及脉冲产生。项目是“音调管”。图10b显示了WESPE如何建模谐波,并显示频谱图。项目是“音调管”。

图11a显示了测试项目“麦当娜时尚”的波形的简短摘录(1024个样本框)、公共包络及由WESPE生成的同步且缩放脉冲放置。脉冲的放置和缩放几乎具有随机结构。图11b描绘了整个测试项目的频谱图。流行音乐的垂直瞬态结构在LF和HF之间保持一致地对齐,而HF音调通常较低。

图11a显示了WESPE如何建模吵杂混合物,并且显示波形、公共包络及脉冲产生。项目是“时尚”。图11b显示了WESPE如何建模吵杂混合物,并显示频谱图。项目是“时尚”。

图9a、图10a、图11a的第一张图示出了低频带源信号的一框1024个样本的波形。附加地,分析滤波器对提取一框样本的影响如下所示,在框的开始处,即在样本0,波形等于0,并且在框的结束处,即在样本1023,波形也等于0。这样的波形可获得,例如在图1的框100的输入或在图6的30处。图9a、图9b、图9c中的垂直轴始终表示时域振幅,而在这些图中水平轴始终表示时域变量,尤其是,样本数量通常从0延伸到1023,持续一个框。

图9a、图10a、图11a的第二张图示出了平均低频带包络,尤其是,仅低频带包络的正部。自然地,低频带包络通常是对称的,并且也延伸到负范围内。然而,仅需要低频带包络的正部。从图9a、图10a、图11a可见,在这个实施例中,仅在排除该框的前两个样本和该框的最后两个样本时,计算包络,然而,这根本不是问题,因为较佳地以重叠的方式计算这些框。因此,图9a、图10a、图11a的第二张图典型地示出,例如图1的框100的输出或图2的框130的输出。

图9a、图10a、图11a的第三张图示出了脉冲缩放后(即在处理之后)的合成信号,其中脉冲放置在包络的特征的时间包络的时间数值处,并且已经通过包络的对应振幅加权。图9a、图10a、图11a示出了放置的脉冲仅从样本256延伸到样本768。因此,由加权后脉冲组成的信号仅在512个样本上延伸,并且在这些样本之前以及这些样本之后不具有任何部分,即,覆盖帧的中间部分。这反映了前一帧具有重叠并且后一帧也具有重叠的情况。为了以后续框产生脉冲信号,在第一个四分之一和最后一个四分之一丢失的情况下,也会处理来自下一个框的脉冲信号,并且因此,来自下一个框的脉冲信号将紧接在图9a、图10a、图11a中的当前块的所示脉冲信号之后放置。由于不需要脉冲信号的任何重叠/添加操作,因此该过程非常有效率。然而,如果需要的话,也可以执行相对于脉冲信号的从一个帧到下一帧的任何重叠/添加过程或任何交叉衰落过程。

图9a、图10b、图11b示出了频谱图。水平轴表示时间,但不是如图9a、图10a、图11a所示的相对于样本的时间,而是相对于DFT框数的时间。垂直轴示出了从对应图的底部处的低频到对应图的顶部的高频的频率频谱。水平范围从0延伸至16kHz,使得下方四分之一代表该原始信号,上方四分之三代表合成信号。因此,图9b、图10b、图11b标出了频率增强音频信号,而这些图的仅下方四分之一示出了源音频信号。

这些图指示出低频带结构在高频带中得到了很好的反映。关于图10这是特别可见的,图10b示出了音调管,其中在图10b中从左到右一个接一个地播放音调管的三个不同音调。图10b左侧的第一部分是音调管的最低音调、中间部分是音调管的中间音调,而图10b的右侧部分是音调管的最高音调。音调管的特征在于非常有音调的频谱,并且似乎是本发明在很好地复制较高的12kHz的谐波结构中特别有用。

对于第三个测试项目,显而易见的是,通过本发明过程,用于这种流行音乐项目的低频带结构很好地转换到高频率范围。

图12示出了另一实施例,其在某种程度上类似于图6的实施例。因此,图6中相似的附图标记表示了图12中的相似项目。除了图6中的特征外,图12的实施例附加地包括LF/HF分解器160、随机噪声或伪随机噪声产生器170,诸如噪声表等,以及能量调整器180。

LF/HF分解器160将时间包络分解成LF包络及HF包络。较佳地,通过低通滤波来确定LF包络,并且通过从LF包络中减去HF包络来确定HF包络。

随机噪声或伪随机噪声产生器170产生噪声信号,并且能量调整器180将噪声能量调整成HF包络的能量,其同样在框180中被估计。通过添加器335将具有调整成HF包络(没有来自LF包络的任何贡献)的能量的能量的这个噪声添加到加权后脉冲列,如框315输出。然而,例如,处理框或步骤315、335的顺序也可以改变。

另一方面,如框160所确定的,关于项目205至315的过程仅应用于LF包络。

依赖将全频带包络分解成至少两个部分的较佳实施例包括以下列顺序或以其它技术上可行顺序的框或步骤。

时间包络估计100:整流;通过使用例如函数x^0.75压缩;将包络分离160成LF包络及HF包络。LF包络是通过低通滤波所获得的,其中交叉频率例如为2-6kHz。在实施例中,HF包络是原始包络与较佳地延迟调整的LF包络之间的差值。

同步脉冲放置300。通过例如曲线微积分来分析从上述步骤中所得出的LF包络,并且在LF包络最大值位置上完成脉冲放置。

从包络得出各个脉冲大小缩放315:通过从LF包络得出的时间权重值来加权上述步骤中组装的脉冲列。

估计HF包络的能量,并且将相同能量的随机噪声添加335到加权后脉冲列。

后处理、HF提取或间隙填充选择:对在上述步骤中在框335的输出处所产生的“原始”信号进行可选地后处理320,例如通过噪声添加,并且对其进行滤波325,用于作为BWE中的HF或作为间隙填充目标图块信号。

能量调整330:调整上述步骤中概述的来自能量估计的滤波信号的频谱能量分布,用于作为BWE中的HF或作为间隙填充目标图块信号。在此,较佳地使用来自期望能量分布上的比特流的辅助信息。

HF或间隙填充信号与LF的混合400:最后,根据常规的BWE或间隙填充原理,将来自步骤5的调整信号与核心编码器输出混合,即通过HP滤波器并且补充LF,或在间隙填充频谱区域中填充频谱空洞。

这里要提到的是,如前所述的所有可替代方案或方面以及由所附权利要求书中的独立权利要求限定的所有方面可以单独使用,即,除了预期的可替代方案、目的或独立权利要求外,没有任何其他可替代方案或目的。然而,在其他实施例中,两个或更多个可替代方案或方面或独立权利要求可以彼此组合,并且在其他实施例中,所有方面或可替代方案和所有独立权利要求可以彼此组合。

本发明编码的音频信号可以被储存在数字储存介质或非暂时性储存介质上,或者可以在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传输。

尽管在装置的上下文中描述了一些方面,但是很明显,这些方面也代表了对应方法的描述,其中框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对对应装置的对应框或项目或特征的描述。

取决于某些实施要求,本发明的实施例可以以硬件或软件来实现。实施方式可以使用数字储存介质来执行,例如软盘、DV、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,数字储存介质上储存有电子可读控制信号,电子可读控制信号与可编程计算机系统配合(或能够配合),从而执行对应的方法。因此,数字储存介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文描述的方法之一。

通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运作时,程序代码可操作用于执行方法之一。程序代码可以例如被储存在机器可读载体上。

其他实施例包括储存在机器可读载体上的或非暂时性储存介质上的,用于执行本文描述的方法之一的计算机程序。

换句话说,因此,本发明方法的实施例是一种计算机程序,计算机程序具有当计算机程序在计算机上运行时用于执行本文描述的方法之一的程序代码。

因此,本发明方法的另一实施例是一种数据载体(或数字储存介质、或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。

因此,本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接,例如经由因特网来传输。

另一实施例包括处理装置(例如计算机)或可编程逻辑器件,其被配置为或适于执行本文描述的方法之一。

另一实施例包括一种计算机,计算机上安装了用于执行本文描述的方法之一的计算机程序。

在一些实施例中,可编程逻辑器件(例如可现场编程门阵列)可以用于执行本文描述的方法的功能的一些或全部功能。在一些实施例中,可现场编程门阵列可以与微处理器协作以便执行本文描述的方法之一。通常,方法较佳地由任何硬件装置执行。

上面描述的实施例仅用于说明本发明的原理。应当理解,本文描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,本发明的意图仅由待决专利权利要求的范围限制,而不受通过本文的实施方式的描述和解释而给出的具体细节的限制。

参考文献

[1]Dietz,M.,Liljeryd,L.,

[2]Disch,S.,Niedermeier,A.,Helmrich,C.R.,Neukam,C.,Schmidt,K.,Geiger,R.,Lecomte,J.,Ghido,F.,Nagel,F.,and Edler,B.,"Intelligent Gap Filling inPerceptual Transform Coding of Audio,”in Audio Engineering Society Convention141,2016年.

[3]Laitinen M-V.,Disch S.,Oates C.,Pulkki V.“Phase derivativecorrection of bandwidth extended signals for perceptual audio codecs.”In140th Audio Engineering Society International Convention 2016,AES 2016.AudioEngineering Society.2016年.

[4]Atti,Venkatraman,Venkatesh Krishnan,Duminda A.Dewasurendra,VenkataChebiyyam,Shaminda Subasingha,Daniel J.Sinder,Vivek Rajendran,Imre Varga,JonGibbs,Lei Miao,Volodya Grancharov and Harald Pobloth."Super-widebandbandwidth extension for speech in the 3GPP EVS codec."2015 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP)(2015年):第5927-5931页.

相关技术
  • 使用脉冲处理产生频率增强音频信号的音频处理器和方法
  • 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
技术分类

06120113224409