掌桥专利:专业的专利平台
掌桥专利
首页

频谱正交音频分量处理

文献发布时间:2023-06-19 16:08:01



技术领域

本公开总体上涉及音频处理,并且更具体地涉及空间音频处理。

背景技术

从概念上讲,左右立体声信号的侧(或“空间”)分量可以被认为是左右声道中包括空间信息的部分(即,立体声信号中出现在声场中心左右任意位置的声音)。相反,左右立体声信号的中间(或“非空间”)分量可以被认为是左右声道中包括非空间信息的部分(即,立体声信号中出现在声场中心的声音)。虽然中间分量包含立体声信号中被感知为非空间的能量,但它通常也具有来自立体声信号中在感知上没有位于声场中心的元素的能量。类似地,虽然侧分量包含立体声信号中被感知为空间的能量,但它通常也具有来自立体声信号中在感知上位于声场中心的元素的能量。为了增强处理音频的可能性范围,需要对在频谱上彼此“正交”的中间分量和侧分量的部分进行隔离和操作。

发明内容

实施例涉及使用频谱正交音频分量的音频处理,诸如立体声音频信号或其他多声道音频信号的超中间分量、超侧分量、残余中间分量或残余侧分量。超中间分量和超侧分量在频谱上彼此正交,并且残余中间分量和残余侧分量在频谱上彼此正交。

一些实施例包括一种用于处理音频信号的系统。该系统包括从音频信号的左声道和右声道生成中间分量和侧分量的电路装置。该电路装置生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量。该电路装置对超中间分量进行滤波,诸如以提供空间提示处理,包括平移或双耳处理、动态范围处理或其他类型的处理。该电路装置使用滤波后的超中间分量生成左输出声道和右输出声道。

在一些实施例中,该电路装置对中间分量和侧分量应用傅里叶变换以将中间分量和侧分量转换到频域。该电路装置通过从频域中的中间分量的大小中减去频域中的侧分量的大小来生成超中间分量。

在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量应用动态范围处理。在一些实施例中,该电路装置对超中间分量进行滤波以调节超中间分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对超中间分量进行滤波以对超中间分量应用基于机器学习的风格转移、转换或重新合成。

在一些实施例中,该电路装置生成包括从中间分量的频谱能量中移除超中间分量的频谱能量的残余中间分量,对残余中间分量进行滤波,并且使用滤波后的残余中间分量生成左输出声道和右输出声道。

在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量应用动态范围处理。在一些实施例中,该电路装置对残余中间分量进行滤波以调节残余中间分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对残余中间分量进行滤波以对残余中间分量应用基于机器学习的风格转移、转换或重新合成。

在一些实施例中,该电路装置对中间分量应用傅里叶变换以将中间分量转换到频域。该电路装置通过从频域中的中间分量的大小中减去频域中的超中间分量的大小来生成残余中间分量。

在一些实施例中,该电路装置对超中间分量应用傅里叶逆变换以将频域中的超中间分量转换到时域,通过对中间分量进行时间延迟来生成延迟中间分量,通过从时域中的延迟中间分量中减去时域中的超中间分量来生成残余中间分量,对残余中间分量进行滤波,并且使用滤波后的残余中间分量生成左输出声道和右输出声道。

在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,对超侧分量进行滤波,并且使用滤波后的超侧分量生成左输出声道和右输出声道。

在一些实施例中,该电路装置对中间分量和侧分量应用傅里叶变换以将中间分量和侧分量转换到频域。该电路装置通过从频域中的侧分量的大小中减去频域中的中间分量的大小来生成超侧分量。

在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量应用动态范围处理。在一些实施例中,该电路装置对超侧分量进行滤波以调节超侧分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对超侧分量进行滤波以对超侧分量应用基于机器学习的风格转移、转换或重新合成。

在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,生成包括从侧分量的频谱能量中移除超侧分量的频谱能量的残余侧分量,对残余侧分量进行滤波,并且使用滤波后的残余侧分量生成左输出声道和右输出声道。

在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量的子带进行增益调节或时间延迟。在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量应用动态范围处理。在一些实施例中,该电路装置对残余侧分量进行滤波以调节残余侧分量的频率相关幅度或频率相关延迟。在一些实施例中,该电路装置对残余侧分量进行滤波以对残余侧分量应用基于机器学习的风格转移、转换或重新合成。

在一些实施例中,该电路装置对侧分量应用傅里叶变换以将侧分量转换到频域。该电路装置通过从频域中的侧分量的大小中减去频域中的超侧分量的大小来生成残余侧分量

在一些实施例中,该电路装置生成包括从侧分量的频谱能量中移除中间分量的频谱能量的超侧分量,对超侧分量应用傅里叶逆变换以将超中间分量转换到时域,通过对侧分量进行时间延迟来生成延迟侧分量,通过从时域中的延迟侧分量中减去时域中的超侧分量来生成残余侧分量,对残余侧分量进行滤波,并且使用滤波后的残余侧分量生成左输出声道和右输出声道。

一些实施例包括一种包括存储的程序代码的非暂态计算机可读介质。该程序代码在由至少一个处理器执行时将至少一个处理器配置为从音频信号的左声道和右声道生成中间分量和侧分量,生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量,对超中间分量进行滤波,并且使用滤波后的超中间分量生成左输出声道和右输出声道。

一些实施例包括一种用于由电路装置处理音频信号的方法。该方法包括从音频信号的左声道和右声道生成中间分量和侧分量,生成包括从中间分量的频谱能量中移除侧分量的频谱能量的超中间分量,对超中间分量进行滤波,并且使用滤波后的超中间分量生成左输出声道和右输出声道。

附图说明

所公开的实施例具有从详细描述、所附权利要求和附图(或图)将更容易很清楚的其他优点和特征。下面是对附图的简要介绍。

图(FIG.)1是根据一个或多个实施例的音频处理系统的框图。

图2A是根据一个或多个实施例的正交分量生成器的框图。

图2B是根据一个或多个实施例的正交分量生成器的框图。

图2C是根据一个或多个实施例的正交分量生成器的框图。

图3是根据一个或多个实施例的正交分量处理器的框图。

图4是根据一个或多个实施例的子带空间处理器的框图。

图5是根据一个或多个实施例的串扰补偿处理器的框图。

图6是根据一个或多个实施例的串扰模拟处理器的框图。

图7是根据一个或多个实施例的串扰消除处理器的框图。

图8是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行空间处理的过程的流程图。

图9是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行子带空间处理和串扰补偿处理的过程的流程图。

图10-图19是描绘根据一个或多个实施例的示例白噪声信号的中间分量和侧分量的频谱能量的图。

图20是根据一个或多个实施例的计算机系统的框图。

具体实施方式

附图和以下描述仅通过说明的方式涉及优选实施例。应当注意,从以下讨论中,本文中公开的结构和方法的备选实施例将容易地被认为是可行的备选方案,该备选方案可以被采用而不背离所要求保护的原理。

现在将详细参考若干实施例,该实施例的示例在附图中示出。注意,只要可行,类似或相似的附图标记可以用于附图中并且可以指示类似或相似的功能。附图仅出于说明的目的而描绘了所公开的系统(或方法)的实施例。本领域技术人员将从以下描述中容易地认识到,可以采用本文中示出的结构和方法的备选实施例而不背离本文中描述的原理。

实施例涉及使用在频谱上彼此正交的中间和侧分量的空间音频处理。例如,音频处理系统生成超中间分量或超侧分量,该超中间分量隔离中间分量的、仅与存在于声场中心的频谱能量相对应的部分,该超侧分量隔离侧分量的、仅与不存在于声场中心的频谱能量相对应的部分。超中间分量包括从中间分量的频谱能量中移除侧分量的频谱能量,并且超侧分量包括从侧分量的频谱能量中移除中间分量的频谱能量。音频处理系统还可以生成残余中间分量和残余侧分量,该残余中间分量对应于移除了超中间分量(例如,通过从中间分量的频谱能量中减去超中间分量的频谱能量)的中间分量的频谱能量,该残余侧分量对应于移除了超中间分量(例如,通过从侧分量的频谱能量中减去超侧分量的频谱能量)的侧分量的频谱能量。通过隔离这些正交分量并且使用这些分量执行各种类型的音频处理,音频处理系统能够提供有针对性的音频内容增强。超中间分量表示声场中心的非空间(即,中间)频谱能量。例如,声场中心的非空间频谱能量可以包括电影的对话或音乐中的主要声乐内容。对超中间应用信号处理操作使得能够在不改变存在于声场其他地方的频谱能量的情况下调节这样的音频内容。例如,在一些实施例中,可以通过对超中间分量应用降低典型人类声乐范围内的频谱能量的滤波器来部分地和/或完全地移除声音声乐。在其他实施例中,可以通过增加典型人类声乐范围内的能量的滤波器(例如,经由压缩、混响和/或其他音频处理技术)来对声乐内容应用有针对性的声乐增强或效果。残余中间分量表示不在声场中心的非空间频谱能量。对残余中间应用信号处理技术允许类似变换从其他分量正交地发生。例如,在一些实施例中,为了在总体感知增益的最小变化和声乐存在的最小损失的情况下对音频内容提供空间加宽效果,可以部分地和/或完全地移除残余中间分量中的有针对性的频谱能量,同时增加残余侧分量中的频谱能量。

示例音频处理系统

图1是根据一个或多个实施例的音频处理系统100的框图。音频处理系统100是处理输入音频信号以生成空间增强的输出音频信号的电路装置。输入音频信号包括左输入声道103和右输入声道105,并且输出音频信号包括左输出声道121和右输出声道123。音频处理系统100包括L/R到M/S转换器模块107、正交分量生成器模块113、正交分量处理器模块117、M/S到L/R转换器模块119和串扰处理器模块141。在一些实施例中,音频处理系统100包括上述组件的子集和/或除上述组件之外的附加组件。在一些实施例中,音频处理系统100以不同于图1所示的顺序处理输入音频信号。例如,音频处理系统100可以在使用正交分量生成器模块113和正交分量处理器模块117进行处理之前利用串扰处理来处理输入音频。

L/R到M/S转换器模块107接收左输入声道103和右输入声道105,并且从输入声道103和105生成中间分量109(例如,非空间分量)和侧分量111(例如,空间分量)。在一些实施例中,中间分量109基于左输入声道103和右输入声道105之和而被生成,并且侧分量111基于左输入声道103和右输入声道105之差而被生成。在一些实施例中,从多声道输入音频信号(例如,环绕声)生成若干中间分量和侧分量。可以使用其他L/R到M/S类型的变换来生成中间分量109和侧分量111。

正交分量生成器模块113处理中间分量109和侧分量111以生成以下中的至少一项:超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2。超中间分量M1是移除了侧分量111的中间分量109。超侧分量S1是移除了中间分量109的频谱能量的侧分量111的频谱能量。残余中间分量M2是移除了超中间分量M1的频谱能量的中间分量109的频谱能量。残余侧分量S2是移除了超侧分量S1的频谱能量的侧分量111的频谱能量。在一些实施例中,音频处理系统100通过处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的至少一项来生成左输出声道121和右输出声道123。正交分量生成器模块113关于图2A-图2C进一步描述。

正交分量处理器模块117处理超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2中的一项或多项。对分量M1、M2、S1和S2的处理可以包括各种类型的滤波,诸如空间提示(spatial cue)处理(例如,基于幅度或延迟的平移、双耳处理等)、动态范围处理、基于机器学习的处理、增益应用、混响、添加音频效果或其他类型的处理。在一些实施例中,正交分量处理器模块117使用超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2来执行子带空间处理和/或串扰补偿处理,以生成经处理的中间分量131和经处理的侧分量139。子带空间处理是对音频信号的中间分量和侧分量的频率子带执行的、用于在空间上增强音频信号的处理。串扰补偿处理是对音频信号执行的处理,该处理用于调节由串扰处理引起的频谱伪影,诸如扬声器的串扰补偿或耳机的串扰模拟。正交分量处理器模块117关于图3进一步描述。

M/S到L/R转换器模块119接收经处理的中间分量131和经处理的侧分量139,并且生成经处理的左分量151和经处理的右分量159。在一些实施例中,经处理的左分量151基于经处理的中间分量131和经处理的侧分量139之和而被生成,并且经处理的右分量159基于经处理的中间分量131与经处理的侧分量139之差而被生成。可以使用其他M/S到L/R变换类型来生成经处理的左分量151和经处理的右分量159。

串扰处理器模块141接收经处理的左分量151和经处理的右分量159并且对其执行串扰处理。串扰处理包括例如串扰模拟或串扰消除。串扰模拟是对音频信号(例如,经由耳机输出的)执行的、用于模拟扬声器的效果的处理。串扰消除是对被配置为经由扬声器输出的音频信号执行的、用于消除由扬声器引起的串扰的处理。串扰处理器模块141输出左输出声道121和右输出声道123。

示例正交分量生成器

图2A-图2C分别是根据一个或多个实施例的正交分量生成器模块213、223和243的框图。正交分量生成器模块213、223和243是正交分量生成器模块113的示例。

参考图2A,正交分量生成器模块213包括减法单元205、减法单元209、减法单元215和减法单元219。如上所述,正交分量生成器模块113接收中间分量109和侧分量111,并且输出超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的一项或多项。

减法单元205从中间分量109的频谱能量中移除侧分量111的频谱能量,以生成超中间分量M1。例如,减法单元205从频域中的中间分量109的大小中减去频域中的侧分量111的大小,同时不考虑相位,以生成超中间分量M1。可以使用傅里叶变换对时域信号执行频域减法以生成频域信号,然后是频域信号的减法。在其他示例中,频域减法可以以其他方式执行,诸如使用小波变换而不是傅里叶变换。减法单元209通过从中间分量109的频谱能量中移除超中间分量M1的频谱能量来生成残余中间分量M2。例如,减法单元209从频域中的中间分量109的大小中减去频域中的超中间分量M1的大小,同时不考虑相位,以生成残余中间分量M2。虽然在时域中从中间减去侧会得到信号的原始右声道,但频域中的上述操作隔离并且在如下之间区分:中间分量的、与侧分量(称为M1、或超中间)的频谱能量不同的频谱能量的一部分,以及中间分量的、与侧分量(称为M2、或残余中间)的频谱能量相同的频谱能量的一部分。

在一些实施例中,当从中间分量109的频谱能量中减去侧分量111的频谱能量得到超中间分量M1的负值时(例如,对于频域中的区间中的一个或多个区间),可以使用附加处理。在一些实施例中,当从中间分量109的频谱能量中减去侧分量111的频谱能量得到负值时,超中间分量M1被钳位在0值。在一些实施例中,通过将负值的绝对值作为超中间分量M1的值来返转(wrapped around)超中间分量M1。当从中间分量109的频谱能量中减去侧分量111的频谱能量导致M1为负值时,可以使用其他类型的处理。当生成超侧分量S1、残余侧分量S2或残余中间分量M2的减法结果为负时,可以使用类似的附加处理,诸如钳位在0处、返转或其他处理。当减法得到负值时,将超中间分量M1钳位在0处将保证M1与两个侧分量之间的频谱正交性。同样,当减法得到负值时,将超侧分量S1钳位在0处将保证S1与两个中间分量之间的频谱正交性。通过在超中间和侧分量及其适当中间/侧对应分量之间创建正交性(即,用于超中间的侧分量、用于超侧的中间分量),导出的残余中间M2和残余侧S2分量包含不与其适当中间/侧对应分量正交(即,与其共有)的频谱能量。也就是说,当在0处对超中间应用钳位,并且使用该M1分量导出残余中间时,生成频谱能量不与侧分量共有的超中间分量和频谱能量与侧分量完全共有的残余中间分量。当将超侧钳位为0时,相同的关系适用于超侧和残余侧。在应用频域处理时,通常需要在频率与定时信息之间的分辨率上进行权衡。随着频率分辨率的增加(即,随着FFT窗口大小和频率区间数目的增加),时间分辨率降低,反之亦然。上述频谱减法发生在每个频率区间的基础上,因此在某些情况下,诸如从超中间分量中移除声乐能量时,优选地使用较大FFT窗口大小(例如,8192个样本,在给定实值输入信号的情况下产生4096个频率区间)。其他情况可能需要更高的时间分辨率并且因此需要更低的整体延迟和更低的频率分辨率(例如,512个样本FFT窗口大小,在给定实值输入信号的情况下产生256个频率区间)。在后一种情况下,中间和侧的低频分辨率在彼此相减以导出超中间M1和超侧S1分量时可以产生可听的频谱伪影,因为每个频率区间的频谱能量是在过大的频率范围内的能量的平均表示。在这种情况下,在导出超中间M1或超侧S1时取中间与侧之间的差值的绝对值可以通过允许每个频率区间与分量中的真实正交性发散来帮助减轻感知伪影。除了或代替返转0,可以将系数应用于减数值,在0与1之间缩放该值,因此提供了一种用于在以下极端之间进行插值的方法:在一个极端(即,值为1),超和残余中间/侧分量的完全正交性;以及在另一极端(即,值为0),与其对应原始中间和侧分量相同的超中间M1和超侧S1。

减法单元215从频域中的侧分量111的频谱能量中移除频域中的中间分量109的频谱能量,同时不考虑相位,以生成超侧分量S1。例如,减法单元215从频域中的侧分量111的大小中减去频域中的中间分量109的大小,同时不考虑相位,以生成超侧分量S1。减法单元219从侧分量111的频谱能量中移除超侧分量S1的频谱能量以生成残余侧分量S2。例如,减法单元219从频域中的侧分量111的大小中减去频域中的超侧分量S1的大小,同时不考虑相位,以生成残余侧分量S2。

在图2B中,正交分量生成器模块223与正交分量生成器模块213的相似之处在于,它接收中间分量109和侧分量111并且生成超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2。正交分量生成器模块223与正交生成器模块213的不同之处在于,在频域中生成超中间分量M1和超侧分量S1,然后将这些分量转换回时域以生成残余中间分量M2和残余侧分量S2。正交分量生成器模块223包括前向FFT单元220、带通单元222、减法单元224、超中间处理器225、逆FFT单元226、时间延迟单元228、减法单元230、前向FFT单元232、带通单元234、减法单元236、超侧处理器237、逆FFT单元240、时间延迟单元242和减法单元244。

前向快速傅里叶变换(FFT)单元220对中间分量109应用前向FFT,以将中间分量109转换到频域。频域中的转换后的中间分量109包括大小和相位。带通单元222对频域中间分量109应用带通滤波器,其中带通滤波器指定超中间分量M1中的频率。例如,为了隔离典型人类声乐范围,带通滤波器可以指定300到8000Hz之间的频率。在另一示例中,为了移除与典型人类声乐范围相关联的音频内容,带通滤波器可以保持超中间分量M1中的较低频率(例如,由低音吉他或鼓生成)和较高频率(例如,由钹生成)。在其他实施例中,除了和/或代替由带通单元222应用的带通滤波器,正交分量生成器模块223对频域中间分量109应用各种其他滤波器。在一些实施例中,正交分量生成器模块223不包括带通单元222并且不对频域中间分量109应用任何滤波器。在频域中,减法单元224从滤波后的中间分量中减去侧分量111以生成超中间分量M1。在其他实施例中,除了和/或代替由正交分量处理器模块(例如,图3的正交分量处理器模块)执行的应用于超中间分量M1的稍后处理,正交分量生成器模块223对频域超中间分量M1应用各种音频增强。超中间处理器225在超中间分量M1转换到时域之前在频域中对其执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超中间处理器225对超中间分量M1执行处理。逆FFT单元226对超中间分量M1应用逆FFT,以将超中间分量M1转换回时域。频域中的超中间分量M1包括M1的大小和中间分量109的相位,逆FFT单元226将其转换到时域。时间延迟单元228对中间分量109应用时间延迟,使得中间分量109和超中间分量M1同时到达减法单元230。减法单元230从时域中的时间延迟中间分量109中减去时域中的超中间分量M1,以生成残余中间分量M2。在该示例中,使用时域中的处理从中间分量109的频谱能量中移除超中间分量M1的频谱能量。

前向FFT单元232对侧分量111应用前向FFT,以将侧分量111转换到频域。频域中的转换后的侧分量111包括大小和相位。带通单元234对频域侧分量111应用带通滤波器。带通滤波器指定超侧分量S1中的频率。在其他实施例中,除了和/或代替带通滤波器,正交分量生成器模块223对频域侧分量111应用各种其他滤波器。在频域中,减法单元236从滤波后的侧分量111中减去中间分量109以生成超侧分量S1。在其他实施例中,除了和/或代替由正交分量处理器(例如,图3的正交分量处理器模块)执行的应用于超侧分量S1的稍后处理,正交分量生成器模块223对频域超侧分量S1应用各种音频增强。超侧处理器237在超侧分量S1转换到时域之前在频域中对其执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超侧处理器237对超侧分量S1执行处理。逆FFT单元240对频域中的超侧分量S1应用逆FFT,以生成时域中的超侧分量S1。频域中的超侧分量S1包括S1的大小和侧分量111的相位,逆FFT单元226将其转换到时域。时间延迟单元242对侧分量111进行时间延迟,使得侧分量111与超侧分量S1同时到达减法单元244。减法单元244随后从时域中的时间延迟的侧分量111中减去时域中的超侧分量S1,以生成残余侧分量S2。在该示例中,使用时域中的处理从侧分量111的频谱能量中移除超侧分量S1的频谱能量。

在一些实施例中,如果由这些组件执行的处理由正交分量处理器模块117执行,则可以省略超中间处理器225和超侧处理器237。

在图2C中,正交分量生成器模块245与正交分量生成器模块223的相似之处在于,它接收中间分量109和侧分量111并且生成超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2,不同之处在于,正交分量生成器模块245在频域中生成分量M1、M2、S1和S2中的每项,然后将这些分量转换到时域。正交分量生成器模块245包括前向FFT单元247、带通单元249、减法单元251、超中间处理器252、减法单元253、残余中间处理器254、逆FFT单元255、逆FFT单元257、前向FFT单元261、带通单元263、减法单元265、超侧处理器266、减法单元267、残余侧处理器268、逆FFT单元269和逆FFT单元271。

前向FFT单元247对中间分量109应用前向FFT,以将中间分量109转换到频域。频域中的转换后的中间分量109包括大小和相位。前向FFT单元261对侧分量111应用前向FFT,以将侧分量111转换到频域。频域中的转换后的侧分量111包括大小和相位。带通单元249对频域中间分量109应用带通滤波器,带通滤波器指定超中间分量M1的频率。在一些实施例中,除了和/或代替带通滤波器,正交分量生成器模块245对频域中间分量109应用各种其他滤波器。减法单元251从频域中间分量109中减去频域侧分量111,以生成频域中的超中间分量M1。超中间处理器252在超中间分量M1转换到时域之前在频域中对其执行处理。在一些实施例中,超中间处理器252执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超中间处理器252对超中间分量M1执行处理。逆FFT单元257对超中间分量M1应用逆FFT,以将其转换回时域。频域中的超中间分量M1包括M1的大小和中间分量109的相位,逆FFT单元257将其转换到时域。减法单元253在频域中从中间分量109中减去超中间分量M1以生成残余中间分量M2。残余中间处理器254在残余中间分量M2转换到时域之前在频域中对其执行处理。在一些实施例中,残余中间处理器254对残余中间分量M2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,残余中间处理器254对残余中间分量M2执行处理。逆FFT单元255应用逆FFT以将残余中间分量M2转换到时域。频域中的残余中间分量M2包括M2的大小和中间分量109的相位,逆FFT单元255将其转换到时域。

带通单元263对频域侧分量111应用带通滤波器。带通滤波器指定超侧分量S1中的频率。在其他实施例中,除了和/或代替带通滤波器,正交分量生成器模块245对频域侧分量111应用各种其他滤波器。在频域中,减法单元265从滤波后的侧分量111中减去中间分量109以生成超侧分量S1。超侧处理器266在超侧分量S1转换到时域之前在频域中对其执行处理。在一些实施例中,超侧处理器266对超侧分量S1执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,超侧处理器266对超侧分量S1执行处理。逆FFT单元271应用逆FFT以将超侧分量S1转换回时域。频域中的超侧分量S1包括S1的大小和侧分量111的相位,逆FFT单元271将其转换到时域。减法单元267在频域中从侧分量111中减去超侧分量S1,以生成残余侧分量S2。残余侧处理器268在残余侧分量S2转换到时域之前在频域中对其执行处理。在一些实施例中,残余侧处理器268对残余侧分量S2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替和/或除了可以由正交分量处理器模块117执行的处理,残余侧处理器268对残余侧分量S2执行处理。逆FFT单元269对残余侧分量S2应用逆FFT,以将其转换到时域。频域中的残余侧分量S2包括S2的大小和侧分量111的相位,逆FFT单元269将其转换到时域。

在一些实施例中,如果由超中间处理器252、超侧处理器266、残余中间处理器254或残余侧处理器268执行的处理由正交分量处理器模块117执行,则可以省略这些组件。

示例正交分量处理器

图3是根据一个或多个实施例的正交分量处理器模块317的框图。正交分量处理器模块317是正交分量处理器模块117的示例。正交分量处理器模块317可以包括子带空间处理和/或串扰补偿处理单元320、加法单元325和加法单元330。正交分量处理器模块317对超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2中的至少一项执行子带空间处理和/或串扰补偿处理。作为子带空间处理和/或串扰补偿处理320的结果,正交分量处理器模块317输出经处理的M1、经处理的M2、经处理的S1和经处理的S2中的至少一项。加法单元325将经处理的M1和经处理的M2相加以生成经处理的中间分量131,并且加法单元330将经处理的S1和经处理的S2相加以生成经处理的侧分量139。

在一些实施例中,正交分量处理器模块317在频域中对超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2中的至少一项执行子带空间处理和/或串扰补偿处理320,以在频域中生成经处理的中间分量131和经处理的侧分量139。正交分量生成器模块113可以将频域中的分量M1、M2、S1或S2提供给正交分量处理器,其中执行逆FFT。在生成经处理的中间分量131和经处理的侧分量139之后,正交分量处理器模块317可以对经处理的中间分量131和经处理的侧分量139执行逆FFT,以将这些分量转换回时域。在一些实施例中,正交分量处理器模块317对经处理的M1、经处理的M2、经处理的S1和经处理的S1执行逆FFT,以在时域中生成经处理的中间分量131和经处理的侧分量139。

正交分量处理器模块317的示例在图4和图5中示出。在一些实施例中,正交分量处理器模块317执行子带空间处理和串扰补偿处理。由正交分量处理器模块317执行的处理不限于子带空间处理或串扰补偿处理。使用中间/侧空间的任何类型的空间处理都可以由正交分量处理器模块317执行,诸如通过使用超中间分量代替中间分量或使用超侧分量代替侧分量。一些其他类型的处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、以及其他线性或非线性音频处理技术和效果,范围从合唱或镶边到基于机器学习的声乐或器乐风格转移、转换或重新合成等方法。

示例子带空间处理器

图4是根据一个或多个实施例的子带空间处理器模块410的框图。子带空间处理器模块410是正交分量处理器模块317的示例。子带空间处理器模块410包括中间EQ滤波器404(1)、中间EQ滤波器404(2)、中间EQ滤波器404(3)、中间EQ滤波器404(4)、侧EQ滤波器406(1)、侧EQ滤波器406(2)、侧EQ滤波器406(3)和侧EQ滤波器406(4)。在一些实施例中,除了和/或代替本文中描述的组件,子带空间处理器模块410包括其他组件。

子带空间处理器模块410接收非空间分量Y

子带空间处理器模块410接收非空间分量Y

子带空间处理器模块410还包括用于空间分量Y

非空间分量Y

在一些实施例中,子带空间处理器模块410将残余中间分量M2处理为非空间分量Y

在一些实施例中,子带空间处理器模块410处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的一项或多项。应用于这些分量中的每个的子带的滤波器可以不同。超中间分量M1和残余中间分量M2每个可以如针对非空间分量Y

示例串扰补偿处理器

图5是根据一个或多个实施例的串扰补偿处理器模块510的框图。串扰补偿处理器模块510是正交分量处理器模块317的示例。串扰补偿处理器模块510包括中间分量处理器520和侧分量处理器530。串扰补偿处理器模块510接收非空间分量Y

串扰补偿处理器模块510接收非空间分量Y

侧分量处理器530包括多个滤波器550,诸如m个侧滤波器550(a)、550(b)至550(m)。侧分量处理器530通过处理空间分量X

在一些实施例中,中间滤波器540和侧滤波器550可以包括具有由等式1限定的传递函数的双二阶滤波器:

其中z是复变量,a

其中X是输入向量,Y是输出。可以使用其他拓扑,具体取决于它们的最大字长和饱和行为。然后,可以使用双二阶实现具有实值输入和输出的二阶滤波器。为了设计离散时间滤波器,设计了一个连续时间滤波器,然后经由双线性变换将其变换为离散时间。此外,可以使用频率扭曲来补偿中心频率和带宽的最终偏移。

例如,峰值滤波器可以具有由等式3限定的S平面传递函数:

其中s是复变量,A是峰值的幅度,并且Q是滤波器“质量”,数字滤波器系数由下式限定:

b

b

b

a

其中ω

其中Δf是带宽并且f

在一些实施例中,串扰补偿处理器模块510处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的每个。应用于这些分量中的每个分量的滤波器可以不同。

示例串扰处理器

图6是根据一个或多个实施例的串扰模拟处理器模块600的框图。如关于图1所述,在一些实施例中,音频处理系统100包括串扰处理器模块141,串扰处理器模块141对经处理的左分量151和经处理的右分量159应用串扰处理。串扰处理包括例如串扰模拟和串扰消除。在一些实施例中,串扰处理器模块141包括串扰模拟处理器模块600。串扰模拟处理器模块600生成对侧声音分量以输出到立体声耳机,从而在耳机上提供类似扬声器的倾听体验。左输入声道X

串扰模拟处理器模块600包括左头影(left head shadow)低通滤波器602、左头影高通滤波器624、左串扰延迟604和左头影增益610以处理左输入声道X

类似地,对于右输入声道X

对左右声道中的每个应用头影低通滤波器、头影高通滤波器、串扰延迟和头影增益可以以不同顺序执行。

图7是根据一个或多个实施例的串扰消除处理器模块700的框图。串扰处理器模块141可以包括串扰消除处理器模块700。串扰消除处理器模块700接收左输入声道X

串扰消除处理器模块700包括带内外划分器710、反相器720和722、对侧估计器730和740、组合器750和752、以及带内外组合器760。这些组件一起操作以将输入声道T

通过将输入音频信号T划分成不同频带分量并且通过对选择性分量(例如,带内分量)执行串扰消除,可以针对特定频带执行串扰消除,同时避免其他频带中的劣化。如果在不将输入音频信号T划分为不同频带的情况下执行串扰消除,则经过这种串扰消除之后的音频信号在低频(例如,低于350Hz)、高频(例如,高于12000Hz),或这两者中表现出非空间和空间分量的显著衰减或放大。通过对绝大多数有影响的空间线索所在的带内(例如,在250Hz到14000Hz之间)执行串扰消除,可以在混合的整个频谱中保留平衡的整体能量,特别是在非空间分量中。

带内外划分器710将输入声道T

反相器720和对侧估计器730一起操作以生成左对侧消除分量S

在一种方法中,反相器720接收带内声道T

反相器722和对侧估计器740对带内声道T

在一个示例实现中,对侧估计器730包括滤波器732、放大器734和延迟单元736。滤波器732接收反相的输入声道T

G

其中D是延迟单元736和646在样本中的延迟量,例如,以48KHz的采样率。一个备选实现是低通滤波器,其中转角频率在5000到10000Hz之间选择,并且Q在0.5到1.0之间选择。此外,放大器734将提取的部分放大对应增益系数G

S

S

其中F[]是滤波器函数,D[]是延迟函数。

串扰消除的配置可以由扬声器参数确定。在一个示例中,滤波器中心频率、延迟量、放大器增益和滤波器增益可以根据两个扬声器之间相对于倾听者而形成的角度来确定。在一些实施例中,扬声器角度之间的值用于对其他值进行插值。

组合器750将右对侧消除分量S

因此,左输出声道O

正交分量空间处理

图8是根据一个或多个实施例的使用超中间、残余中间、超侧或残余侧分量中的至少一项进行空间处理的过程的流程图。空间处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果、合唱效果、镶边效果、基于机器学习的声乐或器乐风格转移、转换或重新合成等方法。可以执行该过程以向用户的设备提供空间增强的音频。该过程可以包括更少或更多的步骤,并且步骤可以以不同顺序执行。

音频处理系统(例如,音频处理系统100)接收810输入音频信号(例如,左输入声道103和右输入声道105)。在一些实施例中,输入音频信号可以是包括多个左右声道对的多声道音频信号。对于左右输入声道,可以如本文中讨论的那样处理每个左右声道对。

音频处理系统从输入音频信号生成820非空间中间分量(例如,中间分量109)和空间侧分量(例如,侧分量111)。在一些实施例中,L/R到M/S转换器(例如,L/R到M/S转换器模块107)执行输入音频信号到中间和侧分量的转换。

音频处理系统生成830超中间分量(例如,超中间分量M1)、超侧分量(例如,超侧分量S1)、残余中间分量(例如,残余中间分量M2)和残余侧分量(例如,残余侧分量S2)中的至少一项。音频处理系统可以生成以上列出的分量中的至少一个分量和/或所有分量。超中间分量包括从中间分量的频谱能量中移除侧分量的频谱能量。残余中间分量包括从中间分量的频谱能量中移除超中间分量的频谱能量。超侧分量包括从侧分量的频谱能量中移除中间分量的频谱能量。残余侧分量包括从侧分量的频谱能量中移除超侧分量的频谱能量。用于生成M1、M2、S1或S2的处理可以在频域或时域中执行。

音频处理系统对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项进行滤波840以增强音频信号。滤波可以包括空间提示处理,诸如通过调节超中间分量、残余中间分量、超侧分量或残余侧分量的频率相关幅度或频率相关延迟。空间提示处理的一些示例包括基于幅度或延迟的平移或双耳处理。

滤波可以包括动态范围处理,诸如压缩或限制。例如,当超过用于压缩的阈值水平时,可以根据压缩比压缩超中间分量、残余中间分量、超侧分量或残余侧分量。在另一示例中,当超过用于限制的阈值水平时,可以将超中间分量、残余中间分量、超侧分量或残余侧分量限制为最大水平。

滤波可以包括对超中间分量、残余中间分量、超侧分量或残余侧分量的基于机器学习的改变。一些示例包括基于机器学习的声乐或器乐风格转移、转换或重新合成。

超中间分量、残余中间分量、超侧分量或残余侧分量的滤波可以包括增益应用、混响、以及其他线性或非线性音频处理技术和效果(合唱和/或镶边)或其他类型的处理。在一些实施例中,滤波可以包括用于子带空间处理和串扰补偿的滤波,如下面结合图9更详细讨论的。

滤波可以在频域或时域中执行。在一些实施例中,将中间分量和侧分量从时域转换到频域,在频域中生成超和/或残余分量,在频域中执行滤波,并且将滤波后的分量转换到时域。在其他实施例中,将超和/或残余分量转换到时域,并且在时域中对这些分量执行滤波。

音频处理系统使用滤波后的超/残余分量中的一个或多个分量生成850左输出声道(例如,左输出声道121)和右输出声道(例如,右输出声道123)。例如,从M/S到L/R的转换可以使用从滤波后的超中间分量、滤波后的残余中间分量、滤波后的超侧分量或滤波后的残余侧分量中的至少一项生成的中间分量(例如,经处理的中间分量131)或侧分量(例如,经处理的侧分量139)来执行。在另一示例中,滤波后的超中间分量或滤波后的残余中间分量可以用作M/S到L/R转换的中间分量,或者滤波后的超侧分量或残余侧分量可以用作M/S到L/R转换的侧分量。

正交分量子带空间和串扰处理

图9是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一项进行子带空间处理和串扰补偿处理的过程的流程图。串扰处理可以包括串扰消除或串扰模拟。可以执行子带空间处理以提供具有增强的空间可检测性的音频内容,诸如通过创建声音从大区域而不是与扬声器位置相对应的空间中的特定点定向到倾听者的感觉(例如,声场增强),从而为倾听者带来更身临其境的倾听体验。串扰模拟可以用于耳机的音频输出,以模拟具有对侧串扰的扬声器体验。串扰消除可以用于到扬声器的音频输出,以消除串扰干扰的影响。串扰补偿可以补偿由串扰消除或串扰模拟引起的频谱缺陷。该过程可以包括更少或更多的步骤,并且步骤可以以不同顺序执行。可以出于不同目的以不同方式操纵超和残余中间/侧分量。例如,在串扰补偿的情况下,有针对性的子带滤波可以仅应用于超中间分量M1(很多电影内容中的大部分声乐对话能量发生在该处),以努力消除仅该分量中的串扰处理产生的频谱伪影。在具有或不具有串扰处理的声场增强的情况下,可以将有针对性的子带增益应用于残余中间分量M2和残余侧分量S2。例如,可以衰减残余中间分量M2,并且可以反向放大残余侧分量S2,以从增益的角度增加这些分量之间的距离(如果做得好,可以增加空间可检测性),而不会产生最终L/R信号中的感知响度的剧烈的整体变化,同时还避免了超中间M1分量的衰减(例如,信号中通常包含大部分声乐能量的部分)。

音频处理系统接收910输入音频信号,输入音频信号包括左声道和右声道。在一些实施例中,输入音频信号可以是包括多个左右声道对的多声道音频信号。对于左右输入声道,可以如本文中讨论的那样处理每个左右声道对。

音频处理系统对接收的输入音频信号应用920串扰处理。串扰处理包括串扰模拟和串扰消除中的至少一项。

在步骤930到960中,音频处理系统使用超中间、超侧、残余中间或残余侧分量中的一项或多项来执行子带空间处理和串扰处理的串扰补偿。在一些实施例中,串扰处理可以在步骤930到960中的处理之后执行。

音频处理系统从(例如,经串扰处理的)音频信号生成930中间分量和侧分量。

音频处理系统生成940超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项。音频处理系统可以生成以上列出的分量中的至少一个和/或所有分量。

音频处理系统对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项的子带进行滤波950,以对音频信号应用子带空间处理。每个子带可以包括一定范围的频率,诸如可以由一组临界频带限定。在一些实施例中,子带空间处理还包括对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项的子带进行时间延迟。

音频处理系统对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一项进行滤波960,以补偿来自输入音频信号的串扰处理的频谱缺陷。频谱缺陷可以包括作为串扰处理的伪影而出现的超过预定阈值(例如,10dB)的超中间分量、残余中间分量、超侧分量或残余侧分量的频率响应图中的峰或谷。频谱缺陷可以是估计的频谱缺陷。

在一些实施例中,步骤950中用于子带空间处理的频谱正交分量的滤波和步骤960中的串扰补偿可以被集成到针对为滤波而选择的每个频谱正交分量的单个滤波操作中。

在一些实施例中,用于子带空间处理或串扰补偿的超/残余中间/侧分量的滤波可以结合用于其他目的的滤波来执行,诸如增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果,范围从合唱和/或镶边、基于机器学习的声乐或乐器风格转移、转换或重新合成等方法、或者使用超中间分量、残余中间分量、超侧分量和残余侧分量中的任何一项的其他类型的处理。

滤波可以在频域或时域中执行。在一些实施例中,将中间分量和侧分量从时域转换到频域,在频域中生成超和/或残余分量,在频域中执行滤波,并且将滤波后的分量转换到时域。在其他实施例中,将超和/或残余分量转换到时域,并且在时域中对这些分量执行滤波。

音频处理系统从滤波后的超中间分量生成970左输出声道和右输出声道。在一些实施例中,左输出声道和右输出声道另外基于滤波后的残余中间分量、滤波后的超侧分量和滤波后的残留侧分量中的至少一项。

示例正交分量音频处理

图10-图19是描绘根据一个或多个实施例的示例白噪声信号的中间分量和侧分量的频谱能量的图。

图10示出了平移到最左(hard left)的白噪声信号1000的图。使用恒定功率正弦/余弦平移定律将左右白噪声信号转换为中间分量1005和侧分量1010并且平移到最左。当白噪声信号平移到最左1000时,位于左右扬声器对之间的用户将感知到声音出现在左扬声器处和/或周围。可以使用L/R到M/S转换器模块107将白噪声信号(拆分为白噪声信号的左输入声道和右输入声道)转换为中间分量1005和侧分量1010。如图10所示,当白噪声信号平移到最左1000时,中间分量1005和侧分量1010具有大致相等的能量。类似地,当白噪声信号平移到最右时(图10中未示出),中间分量和侧分量将具有大致相等的能量。

图11示出了平移到中左的白噪声信号1100的图。当使用常见的恒定功率正弦/余弦平移定律将白噪声信号平移到中左1100时,位于左右扬声器对之间的用户将感知到声音出现在用户前面与左扬声器之间的中间。图11描绘了平移到中左的白噪声信号1100的中间分量1105和侧分量1110、以及平移到最左的白噪声信号1000。与平移到最左的白噪声信号1000相比,中间分量1105增加约3dB,而侧分量1110减少约6dB。当白噪声信号平移到中右时,中间分量1105和侧分量1110将具有与图11所示相似的能量。

图12示出了平移到中心的白噪声信号1200的图。当使用常见的恒定功率正弦/余弦平移定律将白噪声信号平移到中心1200时,位于左右扬声器对之间的用户将感知到声音出现在用户面前(例如,在左右扬声器之间)。如图12所示,平移到中心的白噪声信号1200仅具有中间分量1205。

从图10、图11和图12中的上述示例,可以看出,尽管对于如图12所示的平移到中心的声音,中间分量包含信号中的唯一能量(即,左右声道相同),在原始L/R流中的声音通常被感知为偏离中心的情况下,如图10和图11所示(即,中心向左右平移的声音),也存在中间分量能量。

值得注意的是,表示绝大多数L/R音频用例的上述三个场景不包括侧包含唯一能量的场景。仅当左右声道相差180度(即,符号反相)时才会出现这种情况,这在用于音乐和娱乐的双声道音频中是罕见的。因此,虽然中间分量在几乎所有双声道左/右音频流中无处不在,并且还包括平移到中心内容中的唯一能量,但侧分量存在于除平移到中心内容之外的所有内容中,而且很少(如果有的话)作为信号中的唯一能量。

正交分量处理隔离中间分量和侧分量的、在频谱上彼此“正交”的部分并且对其进行操作。也就是说,使用正交分量处理,可以隔离仅与存在于声场中心的能量相对应的中间分量的一部分(即,超中间分量),同样可以隔离仅与不存在于声场中心的能量相对应的侧分量的一部分(即,超侧分量)。从概念上讲,超中音分量是与在声场中心处感知到的细声柱相对应的能量,扬声器和耳机都是如此。此外,使用简单的标量,可以控制该柱的“细”的程度,以提供从超中间到中间以及从超侧到侧的插值空间。此外,作为导出我们的超中间/侧分量信号的副产品,还可以对残余信号(例如,残余中间和侧分量)进行操作,该残余信号与超中间/超侧分量一起组合以形成原始完整的中间和侧分量。中间和侧的这四个子分量中的每个可以通过各种操作方式独立处理,从简单的增益分级到多频带均衡器,再到自定义和特殊效果。

图13至图19示出了白噪声信号的正交分量处理。图13示出了平移到中心并且在20到100Hz之间带通的白噪声信号1305(例如,使用8阶巴特沃斯滤波器)以及平移到最左并且在5000到10000Hz之间带通的白噪声信号1310(例如,使用8阶巴特沃斯滤波器)的图,并且没有正交分量处理。该图描绘了平移的白噪声信号1305和1310中的每个的中间分量1315和侧分量1320。平移到中心的白噪声信号1305仅在其中间分量1315中具有能量,而平移到最左的白噪声信号在其中间分量1315和侧分量1320中具有相等量的能量。这类似于图10和图12所示的结果。

图14示出了图13的平移白噪声信号1305和1310,其中侧分量1320的能量被移除。平移到中心的低频带白噪声信号1305没有改变。平移到最左的高频带白噪声信号1310现在具有零侧能量,而由中间分量1315表示的能量的一部分仍然存在。即使移除了侧向能量,中间信号中仍然存在非平移到中心的能量,如信号1310所示。

图15示出了使用正交分量处理1500的图13的平移的白噪声信号。具体地,正交分量处理用于隔离超中间分量1510并且移除音频信号的其他能量。这里,平移到最左的信号被移除,只剩下平移到中间的信号1500。这表明,超中间分量1510仅隔离信号中的、占据声场的最中心的能量,并且没有其他任何东西。

因为可以隔离音频信号的超中间分量,所以音频信号可以被操纵以控制原始信号的哪些元素最终出现在各种M1/M2/S1/S2分量中。这种预处理操作的范围可以从简单的幅度和延迟调节到更复杂的滤波技术。然后可以随后反相这些预处理操作以恢复原始声场。

图16示出了使用正交分量处理1600的图13的平移的白噪声信号的另一实施例。L/R音频信号以如下方式被旋转,该方式使得将平移到最左的高频带白噪声(例如,如图13中的信号1310所示)置于声场中心并且将平移到中心的低频带噪声(例如,如图13中的信号1305所示)移离中心。然后可以通过隔离旋转后的L/R信号的超中间分量1610来提取最初平移到最左的并且在5000到10000Hz之间带通的白噪声信号1600并且对其进行进一步处理。

图17示出了去相关白噪声信号1700。输入白噪声信号1700可以是包括右声道分量1710、左声道分量1720的两声道正交白噪声信号。该图还示出了从白噪声信号生成的中间分量1730和侧分量1740。左声道分量1720的频谱能量与右声道分量1710的频谱能量相匹配,中间分量1730的频谱能量与侧分量1740的频谱能量相匹配。与右声道分量1710和左声道分量1720相比,中间分量1730和侧分量1740的信号电平大约低3dB。

图18示出了被分解为超中间分量1810和残余中间分量1820的中间分量1730。中间分量1730表示声场中的输入音频信号的非空间信息。超中间分量1810包括直接在声场中心发现的非空间信息的子分量;残余中间分量1820是残余非空间信息。在典型立体声音频信号中,超中间分量1810可以包括音频信号的关键特征,诸如对话或声乐。在图18中,残余中间分量1820比中间分量1730低大约3dB,而超中间分量1810比中间分量1730低大约8-9dB。

图19示出了被分解为超侧分量1910和残余侧分量1920的侧分量1740。侧分量1740表示声场中的输入音频信号中的空间信息。超侧分量1910包括在声场边缘发现的空间信息的子分量;残余侧分量1920是残余空间信息。在典型立体声音频信号中,残余侧分量1920包括由处理产生的关键特征,诸如双耳处理的效果、平移技术、混响和/或去相关处理。如图19所示,侧分量1740、超侧分量1910与残余侧分量1920之间的关系类似于中间分量1730、超中间分量1810和残余侧分量1820的关系。

计算机架构

图20是根据一个或多个实施例的计算机系统2000的框图。计算机系统2000是实现音频处理系统的电路装置的示例。示出了耦合到芯片组2004的至少一个处理器2002。芯片组2004包括存储器控制器集线器2020和输入/输出(I/O)控制器集线器2022。存储器2006和图形适配器2012耦合到存储器控制器集线器2020,并且显示设备2018耦合到图形适配器2012。存储设备1008、键盘2010、定点设备2014和网络适配器2016耦合到I/O控制器集线器2022。计算机系统2000可以包括各种类型的输入或输出设备。计算机系统2000的其他实施例具有不同架构。例如,在一些实施例中,存储器2006直接耦合到处理器2002。

存储设备2008包括一个或多个非暂态计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器2006保存由处理器2002使用的程序代码(由一个或多个指令组成)和数据。程序代码可以对应于结合图1-图19描述的处理方面。

定点设备2014与键盘2010结合使用以将数据输入计算机系统2000。图形适配器2012在显示设备2018上显示图像和其他信息。在一些实施例中,显示设备2018包括用于接收用户输入和选择的触摸屏幕能力。网络适配器2016将计算机系统2000耦合到网络。计算机系统2000的一些实施例具有与图20中所示的组件不同和/或其他的组件。

电路装置可以包括一个或多个处理器,该处理器执行存储在非暂态计算机可读中的程序代码,该程序代码在由一个或多个处理器执行时将一个或多个处理器配置为实现音频处理系统或音频处理系统的模块。实现音频处理系统或音频处理系统的模块的电路装置的其他示例可以包括集成电路装置,诸如专用集成电路装置(ASIC)、现场可编程门阵列(FPGA)或其他类型的计算机电路装置。

附加注意事项

所公开的配置的示例好处和优点包括因为增强的音频系统适应设备和相关联的音频渲染系统而产生的动态音频增强、以及设备OS提供的其他相关信息,诸如用例信息(例如,表明音频信号用于音乐播放而不是游戏)。增强的音频系统可以集成到设备中(例如,使用软件开发工具包)或存储在远程服务器上以便按需访问。以这种方式,设备不需要将存储或处理资源用于维护特定于其音频渲染系统或音频渲染配置的音频增强系统。在一些实施例中,增强的音频系统能够对渲染系统信息进行不同级别的查询,从而可以跨不同级别的可用设备特定渲染信息来应用有效的音频增强。

贯穿本说明书,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的个体操作被图示和描述为单独的操作,但是一个或多个个体操作可以同时执行,并且没有什么要求这些操作以所示的顺序执行。在示例配置中呈现为单独组件的结构和功能可以实现为组合结构或组件。类似地,呈现为单个组件的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进落入本文中的主题的范围内。

本文中将某些实施例描述为包括逻辑或多个组件、模块或机制。模块可以构成软件模块(例如,包含在机器可读介质上或在传输信号中的代码)或硬件模块。硬件模块是能够执行某些操作的有形单元,并且可以以某种方式配置或布置。在示例实施例中,一个或多个计算机系统(例如,独立的客户端或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用或应用部分)配置为用于执行本文所述的某些操作的硬件模块。

本文中描述的示例方法的各种操作可以至少部分由一个或多个处理器执行,这些处理器被临时配置(例如,通过软件)或永久配置为执行相关操作。无论是临时配置的还是永久配置的,这样的处理器都可以构成处理器实现的模块,这些模块用于执行一个或多个操作或功能。在一些示例实施例中,本文中提到的模块可以包括处理器实现的模块。

类似地,本文中描述的方法可以至少部分由处理器实现。例如,一种方法的操作中的至少一些可以由一个或多个处理器或处理器实现的硬件模块来执行。某些操作的执行可以分布在一个或多个处理器之间,不仅驻留在单个机器内,而且部署在多个机器上。在一些示例实施例中,一个或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境中或作为服务器群),而在其他实施例中,处理器可以分布在多个位置。

除非另有明确说明,否则本文中使用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“呈现”、“显示”等词语的讨论可以指代机器(例如,计算机)的动作或过程,该动作或过程操纵或变换在一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器、或接收、存储、传输或显示信息的其他机器组件内表示为物理(电子、磁性或光学)量的数据。

如本文中使用的,对“一个实施例”或“实施例”的任何提及表示结合该实施例描述的特定元素、特征、结构或特性被包括在至少一个实施例中。在说明书的各个地方出现的短语“在一个实施例中”不一定都是指同一实施例。

一些实施例可以使用表述“耦合”和“连接”连同它们的派生词来描述。应当理解,这些术语不旨在作为彼此的同义词。例如,可以使用术语“连接”来描述一些实施例以指示两个或更多个元件彼此直接物理或电接触。在另一示例中,可以使用术语“耦合”来描述一些实施例以指示两个或更多个元件直接物理或电接触。然而,术语“耦合”也可以表示两个或更多个元件彼此不直接接触,但仍彼此合作或相互作用。实施例不限于此上下文。

如本文中使用的,术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其他变体旨在涵盖非排他性包括。例如,包括元素列表的过程、方法、物品或设备不一定仅限于那些元素,而是可以包括未明确列出的或这样的过程、方法、物品或设备固有的其他元素。此外,除非有明确的相反说明,否则“或”是指包括性的或,而不是排他性的或。例如,以下中的任何一项满足条件A或B:A为真(或存在)并且B为假(或不存在),A为假(或不存在)并且B为真(或存在),A和B都为真(或存在)。

此外,使用“一个(a)”或“一个(an)”来描述本文中的实施例的元素和组件。这样做仅仅是为了方便并且给出本发明的一般意义。该描述应当理解为包括一个或至少一个,并且单数也包括复数,除非很明显它另有含义。

本说明书的一些部分根据算法和对信息的操作的符号表示来描述实施例。这些算法描述和表示通常被数据处理领域的技术人员用来将他们工作的实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行了描述,但被理解为由计算机程序或等效电路装置、微代码等来实现。此外,在不失一般性的情况下,有时将这些操作布置称为模块也被证明是方便的。所描述的操作及其相关模块可以体现在软件、固件、硬件或其任何组合中。

本文中描述的任何步骤、操作或过程可以单独或与其他设备结合使用一个或多个硬件或软件模块来执行或实现。在一个实施例中,软件模块用计算机程序产品实现,该计算机程序产品包括包含计算机程序代码的计算机可读介质,该计算机程序代码可以由计算机处理器执行以执行任何或所有描述的步骤、操作或过程。

实施例还可以涉及用于执行本文中的操作的装置。该装置可以为所需要的目的而专门构造,和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非暂态的有形的计算机可读存储介质中,或者在用于存储电子指令的任何类型的适合介质中,介质可以耦合到计算机系统总线。此外,本说明书中提及的任何计算系统可以包括单个处理器,或者可以是采用多个处理器设计以增加计算能力的架构。

实施例还可以涉及由本文中描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中该信息存储在非暂态的有形的计算机可读存储介质上并且可以包括计算机程序产品的任何实施例或本文中描述的其他数据组合。

在阅读本公开内容之后,本领域技术人员将理解用于通过本文中公开的原理使用设备特定元数据进行音频增强的系统和过程的另外的备选结构和功能设计。因此,虽然已经说明和描述了特定实施例和应用,但是应当理解,所公开的实施例不限于本文中公开的精确构造和组件。在不背离所附权利要求限定的精神和范围的情况下,可以对本文中公开的方法和装置的布置、操作和细节做出本领域技术人员很清楚的各种修改、改变和变化。

最后,说明书中使用的语言主要是为了可读性和指导目的而选择的,而不是为了描述或限制专利权而选择的。因此,意图在于,专利权的范围不受该详细描述的限制,而是受在基于此的申请上发布的任何权利要求限制。因此,实施例的公开旨在说明而非限制在所附权利要求中阐述的专利权的范围。

技术分类

06120114711635