掌桥专利:专业的专利平台
掌桥专利
首页

用于重合立体声捕获的声道间时差(ITD)估计器的提高的稳定性

文献发布时间:2024-04-18 19:59:31


用于重合立体声捕获的声道间时差(ITD)估计器的提高的稳定性

技术领域

本公开一般地涉及通信,并且更具体地,涉及支持音频编码和解码的方法以及相关的编码器和解码器。

背景技术

空间或3D音频是表示各种多声道音频信号的通用表述。取决于捕获和呈现方法,音频场景由空间音频格式表示。由捕获方法(麦克风)定义的典型空间音频格式例如被表示为立体声、双耳、立体混响等。空间音频呈现系统(耳机或扬声器)能够使用立体声(左声道和右声道2.0)或更高级的多声道音频信号(2.1、5.1、7.1等)来呈现空间音频场景。

用于传输和操纵这种音频信号的最新技术允许最终用户具有空间质量更高的增强音频体验,这通常导致更好的可懂度以及增强现实。空间音频编码技术(例如MPEGSurround或MPEG-H 3D Audio)生成空间音频信号的紧凑表示,其与数据速率约束应用(例如通过互联网的流式发送)兼容。但是,当数据速率约束较强时,空间音频信号的传输受到限制,并且因此解码后的音频声道的后处理也被用于增强空间音频播放。常用的技术例如能够将解码后的单声道或立体声信号盲目上混成多声道音频(5.1声道或更多声道)。

为了有效地呈现空间音频场景,空间音频编码和处理技术利用多声道音频信号的空间特性。特别地,空间音频捕获的声道之间的时差和声级差被用于近似表征我们在空间中对定向声音的感知的耳间线索。因为声道间时差和声级差仅是听觉系统能够检测到的内容的近似(即,耳朵入口的耳间时差和声级差),所以声道间时差从感知方面相关是非常重要的。声道间时差和声级差(ICTD和ICLD)通常被用于对多声道音频信号的定向分量进行建模,而声道间互相关性(ICC)(其对耳间互相关性(IACC)进行建模)被用于表征音频图像的宽度。特别是对于低频,立体声图像也可以使用声道间相位差(ICPD)来建模。

注意,与空间听觉感知相关的双耳线索被称为耳间声级差(ILD)、耳间时差(ITD)以及耳间相干性或相关性(IC或IACC)。当考虑一般多声道信号时,与声道相关的对应线索是声道间声级差(ICLD)、声道间时差(ICTD)以及声道间相干性或相关性(ICC)。因为空间音频处理主要在所捕获的音频声道上进行操作,所以有时省略“C”,并且当提及音频声道时还使用术语ITD、ILD和IC。

图1示出了采用参数空间音频分析的常规设置。立体声信号对被输入到立体声编码器110。空间分析器112辅助下混频器114,下混频器114产生两个输入声道的单个声道表示。下混频过程旨在补偿声道在时间、相关性和相位上的差异,从而最大化下混频信号的能量。这实现了对立体声信号的有效编码。下混频后的信号被转发到下混频编码器116。来自空间分析的参数由参数编码器118编码,并且与编码后的下混频一起被发送到解码器。通常,一些立体声参数以感知频率标度(例如等效矩形带宽(ERB)标度)上的频谱子带来表示。立体声解码器120基于来自下混频解码器124的信号和来自参数解码器122的参数,在空间合成器126中执行立体声合成。立体声合成操作旨在恢复声道在时间、声级、相关性和相位上的差异,从而产生类似于所输入的音频信号的立体声图像。

因为编码后的参数被用于针对人类听觉系统呈现空间音频,所以可以借助感知考虑对声道间参数进行提取和编码以最大化感知质量。

立体声和多声道音频信号是可能难以建模的复杂信号,尤其是当环境嘈杂或混响时,或者是当混合声中的各种音频分量在时间和频率上重叠时,即,嘈杂的语音、音乐中的语音或同时说话者等。

当涉及估计ICTD时,常规参数方法依赖于互相关函数(CCF)r

r

其中τ是时滞参数,E[·]是期望算子。对于长度为N的信号帧,互相关性通常被估计为:

通常,ICC被获得为CCF的最大值,其根据以下公式通过信号能量被规范化:

对应于ICC的时滞τ被确定为声道x与y之间的ICTD。CCF还可以使用离散傅立叶变换被计算为:

r

其中X[k]是时域信号x[n]的离散傅立叶变换(DFT),Y

并且DFT

对于y(n)纯粹是x(n)的延迟版本的情况,互相关函数由以下公式提供

其中*表示卷积,δ(τ-τ

r

然后,这些增量函数可能扩展到彼此中,并且使得识别信号帧内的多个延迟变得困难。但是,广义互相关(GCC)函数没有这种扩展。GCC通常被定义为:

其中ψ[k]是频率加权。对于空间音频,相位变换(PHAT)因其在低噪声环境中对混响的稳健性而已得到了应用。相位变换基本上是每个频率系数的绝对值,即:

由此,这种加权将使交叉频谱(cross-spectrum)变白,以使得每个分量的功率变得相等。在信号x[n]和y[n]中具有纯延迟和不相关噪声的情况下,相位变换后的GCC(GCC-PHAT)恰好变成克罗内克增量函数δ(τ-τ

图2示出了纯延迟情况下具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性。

在分析所记录的立体声信号的真实场景中,声道不只是在延迟方面不同,而是例如将具有不同的噪声、麦克风和记录设备的频率响应的变化、以及可能具有不同的混响模式。在这种情况下,通常通过查找GCC-PHAT的最大值来找到时滞τ。在这种情况下,分析还可能显示帧与帧之间的变化。这是短期傅立叶分析中的典型特性,但也是因为源信号的级别和频谱含量可能变化,例如对于语音记录是这种情况。为此,在时滞的最终分析中应用稳定化是有益的。这可以通过以下方式实现:当信号能量相对于背景噪声低时,减慢或阻止时滞的更新。

在美国申请公开号2020/0194013A1中,通过应用GCC-PHAT的自适应低通滤波器来稳定ITD选择。通过对连续帧的互相关性进行自适应滤波,对互相关性应用低通滤波。低通滤波器还被应用于互相关性的时域表示。对于估计信噪比(SNR)高的干净信号,使用更高程度的低通滤波。

美国申请公开号US20200211575A1描述了一种根据SNR估计来重用先前存储的ITD值的方法,从而获得随时间更稳定的ITD参数。

立体声记录中的声道之间的时滞来自于麦克风之间的物理距离。如图3所示,AB麦克风配置通常在麦克风之间具有相对大的距离,约为1-1.5米。因此,取决于所捕获的音频源的位置,使用AB配置的记录通常在声道之间具有时间延迟。一些麦克风配置(例如XY和MS)尝试将麦克风膜片定位为尽可能靠近彼此,即,所谓的重合麦克风配置。这些重合麦克风配置通常在声道之间具有非常小或为零的时间延迟。XY配置主要通过声级差来捕获立体声图像。MS设置(Mid-Side(中侧)的缩写)具有定向到前方的中声道以及带有八字形拾音模式的麦克风,以捕获侧声道中的环境。使用以下关系将中侧表示转换成左-右表示:

其中侧声道S以相反的符号被添加到左声道和右声道。更一般地说,可以通过将两个或更多个单声道信号转换成立体声表示来获得立体声表示,其中信号之间的时差(其与捕获的物理距离相关)应当很小。合适的捕获技术的另一个示例是使用四面体麦克风,其具有四个间隔紧密的心形,可以从中形成立体表示。

发明内容

对于MS重合麦克风配置(以下称为“重合配置”,并且缩写为“CC”),理想情况下时滞应当始终接近零。但是,由于混响和噪声,可能检测到偶尔的时滞。如果在立体声或多声道音频编码器的上下文中对时滞进行编码,则由错误地检测到的滞后引起的时滞中的突然跳变可能给出重构音频信号的音源位置不稳定的印象。此外,错误或不稳定的时滞将对下混频信号产生负面影响,下混频信号可能由于这些错误而展现出不稳定的能量。

即使按照US20200194013A1中的建议对GCC-PHAT进行低通滤波,也可能在CC信号中检测到错误的ITD。如US20200211575A1中概述的重用先前存储的ITD值的能力不能防止CC信号中的错误的ITD估计。事实上,所添加的稳定化可能使错误决策持续更长时间。

本公开的某些方面及其实施例能够提供这些或其他挑战的解决方案。本文描述的本发明概念的各种实施例检测例如MS麦克风配置的重合配置。如果检测到这种配置(例如MS麦克风配置),则可以适配时滞检测,以使得偏向更接近零的时滞。

根据本发明概念的一些实施例,提供了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法。所述方法包括:对于多声道音频信号的每个帧m,生成所述多声道音频信号的声道对的互相关性。所述方法包括:基于所述互相关性,确定第一ITD估计。所述方法包括:确定所述多声道音频信号是否是CC信号。所述方法包括:响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置为偏向接近零的ITD以获得最终ITD。

在本发明概念的其他实施例中提供了类似的装置、计算机程序和计算机程序产品。

可以实现的优点使得能够稳定时滞或ITD检测,这提高了重合配置(例如来自MS配置)的立体声信号的重构音频的编码质量和稳定性。稳定时滞或ITD检测提高了重合配置(例如来自MS配置)的立体声信号的重构音频的编码质量和稳定性。

配置检测可以基于GCC-PHAT频谱,该频谱已经被计算以估计时滞,与基线系统相比,仅需非常小的计算开销。

附图说明

被包括以提供对本公开的进一步理解并且被结合在本申请中并构成本申请的一部分的附图示出了本发明概念的某些非限制性实施例。在附图中:

图1是示出立体声编码器和解码器系统的框图;

图2是具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性的图示;

图3是麦克风配置及其捕获模式的图示;

图4是对于CC信号可能出现的反对称形式的图示;

图5是根据本发明概念的一些实施例的用于强调接近零的ITD的示例性屏蔽的图示;

图6是示出根据本发明概念的一些实施例的用于识别CC信号并且适配ITD搜索的操作的流程图;

图7是示出根据本发明概念的一些实施例的编码器/解码器装置识别CC信号并且适配ITD搜索的操作的框图;

图8是示出根据本发明概念的一些实施例的用于识别MS配置信号并且适配ITD搜索的操作的流程图;

图9是示出根据本发明概念的一些实施例的编码器/解码器装置识别MS配置信号并且适配ITD搜索的操作的框图;

图10是示出根据本发明概念的一些实施例的编码器和/或解码器可以在其中操作的示例性环境的框图;

图11是根据一些实施例的虚拟化环境的框图;

图12是示出根据本发明概念的一些实施例的编码器的框图;

图13是示出根据本发明概念的一些实施例的解码器的框图;以及

图14-15是示出根据本发明概念的一些实施例的编码器或解码器的操作的流程图。

具体实施方式

现在将参考附图更全面地描述本文中设想的一些实施例。通过示例的方式来提供实施例以将主题的范围传达给本领域技术人员,其中示出了本发明概念的实施例的示例。但是,本发明概念可以以多种不同的形式体现,并且不应被解释为限于本文阐述的实施例。相反,提供这些实施例以使得本公开详尽并完整,并且将本发明概念的范围完全传达给本领域技术人员。还应当注意,这些实施例并不相互排斥。来自一个实施例的组件可以默认为在另一个实施例中存在/使用。

在进一步详细描述实施例之前,图10示出了可以被用于对本文所述的位流进行编码的编码器110的操作环境的示例。编码器110从网络1002和/或从存储装置1004接收音频,将音频编码为如下所述的位流,以及经由网络1008将经编码的音频发送到解码器120。存储设备1004可以是多声道音频信号的存储库(例如商店或流音频服务的存储库)的一部分、单独的存储组件、移动设备的组件等。解码器120可以是具有媒体播放器1012的设备1010的一部分。设备1010可以是移动设备、机顶盒设备、台式计算机等。

图11是示出其中可以虚拟化由一些实施例实现的功能的虚拟化环境1100的框图。在当前上下文中,虚拟化意味着创建装置或设备的虚拟版本,其可以包括虚拟化硬件平台、存储设备和联网资源。如本文所使用的,虚拟化可以被应用于本文描述的任何设备或其组件,并且涉及一种实现,其中至少一部分功能被实现为一个或多个虚拟组件。本文描述的一些或所有功能可以被实现为由在由一个或多个硬件节点(例如作为网络节点、UE、核心网络节点或主机操作的硬件计算设备)托管的一个或多个虚拟环境1100中实现的一个或多个虚拟机(VM)执行的虚拟组件。此外,在其中虚拟节点不需要无线电连接(例如核心网络节点或主机)的实施例中,节点可以被完全虚拟化。

应用1102(其可以替代地被称为软件实例、虚拟设备、网络功能、虚拟节点、虚拟网络功能等)在虚拟化环境1100中运行,以实现本文公开的一些实施例的一些特征、功能和/或益处。

硬件1104包括处理电路、存储能够由硬件处理电路执行的软件和/或指令的存储器、和/或如本文所述的其他硬件设备,例如网络接口、输入/输出接口等。软件可以由处理电路执行以实例化一个或多个虚拟化层1106(也称为系统管理程序或虚拟机监视器(VMM)),提供VM 1108A和1108B(其中一个或多个通常可以被称为VM 1108),和/或执行结合本文描述的一些实施例而描述的任何功能、特征和/或益处。虚拟化层1106可以向VM 1108呈现看起来像联网硬件的虚拟操作平台。

VM 1108包括虚拟处理、虚拟存储器、虚拟联网或接口以及虚拟存储装置,并且可以由对应的虚拟化层1106运行。虚拟设备1102的实例的不同实施例可以在一个或多个VM1108上实现,并且可以以不同的方式来实现。在一些上下文中,硬件的虚拟化被称为网络功能虚拟化(NFV)。NFV可以被用于将许多网络设备类型整合到可以位于数据中心和客户驻地设备中的行业标准的大容量服务器硬件、物理交换机和物理存储装置上。

在NFV的上下文中,VM 1108可以是物理机的软件实现,该软件实现运行程序就好像程序是在物理的非虚拟机器上执行一样。每个VM 1108以及硬件1104的执行该VM的部分(专用于该VM的硬件和/或该VM与其他VM共享的硬件)形成单独的虚拟网元。仍然在NFV的上下文中,虚拟网络功能负责处理在硬件1104之上的一个或多个VM 1108中运行的特定网络功能,并且对应于应用1102。

硬件1104可以在具有通用或特定组件的独立网络节点中被实现。硬件1104可以经由虚拟化来实现一些功能。替代地,硬件1104可以是较大的硬件群集(例如诸如在数据中心或CPE)的一部分,其中许多硬件节点一起工作并且经由管理和编排1100进行管理,除其他项以外,管理和编排1100监督应用1102的生命周期管理。在一些实施例中,硬件1104被耦接到一个或多个无线电单元,每个无线电单元包括可以被耦接到一个或多个天线的一个或多个发射机和一个或多个接收机。无线电单元可以经由一个或多个适当的网络接口与其他硬件节点直接通信,以及可以与虚拟组件组合使用以提供具有无线电能力的虚拟节点,例如无线电接入节点或基站。在一些实施例中,可以使用控制系统1112来提供一些信令,控制系统1112可以替代地被用于硬件节点与无线电单元之间的通信。

图12是示出根据本发明概念的一些实施例的被配置为对音频帧进行编码的编码器1000的单元的框图。如图所示,编码器1000可以包括网络接口电路1205(也称为网络接口),其被配置为提供与其他设备/实体/功能等的通信。编码器1000还可以包括耦接到网络接口电路1205的处理器电路1201(也称为处理器)以及耦接到处理器电路的存储器电路1203(也称为存储器)。存储器电路1203可以包括计算机可读程序代码,该计算机可读程序代码在由处理器电路1201执行时使得处理器电路执行根据本文公开的实施例的操作。

根据其他实施例,处理器电路1201可以被定义为包括存储器,以使得不需要单独的存储器电路。如本文所讨论的,编码器1000的操作可以由处理器1201和/或网络接口1205执行。例如,处理器1201可以控制网络接口1205以通过网络接口1205向解码器1006发送通信和/或从一个或多个其他网络节点/实体/服务器(例如其他编码器节点、存储库服务器等)接收通信。此外,模块可以被存储在存储器1203中,并且这些模块可以提供指令,以使得当模块的指令由处理器1201执行时,处理器1201执行相应的操作。

图13是示出根据本发明概念的一些实施例的被配置为对音频帧进行解码的解码器1006的单元的框图。如图所示,解码器1006可以包括网络接口电路1305(也称为网络接口),其被配置为提供与其他设备/实体/功能等的通信。解码器1006还可以包括耦接到网络接口电路1305的处理器电路1301(也称为处理器)以及耦接到处理器电路的存储器电路1303(也称为存储器)。存储器电路1303可以包括计算机可读程序代码,该计算机可读程序代码在由处理器电路1301执行时使得处理器电路执行根据本文公开的实施例的操作。

根据其他实施例,处理器电路1301可以被定义为包括存储器,以使得不需要单独的存储器电路。如本文所讨论的,解码器1006的操作可以由处理器1301和/或网络接口1305执行。例如,处理器电路1301可以控制网络接口电路1305以从编码器1000接收通信。此外,模块可以被存储在存储器1303中,并且这些模块可以提供指令,以使得当模块的指令由处理器电路1301执行时,处理器电路1301执行相应的操作。

考虑一种系统,其被指定为获得包括两个或更多个音频声道的音频输入的空间表示参数。该系统可以是如图1所示的立体声编码和解码系统的一部分,或者是编码器/解码器的一部分。音频输入被分段成时间帧m。对于多声道方法,通常针对声道对获得空间参数,而对于立体声设置,该对仅是在声道和右声道L和R。在编码器中,该方法可以是空间分析的一部分,以辅助下混频过程并且对空间参数进行编码以表示空间图像。在解码器中,当接收到的声道的数量大于解码器单元(例如具有单声道音频播放能力的立体声解码器)可以处理的数量时,该方法可以作为下混频过程的补充。以下,我们专注于作为由空间分析器112针对单个声道对l(n,m)和r(n,m)导出的空间参数集的一部分的声道间时差(ITD)参数,其中n表示样本号,m表示帧号。以下,索引m被用于指示针对帧m计算的值。

转到图6,该系统具有一种针对来自重合配置的立体声信号而激活的指定方法。空间表示参数包括ITD参数,在一些实施例中,可以在方框610中使用输入声道的具有相位变换的广义互相关性(GCC-PHAT)分析来导出ITD参数。如US20200194013A1中所建议的,这种分析可以包括对时间帧之间的互相关性进行平滑。在方框620中,在这些实施例中,针对帧m的第一ITD

其中ITD

已观察到,MS信号(即,特定种类的CC)的GCC-PHAT可能显示反对称模式,如图4所示。这种结构来自由于MS设置中的麦克风之间的微小距离而导致的时差,以及S信号以相反的符号被加到左声道和右声道的事实。在方框630计算CC检测变量中,当针对帧m形成重合配置检测变量D(m)时可以利用这种模式。

被发现针对多个立体声表示给出重合配置的肯定指示的替代检测变量是:

或者

其中R是搜索范围,W定义在对称性的时滞下所匹配的在ITD的第一估计周围的区域-ITD

对于重合配置(例如MS信号),对称性将出现在τ=0附近,并且合适的搜索范围可以是R=10或在范围R∈[5,20]内。定义匹配区域的合适值是W=

为了稳定检测器,可能需要对决策变量进行低通滤波,

D

其中α是低通滤波器系数。合适的α值可以是α=0.1或在范围α∈(0,0.2]内。如果在形成D(m)时不包括绝对值,则低通滤波可以包括绝对值。

D

因为检测器变量仅当源活动时才给出有效值,所以将决策变量的更新限于这种情况是有益的。低通滤波后的决策变量表达式然后变为

其中如果帧m活动(即,被分类为包含活动源信号(例如语音)),则A(m)为TRUE,否则为FALSE。例如,A(m)可以是语音活动检测器(VAD)的输出,或者是GCC-PHAT与阈值相比的绝对最大值,

指示源处于活动。在此,C

D

其中合适的滤波器系数值可以是α

其中D

在方框640中,为了确定信号是否是CC信号,检测器变量可以被与阈值进行比较。

如果在形成D(m)并且因此形成D

注意,指示信号是CC信号意味着信号来自重合麦克风配置。如果已检测到CC信号,则可以对ITD搜索施加影响,以使得偏向接近零的ITD。在方框650中,例如美国申请公开号US20200194013A1中所述,应用ITD的稳定化,从而产生经稳定化的ITD(ITD

其中ITD

对于32kHz的采样频率,合适的R

还可以应用其他稳定化,例如考虑先前的ITD值,如在美国申请公开号US20200211575A1中那样。同样,在方框660中,在已检测到CC信号的情况下,如果绝对值更接近零,则接受稳定化的结果。同样,决定保留先前获得的ITD而不是经稳定化的ITD还可以取决于先前获得的ITD是否在从零开始的范围(例如[-R

用于偏向接近零的ITD的另一种方法是应用GCC-PHAT

w(τ)=max(0,1-|τ(1+C)/ITD

另一方面,如果没有检测到CC信号,则省略加权,这相当于将加权设置为1。

如图5所示,对于C=5和ITD

注意,在检测到CC=FALSE的情况下,可以使用已经获得的ITD

转到图7,上述实施例可以由互相关性分析器710来实现,互相关性分析器710可以产生输入信号L和R的GCC-PHAT分析。第一ITD估计由ITD分析器720生成。CC检测器730至少使用互相关性分析器的输出以及可选地使用第一ITD估计来检测低ITD信号,例如CC信号。CC检测器形成CC检测器变量,该CC检测器变量被与阈值进行比较以确定是否存在CC信号。如果检测到CC信号,则指示ITD稳定器740偏向接近零的ITD值。

图8示出了其中CC检测是基于对前一个帧的分析的实施例。在方框810中,在系统的启动期间初始化MS检测器变量存储器和MS检测器标志。对于每个帧m,执行方框820至850。

在方框820中,计算互相关性

该加权可以与上述方框640相同,但是决策是基于来自前一个帧的CC检测。

还可以在可选的方框840中进一步稳定所识别的最大值,类似于如上所述的方框660中的稳定。在方框850中导出CC检测变量,类似于上面在方框630中描述的导出。然后存储该值以在下一个帧中使用。

如果在形成D(m)并且因此形成D

在这种情况下,可以使用瞬时估计ITD

转到图9,图8中描述的实施例可以通过互相关性分析器910来实现,互相关性分析器910可以产生输入信号L和R的GCC-PHAT分析。加权器和绝对最大值查找器920对互相关性进行加权,并且确定加权互相关性的绝对最大ITD。可选的ITD稳定器930稳定所识别的最大ITD以获得最终ITD

在下面的描述中,尽管编码器可以是立体声编码器110、编码器1000、虚拟化硬件1104或虚拟机1108A、1108B中的任何一个,但是编码器1000将被用于描述编码器的操作的功能。类似地,尽管解码器可以是立体声解码器120、解码器1006、硬件1104或虚拟机1108A、1108B中的任何一个,但是解码器1006将被用于描述解码器的操作的功能。现在将根据本发明概念的一些实施例,参考图14的流程图来讨论编码器1000(使用图12的框图的结构来实现)或解码器1006(使用图13的框图的结构来实现)的操作。例如,模块可以被存储在图12的存储器1203或图13的存储器1303中,并且这些模块可以提供指令,以使得当模块的指令由相应的处理电路1201/1301执行时,处理电路1201/1301执行流程图的相应操作。

图14示出了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法。对于解码器,主要使用该方法的时间是当解码器接收到立体声信号但音频设备仅具有单声道播放能力时。

转到图14,针对多声道音频信号的每个帧m执行方框1401至1409中的操作。在方框1401中,处理电路1201/1301生成多声道音频信号的声道对的互相关性。可以如上面在图6和8中所述来生成互相关性。在本发明概念的一些实施例中,互相关性是具有相位变换的广义互相关性(GCC-PHAT)。

在方框1403中,处理电路1201/1301基于互相关性,确定第一ITD估计。处理电路1201/1301可以通过将第一ITD估计确定为互相关性的绝对最大值,确定第一ITD估计。在一些实施例中,处理电路1201/1301根据以下公式来确定互相关性的绝对最大值:

其中ITD

在方框1405中,处理电路1201/1301确定多声道音频信号是否是CC信号。

在本发明概念的一些实施例中,处理电路1201/1301基于CC检测变量,确定多声道音频信号是否是CC信号。图15示出了基于CC检测变量来确定多声道音频信号是否是CC信号的实施例。转到图15,在方框1501中,处理电路1201/1301计算CC检测变量。上面描述了计算CC检测变量。

在方框1503中,处理电路1201/1301确定CC检测变量是否高于阈值。在这些实施例的一些中,处理电路1201/1301通过确定CC检测变量的绝对值是否高于阈值,确定CC检测变量是否高于阈值。

在方框1505中,处理电路1201/1301响应于确定CC检测变量高于阈值,确定多声道音频信号是CC信号。在方框1507中,处理电路1201/1301响应于确定CC检测变量不高于阈值,确定多声道音频信号不是CC信号。

在其他实施例中,处理电路1201/1301通过检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式,确定多声道音频信号是否是CC信号。在一些实施例中,检测分量中的反对称模式包括根据以下公式来检测反对称模式:

其中D(m)是CC检测变量,

在本发明概念的其他实施例中,处理电路1201/1301通过根据以下中的至少一项检测反对称模式,检测互相关性中的反对称模式和对称模式中的该模式:

或者

其中D(m)是CC检测变量,

返回到图14,在方框1407中,处理电路1201/1301响应于确定多声道音频信号是CC信号,偏置ITD搜索以偏向接近零的ITD以便获得最终ITD。

在一些实施例中,处理电路1201/1301通过选择具有最小绝对值的ITD,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD。在这些实施例中,处理电路1201/1301选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:

其中,ITD

在本发明概念的其他实施例中,处理电路1201/1301通过从在零周围的有限范围内的ITD候选中选择最终ITD,将ITD搜索偏置为偏向接近零的ITD。

在本发明概念的其他实施例中,处理电路1201/1301通过应用互相关性的加权以将更大的权重分配给接近零的互相关性的值,将ITD搜索偏置为偏向接近零的ITD。

返回到图14,在方框1409中,处理电路1201/1301响应于确定多声道音频信号不是CC信号,获得最终ITD而不偏向接近零的ITD。

在本发明概念的一些其他实施例中,处理电路1201/1301向所选择的ITD候选应用稳定化以获得最终ITD。所选择的ITD候选是从所生成的至少一个ITD候选中选择的。

针对编码器/解码器和相关方法的一些实施例,图14的流程图中的各种操作可以是可选的。例如,关于示例实施例1的方法(下面阐述),图14的方框1409的操作可以是可选的。

尽管本文描述的计算设备(例如UE、网络节点、主机)可以包括所示的硬件组件的组合,但是其他实施例可以包括具有不同组件组合的计算设备。将理解,这些计算设备可以包括执行本文公开的任务、特征、功能和方法所需的硬件和/或软件的任何合适的组合。本文描述的确定、计算、获得或类似的操作可以由处理电路来执行,处理电路可以例如通过将所获得的信息转换成其他信息、将所获得的信息或转换后的信息与存储在网络节点中的信息进行比较、和/或执行基于所获得的信息或转换后的信息的一个或多个操作来处理信息;以及作为所述处理的结果做出确定。此外,尽管将组件描绘为位于较大框内或嵌套在多个框内的单个框,但实际上,计算设备可以包括构成单个所示组件的多个不同物理组件,并且功能可以在单独的组件之间划分。例如,通信接口可以被配置为包括本文描述的任何组件,和/或组件的功能可以在处理电路与通信接口之间划分。在另一个示例中,任何这种组件的非计算密集型功能可以以软件或固件来实现,而计算密集型功能可以以硬件来实现。

在某些实施例中,本文描述的一些或全部功能可以通过处理电路执行存储在存储器上的指令来提供,在某些实施例中,存储器可以是非暂时性计算机可读存储介质形式的计算机程序产品。在替代实施例中,一些或全部功能可以由处理电路提供,而无需诸如以硬连线方式执行存储在单独的或分离的设备可读存储介质上的指令。在这些特定实施例的任何一个中,无论是否执行存储在非暂时性计算机可读存储介质上的指令,处理电路都可以被配置为执行所描述的功能。这种功能所提供的益处不仅限于处理电路或计算设备的其他组件,而是整体上由计算设备和/或通常由最终用户和无线网络享有。

下面讨论示例实施例。

实施例1.一种在编码器(110,1000)或解码器(120,1006)中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法,该方法包括:

对于多声道音频信号的每个帧m:

生成(1401)多声道音频信号的声道对的互相关性;

基于互相关性,确定(1403)第一ITD估计;

确定(1405)多声道音频信号是否是CC信号;以及

响应于确定多声道音频信号是CC信号,将ITD搜索偏置

(1407)为偏向接近零的ITD以获得最终ITD。

实施例2.根据实施例1所述的方法,还包括:

响应于确定多声道音频信号不是CC信号,获得(1409)最终ITD而不偏向接近零的ITD。

实施例3.根据实施例2所述的方法,其中,当多声道音频信号不是CC信号时获得最终ITD包括:通过将最终ITD设置为第一ITD估计,获得最终ITD。

实施例4.根据实施例1-2中任一项所述的方法,还包括:向所选择的ITD应用稳定化以获得最终ITD。

实施例5.根据实施例4所述的方法,其中,应用稳定化进一步包括:生成至少一个ITD候选。

实施例6.根据实施例1-5中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:通过选择具有最小绝对值的ITD,获得最终ITD。

实施例7.根据实施例6所述的方法,其中,选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:

其中,ITD

实施例8.根据实施例1-7中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择最终ITD。

实施例9.根据实施例1-3中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的互相关性的值。

实施例10.根据实施例1-9中任一项所述的方法,其中,确定第一ITD估计包括:将第一ITD估计确定为互相关性的绝对最大值。

实施例11.根据实施例10所述的方法,其中,将第一ITD估计确定为互相关性的绝对最大值包括:根据以下公式,确定绝对最大值:

其中,ITD

实施例12.根据前述实施例中任一项所述的方法,其中,互相关性是具有相位变换的广义互相关性GCC-PHAT。

实施例13.根据实施例1-12中任一项所述的方法,其中,确定多声道音频信号是否是CC信号包括:

检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式。

实施例14.根据实施例13所述的方法,其中,检测分量中的反对称模式包括:根据以下公式,检测反对称模式:

其中,D(m)是CC检测变量,

实施例15.根据实施例13所述的方法,其中,检测互相关性中的反对称模式和对称模式中的该模式包括:根据以下中的至少一项,检测反对称模式:

或者

其中,D(m)是CC检测变量,

实施例16.根据实施例1-12中任一项所述的方法,其中,确定多声道音频信号是否是CC信号包括:

计算(1501)CC检测变量;

确定(1503)CC检测变量是否高于阈值;以及

响应于确定CC检测变量高于阈值,确定(1505)多声道音频信号是CC信号。

实施例17.根据实施例16所述的方法,其中,确定CC检测变量是否高于阈值包括:确定CC检测变量的绝对值是否高于阈值。

实施例18.根据实施例14-17中任一项所述的方法,还包括:使用低通滤波对CC检测变量进行滤波以稳定CC检测。

实施例19.根据实施例18所述的方法,其中,对CC检测变量的低通滤波是自适应的,至少取决于活动检测器的输出A(m)。

实施例20.根据实施例19所述的方法,其中,使用低通滤波对CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:

D

其中,A(m)是活动检测器的输出,α

实施例21.一种装置(110,120,1000,1006),包括:

处理电路(1201,1301);以及

与处理电路耦接的存储器(1205,1305),其中,该存储器包括指令,这些指令在由处理电路执行时使得装置:

对于多声道音频信号的每个帧m:

生成(1401)多声道音频信号的声道对的互相关性;

基于互相关性,确定(1403)第一ITD估计;

确定(1405)多声道音频信号是否是CC信号;以及

响应于确定多声道音频信号是CC信号,将ITD搜索偏置

(1407)为偏向接近零的ITD以获得最终ITD。

实施例22.根据实施例21所述的装置(110,120,1000,1006),还包括:

响应于确定多声道音频信号不是CC信号,获得(1409)最终ITD而不偏向接近零的ITD。

实施例23.根据实施例22所述的装置(110,120,1000,1006),其中,当多声道音频信号不是CC信号时获得最终ITD包括:通过将最终ITD设置为第一ITD估计,获得最终ITD。

实施例24.根据实施例21-22中任一项所述的装置(110,120,1000,1006),其中,存储器包括其他指令,其他指令在由处理电路执行时使得装置:向所选择的ITD候选应用稳定化以获得最终ITD。

实施例25.根据实施例24所述的装置(110,120,1000,1006),其中,应用稳定化进一步包括:生成至少一个ITD候选。

实施例26.根据实施例21-25中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:通过选择具有最小绝对值的ITD,获得最终ITD。

实施例27.根据实施例26所述的装置(110,120,1000,1006),其中,选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:

其中,ITD

实施例28.根据实施例21-27中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择最终ITD。

实施例29.根据实施例21-27中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的互相关性的值。

实施例30.根据实施例21-29中任一项所述的装置(110,120,1000,1006),其中,确定第一ITD估计包括:将第一ITD估计确定为互相关性的绝对最大值。

实施例31.根据实施例30所述的装置(110,120,1000,1006),其中,将第一ITD估计确定为互相关性的绝对最大值包括:根据以下公式,确定绝对最大值:

其中,ITD

实施例32.根据前述实施例中任一项所述的装置(110,120,1000,1006),其中,互相关性是具有相位变换的广义互相关性GCC-PHAT。

实施例33.根据实施例21-32中任一项所述的装置(110,120,1000,1006),其中,确定多声道音频信号是否是CC信号包括:

检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式。

实施例34.根据实施例33所述的装置(110,120,1000,1006),其中,检测分量中的反对称模式包括:根据以下公式,检测反对称模式:

其中,D(m)是CC检测变量,

实施例35.根据实施例33所述的装置(110,120,1000,1006),其中,检测互相关性中的反对称模式和对称模式中的该模式包括:根据以下中的至少一项,检测反对称模式:

或者

其中,D(m)是CC检测变量,

实施例36.根据实施例21-32中任一项所述的装置(110,120,1000,1006),其中,确定多声道音频信号是否是CC信号包括:

计算(1501)CC检测变量;

确定(1503)CC检测变量是否高于阈值;以及

响应于确定CC检测变量高于阈值,确定(1505)多声道音频信号是CC信号。

实施例37.根据实施例36所述的装置(110,120,1000,1006),其中,确定CC检测变量是否高于阈值包括:确定CC检测变量的绝对值是否高于阈值。

实施例38.根据实施例34-37中任一项所述的装置(110,120,1000,1006),其中,存储器包括其他指令,其他指令在由处理电路执行时使得装置:使用低通滤波对CC检测变量进行滤波以稳定CC检测。

实施例39.根据实施例38所述的装置(110,120,1000,1006),其中,对CC检测变量的低通滤波是自适应的,至少取决于活动检测器的输出A(m)。

实施例40.根据实施例39所述的装置(110,120,1000,1006),其中,使用低通滤波对CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:

D

其中,A(m)是活动检测器的输出,α

实施例41.一种装置(110,120,1000,1006),适于:

对于多声道音频信号的每个帧m:

生成(1401)多声道音频信号的声道对的互相关性;

基于互相关性,确定(1403)第一ITD估计;

确定(1405)多声道音频信号是否是CC信号;以及

响应于确定多声道音频信号是CC信号,将ITD搜索偏置

(1407)为偏向接近零的ITD以获得最终ITD。

实施例42.根据实施例41所述的装置(110,120,1000,1006),其中,装置(110,120,1000,1006)适于根据实施例2-20来执行。

实施例43.一种计算机程序,包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此程序代码的执行使得装置(110,120,1000,1006):

对于多声道音频信号的每个帧m:

生成(1401)多声道音频信号的声道对的互相关性;

基于互相关性,确定(1403)第一ITD估计;

确定(1405)多声道音频信号是否是CC信号;以及

响应于确定多声道音频信号是CC信号,将ITD搜索偏置

(1407)为偏向接近零的ITD以获得最终ITD。

实施例44.根据实施例43所述的计算机程序,其中,程序代码包括其他程序代码以使得装置(110,120,1000,1006)根据实施例2-20中任一项来执行。

实施例45.一种包括非暂时性存储介质的计算机程序产品,非暂时性存储介质包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此程序代码的执行使得装置(110,120,1000,1006):

对于多声道音频信号的每个帧m:

生成(1401)多声道音频信号的声道对的互相关性;

基于互相关性,确定(1403)第一ITD估计;

确定(1405)多声道音频信号是否是CC信号;以及

响应于确定多声道音频信号是CC信号,将ITD搜索偏置

(1407)为偏向接近零的ITD以获得最终ITD。

实施例46.根据实施例45所述的计算机程序,其中,非暂时性存储介质包括其他程序代码以使得装置(110,120,1000,1006)根据实施例2-20中任一项来执行。

下面提供对本公开中使用的各种缩写/首字母缩略词的说明。

缩写说明

CC重合麦克风配置

ILD 耳间声级差或声道间声级差

ITD 耳间时差或声道间时差

IC或IACC耳间相干性或相关性或声道间相干性或相关性

GCC 广义互相关性

GCC-PHAT具有相位变换的广义互相关性

相关技术
  • 一种新式的农林用玉米剥粒及筛选一体装置
  • 一种剥粒机专用的半成品铣刀可开合堆放装置
  • 一种塑料母粒原料高效筛选装置
  • 一种塑料母粒的筛选装置
  • 一种柑橘果粒筛选装置
  • 一种黄豆剥粒筛选装置
  • 一种新式的农林用玉米剥粒及筛选一体装置
技术分类

06120116518464