掌桥专利:专业的专利平台
掌桥专利
首页

测量音频环境的语音清晰度

文献发布时间:2024-04-18 19:58:26


测量音频环境的语音清晰度

背景技术

在工作场所、会议区、公共论坛或其他环境中,产生音频(audio)的扬声器和捕获音频的麦克风可以布置成一种联网配置,该配置覆盖多个楼层、区域和不同大小的房间。在所有或大多数位置调谐音频对这种大规模音频系统的制造商和设计团队来说是一项挑战。更高级的调谐工作(例如,结合不同的测试信号策略和独立的扬声器信号)给设置和配置过程带来了进一步的挑战。

在一种示例中,测试过程可以经由一个扬声器启动音调(tone),并且捕获过程可以经由一个或多个麦克风启动,然而,当在公告、演示或其他听觉事件期间将使用其他扬声器时,通过测试单个扬声器信号并识别该扬声器的反馈,可能不能准确地代表众多扬声器。

在典型的音频系统(例如,会议室)中,可能会有麦克风、扬声器、电话集成、输入信号处理、输出信号处理、声学回声消除、降噪、对音频信号进行非线性处理和混合。由于相应设备、安装过程和软件配置的复杂性,需要专家团队来设置、测试和安装所有音频设备。

发明内容

一种示例实施例可以提供一种方法,该方法包括以下项中的一者或多者:识别由控制器控制的网络上的多个独立扬声器;向第一扬声器提供第一测试信号以及向第二扬声器提供包括与第一测试信号不同频率的第二测试信号;在一个或多个麦克风处检测不同的测试信号;基于对不同测试信号的分析自动调谐扬声器输出参数。

另一种示例实施例包括一个过程,该过程被配置为执行以下操作中的一者或多者:在特定房间环境中,在由控制器和放大器控制的网络上识别多个扬声器和一个或多个麦克风;提供测试信号以从放大器的每个放大器通道和多个扬声器顺序播放;同时监视来自一个或多个麦克风的测试信号,以检测运行的扬声器和放大器通道;向多个扬声器提供额外的测试信号以确定调谐参数;在由控制器控制的一个或多个麦克风处检测额外的测试信号;以及基于检测到的额外测试信号自动建立房间环境的背景噪声水平和噪声频谱。

另一种示例实施例可以包括一种装置,该装置包括处理器,该处理器被配置为执行以下操作中的一者或多者:在特定房间环境中识别由控制器和放大器控制的网络上的多个扬声器和一个或多个麦克风;提供测试信号以从放大器的每个放大器通道和多个扬声器顺序播放;同时监视来自一个或多个麦克风的测试信号以检测运行中的扬声器和放大器通道;向多个扬声器提供额外的测试信号以确定调谐参数;在由控制器控制的一个或多个麦克风处检测额外的测试信号;以及基于检测到的额外测试信号自动建立房间环境的背景噪声水平和噪声频谱。

另一种示例实施例可以包括一种被配置为存储指令的非暂态计算机可读存储介质,该指令在被执行时,使处理器执行以下操作中的一者或多者:在特定房间环境中识别由控制器和放大器控制的网络上的多个扬声器和一个或多个麦克风;提供测试信号以从放大器的每个放大器通道和多个扬声器顺序播放;同时监视来自一个或多个麦克风的测试信号以检测运行中的扬声器和放大器通道;向多个扬声器提供额外的测试信号以确定调谐参数;在由控制器控制的一个或多个麦克风处检测额外的测试信号;以及基于检测到的额外测试信号自动建立房间环境的背景噪声水平和噪声频谱。

另一种示例实施例可以包括一种方法,该方法包括以下操作中的一者或多者:识别连接到由控制器控制的网络的多个扬声器和麦克风;向用于应用测试信号的多个扬声器分配初步输出增益;测量从麦克风检测到的环境噪声;基于测试信号同时记录来自所有麦克风的啁啾(chirp)响应;对所有啁啾响应进行解卷积(deconvolve)以确定相应数量的脉冲响应;以及测量每个麦克风的平均声压级(SPL)以基于SPL的平均值获得SPL水平。

另一种示例实施例包括一种装置,该装置包括处理器,该处理器被配置为:识别连接到由控制器控制的网络的多个扬声器和麦克风;向用于应用测试信号的多个扬声器分配初步输出增益;测量从麦克风检测到的环境噪声;基于测试信号同时记录来自所有麦克风的啁啾响应;对所有啁啾响应进行解卷积以确定相应数量的脉冲响应;以及测量每个麦克风的平均声压级(SPL)以基于SPL的平均值获得SPL水平。

另一种示例实施例包括一种被配置为存储指令的非暂态计算机可读存储介质,该指令当被执行时会使处理器执行以下操作中的一者或多者:识别连接到由控制器控制的网络的多个扬声器和麦克风;向用于应用测试信号的多个扬声器分配初步输出增益;测量从麦克风检测到的环境噪声;基于测试信号同时记录来自所有麦克风的啁啾响应;对所有啁啾响应进行解卷积以确定相应数量的脉冲响应;以及测量每个麦克风的平均声压级(SPL),以基于SPL的平均值获得SPL水平。

另一种示例实施例可以包括一种方法,该方法包括以下操作中的一者或多者:确定从一个或多个扬声器检测到的测量啁啾信号的频率响应;基于高限值和低限值确定频率响应的平均值;从目标响应中减去测量响应,其中,目标响应基于一个或多个滤波器频率;基于该减法确定具有可听参数的频率受限目标滤波器;以及基于频率受限目标滤波器所定义的区域来应用无限脉冲响应(IIR)双二阶(biquad)滤波器,以均衡一个或多个扬声器的频率响应。

另一种示例实施例包括一种装置,该装置包括处理器,该处理器被配置为:确定从一个或多个扬声器检测到的测量啁啾信号的频率响应;基于高限值和低限值确定频率响应的平均值;从目标响应中减去测量响应,其中,目标响应基于一个或多个滤波器频率;基于该减法确定具有可听参数的频率受限目标滤波器;以及基于频率受限目标滤波器所定义的区域来应用无限脉冲响应(IIR)双二阶滤波器,以均衡一个或多个扬声器的频率响应。

另一种示例实施例包括一种被配置为存储指令的非暂态计算机可读存储介质,该指令在被执行时,使处理器执行以下操作中的一者或多者:确定从一个或多个扬声器检测到的测量啁啾信号的频率响应;基于高限值和低限值确定频率响应的平均值;从目标响应中减去测量响应,其中,目标响应基于一个或多个滤波器频率;基于该减法确定具有可听参数的频率受限目标滤波器;以及基于频率受限目标滤波器所定义的区域来应用无限脉冲响应(IIR)双二阶滤波器,以均衡一个或多个扬声器的频率响应。

另一种示例实施例包括一种方法,该方法包括以下操作中的一者或多者:对扬声器应用一组初始功率和增益参数;经由扬声器播放激励信号;确定麦克风位置处的声级和距离扬声器预定距离处的声级;基于麦克风位置处的声级和距离扬声器预定距离处的声级之差确定麦克风位置处的增益;以及将增益应用到扬声器输出。

另一种示例实施例包括一种装置,该装置包括处理器,该处理器被配置为:对扬声器应用一组初始功率和增益参数;经由扬声器播放激励信号;确定麦克风位置处的声级和距离扬声器预定距离处的声级;基于麦克风位置处的声级和距离扬声器预定距离处的声级之差确定麦克风位置处的增益;以及将增益应用到扬声器输出。

另一种示例实施例包括一种被配置为存储指令的非暂态计算机可读存储介质,该指令在被执行时,使处理器执行以下操作:对扬声器应用一组初始功率和增益参数;经由扬声器播放激励信号;确定麦克风位置处的声级和距离扬声器预定距离处的声级;基于麦克风位置处的声级和距离扬声器预定距离处的声级之差确定麦克风位置处的增益;以及将增益应用到扬声器输出。

另一种示例实施例包括一种方法,该方法包括以下操作中的一者或多者:启动自动调谐过程;经由一个或多个麦克风检测与两个或更多个位置处的一个或多个扬声器的输出相关联的声音测量结果;确定与麦克风的数量相等数量个语音传输指数(STI)值;以及对语音传输指数值进行平均以识别单个语音传输指数值。

另一种示例实施例包括一种装置,该装置包括处理器,该处理器被配置为:启动自动调谐过程;经由一个或多个麦克风检测与两个或更多个位置处的一个或多个扬声器的输出相关联的声音测量结果;确定与麦克风的数量相等数量个语音传输指数(STI)值;以及对语音传输指数值进行平均以识别单个语音传输指数值。

另一种示例实施例包括一种被配置为存储指令的非暂态计算机可读存储介质,该指令在被执行时,使处理器执行以下操作中的一者或多者:启动自动调谐过程;经由一个或多个麦克风检测与两个或更多个位置处的一个或多个扬声器的输出相关联的声音测量结果;确定与麦克风的数量相等数量个语音传输指数(STI)值;以及对语音传输指数值进行平均以识别单个语音传输指数值。

附图说明

图1示出了根据示例实施例的受控扬声器和麦克风环境。

图2示出了根据示例实施例的用于在受控扬声器和麦克风环境中执行自动调谐过程的过程。

图3示出了根据示例实施例的用于在受控扬声器和麦克风环境中执行自动均衡过程的过程。

图4示出了根据示例实施例的用于在受控扬声器和麦克风环境中识别增益水平的音频配置。

图5示出了根据示例性实施例的用于在受控扬声器和麦克风环境中识别声压级(sound pressure level,SPL)的音频配置。

图6A示出了根据示例实施例的受控扬声器和麦克风环境中的自动调谐过程的流程图。

图6B示出了根据示例实施例的受控扬声器和麦克风环境中的另一自动调谐过程的流程图。

图7示出了根据示例实施例的受控扬声器和麦克风环境中的自动配置过程的另一流程图。

图8示出了根据示例实施例的受控扬声器和麦克风环境中的自动均衡过程的流程图。

图9示出了根据示例实施例的受控扬声器和麦克风环境中的自动增益识别过程的流程图。

图10示出了根据示例实施例的受控扬声器和麦克风环境中的自动语音清晰度确定过程的流程图。

图11示出了用于存储和执行自动调谐过程的系统配置。

具体实施方式

容易理解的是,在本文附图中总体描述和说明的即时组件可按各种不同的配置进行布置和设计。因此,以下对附图中所表示的方法、装置、非暂态计算机可读介质和系统中的至少一者的实施例的详细描述并不旨在限制所要求保护的申请范围,而仅仅是代表所选的实施例。

在一个或多个实施例中,可以以任何合适的方式来组合贯穿本说明书的即时特征、结构或特性。例如,在整个本说明书中,短语“示例实施例”、“一些实施例”或其他类似语言的用法是指如下事实:结合实施例描述的特定特征、结构或特性可以包括在至少一个实施例中。因此,在整个说明书中出现的短语“示例实施例”、“在一些实施例中”、“在其他实施例中”或其他类似语言并不一定都指同一组实施例,所描述的特征、结构或特性可以以任何合适的方式组合在一个或多个实施例中。

此外,虽然在对实施例的描述中可能使用了术语“消息”,但本申请可适用于多种类型的网络数据,例如分组、帧、数据报等。术语“消息”也包括分组、帧、数据报及其等同物。此外,虽然在示例性实施例中可能描绘了某些类型的消息和信令,但它们并不局限于某种类型的消息,本申请也不局限于某种类型的信令。

针对音频系统建立自动调谐和配置设置的启动过程可包括一系列操作。在自动配置阶段,系统固件可使用基于以太网的联网协议来发现连接到中央控制器设备的外围设备。这些外围设备可以包括波束跟踪麦克风、放大器、通用串行总线(USB)和蓝牙(BT)I/O接口以及电话拨号盘设备。然后,设备固件修改其自身配置和所发现的外围设备的配置,以使它们相互关联,并通过适当的音频信号处理功能路由相关音频信号。自动调谐阶段有三个子阶段:麦克风(mic)和扬声器检测、调谐和验证。

并非每个由控制器设备管理的放大器输出通道(未显示)都可以附连有扬声器。在麦克风和扬声器检测阶段,每个放大器通道依次播放特有的(unique)检测信号。在每个检测信号播放期间,所有麦克风检测到的输入信号都会被同时监视。利用这一技术,未连接的放大器输出通道被识别,并且每个麦克风输入信号的完整性被验证。在调谐阶段,每个已连接的放大器输出通道依次播放其他特有的测试信号。这些信号再次由所有麦克风同时监视。通过事先了解麦克风的(一个或多个)频率响应,并使用各种音频处理技术,固件可以计算房间的背景噪声水平和噪声频谱、每个放大器通道和连接的扬声器的灵敏度(在给定信号水平下生成的房间SPL)、每个扬声器的频率响应、每个麦克风到每个扬声器的距离、房间混响时间(RT60)等。利用这些计算结果,固件能够计算出调谐参数,以优化每个扬声器通道的电平设置,从而实现给定的目标SPL,并且优化每个扬声器通道的均衡(EQ)设置,以使扬声器的频率响应归一化,并实现目标房间频率响应。声学回声消除(AEC)、降噪(NR)和非线性处理(NLP)设置对房间环境最合适并最有效。

验证阶段发生在应用调谐参数之后。在这一阶段,测试信号再次从每个所连接的放大器输出通道依次播放,并由所有麦克风同时监视。测量结果用于验证系统达到目标SPL,以及系统达到目标房间频率响应。在验证阶段,所有扬声器同时播放专门设计的语言清晰度测试信号,并由所有麦克风同时监视。语音清晰度是行业标准中衡量听者能正确识别和理解声音的程度。大部分由自动设置所进行的测量和所应用的设置都会在信息报告中提供,以供从设备上下载。

示例实施例提供了一种系统,该系统包括控制器或中央计算机系统,用于管理多个麦克风和扬声器,以在特定环境(例如,工作场所环境、会议室、会议厅、多个房间、不同楼层的多个房间等)中提供音频优化调谐管理。音频系统的自动调谐包括调谐各种声级、执行均衡、识别目标声压级SPL(SPL)、确定是否需要压缩、测量语音清晰度、确定应用于扬声器/麦克风的最佳增益近似值等。环境可以包括多个麦克风和扬声器区域,其中各种扬声器以不同的距离分隔开。第三方测试设备并不理想,无法提供简化的可扩展性。理想情况下,识别网络上活动的网络组件并仅使用这些组件来设置用于会议或其他演示目的的优化音频平台,将是针对时间、专业知识和费用而言的最佳选择。

自动均衡过程能够自动均衡任何房间中任何扬声器的频率响应,使其达到任何所需的响应形状,该响应形状可由平直线和/或参数化曲线定义。该过程可能不会在主动程序音频事件(active program audio event)期间实时运行,而是在系统设置过程期间运行。该过程考虑并均衡对数幅度频率响应(分贝对频率),并且可能不会尝试均衡相位。该过程可识别出最佳滤波器,其频率响应与测量响应的倒数(inverse)非常接近,从而使曲线趋于平缓,或将曲线重塑为其他所需的响应值。该过程可使用单个双二阶无限脉冲响应(infinite impulse response,IIR)滤波器,这种滤波器呈钟形,用于增强或削减参数化滤波器、低通滤波器和/或高通滤波器。也可以使用FIR滤波器,但IIR滤波器具有优化的计算效率和低频分辨率,更适合于空间平均,或在房间的宽广聆听区域内进行均衡。

在执行均衡过程时,所需的目标频率响应被识别。通常情况下,这将是具有低频滚降和高频滚降的平坦响应,以避免设计试图通过(一个或多个)频率受限的扬声器达到无法实现的效果的滤波器组。目标中频段响应(target mid-band response)不必是平坦的,并且该过程允许以双二阶滤波器阵列为形式的任意目标频率响应。该过程还允许用户在任何自动调谐过程之前,对要应用的总DSP滤波器组设置最大dB提升或某些削减限制。

图1示出了根据示例实施例的受控扬声器和麦克风环境。参考图1,该图例展示了音频控制环境112,该环境可具有任意数量的扬声器114和麦克风116,以经由自动调谐过程检测音频、播放音频、重放音频、调整音频输出电平等。配置100可包括由空间、墙壁和/或地板分隔的各种不同区域130-160。控制器128可与所有音频元件通信,并且控制器128可包括用于接收和生成音频的软件应用程序、计算机、处理器等。在本示例中,可使用啁啾(chirp)响应测量技术通过测量扬声器来获取频率响应。

关于设置过程,与控制器128通信的用户设备的用户界面前端的启动选项(自动设置+自动调谐)可提供一种方法来测试(一个或多个)房间、(一个或多个)扬声器和(一个或多个)麦克风的声音简档(profile)。网络发现可用于查找被插入并被包含在系统设备列表中的设备,并为它们提供在运行期间启动的基准配置。在设备发现过程中,音频系统可以图形格式显示,操作员接下来可以拖放数据以获得可自定义性更强的体验,或重置为出厂默认电平。如果系统没有充分调谐到某一电平,则可以生成警报,并通过向所有已知设备发送测试信号来发现任何误接(miswiring)。

音频环境通常包括各种组件和设备,例如麦克风、放大器、扬声器、DSP设备等。安装之后,需要对这些设备进行配置,使其充当集成系统。软件应用可用于配置由每个设备执行的某些功能。控制器或中央计算设备可存储配置文件,该配置文件可在安装过程中被更新,以包括新发现的音频简档。

执行自动调谐过程的一种方法可以包括允许自动调谐过程在同时包含定制DSP处理的设备上运行。为了启用这一组合功能,代码将在自定义配置中发现适当的信号注入和监测点。在识别了注入和监测点后,任何选定的DSP处理布局都将自动兼容。自动调谐过程中的一些操作将从每个扬声器逐个发送测试信号,这在有许多扬声器的情况下会增加总的测量时间。其他操作可以包括同时或在重叠的时间段内从所有扬声器发送测试信号,并对所接收并经过处理的经聚合的声音执行测试过程。

为了减少总的测量时间,可以同时从每个扬声器播放不同的信号。提供混合信号的一些不同方法可以包括:针对每个扬声器生成一个特定的正弦波,其中每个不同的扬声器使用特有的频率;播放短篇音乐作品,其中每个扬声器在该音乐作品的混音中演奏特有的乐器,或者仅频率不同的音调可以分别与每个扬声器配对。在有大量扬声器的情况下,可以使用包含多种打击乐器的歌曲,每个扬声器对应一种鼓声。任何其他多通道声音的混合都可用于驱动动态和/或定制声音测试过程。还有其他一些声音事件检测算法,能够检测出在许多其他声音的混合中的一种声音的存在,这些算法在本测试分析过程中可能是有用的。自动调谐可以是语音提示和每个扬声器播放的测试信号的组合。测试信号用于收集关于系统中放大器、扬声器和麦克风的信息,以及这些设备在声学空间中的位置。

还可以使用其他信号来收集相同房间和装置信息,该信息被收集来用于测试。使用不同信号的决定可以基于不同的目标,例如所使用的信号,哪些信号是声音悦耳的,哪些信号可以包括语音和/或音乐提示。这样做的好处是可以避免在空间中播放科学声音测试音调(scientific-sounding test tone)。潜在的缺点是从不理想的信号源中提取房间和设备信息需要额外时间。为了减少总的测量时间,可以取消语音提示,并使用产生最快结果的基本测试信号。

自动均衡过程(见图3)能够将任何房间中任何扬声器的频率响应自动均衡为任何所需的响应形状,该响应形状可由平直线和/或参数化曲线定义。该过程在主动程序音频事件期间可能不是实时的,而是在系统设置过程期间是实时的。该过程均衡对数幅度频率响应(分贝对频率),并且可以不均衡相位。该过程识别一组最佳滤波器,其频率响应与测量响应的倒数非常匹配,从而将响应变平或重塑为其他所需的响应值。该过程使用单个双二阶IIR滤波器,该滤波器可以是钟形的(例如,升压或切参数化滤波器)、低通的或高通的。可以使用FIR滤波器,但IIR滤波器具有更佳的计算效率和低频分辨率,并且更适合在房间的宽广聆听区域内进行空间平均和/或均衡。

在执行均衡过程时,首先识别所需的目标频率响应。通常情况下,这将是具有低频滚降和高频滚降的平坦响应,以避免该过程设计一种试图通过频率受限的扬声器达到无法实现的效果的滤波器组。目标中频段响应不必是平坦的,并且该过程允许以双二阶滤波器阵列为形式的任何任意目标频率响应。该过程还允许用户对要应用的总DSP滤波器组削减限制或设置最大dB提升。

与自动设置过程(见图2)相关的一种示例过程可以通过每个扬声器输出通道提供排序,并对每个输出执行以下操作:提升多音信号直到检测到所需的SPL水平为止;确定扬声器输出通道是否正常工作;确定所有麦克风(mic)输入通道是否正常工作;针对测试信号设置未知放大器和扬声器的初步输出增益;测量来自所有麦克风的环境噪声以设置RT60测量的基准,这是对声音在具有扩散声场的空间中衰减60dB所需的时间进行的测量;以及检查过量噪音;提供啁啾测试信号;将来自所有“N”个麦克风的啁啾响应同时记录到阵列中;对来自“N”个麦克风的所有啁啾进行解卷积,得到“N”个脉冲响应;并且针对每个麦克风输入进行如下操作:定位主脉冲峰值并计算扬声器到麦克风的距离;计算平滑对数幅度频率响应并应用麦克风补偿值(使用已知的麦克风灵敏度);计算所有频率上的SPL平均值;对所有麦克风的频率响应进行平均以获得空间平均值;对空间平均响应执行自动均衡以匹配目标响应,SPL水平以及最近和最远麦克风的距离用于计算房间衰减;使用来自最近麦克风的SPL和房间衰减来计算输出增益,以在所有麦克风的平均距离处达到所需的水平;计算SPL限制器阈值,同时启用自动均衡和自动增益;产生啁啾声以测量和验证响应;测量每个麦克风的倍频程带(octave-band)RT60;以及测量每个麦克风的平均SPL,然后对所有麦克风进行平均,以获得所达到的SPL水平。

另一种示例实施例可以包括自动设置过程,该过程包括:确定哪些输入麦克风正在工作,哪些输出扬声器通道正在工作;对每个输出扬声器通道执行自动均衡以达到任何所需的目标频率响应(由参数化的EQ参数定义);自动设置每个输出路径增益以达到房间中心的目标SPL水平,该目标SPL水平由扬声器到麦克风的平均距离确定;自动设置用于房间中心的最大SPL水平的输出限制器;基于房间测量,自动设置非线性处理(NLP)和降噪(NR)值、自动回声消除(AEC);测量房间中的每个输出扬声器通道的频率响应;根据每个输出信道,测量房间中心预期的最终标称SPL水平;测量房间的倍频程带和全频段混响时间;测量每个麦克风的噪声频谱和倍频程带噪声;测量房间的噪声标准(NC)等级;以及测量所有麦克风与扬声器的最小、最大和平均距离,以及房间的语音清晰度。所有测量数据可用于建立最佳扬声器和麦克风配置值。

在一种示例音频系统设置过程中,用户界面上的启动操作(即自动设置+自动调谐)可提供一种启动对房间、扬声器和麦克风的声音简档进行测试的方法。网络发现可用于查找插入并被包括在系统设备列表的设备,为其提供基线配置,以在音频使用场景中启动。音频系统可以在设备发现过程期间通过图形格式实现,操作员可以与显示器接口,并且拖放数据以获得可自定义性更强的体验,也可以在自动系统配置之前或之后重置为出厂默认电平。如果系统没有充分调谐到某一电平,则可生成警报,并通过向所有已知设备发送测试信号来发现任何误接。

音频环境通常包括各种组件和设备,例如麦克风、放大器、扬声器、数字信号处理(DSP)设备等。安装之后,需要对这些设备进行配置,使其充当集成系统。应用软件可用于配置由每个设备执行的某些功能。控制器或中央计算设备可存储配置文件,该文件可在安装过程中基于当前安装的硬件、(一个或多个)音频环境简档和/或所需配置而被更新,以包括新发现的音频简档。在一种示例实施例中,自动调谐过程可以调谐音频系统,包括由中央网络控制器管理的所有可访问硬件。音频输入/输出电平、均衡和平均声压级(SPL)/压缩值均全部可以被选择,以在特定环境中获得最佳性能。

在自动设置期间,确定哪些输入麦克风在工作,哪些输出扬声器通道在工作。对每个输出扬声器通道进行自动均衡,以达到所需的目标频率响应(由参数化EQ参数、高通滤波器、低通滤波器等定义)。默认选项可以是“平的(flat)”响应。其他操作可包括:自动设置每个输出路径增益,以实现用户在房间中心的目标SPL水平(假设麦克风的平均距离);以及自动设置输出限制器,以实现用户在房间中心的最大SPL水平。另一项功能可包括基于房间测量结果自动确定自动回声消除(AEC)、非线性处理(NLP)和NRD值。还可以进行以下信息测量,包括测量房间内每个输出扬声器通道的频率响应、测量每个输出通道预期在房间中心的最终标称SPL水平、测量房间的倍频程带混响时间(RT-60)、以及测量房间的噪声基底。其他功能可以包括测量所有麦克风与扬声器的最小、最大、以及平均距离。这些值可提供执行其他自动设置所需的信息,例如基于房间低频段的混响时间设置波束跟踪麦克风的高通滤波器截止频率,以及微调AEC的自适应滤波器简档,以最佳匹配房间的预期回声特性。所获得的信息可保存在存储器中,并且可以由应用使用,以提供会议室声学特征和音质特性的示例。某些建议可根据房间音频特征用于增加麦克风和扬声器之间的间距,或经由扬声器和麦克风对房间进行声学调整,因为RT-60(用于预测语音清晰度的混响“分数”)过高。

音频设置过程可包括一系列操作,例如暂停任何类型的会议音频布局功能,并向自动设置应用提供输入(麦克风)和输出(扬声器)控制。参与自动设置的每个输出扬声器将依次产生一系列被设计来捕捉房间声学特征的音调和/或“啁啾”声。房间内产生的声音数量与参与自动设置过程的输入和输出的数量直接相关。例如,在具有三个麦克风和两个扬声器的系统中,自动设置将执行以下动作:(---第一个扬声器---),扬声器1产生一系列声音,这些声音由麦克风1捕捉,扬声器1产生一系列声音,这些声音由麦克风2捕捉,并且扬声器1产生一系列声音,这些声音由麦克风3捕捉;(---下一个扬声器---),扬声器2产生一系列声音,这些声音由麦克风1捕捉,扬声器2产生一系列声音,这些声音由麦克风2捕捉,扬声器2产生一系列声音,这些声音由麦克风3捕捉,而此过程完成后,恢复正常的会议布局音频处理。基于自动设置处理,每个扬声器的增益和均衡被调整;基于自动设置处理,针对房间的AEC性能被调谐;基于自动设置处理,字段房间的麦克风LPF被调谐;并且房间的声学特性已被记录。可选地,还可向用户呈现一些描述自动设置过程结果的汇总数据。在处理过程中,如果发现有缺陷的麦克风或扬声器,或在处理过程中捕捉到意外的大音量声音(例如,街道噪音),自动设置可能会“失败”。如果是这种情况,自动设置将停止,并提醒最终用户注意。此外,还可以使用友好的自动设置语音,以与用户讨论自动设置在整个过程中正在做什么。

图2示出了自动均衡过程,其中包括针对环境中多个扬声器的迭代过程。参照图2,在启动过程中,用户界面可用于控制启动和“自动调谐”选项。可执行存储器分配操作,以检测某些扬声器、麦克风等。已识别的网络元件可被存储在存储器中。还可以执行调谐过程,从而使得启动图2的操作。每个扬声器可以接收输出信号(202),其被输入(204)以产生声音或信号。环境噪声水平也可从扬声器识别(206)并由麦克风检测。多个音调可被发送到不同的扬声器(208),这些音调被测量并且数值被存储在存储器中。此外,可以使用啁啾响应(210)来确定扬声器和相应房间/环境的水平。可以识别脉冲响应(212),并基于输入计算相应的频率响应值(214)。此外,可以计算语音清晰度等级(语音传输指数(STI))以及“RT60”值,“RT60”值是声音在具有扩散声场的空间中衰减60dB所需的时间,这意味着房间足够大,声源的反射以相同的水平从所有方向到达麦克风。可以确定输入值(216)的平均值,以估算相应网络元件的整体声音值。进行平均可以包括对输入值求和并除以输入值的数量。

继续同一示例,可根据输入响应的空间平均值执行自动均衡(218)。自动均衡水平可被输出(222),直到过程完成(224)。当输出完成(224)后,输出值被设置(226),可以包括在向各种扬声器输出音频信号时使用的参数。在验证过程(230)期间,该过程继续迭代进行,其中可包括针对每个扬声器的类似操作,例如202、204、210、212、214、216。此外,在迭代验证过程中,可执行语音清晰度测量,直到所有输出值被识别为止。如果在操作224中输出未完成,则使用自动均衡水平(225)继续测量下一个扬声器的下一个输出值(即,迭代地),并继续,直到测量并存储所有扬声器的输出。

自动设置操作依赖于使用啁啾信号和可能的啁啾解卷积对扬声器、麦克风和房间参数进行测量,以获得脉冲响应。啁啾信号解卷积可用于使用实际的FFT大小来获取高质量的脉冲响应(IR),该脉冲响应不含噪声、系统失真和表面反射。将影响自动设置过程的有效性的一个因素是对系统组件(例如,麦克风、功率放大器和扬声器)的了解程度。在已知组件频率响应的情况下,数字信号处理器(DSP)应在生成和记录任何啁啾信号之前应用校正均衡,以提高啁啾测量的准确性。

自动均衡过程可用于均衡任何房间内任何扬声器的频率响应值,使其达到所需的响应形状(例如,平直线和/或参数化曲线)。该过程可利用钟形类型的单个双二阶IIR滤波器。该过程可以从具有低频滚降和高频滚降的所需目标频率响应开始,以避免遇到对针对特定扬声器和房间建立的滤波器的限制。目标响应(H

为了找到参数化滤波器来拟合H

对两个频率限值下的滤波器选择略有不同。如果目标滤波器要求在频率限值处进行提升,那么将使用PEQ提升滤波器,其中心频率为限值频率。如果目标滤波器要求在频率限值处进行衰减(通常发生在目标响应有滚降的情况下),则选择HPF/LPF,并计算-3dB角频率,以匹配曲线为-3dB的点。当超出自动EQ范围时,尤其是需要滚降响应时(这是最通常的情形),这种方法能产生更好的匹配效果。一旦识别出目标滤波器的所有频率特性,就可以使用名为FindBiggestArea()的函数为目标滤波器找到最突出的双二阶滤波器,如下图所示,目标滤波器曲线下的最大面积表征了最突出的双二阶滤波器。

基于这些特性,名为DeriveFiltParamsFromFreqFeatures()的函数根据曲线中心频率、dB boost/cut、以及带宽(Q)计算出3个参数(fctr、dB、Q)。双极带通滤波器的带宽被定义为fctr/(f

图3示出了根据示例实施例的用于确定应用于扬声器环境的自动均衡滤波器组的过程。参照图3,该过程可以包括:将目标响应定义为HPF/LPF频率和双二阶滤波器列表(302);测量来自麦克风的啁啾响应(304);将频率限值之间的值归一化为0dB(306);从目标响应中减去测量响应以提供目标滤波器(308);找到目标滤波器的零交叉和导数零(310);按顺序组合两组零频率以识别频率特性值(312);识别目标滤波器曲线下的最大面积(314);推导参数以拟合频率在.707乘以峰值的钟形区域(316);确定滤波器参数是否可被听到(318),如果可被听到,则该过程继续基于所识别的滤波器参数计算双二阶系数(320)。该过程继续基于振幅限制来限制滤波器dB(322),将新的受限滤波器添加到DSP滤波器组中(324),将无限制的EQ滤波器添加到测量响应中,以提供无限制的校正响应(326),并从目标响应中减去该校正响应,以提供新的目标滤波器(328)。如果使用了所有可用的双二阶(330),则该过程结束(332),否则该过程继续回到操作(310)。

为了确定哪些扬声器输出是运行(live)的,将五倍频程(five-octave)多音(五个正弦波信号之间间隔一个倍频程)信号电平施加到扬声器上,并快速升高,以快速检测任何连接的运行的扬声器。多音信号电平每次提升一个扬声器,同时来自所有麦克风的信号电平被监视。只要一个麦克风(mic)接收到的信号达到所需的音频系统声压级(SPL)目标水平(即SPL阈值水平),多音测试信号就被终止,扬声器输出通道就被指定为是运行的。如果多音测试信号达到最大“安全限值”,且没有麦克风接收到目标SPL水平,则扬声器输出被指定为死机/断开。接收到的五倍频程信号通过一组五个窄带通滤波器。五倍频程测试音调和五个带通滤波器的目的是防止宽带环境噪声或房间内其他信号源产生的单一音调对扬声器的错误检测。换句话说,音频系统正在产生和接收特定的信号签名,以将该信号与房间内其他无关声源区分开来。用于检测运行的扬声器输出的同一五倍频程多音同时用于检测运行的麦克风输入。一旦最高麦克风信号达到音频系统目标SPL水平,多音检测信号就会终止。此时,所有麦克风信号水平都会被记录。如果麦克风信号高于某个最低阈值水平,则该麦克风输入被指定为运行的麦克风输入,否则被指定为死机/断开。

为了设置扬声器输出增益水平,将确定并在固件中存储以dB为单位的用于SPL的所需声学聆听电平(acoustic listening level)。DSP扬声器输出通道的增益将被设置为达到该目标SPL水平。如果功率放大器的增益已知,并且扬声器的灵敏度也已知,那么这些DSP输出增益就可以针对特定的SPL水平而被准确设置,例如,基于距离每个扬声器一米(也可考虑其他距离,并可作为替代方案)。在某些估计的听者位置处的水平将小于该估计水平。在自由空间中,与声源的距离每增加一倍,声级下降6dB。对于典型的会议室,对于声源距离每增加一倍的声级可确定为-3dB。如果假定每个听者距离最近的扬声器在2米至8米之间,并且增益针对中间距离4米被设置,那么所产生的声级将在所需声级的+/-3分贝范围内。如果不知道(一个或多个)扬声器的灵敏度,则将使用从最近的传声器获得的啁啾响应信号。使用最近传声器的原因是为了尽量减少反射和因估计水平损失与距离的关系而产生的误差。根据此响应的水平和飞行时间(TOF),可以估计扬声器的灵敏度,尽管扬声器离轴拾取造成的衰减是未知的。如果不知道功率放大器的增益,则将使用29dB的典型值,这可能会带来+/-3dB的SPL水平误差。

分析电声声音系统(electro-acoustic sound system),以确定应使用哪些增益来达到最佳声级。电压、功率和声级及增益可从任何声音系统中导出。这些值可用于使用DSP处理器提供特定位置的SPL水平。一般来说,音频系统会有麦克风、扬声器、编解码器、DSP处理器和放大器。

图4示出了根据示例实施例的用于识别各种音频信号水平和特性的示例配置。参考图4,该示例包括特定的房间或环境,例如会议室,该会议室有人436,估计此人436距离扬声器434大约一米。衰减值被表示为增益值。例如,G

在图4的这个示例中,如果已知关于麦克风、放大器和扬声器的一些基本参数,则L

在麦克风、功率放大器和扬声器的增益和其他参数未知的情况下,麦克风的L

图5示出了根据示例性实施例的用于识别受控扬声器和麦克风环境中的声压级(SPL)的过程。参照图5,该示例包括模拟模型中的听者436,该听者436与特定房间中的扬声器534的距离为D

使用多个麦克风在特定位置产生所期望的SPL(在距离扬声器534一定距离D

由于已经识别了房间和扬声器灵敏度的α

在图5的示例中,房间的一端具有扬声器,并且为了计算产生所期望的SPL水平所需的DSP输出增益,例如在距离扬声器11.92米的位置产生72.0dB的SPL。该SPL水平是宽带且未加权的,因此使用未加权的全范围啁啾测试信号。房间内恰好有两个麦克风,但它们与扬声器的距离未知,扬声器也未知。已知系统参数为L

该过程基于在距离未知扬声器1.89米和7.23米处测量到的单个啁啾,计算出规定的DSP输出增益为-19.0dB,以在距离扬声器11.9米处达到72.0dB

在另一种示例中,建立输入麦克风增益水平可以包括:如果麦克风具有已知的输入灵敏度,那么包括模拟前置放大器增益在内的DSP输入增益可被设置为最佳动态范围。例如,如果房间内麦克风位置的最大声压级预计为100dB SPL,则可将增益设置为100dB SPL,这将提供一个满量程值。如果输入增益设置过高,前置放大器或A/D转换器可能会出现削波。如果输入增益设置过低,则会导致信号过弱和噪声过大(被自动增益控制(AGC)扭曲)。

如果麦克风没有已知的输入灵敏度,那么可以使用最靠近每个麦克风输入的扬声器的啁啾响应信号水平和飞行时间(TOF)信息来估计麦克风的灵敏度。如果扬声器和/或麦克风没有全向拾音模式,则扬声器的未知离轴衰减和/或麦克风的未知离轴衰减会使该估计产生误差,并且由于麦克风的未知频率响应,将对该估计产生其他影响。

当确定扬声器均衡时。理想的情况是对每个扬声器进行均衡,以补偿其频率响应的不规则性以及附近表面对低频的增强。如果麦克风的频率响应是已知的,则可以在减去麦克风的已知响应后,通过啁啾解卷积来测量每个扬声器的响应。此外,如果扬声器的频率响应已知,则可以仅确定房间的响应。这样做的原因是,房间内的表面反射可能导致测量响应出现梳状滤波,这是不期望的。梳状滤波是一种时域现象,无法通过频域滤波来纠正。必须考虑脉冲响应中表面反射的检测,这样如果可以检测到时间上更远的主要反射,则可以将其从脉冲响应中进行开窗处理(windowed-out),从而从用于推导DSP滤波器的频率响应中去除。

如果麦克风的频率响应未知,则频率响应测量无法区分扬声器引起的不规则现象和麦克风引起的不规则现象。如果对未知的麦克风和扬声器进行频率响应,并将所有校正应用于扬声器输出路径,那么麦克风的缺陷将被扬声器过度校正,并在远端扬声器进行音频演示时为房间远端听者提供较差的声音。同样,如果所有校正都应用于麦克风输入路径,那么扬声器的缺陷就会被麦克风过度校正,从而给远处的听者带来近处扬声器的不良音质。“折中(splitting the difference)”并且对麦克风输入和扬声器输出各进行一半的校正并不可行,也不太可能获得良好的声音。

将使用标准的无限脉冲响应(IIR)参数化滤波器来应用均衡。有限冲激响应(FIR)滤波器并不适合这种应用,因为它们的频率分辨率是线性的,而不是对数或倍频程的,这可能要求低频滤波器有非常多的抽头,而且在不知道确切的(一个或多个)听音位置时也不太适合。IIR滤波器是通过“反滤波(inverse filtering)”来确定的,以使得测量到的幅度响应的倒数被用作目标,以“最适合”参数化滤波器的级联。自动均衡滤波器对响应校正的程度(dB)和范围(far/wide/narrow)(Hz)都有实际限制。已知根据脉冲响应进行反滤波的频率响应校正对于音源和听者的位置来说是准确的。由于麦克风位置是唯一已知的值,为了使每个扬声器在所有聆听位置都能发出良好的声音,将执行频率响应总体平均,以使得扬声器拾取的所有麦克风的响应将在应用一些倍频程平滑处理后一起进行平均。这一过程对安装人员来说是透明的,因为所有麦克风的响应都可以使用单个扬声器啁啾被同时记录。

一种示例可包括麦克风均衡过程,当麦克风频率响应未知时,对未知扬声器进行均衡是不切实际的,并且不应尝试,因此无法确定未知麦克风的频率响应。但是,如果已知扬声器的频率响应,则可以对未知麦克风进行麦克风均衡。通过啁啾解卷积进行麦克风均衡的过程将利用存储在固件中的扬声器的已知响应,然后将其减去,得出麦克风的响应。每个扬声器都应重复这一过程,以对测量到的频率响应应用总体平均。每个麦克风的均衡器设置将按照扬声器均衡中所述的反滤波方法来确定。

一旦扬声器和麦克风水平设置完毕,并且频率响应不规则性也已被均衡,则扬声器值和水平就可以基于房间的RT60测量结果进行设置。混响时间(RT60)可通过计算脉冲的施罗德反向积分(Schroeder reverse integration of the impulse)获得,而RT60是衡量声音在具有扩散声场的空间中衰减60dB所需的时间,扩散声场是指房间足够大,使得声源的反射以相同的水平响应能量从所有方向到达麦克风。一旦知道(一个或多个)RT60值,就可以设置NLP水平,当混响尾部比AEC的有效尾部长度长时,一般会使用更激进的NLP设置。

另一示例可以包括设置输出限制器。如果功率放大器增益已知,并且扬声器额定功率已知,则可设置DSP输出限制器以保护扬声器。此外,如果扬声器的灵敏度已知,则限制器可进一步降低最大信号水平,以保护听者免受过大声音水平的影响。保留增益值信息和类似的功率增益/灵敏度记录对大多数管理员来说并不可行。此外,即使已知增益值,但扬声器接线/配置错误,例如桥接接线错误,那么增益也会不正确,并导致功率限制设置错误。因此,SPL限制是更理想的操作。

根据其他示例实施例,测量会议室的语音清晰度等级(speech intelligibilityrating,SIR)可包括:测量房间内一个语音源到一个听者位置的语音传输指数(STI)。另外,还可以检查多个语音源(例如,天花板扬声器)和房间周围的多个聆听位置,以确定最佳STI和相应的SIR。此外,会议环境中的语音源可以位于远程位置,远程麦克风、远程房间和传输通道都可能影响听者的语音清晰度体验。在通常同时使用多个扬声器的会议室中,应在所有“语音会议”扬声器同时播放的情况下测量STI。语音会议扬声器是指在会议期间通常开启的所有扬声器,而专门用于音乐播放的所有扬声器都将关闭。原因是听众通常会同时聆听所有语音会议扬声器发出的语音,因此语音清晰度会受到所有扬声器的影响,因此评级应在所有语音会议扬声器都处于激活状态时进行测量。与单个扬声器相比,开启所有语音会议扬声器时测得的STI可能更好,也可能更差,这取决于背景噪声水平、房间内的回声和混响、扬声器之间的间距等。

自动调谐过程可以使用来自会议系统的麦克风,而不使用额外的测量麦克风,因此获得的STI测量值可以是放置在听者确切耳部位置的测量麦克风的真实STI值的代替值(proxy)。由于会议室有多个听者位置,而且可能有多个会议麦克风,因此最佳的STI评级将通过如下操作获得:同时对所有“N”个麦克风执行测量,计算出“N”个STI值,然后求出这些值的平均值,从而得出单个房间的单个STI值。这将是在所有会议麦克风位置测得的平均STI值,它是所有听者位置处的平均STI值的代替值。自动调谐过程被设计为逐一对每个输出扬声器区域进行排序,并同时测量所有麦克风。实时STI分析仪的任务是DSP密集型的,并且一次只能测量一个麦克风输入。因此,这对测量“N”个麦克风的STI值以及进行平均造成了实际限制。为了获得最准确的STI值,所有语音会议扬声器都应同时播放。因此,在自动调谐过程中,针对可能测量多个麦克风的STI,可能需要采取某些策略。

一种策略可以包括:尽管所有扬声器都播放STI信号,但仅在第一扬声器迭代期间测量STI,并使用第一麦克风进行测量。另一种方法是使用被确定为处于中间位置的麦克风进行测量,该中间位置由计算IR时测量的扬声器到麦克风距离来确定。还有一种方法是:针对每个扬声器区域的迭代,对下一个麦克风输入测量STI,以使得可以对多个STI测量值进行平均。这种方法也有缺点,比如如果只有一个扬声器区,那么只能测量第一麦克风。如果扬声器区的数量少于麦克风的数量,则可能会漏掉中间位置的麦克风,而且这种方法的操作时间最长。

还应注意的是,STI值通常被理解为代表该房间的语音传输质量。对于远程会议系统而言,听者体验到的语音传输质量有三个组成部分:扬声器和他/她所在房间的STI、电子传输通道的STI、以及远端麦克风和房间的STI。因此,自动调谐过程计算出的STI值是构成听者语音清晰度体验的三个组成部分中的仅一者的代替值。不过,这些信息可能仍然有用,因为可以获得近端组成部分的评分,而用户或安装人员可以控制近端组成部分。例如,用户/安装人员可以使用自动调谐STI分数来评估使用两种不同声学处理设计对STI的相对改善。

自动均衡算法能够自动均衡任何房间中任何扬声器的频率响应,使其达到任何所需的响应形状,该响应形状可由平直线和/或参数化曲线定义。该算法不被设计为在主动过程音频事件期间实时工作,而是在系统设置过程期间工作。该算法只考虑并均衡对数幅度频率响应(分贝对频率),并不试图均衡相位。该算法基本上是设计一组最佳滤波器,其频率响应与测量响应的倒数非常匹配,以将其平坦化或重塑为其他所需的响应。该算法只使用单个双二阶IIR滤波器,该滤波器的类型为钟形的(升压或切参数化滤波器)、低通的或高通的。可以使用FIR滤波器,但选择了IIR滤波器的原因是其计算效率高、低频分辨率更好、以及更适合空间平均或在房间内宽广的聆听区域进行均衡。

在执行均衡处理时,首先要识别所需的目标频率响应。通常情况下,这将是具有低频滚降和高频滚降的平坦响应,以避免该过程设计如下滤波器组,该滤波器组试图通过频率受限的扬声器达到无法实现的结果。目标中频段响应不一定是平坦的,并且该过程允许以双二阶滤波器阵列为形式的任何任意的目标频率响应。该过程还允许用户对要应用的整个DSP滤波器组设置最大dB升压或削减限制。

图6A示出了用于执行音频系统的自动调谐过程的过程。参照图6A,该过程可包括:识别由控制器控制的网络上的多个独立扬声器(612);向第一扬声器提供第一测试信号,向第二扬声器提供第二测试信号(614);在由控制器控制的一个或多个麦克风处检测第一测试信号和第二测试信号,以及基于对不同测试信号的分析自动建立扬声器调谐输出参数(616)。调谐参数可应用于数字DSP的参数集,该参数集应用于音频环境中的各种扬声器和麦克风。

第一测试信号的频率可能与第二测试信号的频率不同。可在第一时间提供第一测试信号,可在晚于第一时间的第二时间提供第二测试信号。该过程还可以包括:通过经由一个或多个麦克风测量环境噪声水平,基于对不同测试信号的分析来自动建立扬声器调谐输出参数;以及基于第一测试信号和第二测试信号来确定脉冲响应;以及基于脉冲响应和环境噪声水平来确定第一和第二扬声器使用的扬声器输出水平。该过程还可包括:基于第一和第二扬声器的输出确定频率响应,对与第一测试信号和第二测试信号相关的值进行平均,以获得以下项中的一个或多个:一个或多个麦克风的平均声压级(SPL)、与所有一个或多个麦克风的平均距离、以及从一个或多个麦克风测得的平均频率响应。该过程还可以包括启动验证过程,该验证过程作为迭代过程针对第一扬声器和第二扬声器中的每一个继续进行。该过程还可以包括:执行自动均衡过程,以识别第一和第二扬声器对所期望的响应形状的频率响应;以及识别一个或多个具有与测量频率响应的倒数密切匹配的频率响应的最佳滤波器。

图6B示出了用于执行音频系统的自动调谐过程的过程。参照图6B,该过程可包括:在特定房间环境中,在由控制器控制的网络上识别多个扬声器和一个或多个麦克风(652);提供测试信号以从每个放大器通道和多个扬声器依次播放(654);同时监视来自一个或多个麦克风的测试信号以检测运行中的扬声器和放大器通道(656);向多个扬声器提供额外的测试信号以确定调谐参数(658);在由控制器控制的一个或多个麦克风处检测额外的测试信号(662);以及基于检测到的额外测试信号自动建立房间环境的背景噪声水平和噪声频谱(664)。

该过程还可以包括:同时监视来自一个或多个麦克风的测试信号,以识别是否有任何放大器输出通道未连接到多个扬声器。附加测试信号可包括在第一时间提供的第一测试信号和在晚于第一时间的第二时间提供的第二测试信号。该过程还可包括:自动建立多个扬声器中每个扬声器的频率响应,以及每个放大器通道和相应扬声器的灵敏度水平。灵敏度水平基于特定房间环境的目标声压级(SPL)。该过程还可包括:识别一个或多个麦克风中的每个麦克风到多个扬声器中的每个扬声器的距离、特定房间环境的房间混响时间、用于实现目标SPL的每个扬声器通道的水平设置、用于归一化每个扬声器的频率响应并实现目标房间频率响应的每个扬声器通道的均衡设置、对于特定房间环境最佳的回声消除参数、对于特定房间环境用于降低麦克风检测到的背景噪声的最佳的降噪参数、以及对于特定房间环境用于降低未检测到语音时的背景噪声的最佳的非线性处理参数。该过程还可包括启动验证过程,该验证过程作为迭代过程,对多个扬声器中的每个扬声器持续进行验证,而验证过程包括在控制器控制的一个或多个麦克风上再次检测额外的测试信号,以验证目标SPL和目标房间频率响应。

图7示出了用于执行自动音频系统设置配置的示例过程。参考图7,该过程可包括:识别连接到由控制器控制的网络的多个扬声器和麦克风(712);向用于应用测试信号的多个扬声器分配初步输出增益(714);测量从麦克风检测到的环境噪声(716);同时记录来自所有麦克风的啁啾响应(718),对所有啁啾响应进行解卷积以确定相应数量的脉冲响应(722);以及测量每个麦克风的平均声压级(SPL)以获得基于SPL平均值的SPL水平(724)。

测量从麦克风检测到的环境噪声可包括针对过大噪声进行检查。对于每个麦克风输入信号,该过程可包括:识别主脉冲峰值,以及识别从多个扬声器中的一个或多个扬声器到每个麦克风的距离。该过程可包括:确定每个麦克风输入信号的频率响应,并基于频率响应对每个麦克风应用补偿值。该过程还可包括:对频率响应进行平均以获得空间平均响应,并对空间平均响应执行自动均衡以匹配目标响应值。该过程还可包括:基于SPL水平以及与最近和最远麦克风的距离来确定与房间相关的衰减值,并基于SPL水平和衰减值来确定输出增益,该输出增益在所有麦克风的平均距离处提供目标声级。

图8示出了用于对音频系统执行自动均衡过程的示例过程。参考图8,该过程可包括:确定从一个或多个扬声器检测到的经测量的啁啾信号的频率响应(812);基于高限值和低限值确定频率响应的平均值(814);从目标响应中减去经测量的响应,其中目标响应基于一个或多个滤波器频率(816);基于减法确定具有可听参数的限频目标滤波器(818);以及基于限频目标滤波器定义的区域应用无限脉冲响应(IIR)双二阶滤波器,以均衡一个或多个扬声器的频率响应(822)。

平均值被设置为零分贝,并且目标响应基于与一个或多个双二阶滤波器相关的一个或多个频率。基于目标响应确定目标滤波器可包括:确定目标过零点和目标滤波器导数零点。该过程还可包括:基于检测到的振幅峰值来限制目标滤波器的分贝,以创建受限滤波器;以及将受限滤波器添加到滤波器组中。该过程还可包括:将无限制均衡滤波器添加到测量响应中,以提供无限制校正响应。该过程还可包括:从目标响应中减去无限制校正响应,以提供新的目标滤波器。

图9示出了用于确定应用于音频系统的一个或多个增益值的示例过程。参考图9,该过程可包括:针对扬声器应用一组初始功率和增益参数(912);经由扬声器播放激励信号(914);测量所播放激励信号的频率响应信号(916);确定麦克风位置处的声级和距离一个或多个扬声器预定距离处的声级(918);基于麦克风位置处的声级和距离扬声器的预定距离处的声级的差来确定麦克风位置处的增益(922);以及将增益应用于扬声器输出(924)。

预定距离可以是设定距离(例如,一米),该设定距离与用户可能所处的相对于扬声器的位置相关。该过程还可以包括:在距离扬声器第一距离的麦克风处检测激励信号,以及在距离扬声器比第一距离更远的第二距离的第二麦克风处检测激励信号,并且该检测在两个麦克风处同时进行。该过程还可包括:确定第一距离处的第一声压级和第二距离处的第二声压级。该过程还可包括:基于第一声压级和第二声压级之差确定扬声器的衰减。该过程还可包括:基于扬声器由参考电压驱动时在离扬声器预定距离处测得的声压级,来确定扬声器的灵敏度。

图10示出了用于识别语音清晰度等级或语音传输指数的过程。参照图10,该过程可包括:启动自动调谐过程(1012);经由一个或多个麦克风检测与两个或更多个位置处的多个扬声器的输出相关联的声音测量结果(1014);确定与麦克风的数量相等数量个语音传输指数(STI)值(1016);以及对语音传输指数值进行平均以识别单个语音传输指数值(1018)。

该过程还可包括:在多个扬声器同时提供输出信号时测量所述数量个STI值。在多个扬声器同时提供输出信号时测量所述数量个STI值可包括:使用一个麦克风。在多个扬声器同时提供输出信号时测量所述数量个STI值可包括:使用多个麦克风中的一个麦克风,并且该麦克风被识别为最靠近多个扬声器位置中的中间位置。对语音传输指数值进行平均以识别单个语音传输指数值可以包括:测量“N”个麦克风处的STI值,并且“N”大于1,并对“N”个值进行平均以识别特定环境的单个STI值。

自动调谐可自动测量会议音频系统和相应房间的语音清晰度,只使用会议系统通常需要的组件,而无需其他仪器。自动调谐可与第三方功率放大器和扬声器一起使用。由于这些组件的增益和灵敏度都是未知的,因此自动调谐过程通过使用特有的宽带多音斜坡信号来快速确定这些参数,直到麦克风达到已知的SPL水平,同时使用经由声学延迟自动测量并使用声速计算的扬声器到麦克风的距离。利用这种技术,自动调谐可以确定相应组件的增益和灵敏度,以及扬声器的SPL水平。快速提升宽带多音信号,并为系统参数的自动确定提供优化。自动调谐自动均衡算法根据各种滤波器快速均衡多个扬声器区域。此外,该算法还增加了额外的增强功能。

该过程可包括:分析电声声音系统的水平和增益,以确定达到所需声级所需的增益,以及优化增益结构以获得最大动态范围。历史上,声压级用“dB SPL”表示。声级通常用单位“dB”表示,这意味着它实际上是相对于0dB=20u Pascal的绝对级别。现代国际标准用Lp/(20uPa)或简称Lp表示声压级。不过,Lp通常也用来表示声级中的变量,而不是声级单位。为避免混淆,在本分析中,声压级将始终用“dBa”表示,意为绝对声级,与过时的“dBSPL”相同。“dBa”不应与“dBA”混淆,后者通常是表示A加权声级的单位。在本分析中,“L”始终是水平变量,是绝对量,而“G”始终是增益变量,是相对量。由于方程包含具有不同单位(电的和声的)的变量,但仍以分贝为单位,为了清晰起见,这些单位在{}中明确示出。

分析被分为两个截然不同的信号路径:从声源(扬声器218)到DSP内部处理的输入路径,以及从DSP内部处理到扬声器输出声级的路径。这两条路径各有两种变化。输入信号路径具有模拟麦克风与数字麦克风之分,输出路径具有模拟放大器与数字放大器之分(就其输入信号而言是数字的,而不是其功率放大技术)。为保持一致性和简洁性,所有信号衰减均以增益表示,增益会具有负值。例如,GP-S=LP-LSpkr是从扬声器(在1米处)到人的增益,该值可能为-6dB。这些增益在图中显示为直向箭头,但实际上声音路径包括来自房间周围的表面反射和扩散声。显然,房间的脉冲响应可以揭示房间行为的细节,但在本分析中,只关注非时间稳态声级,例如由粉红噪声产生的声级。为简化分析,这些多个声音路径都被集中到增益为“G”的单个路径中。通过测量GP-S和GM-P,可以识别听者位置处的已知声级,以及设定的DSP输出增益和输入前置放大器增益。由于在听者位置没有测量麦克风,因此GP-S和GM-P是估计值。不过,可以精确测量GM-S,并根据典型的会议室声学"经验法则"对GP-S和GM-P进行一些估计。为保持一致性和简洁性,所有信号衰减均以增益表示,增益值会具有负值。例如,GP-S=LP-LSpkr是从扬声器(在1米处)到人的增益,这个值可能是-6dB。这些增益在图中显示为直向箭头,但实际上声音路径包括来自房间周围的表面反射和扩散声。显然,房间的脉冲响应可以揭示房间行为的细节,但在本分析中,非时间稳态声级被识别,例如粉红噪声产生的声级。为了简化,在本分析中,多个声音路径都被集中到增益为G的单个路径中。GP-S和GM-P被测量,因此可以识别听者位置处的已知声级,并优化设置DSP输出增益和输入前置放大器增益。

自动调谐可自动测量会议音频系统和相应房间的语音清晰度,仅使用会议系统通常需要的组件,而无需其他仪器。自动调谐可与第三方功率放大器和扬声器一起使用。由于这些组件的增益和灵敏度都是未知的,因此自动调谐过程通过使用特有的宽带多音斜坡信号来快速确定这些参数,直到麦克风达到已知的SPL水平,同时使用经由声学延迟自动测量并使用声速计算的扬声器到麦克风的距离。利用这种技术,自动调谐可以确定相应组件的增益和灵敏度,以及扬声器的SPL水平。快速提升宽带多音信号,并为系统参数的自动确定提供优化。自动调谐自动均衡算法根据各种滤波器快速均衡多个扬声器区域。此外,该算法还增加了额外的增强功能。

一种示例实施例可包括测量语音清晰度,以合理获得会议室的语音清晰度等级。应根据多个语音源(例如,天花板上的扬声器)和房间周围的多个聆听位置来识别语音传输指数(STI)。此外,会议环境中的语音源可能位于远处,远处的麦克风、远处的房间和传输通道都可以影响听者的语音清晰度体验。在通常同时使用多个扬声器的会议室中,逻辑上应在所有“语音会议”扬声器同时播放的情况下测量STI。语音会议扬声器是指在会议期间通常开启的所有扬声器,而专门用于音乐播放的所有扬声器都将关闭。原因是听者通常会同时聆听所有语音会议扬声器发出的语音,因此语音清晰度会受到所有扬声器的影响,因此评级应在所有语音会议扬声器都打开的情况下进行测量。与单个扬声器相比,打开所有语音会议扬声器时测得的STI可能更好,也可能更差,这取决于背景噪声水平、房间内的回声和混响、扬声器之间的间距等。

由于自动调谐必须使用会议系统的麦克风,而不是额外的测量麦克风,因此应该注意的是,自动调谐的STI测量值是放置在听者耳朵位置的测量麦克风的真实STI值的代替值。由于会议室有多个听者位置,而且可能有多个会议麦克风,因此最佳的STI评级是通过如下方式获得的:同时测量所有N个麦克风,计算出N个STI值,然后求出这些值的平均值,以得到单个房间STI值。这将是在所有会议麦克风位置处测得的平均STI值,这进而是所有听者位置处的平均STI值的代替值。(一个或多个)自动调谐算法被设计为一次对每个输出扬声器区域中的一者进行排序,并同时测量所有麦克风。此外,实时STI分析仪的任务是非常DSP密集的,并且一次只能测量一个麦克风输入。因此,这对测量“N”个麦克风的STI值以及对这些值进行平均造成了实际限制。为了获得最准确的STI值,应同时播放所有语音会议扬声器。

在自动调谐过程中可能在多个麦克风处测量STI的几种策略可包括:作为第一种方法,仅在第一扬声器迭代期间测量STI,但所有扬声器都将播放STIPA,然后使用第一麦克风执行测量,但使用该麦克风的测量被确定为处于在CalcIR状态下测量的扬声器到麦克风的距离所确定的中间位置。另一种方法可以包括:针对每次扬声器区域迭代,测量针对下一麦克风输入的STI,以使得可对多个STI测量值进行平均。但是可能出现一些问题:如果只有一个扬声器区,则只对第一麦克风进行测量。如果扬声器区的数量少于麦克风的数量,那么中间位置的麦克风可能会被遗漏,而且这种方法的运行时间最长。

还应注意的是,STI值通常被理解为代表该房间的语音传输质量。对于远程会议系统而言,听者体验到的语音传输质量实际上具有三个组成部分:扬声器和人所在房间的STI、电子传输通道的STI、以及远端麦克风和房间的STI。因此,自动调谐计算出的STI值是构成听者语音清晰度体验的三个组成部分中的仅一个的代替值。不过,这仍然可以为近端部分提供分数,用户或安装人员可以在事件期间对其进行控制。例如,用户/安装人员可以使用自动调谐STI分数来评估使用两种不同声学处理设计对STI的相对改善。

自动调谐可以自动测量会议音频系统和相应房间的语音清晰度,仅使用会议系统通常需要的组件,而不使用其他仪器。自动调谐可与第三方功率放大器和扬声器一起使用。由于这些元件的增益和灵敏度未知,自动调谐过程通过使用特有的宽带多音斜坡信号来快速确定这些参数,直到麦克风达到已知的SPL水平,同时使用经由声学延迟自动测量并使用声速计算扬声器到麦克风的距离。利用这种技术,自动调谐可以确定相应组件的增益和灵敏度,以及扬声器的SPL水平。快速提升宽带多音信号,并为系统参数的自动确定提供优化。自动调谐自动均衡算法基于各种滤波器快速均衡多个扬声器区域。此外,该算法还增加了额外的增强功能。

与本文所公开的实施例相关的方法或算法的操作可以直接体现在硬件中,也可以体现在由处理器执行的计算机程序中,或体现在两者的组合中。计算机程序可以体现在计算机可读介质上,例如存储介质。例如,计算机程序可以驻留在随机存取存储器(“RAM”)、闪存、只读存储器(“ROM”)、可擦除可编程只读存储器(“EPROM”)、电可擦除可编程只读存储器(“EEPROM”)、寄存器、硬盘、可移动盘、光盘只读存储器(“CD-ROM”)、或本领域已知的任何其他形式的存储介质中。

图11无意建议对本文所述申请的实施例的使用或功能的范围方面进行任何限制。无论如何,计算节点1100能够实现和/或执行本文所述的任何功能。

在计算节点1100中有计算机系统/服务器1102,计算机系统/服务器1102可以与许多其他通用或专用计算系统环境或配置一起运行。可适用于计算机系统/服务器1102的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、精简型客户端、丰富型客户端、手持式或笔记本电脑设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机系统、大型计算机系统、以及包括上述任何系统或设备的分布式云计算环境等。

计算机系统/服务器1102可在由计算机系统执行的计算机系统执行指令(例如,程序模块)的一般上下文中进行描述。一般来说,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、过程、对象、组件、逻辑、数据结构等。计算机系统/服务器1102可在分布式云计算环境中使用,在这种环境中,任务由通过通信网络连接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于本地和远程计算机系统存储介质中,包括存储器存储设备。

如图11所示,云计算节点1100中的计算机系统/服务器1102以通用计算设备的形式显示。计算机系统/服务器1102的组件可包括但不限于一个或多个处理器或处理单元1104、系统存储器1106和将包括系统存储器1106在内的各种系统组件耦合到处理器1104的总线。

总线代表几种类型的总线结构中的一种或多种,包括存储器总线或存储器控制器、外设总线、加速图形端口以及使用各种总线结构中的任何一种的处理器或本地总线。举例并非限制,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外设组件互连(PCI)总线。

计算机系统/服务器1102通常包括各种计算机系统可读介质。该介质可以是计算机系统/服务器1102可访问的任何可用介质,并且该介质包括易失性介质和非易失性介质、可移动介质和不可移动介质。在一个实施例中,系统存储器1106实现了其他图中的流程图。系统存储器1106可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)1110和/或缓冲器1112。计算机系统/服务器1102还可以包括其他可移动/不可移动、易失/非易失计算机系统存储介质。举例来说,存储系统1114可被提供来从不可移动、非易失磁性介质(未示出,通常称为“硬盘驱动器”)读取和写入不可移动、非易失磁性介质。虽然没有示出,但也可以提供用于从可移动、非易失磁盘(例如,“软盘”)读取以及向其写入的磁盘驱动器,以及用于从可移动、非易失光盘(例如,CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这种情况下,每个驱动器都可以通过一个或多个数据介质接口连接到总线上。如下文将进一步描绘和描述的,存储器1106可以包括至少一个程序产品,该程序产品具有一组(例如,至少一个)程序模块,所述程序模块被配置为执行本申请的各种实施例的功能。

具有一组(至少一个)程序模块1118的可程序/实用程序1116可以通过示例而非限制的方式存储在存储器1106中,存储器1106还可以存储操作系统、一个或多个应用程序、其他程序模块和程序数据。操作系统、一个或多个应用程序、其他程序模块、以及程序数据或它们的某种组合中的每一者可以包括网络环境的实施方式。程序模块1118通常执行本文所述申请的各种实施例的功能和/或方法。

如本领域技术人员将理解的,本申请的各个方面可以体现为系统、方法或计算机程序产品。因此,本申请的各个方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或结合软件和硬件方面的实施例的形式,这些方面在本文中一般都可称为“电路”、“模块”或“系统”。此外,本申请的各个方面可采用体现在一个或多个计算机可读介质中的计算机程序产品的形式,该介质具有计算机可读程序代码。

计算机系统/服务器1102还可以与如下设备通信:一个或多个外部设备1120,例如键盘、指向设备、显示器1122等;使用户能够与计算机系统/服务器1102交互的一个或多个设备;和/或使计算机系统/服务器1102能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。此类通信可通过I/O接口1124进行。此外,计算机系统/服务器1102还可以通过网络适配器1126与一个或多个网络进行通信,例如局域网(LAN)、普通广域网(WAN),和/或公共网络(例如,互联网)。如图所示,网络适配器1126通过总线与计算机系统/服务器1102的其他组件通信。应该理解的是,虽然没有示出,但其他硬件和/或软件组件也可以与计算机系统/服务器1102结合使用。示例包括但不限于:微码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器、以及数据存档存储系统等。

本领域技术人员将理解,“系统”可以体现为个人计算机、服务器、控制台、个人数字助理(PDA)、手机、平板计算设备、智能手机、或任何其他合适的计算设备,或者设备的组合。将上述功能描述为由“系统”执行,并不是要以任何方式限制本申请的范围,而是为了提供许多实施例中的一种示例。事实上,本文所公开的方法、系统和装置可以以符合计算技术的本地化和分布式形式实现。

应当注意的是,本说明书中描述的某些系统特征是以模块的形式呈现的,以更加突出其实现的独立性。例如,模块可以作为硬件电路实现,包括定制的超大规模集成(VLSI)电路或门阵列、现成的半导体(如逻辑芯片、晶体管或其他分立元件)。模块也可以在可编程硬件设备中实现,如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备、图形处理单元或类似设备。

模块还可以至少部分地通过软件实现,以由各种类型的处理器执行。例如,可执行代码的识别单元可以包括计算机指令的一个或多个物理或逻辑块,这些指令可以被组织成对象、过程或功能。不过,已识别模块的可执行文件不一定在物理上在一起,也可以由存储在不同位置的不同指令组成,当这些指令在逻辑上连接在一起时,就构成了模块并实现了模块的既定目的。此外,模块可存储在计算机可读介质上,例如可以是硬盘驱动器、闪存设备、随机存取存储器(RAM)、磁带或任何其他用于存储数据的介质。

事实上,可执行代码模块可以是单个指令,也可以是多个指令,甚至可以分布在多个不同的代码段、不同的程序、以及多个存储设备中。同样,操作数据也可以在模块中进行识别和说明,并且可以以任何合适的形式体现,并在任何合适的数据结构类型中进行组织。操作数据可以作为单个数据集被收集,也可以分布在不同位置上(包括分布在不同的存储设备上),并且可以至少部分地仅作为系统或网络上的电子信号存在。

容易理解的是,如本文图中一般描述和说明的应用组件可以以各种不同的配置进行排列和设计。因此,对实施例的详细描述并不是为了限制本公开的范围,而只是代表本申请的选定实施例。

本领域普通技术人员将容易理解,上述内容可以用不同顺序的步骤和/或不同于所公开的配置的硬件元件来实现。因此,尽管已经根据这些优选实施例描述了本申请,但对于本领域的技术人员来说,某些修改、变化和替代结构是易于理解的。

虽然已经描述了本申请的优选实施例,但应理解的是,所描述的实施例仅是说明性的,本申请的范围仅由所附权利要求书在考虑到等效和修改(例如,协议、硬件设备、软件平台等)的全部范围时来限定。

相关技术
  • 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
  • 自适应滤波音频信号以增强噪声环境条件下语音清晰度的系统
  • 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
技术分类

06120116493709