掌桥专利:专业的专利平台
掌桥专利
首页

声音定位装置与方法

文献发布时间:2023-06-19 11:57:35


声音定位装置与方法

技术领域

本发明是关于定位装置与方法,尤其是关于声音定位装置与方法。

背景技术

麦克风阵列常用于免持装置或会议装置,该些装置通常会利用声音定位技术来估测声音来向(或说声音角度),以强化收讯。

由于麦克风阵列的多个麦克风是分开地设置,因此不同麦克风收到同一声音信号的时间会有时间差;当该声音信号的入射角度不同时,该时间差也会不同。一种常见的声音定位技术是基于上述时间差来计算多种声音信号之入射角度的空间特征,再依该些空间特征的强度来估测声音角度。一些常见的计算空间特征的技术见于下列参考文献:

参考文献1:J.H.DiBiase,“A high-accuracy,low-latency technique fortalker localization in reverberant environments using microphone arrays”,2000。

参考文献2:H.L.Van Trees,“Optimum array processing–Part IV ofdetection,estimation,and modulation theory”,Chapter 6,2002。

为了提升在噪声干扰下角度估测的准确性,在计算空间特征前或在决定声音角度时,语音检测(speech detection)技术可被采用以提升稳定性,如美国专利公开案US2002/0097885 A1所述。然而,当音乐或嘈杂(babble)型的噪声能量增加时,语音检测技术的误判机率会随之提高,这使得目前的声音定位技术容易将噪声来向误认为语音来向;此外,嘈杂环境会降低语音检测技术的成功率,使得目前的声音定位技术难以适当地决定语音来向。

另有一先前技术(美国专利US 6,990,193B2)揭示了回音消除技术,但未解决前述问题。

发明内容

本公开之一目的在于揭示一种声音定位装置与方法,能够适当地决定语音角度。

本公开之声音定位装置的一实施例包含一空间特征发生器、一语音检测器、一角度选择器与一角度取回器。该空间特征发生器用来依据一麦克风阵列之N个麦克风的信号产生M个空间特征信号,其中该N与该M均为大于一的整数。该语音检测器用来依据该N个麦克风的信号的至少其中之一产生至少一语音检测信号。该角度选择器用来依据该M个空间特征信号输出一候选角度信号指出一候选声音角度。该角度取回器用来依据该M个空间特征信号产生一声源检测结果指出是否有任何声源存在,再依据该声源检测结果、该至少一语音检测信号与该候选角度信号来输出一估测角度信号。

本公开之声音定位装置的另一实施例同样包含一空间特征发生器、一语音检测器、一角度选择器与一角度取回器。该空间特征发生器用来依据一麦克风阵列之N个麦克风的信号产生M个空间特征信号,其中该N与该M均为大于一的整数。该语音检测器用来依据该M个空间特征信号的X个空间特征信号产生X个语音检测信号,其中该X为不大于该M的正整数。该角度选择器用来依据该M个空间特征信号输出一候选角度信号指出一候选声音角度。该角度取回器用来依据该M个空间特征信号产生一声源检测结果指出是否有任何声源存在,再依据该声源检测结果、该X个语音检测信号与该候选角度信号来输出一估测角度信号。

本公开之声音定位方法的一实施例是由一角度取回器来执行。该实施例包含下列步骤:依据M个空间特征信号判断目前是否有任何声源存在,其中该M个空间特征信号是依据一麦克风阵列之N个麦克风的信号而产生,该N与该M均为大于一的整数;依据至少一语音检测信号判断目前是否有语音存在,其中该至少一语音检测信号是依据该N个麦克风的信号的至少其中之一或该M个空间特征信号的至少其中之一而产生;若判断目前没有任何声源存在,输出一候选角度信号作为一估测角度信号,其中该候选角度信号是依据该M个空间特征信号而产生,用来指出一候选声音角度;若判断目前有至少一声源存在且有语音存在,储存该候选角度信号至一储存电路,并输出该候选角度信号作为该估测角度信号;以及若判断目前有该至少一声源存在且没有语音存在,从该储存电路取回一先前储存的候选角度信号,并输出该先前储存的候选角度信号作为该估测角度信号。

有关本发明的特征、实际操作与功效,兹配合附图作优选实施例详细说明如下。

附图说明

图1示出本公开的声音定位装置的一实施例;

图2示出图1的角度取回器所执行的多个步骤的一实施例;

图3示出本公开的声音定位装置的另一实施例;以及

图4示出本公开的声音定位方法的一实施例。

具体实施方式

本公开提供一种声音定位装置与方法,能够适当地决定语音来向。

图1示出本公开的声音定位装置的一实施例。图1的声音定位装置100包含一空间特征发生器110、一语音检测器120、一角度选择器130与一角度取回器140。空间特征发生器110用来依据一麦克风阵列10的N个麦克风的信号(S

请参阅图1。空间特征发生器110可使用已知或自行开发的技术来产生该M个空间特征信号;举例而言,空间特征发生器110使用下列算法的至少其中之一来产生该M个空间特征信号:一可控响应功率(Steered Response Power,SRP)算法;一广义互相关(Generalized Cross Correlation,GCC)算法;以及一相位变换广义互相关(GeneralizedCross Correlation-Phase Transform,GCC-PHAT)算法。上述算法的介绍见于前述参考文献1。另外,为提升角度估测的连续性,空间特征发生器110可选择性地使用一已知或自行开发的递归(recursive)算法,以对该M个空间特征信号执行一平滑处理。

请参阅图1。语音检测器120用来检测信号是否带有特定特征(例如:音调(pitch)或能量)以产生该至少一语音检测信号。语音检测器120可通过已知技术(例如:https://en.wikipedia.org/wiki/Voice_activity_detection)或自行开发的技术来实现。

请参阅图1。角度取回器140执行多个步骤以决定该估测角度信号,该多个步骤的一实施例如图2所示,包含:

S210:依据该M个空间特征信号判断目前是否有任何声源存在。于一实施范例中,步骤S210包含下列步骤的至少其中之一以判断是否有任何声源存在:一第一步骤,用来依据该M个空间特征信号的一最大值、该M个空间特征信号的一平均值以及一第一阈值来判断目前是否有任何声源存在;一第二步骤,用来依据该最大值、该M个空间特征信号的一最小值以及一第二阈值来判断目前是否有任何声源存在;以及一第三步骤,用来依据该最大值与一第三阈值判断目前是否有任何声源存在。举例而言,该第一步骤用来判断该最大值是否大于该第一阈值与该平均值的乘积,以在该判断的结果为“是”时,判断有声源存在;该第二步骤用来判断该最大值是否大于该第二阈值与该最小值的乘积,以在该判断的结果为“是”时,判断有声源存在;以及该第三步骤用来判断该最大值是否大于该第三阈值,以在该判断的结果为“是”时,判断有声源存在。本领域人士可依实施需求决定上述第一、第二与第三阈值。

S220:依据该至少一语音检测信号判断目前是否有语音存在。

S230:若判断目前没有任何声源存在,输出该候选角度信号作为该估测角度信号。

S240:若判断目前有至少一声源存在且有语音存在,储存该候选角度信号至储存电路20,并输出该候选角度信号作为该估测角度信号。

S250:若判断目前有该至少一声源存在且没有语音存在,从该储存电路取回一先前储存的候选角度信号,并输出该先前储存的候选角度信号作为该估测角度信号。

由于本领域普通技术人员可利用已知及/或自行开发的技术,依据本公开来实现角度取回器140,冗余的说明在此省略。

图3示出本公开的声音定位装置的另一实施例。图3的声音定位装置300包含一空间特征发生器310、一语音检测器320、一角度选择器330以及一角度取回器340。空间特征发生器310用来依据一麦克风阵列的N个麦克风的信号产生M个空间特征信号,其中该N与该M均为大于一的整数。语音检测器320用来依据该M个空间特征信号的X个空间特征信号产生X个语音检测信号(S

请参阅图3。于一实施范例中,空间特征发生器310使用前述可控响应功率算法来产生该M个空间特征信号。于一实施范例中,语音检测器320使用已知或自行开发的技术来检测信号是否带有特定特征以产生该X个语音检测信号。于一实施范例中,角度取回器340执行多个步骤以决定该估测角度信号,该多个步骤的一实施例包含:依据该M个空间特征信号判断目前是否有任何声源存在;依据该X个语音检测信号判断目前是否有语音存在;若判断目前没有任何声源存在,输出该候选角度信号作为该估测角度信号;若判断目前有至少一声源存在且有语音存在,储存该候选角度信号至储存电路20,并输出该候选角度信号作为该估测角度信号;以及若判断目前有该至少一声源存在且没有语音存在,从储存电路20取回一先前储存的候选角度信号,并输出该先前储存的候选角度信号作为该估测角度信号。

由于本领域普通技术人员能够参酌图1至图2的实施例的公开来了解图3的实施例的细节与变化,亦即图1至图2的实施例的技术特征可合理应用于图3的实施例,因此,重复及冗余的说明在此省略。

图4示出本公开的声音定位方法的一实施例,是由一角度取回器(例如:前述角度取回器140/340)来执行。图4的实施例包含下列步骤:

S410:依据M个空间特征信号判断目前是否有任何声源存在,其中该M个空间特征信号是依据一麦克风阵列的N个麦克风的信号而产生,该N与该M均为大于一的整数。

S420:依据至少一语音检测信号判断目前是否有语音存在,其中该至少一语音检测信号是依据该N个麦克风的信号的至少其中之一或该M个空间特征信号的至少其中之一而产生。

S430:若判断目前没有任何声源存在,输出一候选角度信号作为一估测角度信号,其中该候选角度信号是依据该M个空间特征信号而产生,用来指出一候选声音角度。

S440:若判断目前有至少一声源存在且有语音存在,储存该候选角度信号至一储存电路,并输出该候选角度信号作为该估测角度信号。

S450:若判断目前有该至少一声源存在且没有语音存在,从该储存电路取回一先前储存的候选角度信号,并输出该先前储存的候选角度信号作为该估测角度信号。

由于本领域普通技术人员能够参酌图1至图3的实施例的公开来了解图4的实施例的细节与变化,亦即图1至图3的实施例的技术特征可合理应用于图4的实施例,因此,重复及冗余的说明在此省略。

请注意,在实施为可能的前提下,本技术领域普通技术人员可选择性地实施前述任一实施例中部分或全部技术特征,或选择性地实施前述多个实施例中部分或全部技术特征的组合,以增加本发明实施时的弹性。

综上所述,本发明能够通过角度取回器的操作,适当地决定语音来向。

虽然本发明的实施例如上所述,然而该些实施例并非用来限定本发明,本技术领域普通技术人员可依据本发明的明示或隐含之内容对本发明的技术特征施以变化,凡此种种变化均可能属于本发明所寻求的专利保护范畴,换言之,本发明的专利保护范围须视本说明书的权利要求所界定者为准。

【符号说明】

10 麦克风阵列

20 储存电路

100 声音定位装置

110 空间特征发生器

120 语音检测器

130 角度选择器

140 角度取回器

S

S

S

S

S

S210至S250 步骤

300 声音定位装置

310 空间特征发生器

320 语音检测器

330 角度选择器

340 角度取回器

S

S410至S450 步骤。

相关技术
  • 声音图像定位装置、方法和存储使信息处理器执行声音图像定位处理的声音图像定位程序的存储介质
  • 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序
技术分类

06120113118609