基于异形麦克风阵列的定向拾音方法及电子设备

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于异形麦克风阵列的定向拾音方法及电子设备。

背景技术

随着信息技术的迅猛发展，高质量的语音拾音技术成为通信、智能设备及音频处理领域中的核心需求之一。传统的麦克风阵列虽能实现一定程度的声源定位和噪声抑制，但在复杂环境下仍面临拾音精度不高、适应性差等问题。

在现有的语音拾音结构中，线性和环形麦克风阵列是常见的配置方式，其主要通过波束形成技术实现声源的定位和分离。然而，这些传统阵列形式受限于其几何布局，在处理来自多个方向的声源或在多路径干扰条件下，常常无法有效分离声源，导致拾音精度降低。此外，需要提前在系统中设置阵列中各个麦克风的间距，且在应用的过程中麦克风的间距不能发生改变，无法满足一些项目中可移动组件的定向拾音需求。

针对上述问题，目前业界暂未提出较佳的解决方案。

发明内容

本申请提供一种基于异形麦克风阵列的定向拾音方法、存储介质及电子设备，用以至少解决目前相关技术中麦克风阵列拾音效果不佳的问题。

第一方面，本申请实施例提供一种基于异形麦克风阵列的定向拾音方法，所述异形麦克风阵列包含麦克风排列方向彼此正交的第一麦克风子阵列和第二麦克风子阵列，所述方法包括：基于所述第一麦克风子阵列和所述第二麦克风子阵列，分别采集第一输入语音和第二输入语音；从所述第一输入语音中提取第一初始目标方向语音，以及从所述第二输入语音中提取第二初始目标方向语音；基于所述第一输入语音和所述第二输入语音，计算所述第一麦克风子阵列与所述第二麦克风子阵列之间的麦克风相关性系数；将所述第一初始目标方向语音、所述第二初始目标方向语音和所述麦克风相关性系数输入至目标神经网络，以由所述目标神经网络输出相应的增强目标方向语音；根据所述增强目标方向语音，确定定向拾音语音。

第二方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例的基于异形麦克风阵列的定向拾音方法的步骤。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例的基于异形麦克风阵列的定向拾音方法的步骤。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任一实施例的基于异形麦克风阵列的定向拾音方法的步骤。

本申请实施例的有益效果在于：

通过利用麦克风排列方向彼此正交的第一麦克风子阵列和第二麦克风子阵列分别来采集环境中的第一输入语音和第二输入语音，提取相应输入语音中对应目标方向的初始语音信号，并连同麦克风相关性系数输入至目标神经网络，得到增强目标方向语音，实现定向拾音的语音增强效果。由此，输入到目标神经网络的数据包括来自相交方向的语音和麦克风相关性系数，能通过麦克风相关性系数有效抑制非目标方向的干扰音频信号，其不依赖于固定的麦克风间距或严格的阵列几何形状，具有更高的灵活性，能够适应不同的音频采集场景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例的基于异形麦克风阵列的定向拾音方法的一示例的流程图；

图2示出了根据本申请实施例的基于异形麦克风阵列的定向拾音方法的另一示例的流程图；

图3示出了根据本申请实施例的第一麦克风子阵列的一示例的麦克风排列示意图；

图4示出了根据本申请实施例的第二麦克风子阵列的一示例的麦克风排列示意图；

图5为本申请的电子设备的一实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需说明的是，目前相关技术中的定向拾音方案通常应用于语音会议系统、车载语音系统和游戏音效等领域，该技术可以把目标方向的声音保留并增强，去除干扰突出主体。一般来说，技术原理主要依赖于固定麦距的麦克风阵列，常见的阵列为线性或者环形的排布方式，其对麦克风的距离有这较为严苛的要求。

此外，常采用固定麦克风阵列设计，并且在拾音的过程中麦克风的间距不能发生改变。多通道的音频信号被送入对应的算法模块来进行计算，算法根据固定的间距与排布方法设计,之后会返回出指定方向的音频信号。

更具体地，较为简单的固定波束形成算法(fix Beamforming)，其会根据不同麦克的间距进行延时调整来对声波进行叠加，从而达到增强特定方向声音的左右。广义旁瓣消除算法也有较为广泛的有影响，相对于简单的叠加，这些算法添加了数学模型来计算干扰信号的极小化数值，从而完成对目标方向的增强。当然随着神经网络的发展，越来越多的项目也会引入神经网络来完成任务，代价通常是更高额的算力。

然而，这些传统的算法存在较为明显的缺点，就是对麦克风的阵型要求较为固定，通常麦克风需要是线性或者圆形的排布，且需麦克风之间的间距不能过大(通常为3～5cm)时，传统的定向拾音算法才会有较为准确的效果。此外，麦克风一旦在不同的平面，既麦克风之间存在遮挡，效果也会有较大的衰退。而且，如果设备特性会导致麦克距离变化时，算法也会完全失效。

需强调的是，虽然上述算法有差异但是核心计算依据一直是不同麦克间的相位差异，且算法支持的麦克风排列固定，需要较多的预设置，这导致算法一直存在一些限制。此外，传统的波束形成技术对麦克的数目有一定的要求，通常麦克越多信息越丰富，效果才会较为稳定，而且使用环境的混响也会让相位信息陷入混乱，导致效果下降。

图1示出了根据本申请实施例的基于异形麦克风阵列的定向拾音方法的一示例的流程图。

关于本申请实施例方法的执行主体，其可以是任意具有计算或处理能力的控制器或处理器，以利用异形分布的第一麦克风子阵列和第二麦克风子阵列，实现定向拾音的语音增强效果。在一些示例中，其可以是通过软件、硬件或软硬件结合的方式被集成配置在电子设备或终端中，并且终端或电子设备的类型可以是多样化的，例如手机、平板电脑或台式机等等。

如图1所示，在步骤S110中，基于第一麦克风子阵列和第二麦克风子阵列，分别采集第一输入语音和第二输入语音。

这里，第一麦克风子阵列和第二麦克风子阵列的麦克风排列方向彼此正交。

在步骤S120中，从第一输入语音中提取第一初始目标方向语音，以及从第二输入语音中提取第二初始目标方向语音。

这里，可以使用各类已知或潜在的目标语音分离技术来对目标方向的语音信号进行提取，例如波束形成算法。

在步骤S130中，基于第一输入语音和第二输入语音，计算第一麦克风子阵列与第二麦克风子阵列之间的麦克风相关性系数。

这里，麦克风相关性系数可以是时间域相关性系数、频域相关性系数、相干函数或平方差等类型的参量，以实现对两个子阵列所采集的声音信号进行相关性分析，有助于评估和确定在两个方向上声音信号的相干性，为后续的信号融合和干扰抑制提供了基础。

在步骤S140中，将第一初始目标方向语音、第二初始目标方向语音和麦克风相关性系数输入至目标神经网络，以由目标神经网络输出相应的增强目标方向语音。

在一些实施方式中，基于麦克风相关性系数的指导目标神经网络来对不同方位麦克风所采集的目标方向语音进行融合，能够显著提升对目标方向的语音数据的质量和可理解性，能有效抑制噪声，提升语音的可辨识度。

在步骤S150中，根据增强目标方向语音，确定定向拾音语音。

在本申请实施例中，通过综合利用正交麦克风阵列、高级信号处理和神经网络技术，有效提升了语音拾音的精度、清晰度和适用场景的广泛性。尤其是，通过麦克风相关性系数有效抑制非目标方向的干扰音频信号，其不再依赖于固定的麦克风间距或严格的阵列几何形状，具有更高的灵活性，能够满足一些项目中可移动组件的定向拾音需求。

图2示出了根据本申请实施例的基于异形麦克风阵列的定向拾音方法的另一示例的流程图。

需说明的是，在本申请的发明人实践申请的过程中发现，在传统的分离算法中，其根据不同麦间距和不同的频段都会有不同程度残余，而这些残余在通话项目中会对听感影响非常的大。因此，在很多项目上都加入了神经网络模块，但是残余还是没被完全消除虽然噪音变得很弱，但是由于人耳的感知较为灵敏，还是无法完美解决问题。此外，由于有些项目中存在可以移动组件，其导致算法更加无法较佳匹配。因此，如何通过算法优化以让语音的残余降到最低。以此为目标，发明人设想了两个改进方向。第一个构想方向是如何对类似语音的成分进行干扰，使得残留的类语音部分变成可以被抑制掉的噪声。第二个构想方向是设计麦阵特殊形态，因此在算法设计的最初考虑到兼容性,也就是如何在设备在被移动的过程中，麦间距有个相对合理的麦阵改变以便于算法可以兼容偶尔麦距改变的业务场景。

如图2所示，在步骤S210中，基于第一麦克风子阵列和第二麦克风子阵列，分别采集第一输入语音和第二输入语音。

这里，第一麦克风子阵列中的各个麦克风水平排列，并且第二麦克风子阵列中的各个麦克风垂直排列。

在一些实施方式中，第一麦克风子阵列与第二麦克风子阵列之间的距离是可调整的，例如根据业务需求而进行调整，以满足运动的或多样化的定向拾音场景。

在步骤S220中，基于波束形成算法，从第一输入语音中分离第一初始目标方向语音和第一初始非目标方向语音，从第二输入语音中分离第二初始目标方向语音和第二初始非目标方向语音。

这里，波束形成算法可以采用固定波束固定波束(fix Beamforming)和广义旁瓣对消(gsc)等约束算法，这些算法根据约束条件将输入的音频，按照约束条件分离成不同的波束，这些波束内，只有目标方向的语音波束会被增强而其他方向的语音(即，初始非目标方向语音)均会被抑制。

图3示出了根据本申请实施例的第一麦克风子阵列的一示例的麦克风排列示意图。图4示出了根据本申请实施例的第二麦克风子阵列的一示例的麦克风排列示意图。

如图3所示，根据排布方式将麦克风阵列分成第一麦克风子阵列(麦克风1和麦克风2)，和第二麦克风子阵列(麦克风3和麦克风4)。更具体地，每个子阵列中的麦克风间距是固定，而第一麦克风子阵列与第二麦克风子阵列之间的距离是可以根据需要改变的。将第一麦克风子阵列和第二麦克风子阵列所接收到的输入音频分别输入对应的双麦波束形成算法，其中包括固定波束(fix Beamforming)和广义旁瓣对消(gsc)。由此，根据给定的约束条件，将输入音频按照约束条件分离成不同的波束。

在一些实施方式中，基于波束形成算法和针对第一麦克风子阵列所设置的第一波束约束条件，从第一输入语音中分离第一初始目标方向语音和至少一个第一初始非目标方向语音，第一波束约束条件定义了在第一方向上的多个第一约束角度区间。进而，基于波束形成算法和针对第二麦克风子阵列所设置的第二波束约束条件，从第二输入语音中分离第二初始目标方向语音和至少一个第二初始非目标方向语音，第二波束约束条件定义了在第二方向上的多个第二约束角度区间，第一方向和第二方向正交。

更具体地，可以根据项目需求选择约束条件。示例性地，如图3和4所示，针对第一麦克风阵列(麦克风1和麦克风2)，可以约束三个角度区间(0-60度，60-120度，120-180度)，而针对第二麦克风阵列(麦克风3和麦克风4)，可以约束上下两个部分(0-180度，180-360度)。经过双麦波束形成的算法，针对第一麦克风阵列能够得到3条按照约束角度分离出来的音频。下面假定{60～120}作为音源目标角度，但由于数量限制，双麦克组成的线性麦克组采用一维均匀布局，其会导致形成的波束的扇面对称性。结合图3的示例，第一麦克风阵列是水平布置的，，因此拾音区域是上方和下方是对称的，也就是说，处于目标角度对面的角度区间(240～300度)的音频也会被分离到目标语音，导致较大的噪音成分。因此，如图4所示，第二麦克风阵列的麦克风排列方向是垂直排列的，因此拾音区域是两侧对称的。进而，可以依靠于第二麦克风阵列的输出来有效区分出语音来自上方还是下方。对于第二麦克风阵列(麦克风3和麦克风4)，其约束条件为(0-180度)和(180-360度)，根据约束条件可以得到两条音频，并通过波束成形其会选取{0-180}作为目标角度。从第二麦克风阵列的输出来看，角度(240-300)内的音频会与{60-120}内的音频，会存在一个明显的区别，该区别也帮助后面的神经网络可以轻松去掉干扰的角度。

在步骤S230中，基于第一输入语音和第二输入语音，计算第一麦克风子阵列与第二麦克风子阵列之间的麦克风相关性系数。

结合图3和4的示例，在一些实施方式中，可以指定或随机选择两个阵列中的麦克风(例如，麦克风2和麦克风3)的输入语音来计算相应的麦克风相关性系数。

在步骤S240中，将第一初始目标方向语音、第二初始目标方向语音和麦克风相关性系数输入至目标神经网络，以由目标神经网络输出相应的增强目标方向语音。

在步骤S250中，将第一初始非目标方向语音和第二初始非目标方向语音输入至非目标神经网络，以由非目标神经网络输出相应的增强非目标方向语音。

在一些实施方式中，目标神经网络和/或非目标神经网络采用U-Net架构。这种结构使得网络能够在分析时捕获到广泛的上下文信息，并在构建输出时保留更多细节，实现精确的特征分离。

需说明的是，由于分离任务较为困难，除了训练一个只保留目标方向语音的网络以外，还可以训练另外一个网络只保留非目标方向的语音。这样，在处理过程中，将对应每个子阵列输出的目标方向的音频送入目标神经网络，此外由于子阵列间的距离是可以根据需要改变的，可以将麦克风2和麦克风3之间的相关系数也送入目标方向对应的神经网络来帮助网络更好的识别不同麦阵距离间的相关性，使得目标方向的神经网络的输出对应目标方向的增强目标方向语音。此外，还可以将两个麦阵经过波束形成输出的非目标语音送入对应的为了非目标路语音训练的神经网络，以得到对应非目标方向的增强非目标方向语音。

在步骤S260中，将增强目标方向语音和增强非目标方向语音输入至盲源分离模块，以确定对应目标方向的通道分离语音。

这里，为了更佳地处理由神经网络所输出的语音信号中的残余，可以将这两路音频(即，增强目标方向语音和增强非目标方向语音)送入盲源分离模块，使得盲源分离模块根据两个通道的能量差异，将本来残余的语音分到它本来所属的通道，从而在较大程度上破坏残余语音的语谱结构。

在步骤S270中，基于通道分离语音，确定定向拾音语音。

在一些实施方式中，将通道分离语音输入至单通道降噪神经网络，以由单通道降噪神经网络输出通道降噪语音，继而基于通道降噪语音确定定向拾音语音。可选地，还可以针对通道降噪语音的幅值进行自适应放大处理，以得到定向拾音语音。由此，通过单通道神经网络降噪模块进行最后的降噪，之后自适应放大来调节语音的幅值，得到对应目标方向上的纯净且高质量的定向拾音语音。

需说明的是，在目前相关技术中，一般会增加阵列中麦克风数目，使用神经网络模块替换传统的算法，来提升定向拾音效果。或者，当麦克风改变间距时，就会使用新的一套参数，当然这需要额外的外部信息，也使得系统内存和处理流程变得更加复杂。因此，算法复用的方便程度，和算法设计的成本一直是这一技术的瓶颈，而如何结合神经网络、传统算法以及麦克风矩阵改变带来的影响，在本申请实施例所提供的方案中表现出了较为优异的成果。

不同于先前麦克风定向拾音算法设计，通过本申请实施例，将一个困难任务拆解为多个简单任务，因此相对与目前相关技术相比，本申请实施例将所有压力放在一个模块的情况，算法压力分散，能够有效降低算法处理压力与残余的噪音语音成分。

在本申请实施例中，使用了固定波束对语音进行分离，根据麦克的间距选择对应的约束矩阵，此外会使用网络加强分离的力度，而残存的语音部分加入盲源分离对语音进一步破坏。破坏后的语音，使用传统的降噪网络进行再一次的降噪。将传统一到两个模块可以做的事情，拆分到4个部分。由于每个步骤的难度不高，因此每个部分的算力都可以控制到非常的小。

如上述图3-4的示例，麦克风这列中设置有四个麦克风，虽然麦克风会随着产品移动，但是将一个大的矩阵区分成两个小的矩阵，每个小矩阵的麦距则是固定的大小，因此为小矩阵可以仍然采用传统的方法，而后将它们选中的区域进行叠加，将传统的对称的定向区域变为单一方向的指向。另外，为了量化两个麦阵之间的影响，本申请实施例中通过不同麦克之间的相关性，作为特征传入神经网络，这使得网络更容易找到不同麦距之前的音频包含的相同的信息，提高了网络的兼容性。

通过本申请实施例，一方面，将高难度的拾音分离任务分摊至各个模块，相比于一般算法中不断提升模型算力，在本技术方案中，降低了对神经网络的算力要求，即使目标神经网络的分离不够彻底，在后续处理流程中也仍有其他模块来进行辅助处理，能够实现较为彻底的定向语音分离。另一方面，将一个大的麦阵拆成了两个小的麦阵，不需要预知各个麦克风子阵列的距离，并将距离信息使用相关性代替，让神经网络来拟合不同的阵列分布情况，因此不需要准备多套资源，能有效降低内存并保障效果的稳定性，提高了项目实施效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本申请实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本申请上述任一项基于异形麦克风阵列的定向拾音方法。

在一些实施例中，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项基于异形麦克风阵列的定向拾音方法。

在一些实施例中，本申请实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行基于异形麦克风阵列的定向拾音方法。

图5是本申请另一实施例提供的执行基于异形麦克风阵列的定向拾音方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行基于异形麦克风阵列的定向拾音方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于异形麦克风阵列的定向拾音方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于异形麦克风阵列的定向拾音方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的基于异形麦克风阵列的定向拾音方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：思必驰科技股份有限公司;

上一篇：无线话筒的灯光律动方法、装置、设备和计算机存储介质
下一篇：基于自适应跳频的无线蜂巢集联麦克风控制方法及系统