导航：首页> 乐器；声学>声音处理方法、装置、电子设备和可读存储介质

声音处理方法、装置、电子设备和可读存储介质

文献发布时间：2023-06-19 09:26:02

技术领域

本申请涉及计算机技术领域，特别是涉及一种声音处理方法、装置、电子设备和可读存储介质。

背景技术

目前，随着计算机技术的发展，终端设备与终端设备之间可以进行联动，例如，用户可以将智能手机所显示的画面投放到显示屏(个人计算机的显示屏或者智能电视)上。

例如，在一种视频通话的情况中，用户A可以通过移动终端A与用户B进行视频通话，而且，用户A可以将终端设备A的显示画面投放到智能电视A上，此时，终端设备A负责收录用户A发出的声音，智能电视A负责播放移动终端A的显示画面以及声音。

在此过程中，用户A可以将移动终端A放置一旁，然而，由于环境噪音(智能电视A发出的声音或者无法消除的环境音等)的存在，以及用户A距离移动终端A过远，会导致移动终端A收录的声音过小或者不清楚。

发明内容

有鉴于此，本发明实施例提供一种声音处理方法、装置、电子设备和可读存储介质，以针对特定声源进行定向拾音，并清晰的捕捉该特定声源发出的声音。

第一方面，提供了一种电子设备，所述电子设备包括：

设备主体；

麦克风阵列，包括分别被配置在所述设备主体的不同平面的多个麦克风；以及

控制器，被配置为执行如下步骤：

确定每个麦克风收集的音频数据；

基于所述音频数据，确定所述麦克风阵列的拾音方向特性，所述拾音方向特性用于表征所述麦克风阵列获取的声音源方向特性；以及基于所述拾音方向特性进行降噪处理。

可选的，所述控制器被配置为执行如下步骤：

基于语音活动检测算法，确定所述音频数据的音频特征，所述音频特征至少包括语音强度、信噪比、语音片段和非语音片段；以及

基于所述音频特征，确定所述麦克风阵列的拾音方向特性。

可选的，所述控制器被配置为基于所述拾音方向特性，确定噪声源或非噪声源的方向；以及根据噪声源或非噪声源的方向，调整拾音方向。

可选的，所述控制器被配置为通过调整所述多个麦克风的增益以调整拾音方向。

可选的，所述被配置为执行如下步骤：

基于预设的深度神经网络模型，对来自所述拾音方向以外的声音信号进行降噪和抑制，确定第一输出特征；

对来自所述拾音方向以内的声音信号进行增强，确定第二输出特征；

基于所述第一输出特征和所述第二输出特征，确定输出数据；以及

发送所述输出数据。

可选的，所述电子设备还包括：多个扬声器；

各扬声器被对应设置在各特定麦克风的相邻位置。

可选的，所述控制器还被配置为控制至少一个扬声器播放降噪音频以抵消噪声。

可选的，所述控制器被配置为根据所述拾音方向特性将至少一个麦克风关闭，被关闭的麦克风拾取的音频数据中的噪声满足预定条件。

可选的，所述麦克风阵列包括：第一麦克风、第二麦克风、第三麦克风和第四麦克风；所述设备主体包括相对设置的第一面和第二面以及相对设置的第三面和第四面；

所述第一麦克风和所述第二麦克风分别设置在所述第一面和第二面相对应的位置；所述第三麦克风和所述第四麦克风分别设置在所述第三面和所述第四面相对应的位置。

可选的，所述控制器被配置为执行如下步骤：

确定每个麦克风收集的声音信号；

针对每个声音信号进行模数转换，确定所述声音信号对应的数字信号；以及

对所述数字信号进行归一化处理，确定所述音频数据。

第二方面，提供了一种声音处理方法，所述方法应用于电子设备，所述方法包括：

确定每个麦克风收集的音频数据；

基于所述音频数据，确定麦克风阵列的拾音方向特性，所述拾音方向特性用于表征所述麦克风阵列获取的声音源方向特性；以及

基于所述拾音方向特性进行降噪处理。

可选的，所述基于所述音频数据，确定所述麦克风阵列的拾音方向特性，包括：

基于语音活动检测算法，确定所述音频数据的音频特征，所述音频特征至少包括语音强度、信噪比、语音片段和非语音片段；以及

基于所述音频特征，确定所述麦克风阵列的拾音方向特性。

可选的，所述基于所述拾音方向特性进行降噪处理，包括：

基于所述拾音方向特性，确定噪声源或非噪声源的方向；以及

根据噪声源或非噪声源的方向，调整拾音方向。

可选的，所述调整拾音方向，包括：

调整所述麦克风阵列中各麦克风的增益以调整拾音方向。

可选的，所述基于所述拾音方向特性进行降噪处理，包括：

基于预设的深度神经网络模型，对来自所述拾音方向以外的声音信号进行降噪和抑制，确定第一输出特征；

对来自所述拾音方向以内的声音信号进行增强，确定第二输出特征；

基于所述第一输出特征和所述第二输出特征，确定输出数据；以及

发送所述输出数据。

可选的，所述基于所述拾音方向特性进行降噪处理，包括：

控制至少一个扬声器播放降噪音频以抵消噪声。

可选的，所述基于所述拾音方向特性进行降噪处理，包括：

根据所述拾音方向特性将至少一个麦克风关闭，被关闭的麦克风拾取的音频数据中的噪声满足预定条件。

可选的，所述确定每个麦克风收集的音频数据，包括：

确定每个麦克风收集的声音信号；

针对每个声音信号进行模数转换，确定所述声音信号对应的数字信号；以及

对所述数字信号进行归一化处理，确定所述音频数据。

第三方面，提供了一种声音处理装置，所述装置应用于电子设备，所述装置包括：

第一确定模块，用于确定每个麦克风收集的音频数据；

第二确定模块，用于基于所述音频数据，确定麦克风阵列的拾音方向特性，所述拾音方向特性用于表征所述麦克风阵列获取的声音源方向特性；以及

降噪模块，用于基于所述拾音方向特性进行降噪处理。

可选的，所述第二确定模块，具体用于：

基于语音活动检测算法，确定所述音频数据的音频特征，所述音频特征至少包括语音强度、信噪比、语音片段和非语音片段；以及

基于所述音频特征，确定所述麦克风阵列的拾音方向特性。

可选的，所述降噪模块，具体用于：

基于所述拾音方向特性，确定噪声源或非噪声源的方向；以及

根据噪声源或非噪声源的方向，调整拾音方向。

可选的，所述降噪模块，具体还用于：

调整所述麦克风阵列中各麦克风的增益以调整拾音方向。

可选的，所述降噪模块，具体还用于：

基于预设的深度神经网络模型，对来自所述拾音方向以外的声音信号进行降噪和抑制，确定第一输出特征；

对来自所述拾音方向以内的声音信号进行增强，确定第二输出特征；

基于所述第一输出特征和所述第二输出特征，确定输出数据；以及

发送所述输出数据。

可选的，所述降噪模块，具体还用于：

控制至少一个扬声器播放降噪音频以抵消噪声。

可选的，所述降噪模块，具体还用于：

根据所述拾音方向特性将至少一个麦克风关闭，被关闭的麦克风拾取的音频数据中的噪声满足预定条件。

可选的，所述第一确定模块，具体用于：

确定每个麦克风收集的声音信号；

针对每个声音信号进行模数转换，确定所述声音信号对应的数字信号；以及

对所述数字信号进行归一化处理，确定所述音频数据。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第二方面所述的方法。

通过本发明实施例，电子设备可以基于麦克风阵列中每个麦克风收集的音频数据，确定麦克风阵列的拾音方向特性，即电子设备可以根据收集的音频数据准确确定拾音方向，进而，电子设备可以基于该拾音方向以及多个麦克风进行降噪处理，实现了针对特定声源的定向拾音，即使环境中存在噪音或者电子设备远离该特定声源，电子设备也可以清晰的捕捉该特定声源发出的声音。

附图说明

通过以下参照附图对本发明实施例的描述，本发明实施例的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明实施例提供的一种应用场景的示意图；

图2为本发明实施例提供的另一种应用场景的示意图；

图3为本发明实施例提供的一种电子设备的示意图；

图4为本发明实施例提供的另一种电子设备的示意图；

图5为本发明实施例提供的一种声音处理方法的流程图；

图6为本发明实施例提供的另一种声音处理方法的流程图；

图7为本发明实施例提供的另一种声音处理方法的流程图；

图8为本发明实施例提供的一种波束成形的效果示意图；

图9为本发明实施例提供的一种拾音方向的示意图；

图10为本发明实施例提供的一种电子设备播放降噪音频的示意图；

图11为本发明实施例提供的另一种声音处理方法的流程图；

图12为本发明实施例提供的一种声音处理装置的结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如图1所示，图1为本发明实施例提供的一种应用场景的示意图，该应用场景包括：用户A、电子设备11和电视12。

该场景可以为在线教育课堂，例如，用户A为在线教育课堂中的学生，其可以通过电子设备11与教师进行视频通话，进而学习教师传授的知识。

在教师侧，教师可以通过教师端(例如智能手机、平板电脑等)与用户A(学生)进行视频通话。

需要说明的，电子设备11可以是智能手机、平板电脑等设备，电视12可以是具有投屏功能的智能屏幕，本发明实施例对电子设备11和电视12的种类、型号等参数不做限定。

在用户A通过电子设备11与教师进行视频通话时，电子设备11可以采集用户A发出的声音(电子设备11也可以同时对用户A进行拍摄，本发明实施例不做限定)，然后将该声音作为学生音频数据通过网络向教师端发送。

同时，电子设备11也可以接收教师端发送的教师视频数据和教师音频数据，进而，电子设备11可以通过显示器播放教师视频数据，通过扬声器播放教师音频数据。

在此过程中，用户A可以将电子设备11接收到的数据投屏到电视12，以使得电视12播放电子设备11通过网络接收到的教师视频数据以及教师音频数据。

当用户A将电子设备11接收到的数据投屏到电视12后，可以将电子设备11放置在一旁(如图1所示)，观看电视12中播放的教师视频数据以及教师音频数据，以获得更好地上课体验，但是，由于电子设备11与用户A之间的距离增加，使得电子设备11需要针对用户A发出的声音进行远距离拾音。

同样在该场景中，如图2所示，图2为本发明实施例提供的一种电子设备应用场景的示意图，该应用场景包括：用户A、电子设备11和电视12。

当用户A将电子设备11放置在一旁后，电子设备11需要采集用户A发出的声音，但是，电视12也会通过扬声器发出声音(如图2所示)，此时，电子设备11会同时采集到电视12发出的声音以及用户A发出的声音，因此，在此场景中，电视12发出的声音会对用户A发出的声音形成干扰，即电视12发出的声音为干扰噪音，用户A发出的声音为非干扰噪音。

为了解决上述场景中的噪音干扰问题，本发明实施例提供一种电子设备，该电子设备包括：设备主体、麦克风阵列以及控制器，其中，麦克风阵列包括分别被配置在设备主体的不同平面的多个麦克风。

具体的，如图3所示，图3为本发明实施例提供的一种电子设备的示意图，该电子设备包括：设备主体3和麦克风阵列。

其中，该电子设备可以是能用于视频通话的移动终端，例如智能手机、平板电脑等。

麦克风阵列包括第一麦克风31、第二麦克风32、第三麦克风33和第四麦克风34，设备主体3包括相对设置的第一面和第二面以及相对设置的第三面和第四面。

其中，第一麦克风31被配置在设备主体3的第一面，第二麦克风32被配置在设备主体3的第二面，第三麦克风33被配置在设备主体3的第三面，第四麦克风34被配置在设备主体3的第四面。

第一麦克风31和第二麦克风32分别设置在第一面和第二面相对应的位置；第三麦克风33和第四麦克风34分别设置在第三面和第四面相对应的位置。

需要说明的，本发明实施例为了表明各麦克风的位置，简化了图3中电子设备的外形，本发明实施例对电子设备的外形不做限定。

而且，图3中所示的麦克风安装位置为本发明实施例提供的一种优选的实施方式，如图3所示的方式安装麦克风阵列可以使得电子设备具有更好地拾音效果，在实际应用中，各麦克风的安装位置处于设备主体3的不同平面即可。

由于各麦克风的安装位置处于设备主体3的不同平面，使得各麦克风的朝向不同，进而使得电子设备具有更好地拾音效果。

如图4所示，图4为本发明实施例的电子设备的示意图，其中，图4所示的电子设备为图3所示的电子设备，其包括计算机硬件结构，其至少包括处理器41和存储器42。

处理器41和存储器42通过总线43连接，存储器42适于存储处理器41可执行的指令或程序，处理器41可以是独立的微处理器，也可以是一个或者多个微处理器集合。

由此，处理器41通过执行存储器42所存储的指令，从而实现对声音信号的处理和对于其它装置的控制。

总线43将上述多个组件连接在一起，同时将上述组件连接到显示控制器44和至少一个麦克风45，典型地，麦克风45通过输入/输出(I/O)控制器46与系统相连。

为了解决电子设备在远距离拾音过程中噪音干扰的问题，本发明实施例提供一种声音处理方法，该方法可以被配置在上述电子设备的控制器中，以使得控制器执行上述声音处理方法，具体的，如图5所示，具体步骤如下：

在步骤100，确定每个麦克风收集的音频数据。

在步骤200，基于音频数据，确定麦克风阵列的拾音方向特性。

其中，拾音方向特性用于表征麦克风阵列获取的声音源方向特性。

在步骤300，基于拾音方向特性进行降噪处理。

更进一步的，如图6所示，在步骤100中，控制器可以被配置为执行如下步骤：

在步骤110，确定每个麦克风收集的声音信号。

其中，电子设备上配置的每个麦克风均可以收集声音信号，在实际应用中，声波传递到麦克风时，声波的振动会传递到麦克风的振膜上，然后振膜的震动可以推动麦克风里的磁铁形成变化的电流，进而形成变化的电压，然后电子设备可以基于声音处理电路对该变化的电压进行放大处理，进而得到了模拟信号，即本发明实施例中的声音信号。

在步骤120，针对每个声音信号进行模数转换，确定声音信号对应的数字信号。

在实际应用中，电子设备需要将模拟信号转换为数字信号，以进行进一步的运算。

在本发明实施例中，数字信号可以通过标准数字音频文件的形式存在，其格式可以为波形声音文件(WaveForm，WAV)等格式，本发明实施例对数字信号的格式不做限定。

具体的，电子设备可以基于模数转换(analogue-to-digital conversion，ADC)器将模拟信号量化为由二进制数表示的积分值，然后编码并存储为音频流数据，在本发明实施例中，即为将声音信号转换为数字信号。

在步骤130，对数字信号进行归一化处理，确定音频数据。

在一种可实现方式中，通过归一化处理，可以将数字信号映射到区间(0，1)之中，使得电子设备可以更加便捷快速的处理数据。

当电子设备对声音信号进行预处理，确定每个麦克风收集的音频数据后，可以根据音频数据进一步确定麦克风阵列的拾音方向特性，即步骤200。

具体的，如图7所示，在步骤200中，控制器可以被配置为执行如下步骤：

在步骤210，基于语音活动检测(Voice Activity Detection，VAD)算法，确定音频数据的音频特征。

其中，音频特征至少包括语音强度、信噪比、语音片段和非语音片段。

语音强度可以用于表征非噪声信号的信号强弱，信噪比可以用于表征非噪声信号与噪声信号的比值，语音片段可以用于表征包含非噪声信号的片段，非语音片段可以用于表征不包含非噪声信号的片段。

在一种可实现方式中，VAD算法可以通过特征提取模块、门限计算模块和门限判决模块等模块，判断音频数据中是否包含语音数据存在，即对输入信号进行判断，将语音数据与噪声数据进行区分。

在另一种可实现方式中，也可以通过构建VAD模型实现确定音频数据的音频特征的目的，具体的，可以通过预先训练好的声学模型对声音样本进行逐帧(其中，每一音频帧可以为预设长度)识别，确定该声学模型输出的识别结果。其中，该识别结果可以通过0或1表示(例如，0可以用于表征对应音频帧中不包括非噪声信号，1可以用于表征对应音频帧中包括非噪声信号)。

然后，可以将上述声音样本以及声学模型输出的识别结果作为训练集，训练VAD模型，以使得训练后的VAD模型可以将语音数据与噪声数据进行区分。

具体的，电子设备确定音频数据的音频特征的过程，具体可以执行为：对音频数据进行预处理；以及对预处理后的音频数据进行特征提取和VAD检测，确定音频特征。

其中，对音频数据的预处理可以包括快速傅里叶变换(Fast Fourier Transform，FFT)等，采用FFT可以使得电子设备计算离散傅里叶变换所需要的乘法次数减少，进而节省电子设备的算力。

在步骤220，基于音频特征，确定麦克风阵列的拾音方向特性。

进一步的，电子设备可以基于拾音方向特性确定麦克风阵列的拾音方向。

具体的，控制器可以被配置为基于拾音方向特性，确定噪声源或非噪声源的方向；以及根据噪声源或非噪声源的方向，调整拾音方向。

在本发明实施例中，拾音方向特性可以为噪声源或非噪声源相对于电子设备的角度，进而电子设备可以根据该角度确定拾音方向。

更进一步的，控制器可以被配置为通过调整多个麦克风的增益以调整拾音方向。

具体的，控制器可以调整多个麦克风的增益，增强来自特定方向的声音信号，同时，削弱来自其它方向的声音信号，以实现麦克风阵列的定向拾音，即通过波束成形(beamforming)，实现了电子设备中麦克风阵列的定向拾音。

其中，波束成形是利用数字信号处理技术对接收到的波信号进行处理，实现定向信号传输或定向信号接收的技术。其原理是通过对多路信号进行加权合成，形成所需的理想信号，在实际应用中，波束成形技术在天线领域具有较为广泛的应用。同时，声音信号的传播同样以声波方式进行，因此，波束成形技术也可以应用进行定向的拾音，在本发明实施例中，可以通过麦克风阵列对各麦克风接收到的声音信号进行加权合成，实现波束成形。

如图8所示，图8为本发明实施例提供的一种波束成形的效果示意图，该示意图包括麦克风阵列81、用于表示角度的圆形刻度盘以及用于表示拾音范围的扇形区域。

具体的，拾音范围越远的方向表示麦克风阵列81对该方向的增益越强(即该方向声音信号的权重越大)，拾音范围越近的方向表示麦克风阵列81对该方向的抑制越强(即该方向声音信号的权重越小)。

在图8中，包括2个增益方向以及4个抑制方向，当声波从增益方向传播至麦克风阵列81时，该声波对应的声音信号会被增强，反之，当声波从抑制方向传播至麦克风阵列81时，该声波对应的声音信号会被抑制。

其中，图8所示的4个抑制方向为电子设备主要抑制的方向，而除增益方向和抑制方向以外的区域，电子设备可以进行相对抑制，以减少噪声干扰。

需要说明的，增益方向的数量以及抑制方向的数量不定，可以根据实际的环境进行调整，例如，在本发明实施例中，电子设备收集声音的主要对象是用户发出的声音，主要的噪声源是其他设备(例如图1中的电视12)发出的声音，因此在本发明实施例中可以有1个增益方向以及1个抑制方向，另外，在一种可实施方式中，除该1个增益方向以及1个抑制方向以外的区域，可以既不增益也不抑制。

在另一种可实施方式中，可以对该1个增益方向的声音信号进行增益，并对除该1个增益方向的声音信号进行抑制。

如图9所示，图9为本发明实施例提供的一种拾音方向的示意图，该示意图包括用户A、电子设备11、区域a和区域b。

在本发明实施例中，用户A为非噪声源，当电子设备11的麦克风阵列收集到声音信号时，电子设备可以基于上述步骤210和步骤220确定麦克风阵列的拾音方向特性，进而，电子设备可以根据拾音方向特性确定麦克风阵列的拾音方向。

在实际应用中，拾音方向可以通过角度范围进行表示，如图9所示，区域a和区域b表征角度范围，二者组合在一起为电子设备11周围完整的一周，其中，区域a为拾音区域，区域b为降噪区域，即麦克风阵列收集到声音信号后，控制器可以对在区域a收集的声音信号进行语音增强，对在区域b收集的声音信号进行降噪处理。

需要说明的，结合图8所述的波束成形的原理，在图9中，区域a可以表征增益方向，而且，在实际应用中可能会存在多个非噪声源，此时，拾音方向可以通过多个离散的区域a进行表示(即存在多个增益方向)。

通过本发明实施例，电子设备可以基于麦克风阵列确定拾音方向特性，进而根据拾音方向特性确定拾音方向，由于该拾音方向指向电子设备需要收集的非噪声源，因此，本发明实施例可以使得非噪声源的声音信号更加清晰。

在本发明实施例中，电子设备确定拾音方向后，可以针对拾音方向以内的声音信号进行增强，针对拾音方向以外的声音信号进行降噪和抑制。

具体的，在一种可实施方式中，控制器可以被配置为基于预设的深度神经网络模型，对来自拾音方向以外的声音信号进行降噪和抑制，确定第一输出特征；对来自拾音方向以内的声音信号进行增强，确定第二输出特征；基于第一输出特征和第二输出特征，确定输出数据；以及发送输出数据。

其中，深度神经网络模型是基于机器学习技术构建的一种模型，该模型可以通过卷积神经网络，对声音信号的特征进行分析。

具体的，可以通过预先收集的训练集训练该深度神经网络模型，使得该深度神经网络模型可以识别噪声信号的特征和非噪声信号的特征，在实际应用中，该深度神经网络模型可以针对声音信号进行特征提取以及卷积运算，然后对噪声信号进行降噪和抑制，对非噪声信号进行增强。

当电子设备确定第一输出特征和第二输出特征后，可以针对第一输出特征和第二输出特征进行格式转换，以确定输出数据，其中，输出数据的格式可以为WAV等格式。

通过本发明实施例，电子设备基于深度神经网络模型实现对拾音方向以外的声音信号进行降噪，从数字层面使得非噪声信号更加清晰，进而使得最终的拾音效果更好。

在另一种可实施方式中，电子设备还可以包括多个扬声器，其中，各扬声器被对应设置在各特定麦克风的相邻位置。

其中，特定麦克风可以是部分指定的麦克风，也可以是所有麦克风。

具体的，结合图3所示内容，本发明实施例提供以下两种可实施的扬声器安装示例，具体如下：

在示例一，第三麦克风33所处的平面为电子设备安装有显示屏的平面，第一麦克风31、第二麦克风32和第四麦克风34为特定麦克风，其中，可以在第一麦克风31和第四麦克风34的相邻位置各安装一个扬声器，在第二麦克风32的相邻位置安装两个扬声器，在第三麦克风33的相邻位置不安装扬声器。

其中，针对在第二麦克风32的相邻位置安装的两个扬声器，可以将该两个扬声器尽量远离第二麦克风32，以减少该两个扬声器对第二麦克风32的影响。

同时，在第二麦克风32的相邻位置安装的两个扬声器之间的距离可以为预设距离，例如1厘米，本发明实施例不做限定。

另外，由于第三麦克风33位于带有显示屏的平面，在该平面安装扬声器会增加额外的工艺成本，因此，在实际应用中，可以不在第三麦克风33的相邻位置安装扬声器，以节省工艺成本。

在示例二，第一麦克风31、第二麦克风32、第三麦克风33和第四麦克风34均为特定麦克风，其中，可以在该四个麦克风的相邻位置各安装至少一个扬声器。

进一步的，控制器可以被配置为控制至少一个扬声器播放降噪音频以抵消噪声。

具体的，电子设备确定拾音方向特性后，既可以确定非噪声源，同时也可以确定噪声源，因此，当电子设备确定主要的噪声源后，可以控制距离该主要的噪声源最近的至少一个扬声器播放降噪音频以抵消噪声。

如图10所示，图10为本发明实施例提供的一种电子设备播放降噪音频的示意图，该示意图包括：设备主体3、第一麦克风31、第二麦克风32、第三麦克风33、第四麦克风34、噪声源X、非噪声源Y和降噪音频Z。

其中，图10中的第一麦克风31和第四麦克风34的相邻位置可以各配置一个扬声器，第二麦克风32的相邻位置可以配置两个扬声器，第三麦克风33的相邻位置可以不配置扬声器。

当电子设备确定拾音方向特性后，可以确定噪声源为X，非噪声源为Y，同时，由于第一麦克风31距离噪声源X最近，因此，电子设备中的控制器可以控制第一麦克风31相邻位置的扬声器播放降噪音频Z以抵消噪声。

其中，降噪音频是与噪声振幅相同且相位相反的声波，即降噪音频Z与噪声源X发出的声波振幅相同且相位相反，当振幅相同且相位相反的两个声波相遇时，二者可以相互抵消震动，进而实现了通过降噪音频抵消噪声的目的。

通过本发明实施例，电子设备可以通过降噪音频，从外部抵消部分噪声，使得麦克风阵列可以收集到滤除噪声声波后的声音信号，使得最终的拾音效果更好。

在另一种可实施方式中，电子设备的控制器还可以被配置为根据拾音方向特性将至少一个麦克风关闭，被关闭的麦克风拾取的音频数据中的噪声满足预定条件。

其中，预定条件可以为语音强度小于语音强度阈值、信噪比小于信噪比阈值和音频数据中不包括语音片段等条件中的至少一项。

在实际应用中，若麦克风阵列中的某一麦克风拾取的音频数据满足预定条件，则表征该麦克风受到的噪声干扰过大，进而，电子设备中的控制器可以控制该麦克风关闭，以降低麦克风阵列整体受到的噪声干扰。

结合上述三种可实施的降噪方式，在实际应用中，电子设备既可以单独使用上述任一实施例，也可以结合各实施例进行降噪。

例如，如图10所示，当电子设备处于噪声环境中，且第一麦克风31至第四麦克风34的相邻位置均配置有扬声器时，电子设备可以根据第一麦克风31至第四麦克风34收集的音频数据，确定拾音方向特性，进而根据拾音方向特性确定噪声源X和非噪声源Y。

然后，电子设备可以确定距离噪声源X最近的麦克风为第一麦克风31，进而电子设备的控制器可以控制第一麦克风31相邻位置的扬声器播放降噪音频Z，以过滤噪声声波。

同时，电子设备的控制器可以控制第一麦克风31关闭，以减少麦克风阵列接收到的噪声。

同时，电子设备的控制器还可以基于深度神经网络模型，对来自拾音方向以外的声音信号进行降噪和抑制，对来自拾音方向以内的声音信号进行增强，以进一步的削弱噪声，增强非噪声。

在本发明实施例中，电子设备可以结合多种降噪手段(至少包括声波抑制、关闭麦克风以及数字降噪)，最大限度的降低噪声的影响，使得电子设备可以清晰的捕捉用户的声音，使得用户具有良好的通话体验。

综上，如图11所示，图11为本发明实施例提供的一种声音处理方法的流程图，该方法可以应用于图3所示的电子设备，具体包括如下步骤：

在步骤1111，确定第一麦克风31收集的声音信号1。

在步骤1112，确定第二麦克风32收集的声音信号2。

在步骤1113，确定第三麦克风33收集的声音信号3。

在步骤1114，确定第四麦克风34收集的声音信号4。

在步骤112，对每个麦克风收集的声音信号进行模数转换以及归一化处理，确定音频数据。

具体的，电子设备可以根据上述步骤110至步骤130确定音频数据，本发明实施例在此处不做赘述。

在步骤113，基于音频数据，确定麦克风阵列的拾音方向特性。

其中，拾音方向特性可以用于表征噪声源的方向以及非噪声源的方向。

在步骤114，基于拾音方向特性，进行降噪处理。

具体的，电子设备可以通过声波抑制、关闭麦克风和数字降噪中的一种方式或多种方式的组合，实现降噪处理。

在步骤115，对降噪处理后的数据进行数模转换，确定输出数据。

在步骤116，发送输出数据。

结合图1和图2所示的应用场景，电子设备确定输出数据后，可以通过网络向教师端发送该输出数据，以使得教师端播放该输出数据。

基于相同的技术构思，本发明实施例还提供了一种声音处理装置，如图12所示，该装置包括：第一确定模块121、第二确定模块122和降噪模块123。

第一确定模块121，用于确定每个麦克风收集的音频数据；

第二确定模块122，用于基于所述音频数据，确定麦克风阵列的拾音方向特性，所述拾音方向特性用于表征所述麦克风阵列获取的声音源方向特性；以及

降噪模块123，用于基于所述拾音方向特性进行降噪处理。

可选的，所述第二确定模块122，具体用于：

基于语音活动检测算法，确定所述音频数据的音频特征，所述音频特征至少包括语音强度、信噪比、语音片段和非语音片段；以及

基于所述音频特征，确定所述麦克风阵列的拾音方向特性。

可选的，所述降噪模块123，具体用于：

基于所述拾音方向特性，确定噪声源或非噪声源的方向；以及

根据噪声源或非噪声源的方向，调整拾音方向。

可选的，所述降噪模块123，具体还用于：

调整所述麦克风阵列中各麦克风的增益以调整拾音方向。

可选的，所述降噪模块123，具体还用于：

基于预设的深度神经网络模型，对来自所述拾音方向以外的声音信号进行降噪和抑制，确定第一输出特征；

对来自所述拾音方向以内的声音信号进行增强，确定第二输出特征；

基于所述第一输出特征和所述第二输出特征，确定输出数据；以及

发送所述输出数据。

可选的，所述降噪模块123，具体还用于：

控制至少一个扬声器播放降噪音频以抵消噪声。

可选的，所述降噪模块123，具体还用于：

根据所述拾音方向特性将至少一个麦克风关闭，被关闭的麦克风拾取的音频数据中的噪声满足预定条件。

可选的，所述第一确定模块121，具体用于：

确定每个麦克风收集的声音信号；

针对每个声音信号进行模数转换，确定所述声音信号对应的数字信号；以及

对所述数字信号进行归一化处理，确定所述音频数据。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈昌儒;包英泽;
专利申请人：北京大米科技有限公司;

上一篇：一种管控告警方法及装置
下一篇：一种基于ARM平台Linux系统的站所终端遥测方法