具有音频质量检测的音频设备及相关方法

文献发布时间：2024-01-17 01:13:28

技术领域

本公开涉及音频设备以及相关方法，更具体地，涉及音频质量检测。

背景技术

通常，传输的音频信号的语音质量是基于声学配置、数字处理、背景噪声和房间混响。此外，音频信号的语音质量基于信噪比(SNR)、从麦克风到扬声器的距离、语音数据的损失、干扰语音、噪声、回声烦扰、扬声器在声学环境中的位置等。

考虑到所有因素，经常发生的情况是所传输的音频信号不具有一定的良好质量。例如，在扬声器-音频设备设置中，当用户位于远离麦克风时，由音频设备的麦克风拾取的语音信号具有低信噪比(SNR)以及非常可能的混响。这两个因素使传输的音频信号的语音质量劣化。在无线耳机场景中，由于背景噪声和声学回声，和/或由于房间混响和/或滋扰器语音(诸如干扰语音)，音频信号质量可能发生改变。此外，由于数字信号处理，传输的音频信号的语音质量可能会改变。通常，这可能在没有无线耳机的用户的影响的情况下发生。

在所有此类场景中，远端用户(用户)将由于降低的语音质量和音频信息丢失而经历不适。

发明内容

因此，需要具有改善的音频质量检测的音频设备和方法，诸如在传输之前确定音频信号的质量并且改善音频信号的质量(例如，通过音频信号中的噪声抑制，抑制干扰语音，和/或抑制房间混响)。

公开了一种用于语音质量检测的音频设备，音频设备包括接口、处理器、存储器和一个或多个麦克风，其中，音频设备被配置为：经由接口从包含第一麦克风的一个或多个麦克风获得麦克风输入信号；处理麦克风输入信号以提供输出信号；使用非侵入式质量检测模型确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数；基于第一质量参数控制麦克风输入信号的处理；以及经由接口传输输出信号。

进一步，公开了一种用于音频设备中的语音质量检测的方法，方法包括：从包含第一麦克风的一个或多个麦克风获得麦克风输入信号；处理麦克风输入信号以提供输出信号；确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数；基于第一质量参数控制麦克风输入信号的处理；并且传输输出信号。

此外，公开了一种用于训练用于音频质量估计的质量检测模型的计算机实现的方法。方法包括：获得包括一个或多个音频信号的音频数据集；获得包括一个或多个参考质量参数的分数数据集，参考质量参数包含表示与一个或多个音频信号相关联的音频质量的第一参考质量参数；通过将质量检测模型应用于一个或多个音频信号确定包含表示与一个或多个音频信号相关联的音频质量的第一质量参数的一个或多个质量参数；以及基于一个或多个音频信号、一个或多个参考质量参数和一个或多个第一质量参数来训练质量检测模型。

本公开提供了改善的通信体验，例如，在电话会话、会议通话期间，和/或在使用耳机进行通信时。本公开通过确定传输和/或接收音频信号的质量且基于语音质量控制处理而产生改善的语音通信体验。音频设备可被配置为基于与传输和/或接收音频信号相关联的语音质量来提高音频信号中的语音的质量，这进而改善了通信体验。

本公开允许在不访问参考信号的情况下检测音频信号的质量。进一步，本公开允许对音频信号进行实时的质量检测和实时的质量改善，这进而提供改善的语音通信体验。换言之，本公开允许在传输到终端用户之前检测音频信号的质量且例如通过对音频信号(诸如麦克风输入信号和/或输出信号)执行噪声抑制和/或回声消除来提高音频信号的质量。

进一步，本公开的优点在于向音频设备的用户提供关于麦克风输入信号(和/或输出信号)中的语音质量的动态反馈，这进而帮助执行适当的动作(诸如通过激活数字信号处理电路和/或方案)以减少语音质量劣化和/或提高音频信号中的语音质量。进一步，本公开的优点在于提供了在控制逻辑单元中做出关于什么特征或逻辑电路(诸如数字信号处理逻辑电路)应当被激活以提高音频信号中的语音质量的决策的建议。

附图说明

通过以下参考附图对本发明的示例性实施方式的详细描述，本发明的以上和其他特征和优点对于本领域的技术人员来说将是显而易见的，在附图中：

图1示意性地示出了根据本公开的示例性音频系统，

图2是根据本公开的示例性方法的流程图，

图3是根据本公开的示例性计算机实施的方法的流程图，

图4示意性地示出了根据本公开的用于音频数据集和分数数据集生成的示例性系统，以及

图5示意性地示出了根据本公开的用于训练质量检测模型的示例性训练系统。

具体实施方式

下文中将参考相关附图来描述各种示例性实施方式和细节。应注意，附图可以或可以不按比例绘制，并且贯穿附图，类似结构或功能的元件由相同参考标号表示。还应注意，附图仅旨在便于对实施方式的描述。并不旨在作为对本发明的详尽描述或限制本发明的范围。此外，所示实施方式不需要具有所有示出的方面或优点。结合特定实施方式所描述的方面或优点不一定限于该实施方式，且可在任何其他实施方式中实践，即使未如此说明或即使未如此明确地描述。

公开了一种用于语音质量检测的音频设备，该音频设备包括接口、处理器和存储器。

在一个或多个示例性音频设备中，音频设备可包括一个或多个接口、一个或多个处理器和一个或多个存储器。进一步，音频设备可包括一个或多个麦克风，诸如第一麦克风、可选的第二麦克风、可选的第三麦克风和可选的第四麦克风。音频设备可包括一个或多个音频扬声器。

音频设备可以是耳机(headset)、音频信号处理器、头戴式耳机(headphone set)、助听器、计算机、移动电话、平板电脑、服务器、麦克风和/或智能音箱中的一个或多个。音频设备可以是单个音频设备。音频设备可以是多个互连的音频设备，诸如系统，诸如音频系统。音频系统可包括一个或多个用户。应注意，术语说话者(speaker)可视为音频设备的用户。音频设备可被配置为处理一个或多个音频信号。音频设备可被配置为输出音频信号。音频设备可被配置为获得(诸如，经由接口接收)音频信号。

音频设备被配置为经由接口从包含第一麦克风的一个或多个麦克风获得麦克风输入信号。

在一个或多个示例性音频设备中，接口包括：无线收发器，也表示为无线电收发器；以及天线，用于无线传输和接收音频信号，诸如，用于无线传输输出信号和/或无线接收无线输入信号。音频设备可被配置为用于与一个或多个电子设备(诸如另一音频设备、智能手机、平板电脑、计算机和/或智能手表)进行无线通信。音频设备可选包括用于将一个或多个无线输入音频信号转换为天线输出信号的天线。在一个或多个示例性音频设备中，接口包括一个或多个麦克风。

在一个或多个示例性音频设备中，接口可包括用于诸如通过使用电缆经由连接器进行有线通信的连接器。连接器可将一个或多个麦克风连接至音频设备。

一个或多个接口可以是或包括无线接口(诸如发射器和/或接收器)和/或有线接口(诸如用于物理耦合的连接器)。例如，音频设备可具有被配置为接收数据(诸如麦克风输入信号)的输入接口。在一个或多个示例性音频设备中，音频设备可用于各种环境，诸如用于耳机和/或视频会议装备中的所有外形尺寸。例如，音频设备可能不具有特定的麦克风放置要求。在一个或多个示例性音频设备中，音频设备可包括麦克风吊杆，其中，一个或多个麦克风布置在麦克风吊杆的远端处。

在一个或多个示例性音频设备中，音频设备可被配置为从一个或多个麦克风(诸如，第一麦克风、第二麦克风、第三麦克风和/或第四麦克风)获得麦克风输入信号。在一个或多个示例性音频设备中，可从第一麦克风获得麦克风输入信号。在一个或多个示例性音频设备中，麦克风输入信号可为从第一麦克风、第二麦克风、第三麦克风和第四麦克风中的两个或多个获得的组合输入信号。

在一个或多个示例性音频设备中，麦克风输入信号可表示由音频设备的用户生成的音频信号。在一个或多个示例性音频设备中，麦克风输入信号可表示由音频设备的用户在使用音频设备时生成的音频信号。换言之，麦克风输入信号可表示用户语音。在一个或多个示例性音频设备中，麦克风输入信号可包括以下一种或多种：用户语音，诸如近场中的用户语音；干扰语音，诸如来自远场中的一个或多个扬声器的滋扰语音；噪声，诸如环境噪声、连续噪声、间歇噪声、脉冲噪声和/或低频噪声；和/或用户的语音、干扰语音和噪声中的一种或多种的回声。

在一个或多个示例性音频设备中，音频设备可被配置为从与音频设备无线连接的远距离麦克风获得麦克风输入信号。在一个或多个示例性音频设备中，音频设备可被配置为从经由电缆(诸如，音频电缆和/或电缆线)连接至音频设备的远距离麦克风获得麦克风输入信号。在一个或多个示例性音频设备中，音频设备的用户在使用音频设备时可出现在音频设备10米范围内。在示例性场景中，用户可使用相距10米的音频设备，诸如智能音箱用于通信。音频设备可被配置为获得用户的语音，诸如用户命令，诸如用户声音命令。

音频设备被配置为处理麦克风输入信号以提供输出信号。

在一个或多个示例性音频设备中，输出信号可包括麦克风输入信号。

在一个或多个示例性音频设备中，音频设备的处理器可被配置为处理麦克风输入信号。在一个或多个示例性音频设备中，麦克风输入信号的处理可包括麦克风输入信号的第一处理以提供输出信号。输出信号可表示噪声抑制麦克风输入信号。换言之，麦克风输入信号的第一处理可包括消除噪声，诸如麦克风输入信号中的噪声抑制。

输出信号可表示回声抑制麦克风输入信号。换言之，麦克风输入信号的第一处理可包括消除麦克风输入信号中的回声，诸如回声抑制。

在一个或多个示例性音频设备中，输出信号可为数字信号处理(DSP)逻辑的输出。在一个或多个示例性音频设备中，音频设备的处理器可包括DSP逻辑。

输出信号可表示噪声和回声抑制麦克风输入信号。换言之，麦克风输入信号的第一处理可包括消除麦克风输入信号中的噪声和回声。在一个或多个示例性音频设备中，输出信号可基于数字信号处理(DSP)逻辑的输出或者由数字信号处理(DSP)逻辑的输出构成。

在一个或多个示例性音频设备中，DSP逻辑可包括用于处理麦克风输入信号的一个或多个滤波器。在一个或多个示例性音频设备中，DSP逻辑被配置为基于一个或多个质量参数(诸如，第一质量参数)改变与滤波器相关联的一个或多个权重。在一个或多个示例性音频设备中，DSP逻辑可包括神经网络，诸如级联神经网络，其可接收一个或多个质量参数作为输入。DSP逻辑可基于作为级联神经网络的滤波器系数和/或处理方案标识符的输出来处理麦克风输入信号。在一个或多个示例中，DSP逻辑可被配置为基于第一质量参数和/或第二质量参数选择处理方案/滤波器系数。

音频设备被配置为使用非侵入式质量检测模型来确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，音频设备的处理器(诸如处理器的特征提取器)可被配置为提取或确定一个或多个特征。例如，音频设备的处理器可被配置为提取或确定输出信号的一个或多个输出特征或与相应输出特征(诸如第一输出特征、第二输出特征、第三输出特征、第四输出特征、第五输出特征和第六输出特征中的一个或多个)相关联的分数。例如，音频设备的处理器可被配置为提取或确定麦克风输入信号的一个或多个输入特征或与相应输入特征(例如第一输入特征、第二输入特征、第三输入特征、第四输入特征、第五输入特征和第六输入特征中的一个或多个)相关联的分数。

在一个或多个示例性音频设备中，特征，诸如第一输出特征和/或第一输入特征，可以是噪度。

在一个或多个示例性音频设备中，特征，诸如第二输出特征和/或第二输入特征，可以是语音清晰度。

在一个或多个示例性音频设备中，特征，诸如第三输出特征和/或第三输入特征，可以是回声烦扰。

在一个或多个示例性音频设备中，特征，诸如第四输出特征和/或第四输入特征，可以是信噪比(SNR)。

在一个或多个示例性音频设备中，特征，诸如第五输出特征和/或第五输入特征，可为混响、归因于房间特性、空间特性或源到接收器特性的延迟性质。

在一个或多个示例性音频设备中，特征，诸如第六输出特征和/或第六输入特征，可为混响、归因于房间特性、空间特性或提示保留的延迟性质。

在一个或多个示例性音频设备中，音频设备的处理器可被配置为使用非侵入式质量检测模型来确定表示与输出信号和/或麦克风输入信号相关联的语音质量的一个或多个质量参数，诸如第一质量参数和第二质量参数中的一个或多多个。在一个或多个示例性音频设备中，第一质量参数可表示与输出信号相关联的语音质量，诸如平均意见分数(MOS)。在一个或多个示例性音频设备中，第二质量参数可表示与麦克风输入信号相关联的语音质量，诸如平均意见分数(MOS)。

在一个或多个示例性音频设备中，平均意见分数可以是在算法上估计的平均意见分数。

在一个或多个示例性音频设备中，确定输出信号的一个或多个质量参数可包括非侵入性地(即，不取决于参考信号)，例如，基于输出信号和/或输出信号的一个或多个输出特征确定一个或多个质量参数。因此，一个或多个输出特征可作为输入馈送至非侵入式质量检测模型。

在一个或多个示例性音频设备中，确定麦克风输入信号的一个或多个质量参数可包括非侵入性地(即，不取决于参考信号)，例如，基于麦克风输入信号和/或麦克风输入信号的一个或多个输入特征确定一个或多个质量参数。因此，一个或多个输入特征可作为输入馈送至非侵入式质量检测模型。

在一个或多个示例性音频设备中，非侵入式质量检测模型可存储在音频设备的存储器的一部分中。在一个或多个示例性音频设备中，音频设备的处理器可被配置为访问存储在存储器中的非侵入式质量检测模型。非侵入式质量检测模型可被视为机器学习模型。机器学习模型可包括神经网络。在一个或多个示例性音频设备中，神经网络可以是经训练的神经网络。

本公开的优点在于，减少了确定音频信号的质量对参考信号(诸如，参考音频信号)的需要。

在一个或多个示例性音频设备中，第一质量参数可表示平均意见分数(MOS)。平均意见分数可视为数值，例如整数、浮点值、完整数、实数、有理数和/或自然数。平均意见分数可基于麦克风输入信号的一个或多个输入特征和/或输出信号的一个或多个输出特征。

在一个或多个示例性音频设备中，语音质量可被视为音频设备用户的语音的质量，诸如用户在使用音频设备时讲话的词、句子和声音。在一个或多个示例性音频设备中，语音质量良好的语音可被视为在通信期间(诸如在基于声音的通信(诸如电话会话或电话会议)期间)可由远端方(诸如另一音频设备的另一用户)听到和/或理解的语音。

音频设备可被配置为基于第一质量参数控制麦克风输入信号的处理。

在一个或多个示例性音频设备中，音频设备的处理器可被配置为基于一个或多个质量参数(诸如第一质量参数和/或第二质量参数)来控制麦克风输入信号的处理。

在一个或多个示例性音频设备中，基于第一质量参数控制麦克风输入信号的处理包括确定第一质量参数是否满足第一标准。换言之，基于第一质量参数控制麦克风输入信号的处理可基于平均意见分数(MOS)是否满足第一标准。MOS分数(诸如输入MOS)可基于与麦克风输入信号相关联的输入质量参数。MOS分数(诸如输出MOS)可基于与输出信号相关联的输出质量参数。麦克风输入信号的处理可基于输入MOS和/或输出MOS是否满足第一标准。

在一个或多个示例性音频设备中，第一标准包括第一阈值。在一个或多个示例性音频设备中，确定第一质量参数是否满足第一标准基于确定第一质量参数是否高于第一阈值，诸如确定平均意见分数是否高于第一阈值。在一个或多个示例性音频设备中，当第一质量参数高于或等于第一阈值时，即，MOS高于或等于第一阈值时，则认为第一质量参数满足第一标准。换言之，可认为与输出信号相关联的语音质量良好。在一个或多个示例性音频设备中，当第一质量参数满足第一标准时，则不需要对麦克风输入信号进行处理。在一个或多个示例性音频设备中，第一阈值可以是预定值。在一个或多个示例性音频设备中，第一阈值可由音频设备基于历史数据(诸如用户使用音频设备的条件)动态确定。

在一个或多个示例性音频设备中，当第一质量参数低于第一阈值(即，MOS低于第一阈值)时，则认为第一质量参数不满足第一标准。换言之，可认为与输出信号相关联的语音质量不好。在一个或多个示例性音频设备中，当第一质量参数不满足第一标准时，则处理器被配置为处理麦克风输入信号以提高语音质量，诸如通过处理麦克风输入信号的一个或多个特征以提高平均意见分数。在一个或多个示例性音频设备中，当第一质量参数不满足第一标准时，则可认为音频设备用户的语音可能不清晰和/或不能被远端方听到。

在一个或多个示例性音频设备中，音频设备可包括数字信号处理(DSP)电路。在一个或多个示例性音频设备中，麦克风输入信号的处理可由数字信号处理单元(诸如，数字信号处理电路)执行。在一个或多个示例性音频设备中，音频设备的处理器可被配置为基于输出信号的第一质量参数来控制数字信号处理电路。

在一个或多个示例性音频设备中，当第一质量参数不满足第一标准时，需要处理麦克风输入信号以用于提供平均意见分数提高的输出信号。在一个或多个示例性音频设备中，处理器可被配置为使用非侵入式质量检测模型来确定表示与输出信号相关联的语音质量的第一质量参数。在一个或多个示例性音频设备中，处理器可被配置为使用非侵入式质量检测模型来确定表示与麦克风输入信号相关联的语音质量的第二质量参数。在一个或多个示例性音频设备中，输出信号的语音质量可高于麦克风输入信号的语音质量。换言之，与输出信号相关联的平均意见分数可高于麦克风输入信号的平均意见分数。在一个或多个示例性音频设备中，与输出信号和麦克风输入信号相关联的平均意见分数之间的差值可表示与麦克风输入信号相关联的语音质量的变化，诸如提高或降低。

音频设备被配置为经由接口传输输出信号。

在一个或多个示例性音频设备中，音频设备可被配置为传输输出信号。音频设备可经由音频设备的无线收发器和/或有线连接器传输输出信号。在一个或多个示例性音频设备中，音频设备可将输出信号传输到电子设备，诸如另一音频设备、移动电话、平板电脑、计算机、智能手表、服务器、基于云的服务器、智能音箱和/或扬声器。

在一个或多个示例性音频设备中，传输的输出信号可包括麦克风输入信号。当麦克风输入信号的第一质量参数满足第一标准时，输出信号可包括麦克风输入信号。换言之，麦克风输入信号可具有良好的语音质量。

在一个或多个示例性音频设备中，音频设备被配置为基于与输出信号相关联的第一质量参数和/或与麦克风输入信号相关联的第二质量参数确定反馈并例如经由音频设备/接口的音频扬声器将其输出至音频设备用户。反馈可包括表示输出信号的语音质量的第一反馈。该反馈可包括表示良好通信所需的期望语音质量的第二反馈。反馈可包括表示周围环境的声学配置对麦克风输入信号和/或输出信号的语音质量的影响的第三反馈。在示例性场景中，用户在具有混凝土墙和通风设备而且没有隔音材料的大房间中使用音频设备。当用户正在使用音频设备进行通信时，麦克风(诸如第一麦克风)获得麦克风输入信号。麦克风输入信号可受到来自周围环境的噪声和/或用户的语音的回声影响。音频设备被配置为使用非侵入式质量检测模型来确定表示与麦克风输入信号相关联的语音质量的一个或多个质量参数，诸如第一质量参数。质量参数可表示基于与麦克风输入信号相关联的一个或多个输入特征的平均意见分数。当平均意见分数低于特定阈值时，音频设备将麦克风输入信号和/或输出信号的质量、用于通信的房间的适合性、周围环境的声学配置和/或噪声对麦克风输入信号的影响通知给音频设备用户。用户可改变位置或改变房间以改善麦克风输入信号中的语音质量。音频设备可被配置为通过生成警报声音(诸如生成警报音调或播放来自存储器的记录消息)来提供反馈。音频设备可被配置为通过将反馈或反馈数据传输至一个或多个用户设备(诸如用户连接的例如移动电话、膝上型计算机、智能手表和/或显示器的电子设备)来提供反馈。在一个或多个示例性音频设备中，音频设备可被配置为通过经由音频设备的侧音信号路径(side tone signal path)来提供反馈。

本公开的优点是，可向音频设备的用户提供对语音质量的反馈和声学环境对语音质量的影响。反馈可以是动态反馈。在一个或多个示例性音频设备中，当平均意见分数下降到低于特定阈值时，音频设备向用户提供反馈。

在一个或多个示例性音频设备中，第一质量参数是平均意见分数。

在一个或多个示例性音频设备中，音频设备可被配置为基于输出信号的一个或多个特征(也表示为输出特征)来确定第一质量参数。在一个或多个示例性音频设备中，音频设备可被配置为基于输出信号的一个或多个特征来确定平均意见分数。

在一个或多个示例性音频设备中，音频设备可被配置为基于麦克风输入信号的一个或多个特征(还表示为输入特征)来确定第二质量参数。在一个或多个示例性音频设备中，音频设备可被配置为基于麦克风输入信号的一个或多个特征确定平均意见分数。

在一个或多个示例性音频设备中，第一质量参数和/或第二质量参数可表示语音失真、噪声衰减和回声烦扰中的一种或多种。

在一个或多个示例性音频设备中，麦克风输入信号中的语音失真可视为由音频设备用户传送的不清晰语音(归因于由噪声引起的音频波形的变化)。在一个或多个示例性音频设备中，语音质量可基于信噪比(SNR)、噪声声音比、混响时间(例如，RT60)。

在一个或多个示例性音频设备中，可基于麦克风输入信号中的语音失真来使用非侵入式质量检测模型确定诸如第二质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，可基于与麦克风输入信号相关联的噪声衰减来使用非侵入式质量检测模型确定诸如第二质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，可基于与麦克风输入信号和/或输出信号相关联的回声烦扰来使用非侵入式质量检测模型确定诸如第一质量参数和第二质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括基于输出信号和麦克风输入信号中的一者或两者，将非侵入式质量检测模型应用于模型输入。

在一个或多个示例性音频设备中，音频设备的处理器可被配置为通过将非侵入式质量检测模型应用于模型输入来确定一个或多个质量参数，诸如第一质量参数。

在一个或多个示例性音频设备中，模型输入可包括输出信号。

在一个或多个示例性音频设备中，模型输入可包括麦克风输入信号。在一个或多个示例性音频设备中，模型输入可包括麦克风输入信号和输出信号两者。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号相关联的输出质量参数和与麦克风输入信号相关联的输入质量参数。

在一个或多个示例性音频设备中，音频设备的处理器可被配置为使用非侵入式质量检测模型来确定与输出信号相关联的输出质量参数。在一个或多个示例性音频设备中，音频设备的处理器可被配置为使用非侵入式质量检测模型来确定与麦克风输入信号相关联的输入质量参数，诸如第二质量参数。

在一个或多个示例性音频设备中，音频设备可被配置为将输出质量参数与输入质量参数进行比较，诸如确定与输出质量参数和输入质量参数相关联的平均意见分数之间的差值，并确定输出信号的平均意见分数与麦克风输入信号的平均意见分数之比。

在一个或多个示例性音频设备中，音频设备可被配置为基于输出质量参数和输入质量参数确定周围环境的声学配置(例如，与周围环境相关联的声学信息)，诸如确定用户正在使用音频设备的房间是否适于语音通信，和/或确定用户是否充分靠近麦克风。在一个或多个示例性音频设备中，音频设备可被配置为动态确定周围环境的声学信息。在一个或多个示例性音频设备中，音频设备可被配置为周期性地确定周围环境的声学信息，例如，每1秒、2秒、3秒、4秒、5秒、10秒、15秒、20秒、30秒、1分钟、2分钟等进行监测。注意，可将监测视为确定周围环境的声学信息。

本公开的优点是，确定与音频设备的输出信号和麦克风输入信号相关联的平均意见分数的变化提供了周围环境的声学信息。换言之，确定输出信号和麦克风输入信号的特征的变化可提供周围环境的声学信息。进一步，与音频设备的输出信号和麦克风输入信号相关联的平均意见分数的变化可用作表示麦克风输入信号的处理的执行水平的参考。进一步，与麦克风输入信号相关联的平均意见分数可用作确定说话者/用户的周围环境是否适合语音通信的参考。

在一个或多个示例性音频设备中，基于输出质量参数和输入质量参数，诸如基于输出质量参数与输入质量参数之间的比率或差值确定第一质量参数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型基于与输出信号相关联的输出质量参数和/或与麦克风输入信号相关联的输入质量参数来确定第一质量参数。

在一个或多个示例性音频设备中，非侵入式质量检测模型包括机器学习模型，机器学习模型包括经训练的神经网络。

在一个或多个示例性音频设备中，机器学习模型可包括神经网络。神经网络可以是深度神经网络。神经网络(NN)可以是经训练的神经网络。在一个或多个示例性音频设备中，神经网络可包括以下各项中的一项或多项：前馈NN、双向长短期存储器NN、2D卷积层NN、最大池化NN、逐帧NN、密集NN(诸如，基于平均意见分数(DNSMOS)的深度噪声抑制NN方法)和MetricNetNN。

在一个或多个示例性音频设备中，神经网络可包括一个或多个输入层、一个或多个中间层和一个或多个输出层。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可接收麦克风输入信号作为输入。

在一个或多个示例性音频设备中，神经网络的一个或多个输入层可接收输出信号作为输入。

在一个或多个示例性音频设备中，神经网络的一个或多个输入层可接收模型输入作为输入。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可接收与输出信号和/或麦克风输入信号的一个或多个特征相关联的信息作为输入，例如，神经网络的一个或多个输入层可接收与输出信号和/或麦克风输入信号相关联的结构特征，诸如梅尔谱和/或对数功率谱作为输入。在一个或多个示例性音频设备中，一个或多个输出层可提供一个或多个质量参数。换言之，神经网络的一个或多个输出层可输出平均意见分数作为输出。

在一个或多个示例性音频设备中，神经网络可接收输入质量参数、第一分数、第二分数、第三分数、第四分数、第五分数、第一阈值中的一个或多个作为对一个或多个输入层的输入。

在一个或多个示例性音频设备中，处理麦克风输入信号以提供输出信号包括应用噪声抑制方案，并且基于第一质量参数控制对麦克风输入信号的处理包括基于第一质量参数控制噪声抑制方案。

在一个或多个示例性音频设备中，音频设备可被配置为基于第一质量参数处理麦克风输入信号以提供输出信号。在一个或多个示例性音频设备中，处理麦克风输入信号以提供输出信号包括基于第一质量参数(诸如输出信号的平均意见分数)来控制噪声抑制方案。换言之，音频设备可被配置为基于平均意见分数控制噪声抑制方案以处理麦克风输入信号。

在一个或多个示例性音频设备中，处理麦克风输入信号以提供输出信号包括应用回声消除方案，并且基于第一质量参数控制麦克风输入信号的处理包括基于第一质量参数控制回声消除方案。

在一个或多个示例性音频设备中，音频设备可被配置为基于第一质量参数处理麦克风输入信号以提供输出信号。在一个或多个示例性音频设备中，处理麦克风输入信号以提供输出信号包括基于第一质量参数(诸如与输出信号相关联的平均意见分数)来控制回声抑制方案。换言之，音频设备可被配置为基于平均意见分数控制回声抑制方案以处理麦克风输入信号。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号的第一特征相关联的第一分数，其中，第一质量参数基于第一分数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型来确定一个或多个质量参数，诸如第一质量参数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与输出信号的第一特征相关联的第一分数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的第一特征相关联的第一分数。

在一个或多个示例性音频设备中，第一特征可以是与输出信号和/或麦克风输入信号相关联的信噪比(SNR)。在一个或多个示例性音频设备中，第一质量参数可基于第一分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得第一分数作为输入。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号的第二特征相关联的第二分数，其中，第一质量参数基于第二分数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型来确定一个或多个质量参数(诸如第一质量参数)。在一个或多个示例性音频设备中，确定第一质量参数包括确定与输出信号的第二特征相关联的第二分数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的第二特征相关联的第二分数。应注意，输出信号和麦克风输入信号可被视为音频信号。

在一个或多个示例性音频设备中，第二特征可为与输出信号和/或麦克风输入信号相关联的噪度。在一个或多个示例性音频设备中，噪度(诸如音频信号的音色、音频信号的不连续性、音频信号的响度和/或音频信号的清晰度)可与人类主观性相关联，例如，与输出信号的响度和/或清晰度相关的容差可基于通信过程中的远端用户。一远端用户可感知输出信号是清晰的。然而，第二用户可感知同一输出信号不清晰。

在一个或多个示例性音频设备中，第一质量参数可基于第二分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得第二分数作为输入。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号的第三特征相关联的第三分数，其中，第一质量参数基于第三分数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型来确定一个或多个质量参数，诸如第一质量参数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与输出信号的第三特征相关联的第三分数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的第三特征相关联的第三分数。

在一个或多个示例性音频设备中，第三特征可以是与输出信号和/或麦克风输入信号相关联的语音清晰度。在一个或多个示例性音频设备中，语音清晰度可被视为与音频设备的用户相关联的语音的清晰度。在一个或多个示例中，可将高语音清晰度视为用户的语音听起来清晰。在一个或多个示例中，可将低语音清晰度视为用户的语音听起来不清晰。

在一个或多个示例性音频设备中，第一质量参数可基于第三分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得第三分数作为输入。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号的第四输出特征相关联的第四分数，其中，第一质量参数基于第四分数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型来确定一个或多个质量参数，诸如第一质量参数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与输出信号的第四特征相关联的第四分数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的第四特征相关联的第四分数。

在一个或多个示例性音频设备中，第四特征可以是与输出信号和/或麦克风输入信号相关联的回声烦扰。在一个或多个示例性音频设备中，第一质量参数可基于第四分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得第四分数作为输入。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与输出信号的第五特征相关联的第五分数，其中，第一质量参数基于第五分数。

在一个或多个示例性音频设备中，音频设备可被配置为使用非侵入式质量检测模型来确定一个或多个质量参数，诸如第一质量参数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与输出信号的第五特征相关联的第五分数。在一个或多个示例性音频设备中，确定第一质量参数包括确定与麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的第五特征相关联的第五分数。

在一个或多个示例性音频设备中，第五特征可为与输出信号和/或麦克风输入信号相关联的混响、归因于房间特性、空间特性和/或提示保留的延迟性质中的一个或多个。在一个或多个示例性音频设备中，第一质量参数可基于第五分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得第五分数作为输入。

在一个或多个示例性音频设备中，确定一个或多个质量参数包括确定与第一特征、第二特征、第三特征、第四特征和第五特征中的两个或多个相关联的组合分数。在一个或多个示例性音频设备中，第一质量参数基于组合分数。

在一个或多个示例性音频设备中，确定第一质量参数包括基于输出信号的两个或多个特征(诸如第一特征、第二特征、第三特征、第四特征和第五特征)来确定组合分数。

在一个或多个示例性音频设备中，确定第二质量参数包括基于麦克风输入信号的两个或多个特征(诸如第一特征、第二特征、第三特征、第四特征和第五特征)确定组合分数。

在一个或多个示例性音频设备中，确定第一质量参数包括基于麦克风输入信号(诸如来自第一麦克风的麦克风输入信号)的两个或多个特征，诸如第一特征、第二特征、第三特征、第四特征和第五特征，来确定组合分数。在一个或多个示例性音频设备中，神经网络的一个或多个输入层可获得组合分数作为输入。

在一个或多个示例性音频设备中，基于输出信号确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，基于输出信号确定与输出信号相关联的语音质量。换言之，与输出信号相关联的平均意见分数可仅基于输出信号。

在一个或多个示例性音频设备中，基于麦克风输入信号确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数。

在一个或多个示例性音频设备中，可基于麦克风输入信号，诸如来自第一麦克风的麦克风输入信号确定与输出信号相关联的语音质量。换言之，与输出信号相关联的平均意见分数可仅基于麦克风输入信号。

在一个或多个示例性设备中，麦克风输入信号可以是组合的来自第一麦克风的麦克风输入信号和来自第二麦克风的麦克风输入信号。

在一个或多个示例性音频设备中，音频设备可被配置为与输出信号一起传输输出信号的第一质量参数。在一个或多个示例性音频设备中，音频设备(诸如远端用户音频设备)可被配置为基于所接收的第一质量参数相对于远端用户偏好对所接收的音频信号的一个或多个特征(诸如来自音频设备的输出信号)进行优化。

在一个或多个示例性音频设备中，音频设备可被配置为传输输出信号并且同时确定与输出信号相关联的第一质量参数(诸如MOS)。

在一个或多个示例性音频设备中，音频设备可被配置为对输出信号进行加速。本公开的优点是在传输期间对输出信号进行加速补偿了在非侵入式质量检测模型推理时发生的延迟。

在一个或多个示例性音频设备中，音频设备可被配置为在使用音频设备时向音频设备的用户提供一个或多个质量参数(诸如第一质量参数)作为反馈。在一个或多个示例性场景中，音频设备接收表示与麦克风输入信号和/或输出信号相关联的语音质量的反馈。

在一个或多个示例性音频设备中，音频设备可被配置为基于一个或多个质量参数(诸如第一质量参数)推荐具有清晰通信所需的最佳语音质量。在一个或多个示例性音频设备中，基于一个或多个质量参数(诸如第一质量参数)建议最佳语音质量包括与地点(诸如用户正在使用音频设备的房间)用于通信的适合性有关的建议。

公开了一种音频设备。音频设备可被配置为佩戴于用户的耳朵上，且可为可听器或助听器，其中，处理器被配置为补偿用户的听力损失。在一个或多个示例性音频设备中，音频设备可以是免提电话、音频棒、视频棒和/或移动电话中的一个或多个。

音频设备可以是耳后(BTE)型、耳内(ITE)型、管内(ITC)型、管内接收器(RIC)型或耳内接收器(RITE)型。助听器可以是双声道助听器。音频设备可包括第一听筒和第二听筒，其中，第一听筒和/或第二听筒是如本文所公开的耳机。

音频设备可被配置为与一个或多个设备(诸如与另一音频设备，例如，作为双耳音频或听觉系统的部分)和/或与一个或多个配件设备(诸如智能电话和/或智能手表)的无线通信。音频设备可选包括用于将一个或多个无线输入信号(例如，第一无线输入信号和/或第二无线输入信号)转换成天线输出信号的天线。(多个)无线输入信号可源自(多个)外部源，诸如(多个)计算机、(多个)膝上型计算机、(多个)平板电脑、(多个)智能手机、(多个)智能手表、(多个)配偶麦克风设备、无线TV音频发射器和/或与无线发射器相关联的分布式麦克风阵列。无线输入信号可源自另一音频设备(例如，作为双耳音频或听觉系统的一部分)和/或源自一个或多个配件设备。

音频设备包括用于处理输入信号(诸如预处理的收发器输入信号和/或预处理的麦克风输入信号)的处理器。处理器向处理器提供基于输入信号的电输出信号。处理器的输入端可选连接到预处理单元的相应输出端。例如，处理器的收发器输入端可连接到预处理单元的收发器输出端。处理器的一个或多个麦克风输入端可连接到预处理单元的相应的一个或多个麦克风输出端。

音频设备包括用于处理输入信号(诸如麦克风输入信号)的处理器。处理器可选地被配置为补偿音频设备的用户的听觉损失。处理器向处理器提供基于输入信号的输出信号，诸如电输出信号。

应注意，音频设备功能性(诸如音频设备被配置为)的描述和特征也适用于方法，且反之亦然。例如，音频设备被配置为确定的描述也适用于例如操作音频设备的方法，其中，该方法包括确定并且反之亦然。

图1示意性地示出了根据本公开的具有音频设备10(诸如耳机、听筒、声棒或智能音箱)的示例性场景。场景1包括佩戴或接近音频设备的说话者或用户2。

在一个或多个示例性场景中，用户或说话者可出现在音频设备10的附近(例如，10米半径内)。

音频设备包括：存储器，存储非侵入式质量检测模型、第一阈值和/或由质量检测模型生成的至少一个或多个质量参数；一个或多个处理器，包含处理器20和接口；以及一个或多个麦克风，包含用于获得第一麦克风输入信号62的第一麦克风60。第一麦克风60可布置在麦克风吊杆上。接口包括无线通信模块，该无线通信模块包括无线电收发器和天线。

场景1包括说话者2。说话者2可被视为音频设备10的用户，并且当说话时，说话者提供音频信号4。音频信号4由麦克风60检测。麦克风60提供麦克风输入信号62。处理器20被配置为基于麦克风60获得麦克风输入信号62。处理器20包括数字信号处理(DSP)模块50。数字信号处理模块50获得麦克风输入信号62。DSP模块50被配置为进行语音增强，例如去混响、带宽扩展、抑制麦克风输入信号62中的噪声和/或回声。DSP模块50基于麦克风输入信号62提供输出信号52。音频设备10包括特征提取模块30，其也被表示为特征提取器。在一个或多个示例性音频设备中，处理器20包括特征提取模块30。特征提取模块30从获得麦克风输入信号62和/或来自DSP模块50的输出信号52。特征提取模块分别提取与麦克风输入信号62和输出信号52相关联的特征。音频设备10包括非侵入式质量检测模型40，诸如包括神经网络的机器学习模型。神经网络是离线训练的神经网络。

处理器20被配置为使用非侵入式质量检测模型40确定一个或多个质量参数，包含表示与输出信号52相关联的语音质量的第一质量参数42。在一个或多个示例性音频设备中，处理器20被配置为使用非侵入式质量检测模型40来确定包含表示与麦克风输入信号62相关联的语音质量的第二质量参数42A的一个或多个质量参数。

处理器20/特征提取器30被配置为基于第一输出信号52确定输出特征/分数32和/或基于麦克风输入信号62确定输入特征/分数32A。处理器20被配置为使用非侵入式质量检测模型40基于输出特征32确定第一质量参数42。第一质量参数表示与第一输出信号52相关联的平均意见分数。处理器20可选被配置为使用非侵入式质量检测模型40基于输入特征32A来确定第二质量参数42A。第二质量参数表示与麦克风输入信号62相关联的平均意见分数。信号的平均意见分数表示信号的语音质量。

处理器20被配置为确定与输出信号52相关联的平均意见分数(第一质量参数42)和/或与麦克风输入信号62相关联的平均意见分数(第二质量参数42A)是否高于阈值，诸如第一阈值。阈值被预定义。在一个或多个示例性音频设备中，阈值由音频设备10动态确定。处理器20被配置为基于与麦克风输入信号62或信号52相关联的平均意见分数是否高于阈值而控制DSP块50。处理器20被配置为，当第一质量参数42低于阈值时，控制DSP块50以提供平均意见分数提高的输出信号52。DSP模块50被配置为基于第一质量参数42和/或第二质量参数42A来控制麦克风输入信号62的处理，以提供平均意见分数提高的输出信号52。换言之，提高输出信号中的语音质量。

音频设备10被配置为经由接口将输出信号52传输至电子设备70。电子设备包括存储器、处理器、接口、一个或多个麦克风、一个或多个扬声器。电子设备的接口包括无线通信模块，无线通信模块包括无线电收发器和天线。

音频设备10可被配置为执行图2中公开的任一方法。

音频设备可被配置为经由无线通信系统，诸如短程无线通信系统，诸如Wi-Fi、蓝牙、Zigbee、IEEE802.11、IEEE802.15、红外线等进行无线通信。

音频系统和音频设备可被配置用于经由无线通信系统进行无线通信，无线通信系统诸如为3GPP系统，诸如支持以下一者或多者的3GPP系统：新无线电、NR、窄带IoT、NB-IoT和长期演进-增强型机器类型通信、LTE-M、毫米波通信，诸如许可频带中的毫米波通信，诸如许可频带中的设备到设备毫米波通信。

图2是用于音频设备中的语音质量检测的示例性方法100的流程图。方法100可由诸如图1的音频设备的音频设备执行。

方法100包括从包含第一麦克风的一个或多个麦克风获得麦克风输入信号(S102)。

方法100包括处理麦克风输入信号以提供输出信号(S104)；确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数(S106)；基于第一质量参数控制麦克风输入信号的处理(S108)；并将输出信号传输至例如电子设备(S110)。

图3是用于训练用于音频质量估计的质量检测模型的示例性计算机实现的方法200的流程图。方法200可由音频设备执行。方法200可由电子设备执行。

在一个或多个示例性方法中，方法200可在诸如移动电话、音频设备、平板电脑、计算机、膝上型计算机的电子设备和/或诸如云服务器的服务器设备中执行。电子设备可包括处理器、存储器和接口。电子设备可包括存储器的一部分中的非侵入式质量检测模型。

方法200包括获得包括一个或多个音频信号的音频数据集(S202)。

在一个或多个示例性方法中，一个或多个音频信号可包括清晰语音音频信号、受一个或多个干扰语音影响的语音信号、受诸如环境噪声、重复噪声、低频噪声的噪声影响的语音信号、噪声信号和诸如滋扰语音信号的远场信号中的一种或多种。应注意，可将信号视为音频信号。在一个或多个示例性方法中，获得音频数据集包括从电子设备的存储器获得数据集。

方法200包括获得包括一个或多个参考质量参数的分数数据集(S204)，一个或多个参考质量参数包含表示与一个或多个音频信号相关联的音频质量的第一参考质量参数。

在一个或多个示例性方法中，一个或多个参考质量参数可表示与一个或多个音频信号相关联的平均意见分数。在一个或多个示例性方法中，一个或多个参考质量参数可以是数值。在一个或多个示例性方法中，获得分数数据集包括从电子设备的存储器获得分数数据集。

方法200包括通过将质量检测模型应用于一个或多个音频信号来确定一个或多个质量参数(S206)，该一个或多个质量参数包含表示与一个或多个音频信号相关联的音频质量的第一质量参数。

在一个或多个示例性方法中，方法包括将质量检测模型应用于一个或多个音频信号。质量检测模型可以是非侵入式质量检测模型。质量检测模型可以是包括神经网络的机器学习模型。

在一个或多个示例性方法中，方法包括通过应用非侵入式质量检测模型来确定与一个或多个音频信号相关联的一个或多个第一质量参数。

方法200包括基于一个或多个音频信号、一个或多个参考质量参数、以及一个或多个第一质量参数来训练质量检测模型(S208)。

在一个或多个示例性方法中，方法包括：基于一个或多个音频信号、与一个或多个音频信号相关联的一个或多个参考质量参数、以及与一个或多个音频信号相关联的一个或多个第一质量参数，训练质量检测模型，诸如非侵入式质量检测模型。

在一个或多个示例性方法中，神经网络的一个或多个输入层可获得与一个或多个音频信号相关联的一个或多个参考质量参数以及与一个或多个音频信号相关联的一个或多个第一质量参数作为输入。

在一个或多个示例性方法中，经训练的深度神经网络可应用于音频设备(诸如图1的音频设备10)中的麦克风输入信号。

在一个或多个示例性方法中，经训练的深度神经网络可应用于音频设备(诸如图1的音频设备10)中的输出信号。

图4示出了用于音频数据集和分数数据集生成以训练质量检测模型(例如，质量检测模型40)的示例性系统500的框图。

系统500可以是电子设备的一部分。系统500包括或被配置为获得/接收噪声数据集540。噪声数据集540可从存储器(例如，电子设备的存储器)获得。噪声数据集540基于一个或多个噪声信号，诸如噪声音频信号，诸如具有噪声的语音信号。噪声数据集540包括一个或多个噪声信号。系统500包括一个或多个神经网络542、548，神经网络被配置为处理来自噪声数据集540的一个或多个噪声信号。一个或多个噪声信号被馈送至一个或多个神经网络542、548。系统500包括音频数据集生成模块550，用于基于噪声数据集540和一个或多个神经网络542、548的输出来生成音频数据集551。

系统500包括一个或多个语音质量度量模块560、562、564。一个或多个语音质量度量模块被配置为接收来自噪声数据集540的噪声信号、清晰音频信号552、554、556以及来自音频数据集551的噪声信号，例如，质量度量模块560被配置为接收来自噪声数据集540的噪声信号和清晰音频信号560以生成质量参数，例如，平均意见分数(MOS)。系统500包括MOS模块570，用于基于与噪声数据集540的一个或多个噪声信号相关联的质量参数来生成分数数据集571。分数数据集571和音频数据集551可用于训练质量检测模型，例如，如关于图3和/或图5所描述的。目标/标记可例如经由众包主观收听和/或通过使用语音质量的一些标准化多维属性(诸如噪声、音色、响度等)来产生。

图5示出了训练质量检测模型(例如，质量检测模型40)的示例性训练系统600的框图。

训练系统600可以是电子设备(例如，电子设备70)的一部分。训练系统600包括或被配置为获得/接收音频数据集551。训练系统600包括训练模块610，该训练模块包括质量检测模型40。质量检测模型40包括深度神经网络架构。训练系统600包括成本函数模块620，该成本函数模块620包括成本函数。成本函数模块620被配置为接收/获得包括与音频数据集551相关联的参考质量参数的分数数据集571。参考质量参数(诸如参考平均意见分数)表示对应于音频数据集551的音频信号的平均意见分数。训练模块610被配置为接收音频数据集551并确定包含与音频数据集551的一个或多个音频信号相关联的第一质量参数的质量参数。训练模块610向成本函数模块620输出第一质量参数。成本函数模块620被配置为获得分数数据集571，并从训练模块610获得第一质量参数。基于分数数据集和第一质量参数，成本函数模块向训练模块610提供反馈。经训练的深度神经网络可用于确定音频设备中的音频信号(诸如输出信号和/或麦克风信号)的语音质量/MOS，如本文所描述的。

根据本公开的音频设备和相关方法的示例在以下项中陈述：

项1.一种用于语音质量检测的音频设备，音频设备包括接口、处理器和存储器，其中，音频设备被配置为：

经由接口从包含第一麦克风的一个或多个麦克风获得麦克风输入信号；

处理麦克风输入信号以提供输出信号；

使用非侵入式质量检测模型来确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数；

基于第一质量参数控制麦克风输入信号的处理；并且

经由接口传输输出信号。

项2.根据项1所述的音频设备，其中，第一质量参数是平均意见分数，并且其中，第一质量参数表示语音失真、噪声衰减和回声烦扰中的一个或多个。

项3.根据项1和2中任一项所述的音频设备，其中，确定一个或多个质量参数包括基于输出信号和麦克风输入信号中的一个或两个将非侵入式质量检测模型应用于模型输入。

项4.根据项1至3中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号相关联的输出质量参数和与麦克风输入信号相关联的输入质量参数，并且其中，基于输出质量参数和输入质量参数来确定第一质量参数。

项5.根据项1至4中任一项所述的音频设备，其中，非侵入式质量检测模型包括机器学习模型，机器学习模型包括经训练的神经网络。

项6.根据项1至5中任一项所述的音频，其中，处理麦克风输入信号以提供输出信号包括应用噪声抑制方案，并且基于第一质量参数控制对麦克风输入信号的处理包括基于第一质量参数控制噪声抑制方案。

项7.根据项1至6中任一项所述的音频设备，其中，处理麦克风输入信号以提供输出信号包括应用回声消除方案，并且基于第一质量参数控制对麦克风输入信号的处理包括基于第一质量参数控制回声消除方案。

项8.根据项1至7中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号的第一特征相关联的第一分数，其中，第一质量参数基于第一分数。

项9.根据项1至8中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号的第二特征相关联的第二分数，其中，第一质量参数基于第二分数。

项10.根据项1至9中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号的第三特征相关联的第三分数，其中，第一质量参数基于第三分数。

项11.根据项1至10中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号的第四特征相关联的第四分数，其中，第一质量参数基于第四分数。

项12.根据项1至11中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与输出信号的第五特征相关联的第五分数，其中，第一质量参数基于第五分数。

项13.根据项1至12中任一项所述的音频设备，其中，确定一个或多个质量参数包括确定与第一特征、第二特征、第三特征、第四特征和第五特征中的两个或多个相关联的组合分数，其中，第一质量参数基于组合分数。

项14.根据项1至13中任一项所述的音频设备，其中，基于输出信号确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数。

项15.根据项1至14中任一项所述的音频设备，其中，基于麦克风输入信号确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数。

项16.一种用于音频设备中的语音质量检测的方法，其中，方法包括：

从包含第一麦克风的一个或多个麦克风获得麦克风输入信号；

处理麦克风输入信号以提供输出信号；

确定包含表示与输出信号相关联的语音质量的第一质量参数的一个或多个质量参数；

基于第一质量参数控制麦克风输入信号的处理；并且

传输输出信号。

项17.一种用于训练用于音频质量估计的质量检测模型的计算机实现的方法，其中，方法包括：

获得包括一个或多个音频信号的音频数据集；

获得包括一个或多个参考质量参数的分数数据集，参考质量参数包含表示与一个或多个音频信号相关联的音频质量的第一参考质量参数；

通过将质量检测模型应用于一个或多个音频信号来确定包含表示与一个或多个音频信号相关联的音频质量的第一质量参数的一个或多个质量参数；并且

基于一个或多个音频信号、一个或多个参考质量参数和一个或多个第一质量参数来训练质量检测模型。

术语“第一”、“第二”、“第三”和“第四”、“一级”、“二级”、“三级”等的使用不暗示任何特定顺序，而是包括用于识别各个元件。而且，使用术语“第一”、“第二”、“第三”和“第四”、“初次”、“二次”、“三次”等不表示任何顺序或重要性，而是使用术语“第一”、“第二”、“第三”和“第四”、“初次”、“二次”、“三次”等来区分一个元件与另一个元件。要注意的是，词语“第一”、“第二”、“第三”和“第四”、“初次”、“二次”、“三次”等在本文中和其他地方仅仅用于标记目的，并非旨在表示任何特定的空间或时间排序。

此外，第一元件的标记并不暗示第二元件的存在，反之亦然。

可以理解，图1至5包括用实线示出的一些模块或操作以及用虚线示出的一些模块或操作。包括在实线中的模块或操作是包括在最广泛的示例性实施方式中的模块或操作。包括在虚线中的模块或操作是示例性实施方式，该示例性实施方式可包括在实线示例性实施方式中的模块或操作中或者是其一部分，或者是除了实线示例性实施方式的模块或操作之外可以采取的进一步的模块或操作。应当理解，这些操作不需要按呈现的顺序执行。此外，应当理解，并非所有操作都需要被执行。可以以任何顺序和以任何组合来执行示例性操作。

要注意的是，词语“包括”不一定排除除了列出的那些之外的其他元件或步骤的存在。

要注意的是，元件前面的单词“一”或“一个”不排除存在多个这种元件。

应进一步注意的是，任何参考符号不限制权利要求的范围，示例性实施方式可至少部分地通过硬件和软件实现，并且若干个“装置”、“单元”或“设备”可由相同的硬件项表示。

本文描述的不同示例性方法、设备和系统是在方法步骤过程的一般上下文中描述的，在一个方面，这些方法步骤过程可由计算机程序产品实现，该计算机程序产品在计算机可读介质中实施，该计算机可读介质包含由网络化环境中的计算机执行的计算机可执行指令(诸如程序代码)。计算机可读介质可包括可移动和不可移动存储设备，包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字通用盘(DVD)等。通常，程序模块可包括执行指定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文所公开的方法的步骤的程序代码的示例。这种可执行指令或相关联数据结构的特定序列表示用于实现在这种步骤或过程中描述的功能的对应动作的示例。

尽管已经示出和描述了特征，但是将理解的是，这些特征不旨在限制所要求保护的发明，并且对本领域技术人员而言将显而易见的是，在不背离所要求保护的本发明的精神和范围的情况下，可以做出各种改变和修改。因此，说明书和附图被视为是说明性的而非限制性的。所要求的发明旨在覆盖所有的替代方案、修改、以及等效物。

参考标号列表

1场景

2说话者/用户

4 音频信号

10 音频设备

20 处理器

30特征提取模块/特征提取器

32 输出特征

32A 输入特征

40质量检测模型，机器学习模型

42 第一质量参数

42A 第二质量参数

50数字信号处理(DSP)模块

52 输出信号

60 麦克风

62 麦克风输入信号

70 电子设备

500 系统

540 噪声数据集

542 神经网络

548 神经网络

550 音频数据集生成模块

551音频数据集

552、554、556清晰音频信号

560、562、564质量度量模块

570 MOS模块

571 分数数据集

600 训练系统

610 训练模块

620 成本函数模块

S102从包含第一麦克风的一个或多个麦克风获得麦克风输入信号

S104处理麦克风输入信号以提供输出信号

S106确定包含表示与输出信号相关联的语音质量的第一质量参数的

一个或多个质量参数

S108基于第一质量参数控制麦克风输入信号的处理

S110传输输出信号

S202获得包括一个或多个音频信号的音频数据集

S204获得包括一个或多个参考质量参数的分数数据集，参考质量参

数包含表示与一个或多个音频信号相关联的音频质量的第一参考质量参

数

S206通过将质量检测模型应用于一个或多个音频信号来确定包括第

一质量参数的一个或多个质量参数

S208基于一个或多个音频信号、一个或多个参考质量参数和一个或

多个第一质量参数来训练质量检测模型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：克莱门茨·拉罗谢;佩曼·莫莱;拉斯穆斯·孔斯格德·奥尔森;
专利申请人：GN 奥迪欧有限公司;