齿音调整方法、装置、电子设备及计算机可读存储介质

文献发布时间：2023-06-19 11:21:00

技术领域

本申请的实施方式涉及音频处理技术领域，更具体地，本申请的实施方式涉及齿音调整方法、齿音调整装置、电子设备以及计算机可读存储介质。

背景技术

齿音(ess/sibilant)是指人的一切咝擦声，对应于较高的锐度，一般不适宜人耳收听。对于音频采集软件(如，唱歌软件)而言，通常会在获取到的音频数据之后对音频数据中的齿音进行带阻滤波处理，进而再将处理后的音频数据输出给用户，使得音频数据中每帧数据都处于合适的锐度范围内，避免较高锐度的齿音对人耳的听力造成损伤。但是，不同音频数据对应的音量通常不同，如果使用统一的处理方式，容易导致齿音抑制效果不佳的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此，不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

基于上述问题，发明人进行了相应的思考，做出了有针对性的改进，提供了齿音调整方法、齿音调整装置、电子设备以及计算机可读存储介质，可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征对音频数据进行个性化的齿音调整，可以改善齿音抑制效果。

根据本申请实施例的第一方面，公开了一种齿音调整方法，包括：

获取到录制的音频数据；

对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值；

根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值；

根据目标齿音特征值对音频数据进行齿音调整。

在一个实施例中，基于前述方案，对音频数据进行音量归一化，包括：

当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧；

从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在一个实施例中，基于前述方案，根据目标齿音特征值对音频数据进行齿音调整，包括：

根据目标齿音特征值从当前播放帧开始逐帧进行齿音调整，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在一个实施例中，基于前述方案，根据目标齿音特征值对音频数据进行齿音调整之后，上述方法还包括：

将音频数据与进行齿音调整后的音频数据进行对应存储并播放齿音调整后的音频数据。

在一个实施例中，基于前述方案，根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值之前，上述方法还包括：

确定音频数据中各帧音频对应的频带响度；

根据各帧音频对应的频带响度计算各帧音频对应的响度；

根据各帧音频对应的响度和各帧音频对应的频带响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，根据各帧音频对应的频带响度计算各帧音频对应的响度，包括：

计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合；

对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

在一个实施例中，基于前述方案，根据各帧音频对应的响度和各帧音频对应的频带响度集合计算音量归一化前各帧音频的原齿音特征值，包括：

通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度；

根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值，包括：

根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；

根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

在一个实施例中，基于前述方案，根据目标齿音特征值对音频数据进行齿音调整，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧；

通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

在一个实施例中，基于前述方案，通过预设滤波参数对齿音帧进行滤波处理之前，上述方法还包括：

根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

在一个实施例中，基于前述方案，将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧；

若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量的连续齿音帧。

根据本申请实施例的第二方面，公开了一种齿音调整装置，包括：音频数据采集单元、音量归一化单元、特征值计算单元以及齿音调整单元，其中：

音频数据采集单元，用于获取到录制的音频数据；

音量归一化单元，用于对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值；

特征值计算单元，用于根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值；

齿音调整单元，用于根据目标齿音特征值对音频数据进行齿音调整。

在一个实施例中，基于前述方案，音量归一化单元对音频数据进行音量归一化，包括：

当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧；

从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在一个实施例中，基于前述方案，齿音调整单元根据目标齿音特征值对音频数据进行齿音调整，包括：

根据目标齿音特征值从当前播放帧开始逐帧进行齿音调整，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在一个实施例中，基于前述方案，上述装置还包括：

存储单元，用于在齿音调整单元根据目标齿音特征值对音频数据进行齿音调整之后，将音频数据与进行齿音调整后的音频数据进行对应存储；

播放单元，用于播放齿音调整后的音频数据。

在一个实施例中，基于前述方案，上述装置还包括：

数据计算单元，用于在特征值计算单元根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值之前，确定音频数据中各帧音频对应的频带响度；

数据计算单元，还用于根据各帧音频分别对应的频带响度集合计算各帧音频对应的响度；

数据计算单元，还用于根据各帧音频对应的响度和各帧音频对应的频带响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，数据计算单元根据各帧音频对应的频带响度计算各帧音频对应的响度，包括：

计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合；

对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

在一个实施例中，基于前述方案，数据计算单元根据各帧音频对应的响度和各帧音频对应的频带响度集合计算音量归一化前各帧音频的原齿音特征值，包括：

通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度；

根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，特征值计算单元根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值，包括：

根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；

根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

在一个实施例中，基于前述方案，齿音调整单元根据目标齿音特征值对音频数据进行齿音调整，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧；

通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

在一个实施例中，基于前述方案，数据计算单元，还用于齿音调整单元通过预设滤波参数对齿音帧进行滤波处理之前，根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

在一个实施例中，基于前述方案，齿音调整单元将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧；

若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量的连续齿音帧。

根据本申请实施例的第三方面，公开了一种电子设备，包括：处理器；以及存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现如第一方面公开的齿音调整方法。

根据本申请实施例的第四方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当计算机可读指令被计算机的处理器执行时，使计算机执行根据本申请第一方面公开的齿音调整方法。

本申请实施例，可以获取到录制的音频数据；对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值；根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值；根据目标齿音特征值对音频数据进行齿音调整。相较现有技术，实施本申请的实施例，一方面可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征对音频数据进行个性化的齿音调整，可以改善齿音抑制效果。另一方面，实施本申请实施例还能够在目标齿音特征值对音频数据进行齿音调整的过程中提升对于齿音的识别精度，进而对精准识别到的齿音进行调整可以使得音频数据处于合适的锐度范围内。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1示出的是根据本申请一示例实施方式的齿音调整方法的流程示意图；

图2示出的是根据本申请一示例实施方式的用户界面示意图；

图3示出的是根据本申请一示例实施方式的音频特征分布示意图；

图4示出的是根据本申请另一示例实施方式的音频特征分布示意图；

图5示出的是根据本申请一示例实施方式的齿音调整方法的流程示意图；

图6示出的是根据本申请一可选示例实施方式的齿音调整装置的结构框图；

图7示出的是根据本申请另一可选示例实施方式的齿音调整装置的结构框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此，本申请可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本申请的实施方式，提出了一种齿音调整方法、齿音调整装置、电子设备以及计算机可读存储介质。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

现有技术中，通常没有专门检测齿音的过程，而是通过直接对整个音轨进行带阻滤波，间接实现对于音频数据中的齿音抑制；其中，带阻滤波的参数通常为人工手动设置，如，抑制强度Threshold，频率范围Center Frequency、Bandwidth等。但是，不同的音频数据对应于不同的音量等参数，如果使用同一的处理方式处理音频数据，容易造成音频数据中齿音抑制效果不佳的问题。

基于此，申请人想到，可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征(如，锐度门限值)对音频数据进行个性化的齿音调整，从而改善齿音抑制效果。

需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

在应用于唱歌场景下时，用于可以通过唱歌软件录制自己演唱的音频数据，不同的音频数据对应于不同的音量等参数。在完成音频数据的录制之后，可以对音频数据进行音量归一化处理，从而得到表征该音频数据音量变化程度的增益值，不同的音频数据依据其音量的不同可以对应于不同的增益值。进而，可以根据增益值计算出音量归一化后的音频数据对应的齿音特征(如，锐度门限)，从而根据该齿音特征对音频数据进行齿音抑制的效果更好，精度更高。

下面结合上述的应用场景，参考图1和图6来描述根据本申请示例性实施方式的齿音调整方法。

请参阅图1，图1示出的是根据本申请一示例实施方式的齿音调整方法的流程示意图，该齿音调整方法可以由服务器或终端设备来实现。如图1所示，该齿音调整方法，可以包括：

步骤S110：获取到录制的音频数据。

步骤S120：对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值。

步骤S130：根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

步骤S140：根据目标齿音特征值对音频数据进行齿音调整。

实施图1所示的齿音调整方法，可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征对音频数据进行个性化的齿音调整，可以改善齿音抑制效果。此外，还能够在目标齿音特征值对音频数据进行齿音调整的过程中提升对于齿音的识别精度，进而对精准识别到的齿音进行调整可以使得音频数据处于合适的锐度范围内。

下面对这些步骤进行详细描述。

在步骤S110中，获取到录制的音频数据。

具体地，音频数据可以为用户录入终端设备(如，手机)的歌唱数据。其中，获取到录制的音频数据的方式具体可以为：当检测到用于触发音频录制功能启动的用户操作时，启动麦克风模块录制音频数据；其中，用于触发音频录制功能启动的用户操作可以为作用于音频录制控件的交互操作，也可以为语音控制操作、手势控制操作等，本申请实施例不作限定。可选的，获取到录制的音频数据的方式也可以为：根据触发的音频读取指令从预设存储空间(如，硬盘空间)中读取音频数据，其中，该音频数据可以为预先录制好的音频数据。

在步骤S120中，对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值。

具体地，增益值(Gain)为正时可以表征归一化后的音量高于归一化前的音量，增益值(Gain)为负时可以表征归一化后的音量低于归一化前的音量。其中，音量归一化用于将音频数据的总体音量统一至预设音量范围，预设音量范围中的上限值和/或下限值的单位可以为LUFS/dB。

作为一种可选的实施例，对音频数据进行音量归一化，包括：当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧；从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

具体地，用于开启降噪功能的用户操作可以为触控操作、语音控制操作或手势控制操作等，本申请实施例不作限定。

其中，从当前播放帧开始逐帧进行音量归一化，包括：遍历晚于当前播放帧的所有音频帧，若存在不属于预设音量范围(如，0～30)的音频帧，则从当前播放帧开始逐帧进行音量归一化，直到晚于当前播放帧的所有音频帧以及当前播放帧的音量均属于预设音量范围为止。

请参阅图2，图2示出的是根据本申请一示例实施方式的用户界面示意图。如图2所示，当采集到音频数据之后，可以向用户展示图2所示的用户界面；其中，该用户界面中包括用于关闭当前页面的关闭控件210；用于展示用户所演唱的歌曲名称的歌名展示区域220；用于为音频数据添加MV图片的控件230；用于控制音频数据播放进度的播放进度控制键240；用于开启降噪功能触发执行步骤S110～步骤S140的降噪功能开启控件250；用于控制音频数据获取功能重新获取音频数据的重唱控件260；展示为“去发布”的用于将音频数据发布至网络平台的发布控件270；展示为“存草稿”的音频数据存储控件280。

具体地，用户在完成了歌曲演唱之后，可以向用户展示图2所示的用户界面。其中，用户可以在歌名展示区域220看到所演唱的歌曲名称，可以通过触发控件230为音频数据添加MV图片，以便唱歌软件合成MV图片和音频数据，得到音视频数据。以及，用户还可以通过触发播放进度控制键240调整音频数据的播放进度。在用户界面中，可以包括如下板块：音效、音量以及模块，用户可以根据个性化需求对其中至少一个板块中的参数进行个性化调整。以音量为例，其中包括对于人声、伴奏、音色以及对齐参数的调整；其中，对齐参数用于控制人声和伴奏的融合节奏，避免人声录制时的延时导致音频数据与伴奏的融合存在误差，提升人声和伴奏的融合精度。以及，用户还可以通过触发重唱控件260实现音频数据的重新采集，重新采集得到的音频数据可以作为新的音频数据覆盖旧的音频数据。以及，用户还可以通过触发音频数据存储控件280将音频数据作为草稿进行存储。以及，用户还可以通过触发降噪功能开启控件250实现实时降噪，开启降噪功能之后，为用户输出的音频数据可以为降噪后的音频数据，当检测到作用于发布控件270的交互操作时，可以将降噪后且融合了伴奏的音频数据发布至网络平台，以使得其他用户也能够通过网络平台播放该音频数据。

另外，可选的，上述方法还可以包括：当检测到用户作用于人声、伴奏、音色和对齐参数中至少一种音量参数的交互操作时，可以根据交互操作确定调整后的音量参数，从而根据调整后的音量参数对当前播放进度之后的音频帧重新进行齿音抑制。基于该可选的实施例可知，不论用户在图2所示的用户界面中如何调整音量参数，本申请均可以根据用户调整后的音量参数修正齿音特征值，以保证对音频数据中齿音的正确抑制。进而，在根据调整后的音量参数对当前播放进度之后的音频帧重新进行齿音抑制之后，还可以包括：输出重新进行齿音抑制后的音频帧。

可见，实施该可选的实施例，能够通过对于音量的归一化，改善后续对于齿音检测抑制的精度。

在步骤S130中，根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

具体地，原齿音特征值和目标齿音特征值分别用于表示音量归一化前后的音频数据中每帧音频数据的锐度，其中，锐度(sharpness)，单位为accum，可以基于频带响度计算得到，用于衡量某个声音的刺耳程度。

作为一种可选的实施例，根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值之前，上述方法还包括：确定音频数据中各帧音频对应的频带响度；根据各帧音频对应的频带响度计算各帧音频对应的响度；根据各帧音频对应的响度和各帧音频对应的频带响度计算音量归一化前各帧音频的原齿音特征值。

其中，确定音频数据中各帧音频对应的频带响度，包括：根据ITU-R BS.1387-1确定音频数据中各帧音频对应的频带响度；其中，ITU-R BS.1387-1用于规定一种频带响度计算方法。具体地，根据ITU-R BS.1387-1确定音频数据中各帧音频对应的频带响度，包括：基于ITU-R BS.1387-1中的第一表达式

此外，第一表达式可以简化为第二表达式

可见，实施该可选的实施例，能够计算出音量归一化之前的原齿音特征值，以便后续根据该原齿音特征值计算音量归一化后的目标齿音特征值，根据目标齿音特征值进行齿音检测、抑制，有利于提升齿音抑制精度。

作为一种可选的实施例，根据各帧音频对应的频带响度计算各帧音频对应的响度，包括：计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合；对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

具体地，计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合，包括：计算各帧音频分别基于多种预设频带z(如，5Bark、10Bark、24Bark等)的频带响度，得到各帧音频分别对应的频带响度集合，z对应的取值范围可以为[0,24]，z的取值为整数；举例来说，频带响度集合可以包括：N‘(0)、N‘(1)、N‘(2)、……、N‘(24)。进而，对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度，包括：将上述各帧音频分别对应的频带响度集合代入第三表达式

可见，实施该可选的实施例，能够计算基于不同预设频带的频带响度，从而根据基于不同预设频带的频带响度计算各帧音频对应的响度，可以提升对于目标齿音特征值的计算精度，进而有利于得到合理的齿音强度。

作为一种可选的实施例，根据各帧音频对应的响度和各帧音频对应的频带响度集合计算音量归一化前各帧音频的原齿音特征值，包括：通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度；根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

其中，预设激活函数可以为

其中，S

可见，实施该可选的实施例，能够基于预设激活函数和各帧音频的频带响度集合计算得到音量归一化前各帧音频的原齿音特征值的计算方式，可以提升计算出与音量归一化后的音频数据相匹配的齿音特征值。

作为一种可选的实施例，根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值，包括：根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

具体地，在根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数之前，上述方法还可以包括以下步骤：根据第六表达式

基于此，根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数，包括：将增益值(Gain)和频带能量E(z)代入第七表达式

基于此，根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值，包括：将频带能量参数E

请参阅图3和图4，图3示出的是根据本申请一示例实施方式的音频特征分布示意图，图4示出的是根据本申请另一示例实施方式的音频特征分布示意图。具体地，图3和图4分别用于展示不同的发音(如，“心”的发音和“季”的发音)所对应的目标齿音特征值(坐标系中的幅度值)和预设齿音阈值(坐标系中的点)在坐标系中的量化分布，坐标系的横轴为时间，纵轴为锐度。在图3和图4，若某一帧的目标齿音特征值大于预设齿音阈值，目标齿音特征值在坐标系中的幅度值则会大于该帧的预设齿音阈值在坐标系中的点状值，基于此，若检测到该帧前后均为连续的齿音帧且持续时长达到预设时长，则可以判定该帧为齿音帧。

可见，实施该可选的实施例，能够计算出音量归一化后音频数据对应的目标齿音特征值，根据目标齿音特征值进行齿音抑制能够提升齿音抑制效果，改善音频数据的听感。

在步骤S140中，根据目标齿音特征值对音频数据进行齿音调整。

具体地，根据目标齿音特征值对音频数据进行齿音调整，包括：将目标齿音特征值和音频数据输入具有齿音消除/抑制功能的音频处理插件(De-esser)，以使得De-esser根据抑制强度(如，-9dB)抑制音频数据中的齿音；或者，将目标齿音特征值和音频数据输入具有齿音消除/抑制功能的音频处理插件递归滤波器(IIR滤波器)，以使得IIR滤波器抑制音频数据中的齿音，IIR滤波器可以提升齿音抑制效率，减少延迟、卡顿的情况。其中，需要说明的是，经过实验可知，抑制强度为-9dB时可以平衡听感的满意度，避免齿音抑制过多或过少所造成的听感不佳的问题。另外，本申请中的齿音特指人唱歌吐字时发出的咝擦声，一般出现在语句的清辅音起始位置，所处频带范围一般为2～10kHz。

作为一种可选的实施例，根据目标齿音特征值对音频数据进行齿音调整，包括：根据目标齿音特征值从当前播放帧开始逐帧进行齿音调整，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

具体地，用于关闭降噪功能的用户操作可以作用于图2中的控件250，以将处于开启状态的降噪功能转换为关闭状态，用户可以根据个性化需求随时选择开启/关闭降噪功能。

可见，实施该可选的实施例，能够增强交互性，使得用户能够在音频数据播放的过程中，随时控制对于音频数据的齿音抑制功能的开启或关闭，改善用户的使用体验，便于用户根据个性化需求获取到所需的音频数据。

作为一种可选的实施例，根据目标齿音特征值对音频数据进行齿音调整之后，上述方法还包括：将音频数据与进行齿音调整后的音频数据进行对应存储并播放齿音调整后的音频数据。

具体地，在将音频数据与进行齿音调整后的音频数据进行对应存储之后，上述方法还可以包括：若检测到作用于发布控件270的发布操作时，可以确定当前降噪功能的状态并发布与该状态相对应的音频数据；其中，若该状态为开启状态，则发布齿音调整后的音频数据，若该状态为关闭状态，则发布齿音调整前的音频数据。

可见，实施该可选的实施例，能够通过对齿音调整前后的音频数据的对应存储，提升数据调用效率，方便用户在需要回听齿音调整前后的音频数据时可以及时进行数据调用，以供用户选择。

作为一种可选的实施例，根据目标齿音特征值对音频数据进行齿音调整，包括：将音频数据中大于预设齿音阈值(如，900)的目标齿音特征值所对应的音频帧确定为齿音帧；通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

具体地，将音频数据中大于预设齿音阈值(如，900)的目标齿音特征值所对应的音频帧确定为齿音帧之前，上述方法还可以包括：根据音频数据中每一帧对应的歌曲音量(如，-18lufs)确定每一帧对应的预设齿音阈值。基于此，将音频数据中大于预设齿音阈值(如，900)的目标齿音特征值所对应的音频帧确定为齿音帧，包括：将音频数据中每帧音频与各自对应的预设齿音阈值进行比对，将大于预设齿音阈值的音频帧确定为齿音帧。

其中，通过预设滤波参数对齿音帧进行滤波处理，包括：通过带阻滤波器中的预设滤波参数对齿音帧进行滤波处理。其中，带阻滤波(stop filter)用于抑制齿音所在频带的能量，每一个滤波器包含中心频率fc、截止频率fs、滤波(抑制)强度三个参数。

可见，实施该可选的实施例，能够根据计算得到的音量归一化后的目标齿音特征值确定齿音帧，可以提升齿音帧的检测精度，进而有利于提升对于音频数据的齿音抑制效果。

作为一种可选的实施例，通过预设滤波参数对齿音帧进行滤波处理之前，上述方法还包括：根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

具体地，滤波范围可以由中心频率fc和截止频率fs构成。其中，根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围，包括：根据各帧音频对应的频带响度确定出各齿音段中的特定帧，特定帧对应于最高的目标齿音特征值；根据目标齿音特征值计算各齿音段对应的滤波范围。

可见，实施该可选的实施例，能够针对不同频率分布的齿音段确定相对应的滤波范围，从而有利于提升齿音抑制效果。

作为一种可选的实施例，将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧，包括：将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧；若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量(如，350)的连续齿音帧。

具体地，每个音频帧的长度通常为1024个采样点(≈23ms)，音频帧与音频帧之间存在一定程度的(如，50％)的重叠区域，一个完整齿音段约包含3～30帧。举例来说，齿音段对应的长度可以为40ms～400ms。另外，若检测到参考帧不属于齿音段，则判定参考帧非齿音帧。

可见，实施该可选的实施例，能够增加对于齿音帧的检测条件，降低齿音帧误判的概率。

请参阅图5，图5示出的是根据本申请一示例实施方式的齿音调整方法的流程示意图。如图5所示，该齿音调整方法可以包括：步骤S500～步骤S590。

步骤S500：获取到录制的音频数据。

步骤S510：当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧。

步骤S520：从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

步骤S530：确定音频数据中各帧音频对应的频带响度，计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合，并对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

步骤S540：通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度，并根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

步骤S550：根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

步骤S560：将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧，若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量的连续齿音帧。

步骤S570：根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

步骤S580：通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

步骤S590：将音频数据与进行齿音调整后的音频数据进行对应存储并播放齿音调整后的音频数据。

需要说明的是，步骤S500～步骤S590与图1所示的各步骤及其实施例相对应，针对步骤S500～步骤S590的具体实施方式，请参阅图1所示的各步骤及其实施例，此处不再赘述。

可见，实施图5所示的方法，可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征对音频数据进行个性化的齿音调整，可以改善齿音抑制效果。此外，还能够在目标齿音特征值对音频数据进行齿音调整的过程中提升对于齿音的识别精度，进而对精准识别到的齿音进行调整可以使得音频数据处于合适的锐度范围内。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在介绍了本申请示例性实施方式的方法之后，接下来，对本申请示例性实施方式的介质进行说明。

在一些可能的实施方式中，本申请的各个方面还可以实现为一种介质，其上存储有程序代码，当程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的齿音调整方法中的步骤。

具体地，所述设备的处理器执行所述程序代码时用于实现如下步骤：获取到录制的音频数据；对所述音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值；根据所述增益值和音量归一化前所述音频数据对应的原齿音特征值计算音量归一化后所述音频数据对应的目标齿音特征值；根据所述目标齿音特征值对所述音频数据进行齿音调整。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧；从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：确定音频数据中各帧音频对应的频带响度；根据各帧音频对应的频带响度计算各帧音频对应的响度；根据各帧音频对应的响度和各帧音频对应的频带响度计算音量归一化前各帧音频的原齿音特征值。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合；对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度；根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：根据目标齿音特征值从当前播放帧开始逐帧进行齿音调整，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：将音频数据与进行齿音调整后的音频数据进行对应存储并播放齿音调整后的音频数据。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧；通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

在本申请的一些实施方式中，所述设备的处理器执行所述程序代码时还用于实现如下步骤：将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧；若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量的连续齿音帧。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在介绍了本申请示例性实施方式的介质之后，接下来，参考图7对本申请示例性实施方式的齿音调整装置进行说明。

请参阅图6，图6示出的是根据本申请一示例实施方式的齿音调整装置的结构框图。如图6所示，本申请一示例实施方式的齿音调整装置600包括：音频数据采集单元601、音量归一化单元602、特征值计算单元603以及齿音调整单元604，其中：

音频数据采集单元601，用于获取到录制的音频数据；

音量归一化单元602，用于对音频数据进行音量归一化并根据归一化结果确定用于表征音量变化程度的增益值；

特征值计算单元603，用于根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值；

齿音调整单元604，用于根据目标齿音特征值对音频数据进行齿音调整。

可见，实施图6所示的装置，可以对音频数据进行音量归一化，从而得到用于表征音量变化程度的增益值，进而根据增益值可以确定出音量归一化后的音频数据对应的齿音特征，根据该齿音特征对音频数据进行个性化的齿音调整，可以改善齿音抑制效果。此外，还能够在目标齿音特征值对音频数据进行齿音调整的过程中提升对于齿音的识别精度，进而对精准识别到的齿音进行调整可以使得音频数据处于合适的锐度范围内。

在一个实施例中，基于前述方案，音量归一化单元602对音频数据进行音量归一化，包括：

当检测到用于开启降噪功能的用户操作时，确定用户操作在音频数据中对应的当前播放帧；

从当前播放帧开始逐帧进行音量归一化，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

可见，实施该可选的实施例，能够通过对于音量的归一化，改善后续对于齿音检测抑制的精度。

在一个实施例中，基于前述方案，齿音调整单元604根据目标齿音特征值对音频数据进行齿音调整，包括：

根据目标齿音特征值从当前播放帧开始逐帧进行齿音调整，直到检测到用于关闭降噪功能的用户操作为止或检测到音频数据播放完毕为止。

在一个实施例中，基于前述方案，上述装置还包括：

存储单元(未图示)，用于在齿音调整单元604根据目标齿音特征值对音频数据进行齿音调整之后，将音频数据与进行齿音调整后的音频数据进行对应存储；

播放单元(未图示)，用于播放齿音调整后的音频数据。

在一个实施例中，基于前述方案，上述装置还包括：

数据计算单元(未图示)，用于在特征值计算单元603根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值之前，确定音频数据中各帧音频对应的频带响度；

数据计算单元，还用于根据各帧音频分别对应的频带响度集合计算各帧音频对应的响度；

数据计算单元，还用于根据各帧音频对应的响度和各帧音频对应的频带响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，数据计算单元根据各帧音频对应的频带响度计算各帧音频对应的响度，包括：计算各帧音频分别基于多种预设频带的频带响度，得到各帧音频分别对应的频带响度集合；对各帧音频分别对应的频带响度集合进行集合内的元素求和，得到各帧音频对应的响度。

通过预设激活函数处理各帧音频的频带响度集合，得到各帧音频的参考响度；

根据各帧音频的参考响度和各帧音频对应的响度计算音量归一化前各帧音频的原齿音特征值。

在一个实施例中，基于前述方案，特征值计算单元603根据增益值和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值，包括：

根据增益值计算用于表征音量归一化前后频带能量变化的频带能量参数；

根据频带能量参数和音量归一化前音频数据对应的原齿音特征值计算音量归一化后音频数据对应的目标齿音特征值。

在一个实施例中，基于前述方案，齿音调整单元604根据目标齿音特征值对音频数据进行齿音调整，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧；

通过预设滤波参数对齿音帧进行滤波处理；其中，预设滤波参数包括滤波范围和/或滤波强度。

在一个实施例中，基于前述方案，数据计算单元，还用于齿音调整单元604通过预设滤波参数对齿音帧进行滤波处理之前，根据各帧音频对应的频带响度计算音频数据中各齿音段对应的滤波范围；其中，滤波范围包括滤波器截止频率和滤波器中心频率。

可见，实施该可选的实施例，能够针对不同频率分布的齿音段确定相对应的滤波范围，从而有利于提升齿音抑制效果。

在一个实施例中，基于前述方案，齿音调整单元604将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为齿音帧，包括：

将音频数据中大于预设齿音阈值的目标齿音特征值所对应的音频帧确定为参考帧；

若检测到参考帧属于齿音段，则判定参考帧为齿音帧；其中，齿音段中包含至少预设数量的连续齿音帧。

可见，实施该可选的实施例，能够增加对于齿音帧的检测条件，降低齿音帧误判的概率。

应当注意，尽管在上文详细描述中提及了齿音调整装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在介绍了本申请示例性实施方式的方法、介质和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本申请的又一可选示例实施方式的齿音调整装置700。图7显示的齿音调整装置700仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，齿音调整装置700以电子设备的形式表现。齿音调整装置700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述示例性方法的描述部分中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1和图5中所示的各个步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括地址总线、控制总线和/或数据总线。

齿音调整装置700也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与齿音调整装置700交互的设备通信，和/或与使得该齿音调整装置700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，齿音调整装置700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器760通过总线730与齿音调整装置700的其它模块通信。应当明白，尽管图中未示出，可以结合齿音调整装置700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：熊贝尔;朱一闻;曹偲;郑博;刘华平;
专利申请人：杭州网易云音乐科技有限公司;

上一篇：一种双位点酸性季鏻盐离子液体催化剂的制备及应用
下一篇：一种具有推力干扰消除结构的双涵道喷管推力测量平台