掌桥专利:专业的专利平台
掌桥专利
首页

声音增益值的计算方法、装置和电子设备

文献发布时间:2023-06-19 10:38:35


声音增益值的计算方法、装置和电子设备

技术领域

本公开涉及语音处理领域,尤其涉及一种声音增益值的计算方法、装置、电子设备及计算机可读存储介质。

背景技术

目前,不管是语音通话,视频通话,还是语音识别等应用场景,音频自动增益控制(AGC)都是至关重要的一环。在语音、视频通话中,AGC能够提升听感,尤其是远场拾音时,能够增强语音的响度;在语音交互中,AGC能够提升唤醒和识别率。

最简单的硬性增益处理是对所有音频采样乘上一个增益因子,它也等同于在频域每个频率都同时乘上这个增益因子,但由于人的听觉对所有频率的感知不是线性的,是遵循等响度曲线的,导致这样处理后,音频听起来感觉有的频率加强了,有的频率削弱了,导致语言失真的放大。

现有技术中,还根据语音检测(VAD)结果来计算当前语音的强度,从而选择合适的增益因子,但是由于有些VAD的计算量较少,导致VAD准确性下降,而为了保证语音段增益,往往允许静音段的增益值过大,这就导致噪声段幅值变大,听感下降,唤醒和识别率也受其影响。

发明内容

提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

为了解决上述技术问题,第一方面,本公开实施例提供一种声音增益值的计算方法,包括:

获取声音帧;

对所述声音帧进行语音检测得到语音检测结果;

根据所述语音检测结果计算所述声音帧的语音能量参数;其中,所述语音能量参数符合所述声音帧的能量水平;

根据所述语音能量参数和预先配置的固定增益表获取初始增益值;

根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。

进一步的,所述方法还包括:

根据所述声音帧和所述增益值计算声音帧的输出声音帧。

进一步的,所述固定增益表包括:以语音能量参数为变量的函数;其中,语音能量参数越大,对应的函数值越大;语音能量参数越小,对应的函数值越小。

进一步的,所述根据所述语音检测结果计算所述声音帧的语音能量参数,包括:

根据所述语音检测结果获取三个语音包络值;其中所述三个语音包络值包括:快包络值、慢包络值以及缓存慢包络值,其中快包络值表示语音的变化;慢包络值在所述检测结果为有语音时缓慢变大,当所述检测结果为无语音时缓慢下降,当所述检测结果为静音时保持不变;缓存慢包络值为历史最大慢包络值。

根据所述三个语音包络值中的最大值计算所述声音帧的语音能量参数。

进一步的,所述语音检测结果为所述声音帧中包括语音的概率值,所述根据所述语音检测结果获取三个语音包络值,包括:

当所述概率值大于或等于检测概率阈值时,根据第一平滑系数计算快包络值,根据第二平滑系数计算慢包络值,记录最大慢包络值;其中所述第一平滑系数和第二平滑系数为固定值,且第二平滑系数大于第一平滑系数;

当所述概率值小于检测概率值且大于零时,根据第一平滑系数计算快包络值,根据第三平滑系数计算慢包络值,记录最大慢包络值;其中,第三平滑系数与所述概率值正相关;

当所述概率值等于零时,根据第一平滑系数计算快包络值,慢包络值保持不变,记录最大慢包络值。

进一步的,所述根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值,包括:

根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值;

根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值。

进一步的,所述根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值,包括:

计算所述初始增益值与所述上一声音帧的增益值的差值作为调整增益值。

进一步的,所述根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值,包括:

计算所述初始增益值和所述调整增益值的和作为所述声音帧的增益值。

进一步的,所述声音帧为一个声音帧中的子声音帧,所述上一声音帧为上一声音帧的最后一个子声音帧。

进一步的,所述根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值,包括:

获取所述子声音帧中的采样点个数;

将所述调整增益值平均分为所述采样点个数份得到第一调整增益值;

计算所述初始增益值和所述第一调整增益值的和作为所述子声音帧的增益值。

第二方面,本公开实施例提供一种声音增益值的计算装置,包括:

声音帧获取模块,用于获取声音帧;

语音检测模块,用于对所述声音帧进行语音检测得到语音检测结果;

能量参数计算模块,用于根据语音检测结果计算所述声音帧的语音能量参数;

初始增益值计算模块,用于根据所述语音能量参数和所述固定增益表获取初始增益值;

增益值计算模块,用于根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。

进一步的,所述声音增益值的计算装置还用于:根据所述声音帧和所述增益值计算声音帧的输出声音帧。

进一步的,所述固定增益表包括:以语音能量参数为变量的函数;其中,语音能量参数越大,对应的函数值越大;语音能量参数越小,对应的函数值越小。

进一步的,所述能量参数计算模块,还用于:

根据所述语音检测结果获取三个语音包络值;其中所述三个语音包络值包括:快包络值、慢包络值以及缓存慢包络值,其中快包络值表示语音的变化;慢包络值在所述检测结果为有语音时缓慢变大,当所述检测结果为无语音时缓慢下降,当所述检测结果为静音时保持不变;缓存慢包络值为历史最大慢包络值。

根据所述三个语音包络值中的最大值计算所述声音帧的语音能量参数。

进一步的,所述能量参数计算模块,还用于:

当所述概率值大于或等于检测概率阈值时,根据第一平滑系数计算快包络值,根据第二平滑系数计算慢包络值,记录最大慢包络值;其中所述第一平滑系数和第二平滑系数为固定值,且第二平滑系数大于第一平滑系数;

当所述概率值小于检测概率值且大于零时,根据第一平滑系数计算快包络值,根据第三平滑系数计算慢包络值,记录最大慢包络值;其中,第三平滑系数与所述概率值正相关;

当所述概率值等于零时,根据第一平滑系数计算快包络值,慢包络值保持不变,记录最大慢包络值。

进一步的,所述增益值计算模块,还用于:

根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值;

根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值。

进一步的,所述增益值计算模块,还用于:

计算所述初始增益值与所述上一声音帧的增益值的差值作为调整增益值。

进一步的,所述增益值计算模块,还用于:

计算所述初始增益值和所述调整增益值的和作为所述声音帧的增益值。

进一步的,所述声音帧为一个声音帧中的子声音帧,所述上一声音帧为上一声音帧的最后一个子声音帧。

进一步的,所述增益值计算模块,还用于:

获取所述子声音帧中的采样点个数;

将所述调整增益值平均分为所述采样点个数份得到第一调整增益值;

计算所述初始增益值和所述第一调整增益值的和作为所述子声音帧的增益值。

第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面中的任一所述方法。

第四方面,本公开实施例提供一种非暂态计算机可读存储介质,其特征在于,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行前述第一方面中的任一所述方法。

本公开实施例公开了一种声音增益值的计算方法、装置、电子设备和计算机可读存储介质。其中该声音增益值的计算方法包括:获取声音帧;对所述声音帧进行语音检测得到语音检测结果;根据所述语音检测结果计算所述声音帧的语音能量参数;其中,所述语音能量参数符合所述声音帧的能量水平;根据所述语音能量参数和预先配置的固定增益表获取初始增益值;根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。上述方法通过计算出符合声音帧能量水平的语音能量参数,解决了现有技术中由于语音检测不准确导致的静音段增益值过大的技术问题。

上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1为本公开实施例提供的声音增益值的计算方法的流程示意图;

图2为本公开实施例提供的固定增益表的示例图;

图3为本公开实施例提供的声音信号的波形示意图;

图4为本公开实施例提供的声音增益值的计算方法的进一步流程示意图;

图5为本公开实施例提供的声音增益值的计算方法的进一步流程示意图;

图6为本公开实施例提供的声音增益值的计算方法的进一步流程示意图;

图7为本公开实施例提供的声音增益值的计算装置的实施例的结构示意图

图8为根据本公开实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的声音增益值的计算方法实施例的流程图,本实施例提供的该声音增益值的计算方法可以由一声音增益值的计算装置来执行,该声音增益值的计算装置可以实现为软件,或者实现为软件和硬件的组合,该声音增益值的计算装置可以集成设置在声音增益值的计算系统中的某设备中,比如声音增益值的计算服务器或者声音增益值的计算终端设备中。如图1所示,该方法包括如下步骤:

步骤S101,获取声音帧;

其中,所述声音帧为通过预先设置的帧长度对输入的声音信号进行分帧操作所得到的声音帧。如图3所示,为输入声音信号的波形示例。以16K的采样率为例,设一帧的长度为16ms,则一帧中包括256个采样点,如果按照声音帧计算增益值,则最终增益值会加载到这256个采样点上得到最终的输出声音帧;为了增益值更加准确,所述声音帧还可以是声音帧的子声音帧,如上述示例中所示,可以将所述声音帧划分为16个子声音帧,每个子声音帧的长度为1ms,每个子声音帧中包括16个采样点,如果按照子声音帧计算增益值,则每个子声音帧中的16个采样点共享一个增益值,每个声音帧会有一组16个增益值与每个子声音帧对应。

可以理解的,上述声音帧的采样率、帧长度以及子帧个数均为距离。在实际应用中可以根据实际需要进行调整,在此不再赘述。

返回附图1,所述声音增益值的计算方法,还包括:

步骤S102,对所述声音帧进行语音检测得到语音检测结果;

在该步骤中,所述语音检测可以使用任意VAD(Voice Activity Detection)算法,如常见的短时能量,短时过零率等算法。所述语音检测的结果可以是预先检测的结果,也可以是输入声音信号进行实时检测的结果。

返回附图1,所述声音增益值的计算方法还包括:

步骤S103,根据语音检测结果计算所述声音帧的语音能量参数;

其中,所述语音能量参数符合所述声音帧的能量水平;其用于在后续获取声音的增益值。

可选的,所述步骤S103包括:

步骤S401,根据所述语音检测结果获取三个语音包络值;其中所述三个语音包络值包括:快包络值、慢包络值以及缓存慢包络值,其中快包络值表示语音的变化;慢包络值在所述检测结果为有语音时缓慢变大,当所述检测结果为无语音时缓慢下降,当所述检测结果为静音时保持不变;缓存慢包络值为历史最大慢包络值。

步骤S402,根据所述三个语音包络值中的最大值计算所述声音帧的语音能量参数。

所述三个语音包络值,在不同的语音检测结果下,能够正确的表示语音的能量水平。

其中快包络值的平滑系数较小,能够灵敏的体现出语音的变化,可选的,所述快包络值cfast通过以下公式(1)计算:

cfast=α*cfast+(1-α)*(in*in) (1)

其中in表示输入声音的信号采样值,如上述图3中的波形表示输入声音信号的幅度随时间变化的波形图,则in表示某个采样点的幅度值,使用in*in表示该采样点的能量水平;α为cfast的平滑值,为一个很小系数,这样cfast会随着in*in的变化灵敏的发生变化。可以理解的,上述公式(1)仅表示cfast与in*in同级别变化,在实际应用中,是要是符合这一特性的函数均可以用来计算cfast。

所述慢包络值随语音的变化缓慢的发生变化,可选的,所述慢包络值cslow通过以下公式(2)计算:

cslow=β*cslow+(1-β)*(in*in) (2)

其中β根据语音检测的结果进行调整,使得有语音时缓慢上升,没有语音时缓慢下降,静音段时保持不变。

所述缓存慢包络cmid,用于保存曾经出现过的最大的cslow。使用快包络值、慢包络值和缓存慢包络值中最大的值表示声音帧的能量水平,即cur_level=max(cfast,cslow,cmid),在有语音的时候,cfast变化较快,通常大于cslow和cmid,此时会按照cfast表示语音的能量水平;当无语音时,cslow或cmid较大,此时使得cur_level保持较大值,可以得到较小的增益值;当无语音时,出现轻微扰动的时候,VAD可能误判,这个时候如果没有cmid,cur_level可能会迅速变小,使得计算出的增益值较大,造成噪声的增大,因此此处加上cmid,cmid会一直保持较大的值,即使cfast和cslow下降比较快,也由于cmid的存在,使得cur_level保持较大值,使得轻微扰动之后的静音段的增益值不会变大。这样,cur_level在有语音的情况下,体现语音的波形信息,没有语音的情况下,保持较大的值。

在得到所述最大值之后,使用所述最大值计算得到所述语音能量参数,即zeros。可选的,使用以下公式(3)计算所述语音能量参数:

可选的,所述语音检测结果为所述声音帧中包括语音的概率值,如VAD=P,P∈[0,1],则当P≥P1时,表示声音帧中包括语音,当P<P1时,表示声音帧中没有语音,当P=0时,表示静音。在此基础上,所述步骤S401包括:

步骤S501,当所述概率值大于或等于检测概率阈值时,根据第一平滑系数计算快包络值,根据第二平滑系数计算慢包络值,记录最大慢包络值;其中所述第一平滑系数和第二平滑系数为固定值,且第二平滑系数大于第一平滑系数;

步骤S502,当所述概率值小于检测概率值且大于零时,根据第一平滑系数计算快包络值,根据第三平滑系数计算慢包络值,记录最大慢包络值;其中,第三平滑系数与所述概率值正相关;

步骤S503,当所述概率值等于零时,根据第一平滑系数计算快包络值,慢包络值保持不变,记录最大慢包络值。

所述检测概率阈值即为上述P1,当所述概率值大于或等于检测概率阈值时,表示声音帧为语音帧,此时由于第一平滑系数大于第二平滑系数,因此得到的cur_level能够表现语音的波形变化,即语音能量大时,cur_level较大,得到的语音能量参数zeros较小;语音能量小时,cur_level较小,得到的语音能量参数zeros较大。

当所述概率值小于检测概率值且大于零时,表示所述声音帧为非语音帧,此时根据第一平滑系数计算快包络值,根据第三平滑系数计算慢包络值,记录最大慢包络值;其中第三平滑系数与所述概率值正相关,即所述概率值大的时候,所述第三平滑系数大,所述概率小时,所述第三平滑系数小,在这种情况下,呈现出cslow缓慢下降的情况,此时由于是非语音帧,cslow或者cmid较大,能够得到较大的cur_level,使得最终的增益值较小。

当所述概率值等于零时,表示所述声音帧为静音段,此时cslow保持不变,为一个较大的值,使得cur_level较大,使得最终的增益值较小。

同样的,如果某个声音帧中有轻微的扰动,导致该声音帧的语音检测结果为语音帧,而在该扰动之后的静音段cfast和cslow下降比较快,此时由于cmid的存在,能够保持cur_level较大,使得该静音段的增益值较小,不会产生将噪音放大的情况。

示例性的,上述描述的计算过程可以实现如下:

以16K的采样频率对输入声音信号进行采样,输入声音信号的一个声音帧为16ms,则一个声音帧中包括256个采样点,一个声音帧被划分为16个子声音帧,每个子声音帧为1ms,每个子声音帧包括16个采样点,以下计算均基于所述子声音帧执行。

计算所述子声音帧的采样点的能量水平,以最大的能量水平表示所述子声音帧的采样点的能量水平,即env(k)=max{in(k,i)*in(k,i)},其中k表示自声音帧的索引值,K=1:16,即K为1到16中的整数值;i为子声音帧中的采样点的索引值,i=1:16,即i为1到16中的整数值;env(k)表示子声音帧中所有采样点的幅度值的平方的最大值,用env(k)表示子声音帧的采样点的能量水平。

计算cfast,其中:

cfast=max(env(k),cfast)

即cfast为env(k)和根据公式(4)计算出来的cfast中值较大者。

计算cslow,其中:

当VAD检测结果为有语音时,通过以下公式(5)计算cslow:

当VAD检测结果为无语音时,通过以下公式(7)计算cslow:

其中decay为衰减系数,当VAD结果不为0时,decay与VAD的概率值正相关,概率值越大,decay越大,使得cslow的变化越缓慢,这样能够在VAD的检测结果为无语音时,使得cslow较大。当VAD的结果为0时,表示静音段,此时cslow不再发生变化,维持一个较大的值。

在该实例中,通过VAD的结果以及上述公式(4)、(5)、(6)计算出三个包络值。

可以理解的,三个包络值的计算方法仅仅为举例,不构成对本公开的限制,只要符合上述标准:cfast变化符合语音变化波形,cslow根据VAD的结果,有语音时缓慢上升,无语音时缓慢下降,静音时保持不变。均可以用于计算上述三个包络值。

返回附图1,所述声音增益值的计算方法还包括:

步骤S104,根据所述语音能量参数和预先配置的固定增益表获取初始增益值。

其中,所述固定增益表用于保存声音的能量水平与增益值的对应关系。可以理解的,所述固定增益表的形式可以是一张表,也可以是一个函数。

当所述固定增益表为一张表时,其保存语音能量参数与增益值的对应关系,通过一段声音的语音能量参数能够获取到这段声音所需要的增益值。

当所述固定增益表是一个函数时,所述固定增益表包括:以语音能量参数为变量的函数;其中,语音能量参数越大,对应的函数值越大;语音能量值越小,对应的函数值越小。所述语音能量参数由于表示一段声音中语音能量的大小,其中一段声音的语音能量参数越大,表示这段声音中的语音能量越小;一段声音的语音能量参数越小,表示这段声音中的语音能量越大。示例性的,所述固定增益表为如下形式的函数:

GainTable=2

其中,

MaxGain=compressiondB;MinGain=-targetLevelDbfs;ComRatio=100;Knee=1;zeros=0:31;lvl=2^(1-zeros);

B=MaxGain-MinGain;

其中compressiondB为增益dB值,targetLevelDbfs为增益音频最大水平,均为固定值,因此B为固定值;示例性的,compressiondB=16,targetLevelDbfs=3,则B=19。其中ComRatio,Knee的值以及zeros的取值范围可以根据需要选择,上述数值仅为举例。由此可以看出,GainTable为一个与zeros相关的函数,zeros取[0,31]之间的32个整数,GainTable的曲线如图2所示,随着zeros的值增大,需要的增益值gain逐渐增大,直到固定不变。

上述公式中的zeros即语音能量参数;在得到所述语音能量参数zeros之后,通过所述zeros的值查询固定增益表或者将所述zeros的值输入表示固定增益表的函数得到初始增益值。

如上示例所述,

将zeros的值输入上述函数GainTable,计算得到初始增益值。zeros包括整数部分和小数部分,由于在GainTable函数中,zero的取值为zeros=0:31这32个整数,因此在将zeros输入GainTable时,仅将整数部分输入。小数部分所表示的增益值通过插值的方式计算出来。

返回附图1,所述声音增益值的计算方法还包括:

步骤S105,根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。

可选的,所述步骤S105包括:

步骤S601,根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值;

步骤S602,根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值。

在步骤S601中,将所述声音帧的上一声音帧的增益值作为一个因子加入到所述声音帧的增益值的计算过程中,以减少增益值跳动的情况。其中所述调整增益值可以是所述上一声音帧的增益值与所述初始增益值各种方式计算出的值,如以不同的权重系数计算得到的值,或者差值等等。以下以差值为例,即计算所述初始增益值与所述上一声音帧的增益值的差值作为调整增益值。即Δgain(k)=gains(k)-gains(k-1),其中Δgain(k)表示所述声音帧的调整增益值,gains(k)表示所述声音帧的初始增益值,gains(k-1)表示所述声音帧的上一声音帧的增益值。

之后,在步骤S602中,可以将所述调整增益值与所述初始增益值以各种形式组合在一起以形成所述声音的增益值。如,计算所述初始增益值和所述调整增益值的和作为所述声音帧的增益值。即gain(k)=gains(k)+Δgain(k)。

如上所述,所述声音帧可以为子声音帧,此时所述步骤S602包括:

获取一个声音帧中的子声音帧的个数;

将所述调整增益值平均分为所述子声音帧的个数份得到第一调整增益值;

计算所述初始增益值和所述第一调整增益值的和作为所述子声音帧的增益值。

以上述示例为例,一个声音帧被划分为16个子声音帧,在Δgain(k)=gains(k)-gains(k-1),K=1:16,此时出现17个gains,其中gains(0)表示上一声音帧的最后一个子帧的增益值,如果当前声音帧的第一个声音帧,则gains(0)=0,根据Δgain(k)=gains(k)-gains(k-1)可以依此计算每一个子帧的调整增益值,由此可以得到每个子帧的增益值,每一子帧的增益值继续参与下一子帧的增益值的计算过程。上述示例中的子声音帧中包括16个采样点,因此将所述Δgain(k)平均分为16份,每一份为Δgain(k)/16,所述子声音帧的增益值为:gain(k)=gains(k)+Δgain(k)/16。

进一步的,在得到所述声音帧的增益值之后,还需要将所述增益值应用到所述声音帧上以增加声音信号的响度。因此所述方法进一步包括:根据所述声音帧和所述增益值计算声音帧的输出声音帧。即,out(k)=in(k)*gain(k),在实际应用中,将in(k)所表示的每个采样点的幅度值都乘以所述增益值得到输出声音信号的幅度值。当所述声音帧为子声音帧时,如上述示例所示,每个子声音帧包括16个采样点,则out((k-1)*16+i)=in((k-1)*16+i)*[gains(k)+Δgain(k)/16],其中k为子声音帧的索引值,i为子声音帧中采样点的索引,同一子声音帧的采样点使用同样的增益值计算输出采样点的幅度值。

本公开实施例公开了一种声音增益值的计算方法,该声音增益值的计算方法包括:其中该声音增益值的计算方法包括:获取声音帧;对所述声音帧进行语音检测得到语音检测结果;根据所述语音检测结果计算所述声音帧的语音能量参数;其中,所述语音能量参数符合所述声音帧的能量水平;根据所述语音能量参数和预先配置的固定增益表获取初始增益值;根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。上述方法通过计算出符合声音帧能量水平的语音能量参数,解决了现有技术中由于语音检测不准确导致的静音段增益值过大的技术问题。

在上文中,虽然按照上述的顺序描述了上述方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。

图7为本公开实施例提供的声音增益值的计算装置实施例的结构示意图,如图7所示,该装置700包括:声音帧获取模块701、语音检测模块702、能量参数计算模块703、初始增益值计算模块704和增益值计算模块705。其中,

声音帧获取模块701,用于获取声音帧;

语音检测模块702,用于对所述声音帧进行语音检测得到语音检测结果;

能量参数计算模块703,用于根据语音检测结果计算所述声音帧的语音能量参数;

初始增益值计算模块704,用于根据所述语音能量参数和所述固定增益表获取初始增益值;

增益值计算模块705,用于根据所述声音帧的上一声音帧的增益值和所述初始增益值计算得到所述声音帧的增益值。

进一步的,所述声音增益值的计算装置700还用于:根据所述声音帧和所述增益值计算声音帧的输出声音帧。

进一步的,所述固定增益表包括:以语音能量参数为变量的函数;其中,语音能量参数越大,对应的函数值越大;语音能量参数越小,对应的函数值越小。

进一步的,所述能量参数计算模块703,还用于:

根据所述语音检测结果获取三个语音包络值;其中所述三个语音包络值包括:快包络值、慢包络值以及缓存慢包络值,其中快包络值表示语音的变化;慢包络值在所述检测结果为有语音时缓慢变大,当所述检测结果为无语音时缓慢下降,当所述检测结果为静音时保持不变;缓存慢包络值为历史最大慢包络值。

根据所述三个语音包络值中的最大值计算所述声音帧的语音能量参数。

进一步的,所述能量参数计算模块703,还用于:

当所述概率值大于或等于检测概率阈值时,根据第一平滑系数计算快包络值,根据第二平滑系数计算慢包络值,记录最大慢包络值;其中所述第一平滑系数和第二平滑系数为固定值,且第二平滑系数大于第一平滑系数;

当所述概率值小于检测概率值且大于零时,根据第一平滑系数计算快包络值,根据第三平滑系数计算慢包络值,记录最大慢包络值;其中,第三平滑系数与所述概率值正相关;

当所述概率值等于零时,根据第一平滑系数计算快包络值,慢包络值保持不变,记录最大慢包络值。

进一步的,所述增益值计算模块705,还用于:

根据所述声音帧的上一声音帧的增益值和所述初始增益值计算调整增益值;

根据所述初始增益值和所述调整增益值计算得到所述声音帧的增益值。

进一步的,所述增益值计算模块705,还用于:

计算所述初始增益值与所述上一声音帧的增益值的差值作为调整增益值。

进一步的,所述增益值计算模块705,还用于:

计算所述初始增益值和所述调整增益值的和作为所述声音帧的增益值。

进一步的,所述声音帧为一个声音帧中的子声音帧,所述上一声音帧为上一声音帧的最后一个子声音帧。

进一步的,所述增益值计算模块705,还用于:

获取所述子声音帧中的采样点个数;

将所述调整增益值平均分为所述采样点个数份得到第一调整增益值;

计算所述初始增益值和所述第一调整增益值的和作为所述子声音帧的增益值。

图7所示装置可以执行图1-图6所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图6所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图6所示实施例中的描述,在此不再赘述。

下面参考图8,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:执行上述声音增益值的计算方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 声音增益值的计算方法、装置和电子设备
  • 自动控制增益值的方法及声音输出装置
技术分类

06120112621721