掌桥专利:专业的专利平台
掌桥专利
首页

一种语音处理方法、装置及设备

文献发布时间:2023-06-19 11:32:36


一种语音处理方法、装置及设备

技术领域

本发明涉及通信技术领域,特别是指一种语音处理方法、装置及设备。

背景技术

随着通信技术的发展,借助通信设备进行语音通话,能够广泛应用于各种场景。并且,语音通话除了可通过通信设备的自身通信功能实现外,还能够基于网络来实现。

然而,在某些场景,如商场、餐馆等地,语音通话会受外界噪声影响,降低通话指令。目前,常用的语音降噪是将带噪语音谱减去噪声谱,来得到纯净语音幅度谱,但是,需要噪声信号平稳或者缓慢变化,因此降噪效果受限,不能满足用户需求。

发明内容

本发明的目的是提供一种语音处理方法、装置及设备,来提升对语音通话的降噪效果。

为达到上述目的,本发明的实施例提供一种语音处理方法,包括:

获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

根据所述第二语音信号,计算听觉遮掩阈值;

根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

可选地,所述根据初始过减因子以及初始增益补偿因子,对所述原始语音信号进行初步降噪,得到第二语音信号,包括:

通过傅里叶变换,获取所述第一语音信号的第一功率谱;

根据所述第一功率谱进行噪声估计,得到噪声估计值;

基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:

通过公式

可选地,所述根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:

根据预设时间窗,获取所述第一功率谱中的最小功率值;

根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

可选地,所述根据所述第二语音信号,计算听觉遮掩阈值,包括:

按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

通过公式T(m,k)=max(T'(m,k),T

可选地,所述临界频带为梅尔频带。

可选地,所述根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子,包括:

根据公式

以及

可选地,所述根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号,包括:

通过公式

通过对所述第三功率谱

为达到上述目的,本发明的实施例还提供一种语音处理装置,包括:

获取模块,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

第一降噪模块,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

第一处理模块,用于根据所述第二语音信号,计算听觉遮掩阈值;

第二处理模块,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

第二降噪模块,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

可选地,所述第一降噪模块包括:

第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;

噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;

第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

可选地,所述第一处理子模块还用于通过公式

可选地,所述噪声估计子模块包括:

获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;

处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

可选地,所述第一处理模块包括:

第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),T

可选地,所述临界频带为梅尔频带。

可选地,所述第二处理模块还用于:

根据公式

以及

可选地,所述第二降噪模块包括:

第四处理子模块,用于通过公式

第五处理子模块,用于通过对所述第三功率谱

为达到上述目的,本发明的实施例还提供一种语音处理设备,包括处理器,所述处理器用于:

获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

根据所述第二语音信号,计算听觉遮掩阈值;

根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

可选地,所述处理器还用于:

通过傅里叶变换,获取所述第一语音信号的第一功率谱;

根据所述第一功率谱进行噪声估计,得到噪声估计值;

基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

可选地,所述处理器还用于:

通过公式

可选地,所述处理器还用于:

根据预设时间窗,获取所述第一功率谱中的最小功率值;

根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

可选地,所述处理器还用于:

按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

通过公式T(m,k)=max(T'(m,k),T

可选地,所述临界频带为梅尔频带。

可选地,所述处理器还用于:

根据公式

以及

可选地,所述处理器还用于:

通过公式

通过对所述第三功率谱

为达到上述目的,本发明的实施例还提供一种语音处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现如上所述的语音处理方法。

为达到上述目的,本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤。

本发明的上述技术方案的有益效果如下:

本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。

附图说明

图1为本发明实施例的语音处理方法的步骤示意图;

图2为本发明实施例的语音处理方法的流程图;

图3为本发明实施例的语音处理装置的结构图;

图4为本发明实施例的语音处理设备的结构图;

图5为本发明另一实施例的语音处理设备的结构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

另外,本文中术语“系统”和“网络”在本文中常可互换使用。

在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。

如图1所示,本发明实施例的一种语音处理方法,包括:

步骤101,获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

步骤102,根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

步骤103,根据所述第二语音信号,计算听觉遮掩阈值;

步骤104,根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

步骤105,根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

按照上述步骤101-105,应用本发明实施例的方法的设备,如移动终端,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。

应该知道的是,该实施例中,为提升处理效率,对于获取到的第一语音信号,可进行分帧加窗,得到长度相同的多段语音信号,从而基于每段语音信号进行后续处理。第一语音信号的每段语音信号可记为Y(n),0≤n≤N-1,N为第一语音信号的信号长度。Y(n)=s(n)+d(n),s(n)为纯净语音信号,d(n)为噪声信号。

该实施例中,使用初始过减因子以及初始增益补偿因子进行初步降噪,可选地,步骤102包括:

通过傅里叶变换,获取所述第一语音信号的第一功率谱。

根据所述第一功率谱进行噪声估计,得到噪声估计值。

基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

这里,对第一语音信号进行傅里叶变换,来得到对应的第一功率谱。考虑到带噪语音信号包括纯净语音信号和噪声信号,通过对噪声估计,得到噪声估计值后,进一步基于噪声估计、初始过减因子以及初始增益补偿因子进行降噪,得到第二语音信号的第二功率谱。

假设第一语音信号Y(n),进行傅里叶变换后,得到Y(ω),对应的功率谱为|Y(ω)|

该实施例中,考虑到含噪的语音功率谱可以很快地衰减到噪声功率谱的水平,所以,通过含噪语音的功率谱的最小值并对其进行修正来估计噪声功率谱。可选地,根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:

根据预设时间窗,获取所述第一功率谱中的最小功率值;

根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

这里,可设置预设时间窗为0.5秒,基于该预设时间窗,获取第一功率谱中的最小功率值,然后根据该最小功率值进行偏差补偿,得到噪声估计值。其中,在查找第一功率谱中的最小功率值时,随着每输入一帧信号可更新最小功率值,直至得到最终的最小功率值。

具体的,偏差补偿方式可基于补偿因子扩大所获取的最小功率值,得到噪声估计值。

该实施例中,得到噪声估计值后,可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:

通过公式

这样,通过预先设置的α

由上述内容已知,在该实施例中,是通过听觉遮掩阈值来调整过减因子和增益补偿因子的,因此,为获取有效的听觉遮掩阈值,步骤103包括:

按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

通过公式T(m,k)=max(T'(m,k),T

这里,首先将针对设置的临界频带对初步降噪后的第二语音信号进行分析,得到第二语音信号在临界频带各个子带内的能量。具体的,第r个子带的能量B

由于每个子带之间是有重叠的,因此计算传递函数为下式:

而绝对听觉阈值T

在该实施例中,优选使用谱平坦度SFM判断临界频带的子带内是噪声特性还是语音特性。SFM计算公式为:

可选地,所述临界频带为梅尔频带。

在梅尔Mel频带中,可以划分24个子带进行上述过程。当然,也可以划分为其他数量的子带,或者使用其他频带,在此不再赘述。

在计算得到听觉遮掩阈值之后,可选地,步骤104包括:

根据公式

以及

其中,优选α

之后,步骤105包括:

通过公式

通过对所述第三功率谱

这里,通过公式

还应该知道的是,在逆傅里叶变换变换处理前,考虑到音乐噪声的残留,还会使用滤波器进行信号的处理。该滤波器的原理如公式

故,本发明实施例的方法,如图2所示,能够针对获取到的带噪语音信号y(n)经过傅里叶变换、噪声估计、基本谱减(初步降噪)、计算听觉遮掩阈值、调整谱减系数(过减因子和增益补偿因子)、系数谱减(二次降噪)、逆傅里叶变换,得到去噪后的语音信号x(n)。具体的,该实施例的方法可应用于如下场景:

开会任务同声文字转写的预处理过程中;

电话客服语音识别的语音增强模块;

车载业务上,例如驾驶员使用手机导航时通过语音指令选择目的地;

在日常通勤中,如地铁中进行电话语音通信以及室外场景进行客服对话。

综上所述,本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。

如图3所示,本发明的实施例还提供一种语音处理装置,包括:

获取模块310,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

第一降噪模块320,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

第一处理模块330,用于根据所述第二语音信号,计算听觉遮掩阈值;

第二处理模块340,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

第二降噪模块350,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

可选地,所述第一降噪模块包括:

第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;

噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;

第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

可选地,所述第一处理子模块还用于通过公式

可选地,所述噪声估计子模块包括:

获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;

处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

可选地,所述第一处理模块包括:

第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),T

可选地,所述临界频带为梅尔频带。

可选地,所述第二处理模块还用于:

根据公式

以及

可选地,所述第二降噪模块包括:

第四处理子模块,用于通过公式

第五处理子模块,用于通过对所述第三功率谱

需要说明的是,该装置是应用了上述语音处理方法的装置,上述方法的实施例的实现方式适用于该装置,也能达到相同的技术效果。

该装置能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。

如图4所示,本发明实施例的一种语音处理设备400,包括处理器410,所述处理器410用于:

获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;

根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;

根据所述第二语音信号,计算听觉遮掩阈值;

根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;

根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。

可选地,所述处理器还用于:

通过傅里叶变换,获取所述第一语音信号的第一功率谱;

根据所述第一功率谱进行噪声估计,得到噪声估计值;

基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。

可选地,所述处理器还用于:

通过公式

可选地,所述处理器还用于:

根据预设时间窗,获取所述第一功率谱中的最小功率值;

根据所述最小功率值进行偏差补偿,得到所述噪声估计值。

可选地,所述处理器还用于:

按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;

通过公式T(m,k)=max(T'(m,k),T

可选地,所述临界频带为梅尔频带。

可选地,所述处理器还用于:

根据公式

以及

可选地,所述处理器还用于:

通过公式

通过对所述第三功率谱

需要说明的是,该设备是应用了上述语音处理方法的设备,上述方法的实施例的实现方式适用于该设备,也能达到相同的技术效果。

该实施例的语音处理设备,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。

本发明另一实施例的一种语音处理设备,如图5所示,包括处理器510、存储器520及存储在所述存储器520上并可在所述处理器510上运行的计算机程序;所述处理器510执行所述计算机程序时实现如上所述的语音处理方法。

该语音处理设备还包括收发器530,用于在处理器510的控制下接收和发送数据。

其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器510代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器530可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器510负责管理总线架构和通常的处理,存储器520可以存储处理器510在执行操作时所使用的数据。

本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

进一步需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。

本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。

实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 语音处理方法及装置、语音处理设备、电子设备
  • 一种语音数据处理方法、装置以及语音交互设备
技术分类

06120112963739