掌桥专利:专业的专利平台
掌桥专利
首页

基于神经网络的语音增强方法、装置、终端和介质

文献发布时间:2023-06-19 10:24:22


基于神经网络的语音增强方法、装置、终端和介质

技术领域

本申请属于语音信号处理技术领域,具体涉及基于神经网络的语音增强方法、装置、终端和介质。

背景技术

人工神经网络(ANN)简称神经网络,从二十世纪末开始蓬勃发展直到今天。它可以模拟人脑内神经元之间的连接工作,并实现学习计算。神经网络通过神经元之间的层级衔接、层级传递并处理数据,运用强大的映射能力,由底至顶的学习训练,解决实际生活中的非线性问题。

神经元是神经网络中最基本的单元,抽象模仿人脑的神经元的工作,相当于一个多输入单输出的元器件。神经元的数学模型如图1所示,x

误差反向传播神经网络(BPNN)是应用很广泛的一种。BPNN是多层前向网络,构造了非线性系统,性能参数是均方误差,该模型可以解决不收敛问题。BPNN的结构如图2所示,有输入层、隐藏层和输出层,隐藏层可以不止一层。

BPNN是由输入信号的前向传播以及误差信号的反向传播两部分组成。具体过程可简述为:输入信号先进入输入层,经过隐藏层最后到达输出层,当输出层的输出值与期望的输出值不相符时,产生一个误差信号。这个误差从输出层进入,经过隐藏层后到输入层,每层神经元根据误差信号不断调整自己的数值。BPNN的学习过程就是这两部分不断循环进行,各神经元参数也在不断调整的过程。

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。麦克风按照指定要求排列后,加上相应的算法(排列+算法)就可以解决很多房间声学问题,比如声源定位、去混响、语音增强、盲源分离等。

语音增强算法从上世纪开始发展迅速,随着其他学科例如神经网络等的兴起,越来越多的新方法被提出。语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。

其中针对麦克风阵列的语音增强算法有固定波束形成算法、广义旁瓣相消法、后置滤波算法以及盲源分离算法。固定波束形成算法结构简单,运算量小,但是所需麦克风数目较多,不能去除相关噪声;广义旁瓣相消法可以去除相关噪声,但是去噪性能受麦克风数量影响;后置滤波算法不能去除相关噪声;盲源分离算法会有分离信号排序不定的问题。

针对单麦克风的语音增强算法通常包括维纳法和谱减法,其中谱减法又包括基本谱减法和多窗谱估计的谱减法(MWS)。基本谱减法能简单的去加性噪声,原理是将接收信号功率谱中去掉噪声信号的功率谱,以此得到语音信号的功率谱,达到去噪效果,然而却同时具备了显著的“音乐噪声”。为了有效去除基本谱减法中的“音乐噪声”,多窗谱估计被提出,即用多个正交的窗对输入信号“加窗”分帧求平均谱,获得的谱估计具备较小的估计方差。利用多窗谱估计可以增大过减因子,去除“音乐噪声”,实现语音增强。但是如果过减因子过大,又会引起语音失真。

综上,现有的语音增强算法中仍然没有一种能够适应各种环境进行良好去噪,导致语音相关产品的用户体验不佳。

发明内容:

有鉴于此,本申请提供基于神经网络的语音增强算法,以实现一种能够适应各种环境良好去噪,同时又不会引起语音失真的语音增强方案。

为实现上述目的,本申请采用的技术方案如下:

第一方面,本申请提供基于神经网络的语音增强方法,包括:

获取麦克风阵列的各阵元采集到的多路带噪语音信号;

对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混,得到多路分离信号;

采用误差反向传播神经网络BPNN预测最佳过减因子;

根据神经网络预测的最佳过减因子,采用多窗谱谱减法对所述解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

可选的,采用误差反向传播神经网络BPNN预测最佳过减因子具体包括:

确定误差反向传播神经网络BPNN的输入信号、输入层的节点数和输出层的节点数;

确定隐藏层的个数以及各隐藏层的节点数;

确定隐藏层的激活函数、网络训练函数和网络参数,所述网络参数包括神经网络训练的目标误差、显示中间结果的周期、最大迭代次数和动量因子;

根据输出层的输出数据得到最佳过减因子。

可选的,所述确定误差反向传播神经网络BPNN的输入信号的具体方法包括:

将所述解混后信噪比最高的一路分离信号与其中任一阵元采集的带噪语音信号进行语音质量评价,得到对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ;

将所述对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ作为神经网络的三个输入;

将各阵元采集到的多路带噪语音信号分别与所述解混后信噪比最高的一路分离信号作比较,得到信噪比SNR1、SNR2…SNRn,将所述信噪比SNR1、SNR2…SNRn也作为神经网络的输入。

可选的,所述各隐藏层的节点数通过如下方法确定:

假设n为输入层节点个数,m为输出层节点个数,a为1~10之间的常数,则隐层节点l的个数为:

第二方面,本申请提供基于神经网络的语音增强装置,包括:

第一获取模块,获取麦克风阵列的各阵元采集到的多路带噪语音信号;

分离模块,用于对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混,得到多路分离信号;

预测模块,用于采用误差反向传播神经网络BPNN预测最佳过减因子;

语音增强模块,用于根据神经网络预测的最佳过减因子,采用多窗谱谱减法对所述解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

可选的,所述预测模块具体包括:

第一确定模块,用于确定误差反向传播神经网络BPNN的输入信号、输入层的节点数和输出层的节点数;

第二确定模块,用于确定隐藏层的个数以及各隐藏层的节点数;

第三确定模块,用于确定隐藏层的激活函数、网络训练函数和网络参数,所述网络参数包括神经网络训练的目标误差、显示中间结果的周期、最大迭代次数和动量因子;

第二获取模块,用于根据输出层的输出数据得到最佳过减因子。

可选的,所述第一确定模块具体用于:

将所述解混后信噪比最高的一路分离信号与其中任一阵元采集的带噪语音信号进行语音质量评价,得到对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ;

将所述对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ作为神经网络的三个输入;

将各阵元采集到的多路带噪语音信号分别与所述解混后信噪比最高的一路分离信号作比较,得到信噪比SNR1、SNR2…SNRn,将所述信噪比SNR1、SNR2…SNRn也作为神经网络的输入。

可选的,所述第二确定模块具体用于:

假设n为输入层节点个数,m为输出层节点个数,a为1~10之间的常数,则隐层节点l的个数为:

第三方面,本申请实施例还提供一种终端,包括:处理器、存储器及通信单元;

所述存储器存储有所述处理器可执行的机器可读指令,当所述设备运行时,所述处理器与所述存储器之间通过所述通信单元通信;

其中,所述处理器执行所述机器可读指令,以执行以上各方面所述的方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述各方面所述的方法。

与现有技术相比,本申请具有以下有益的技术效果:

(1)采用快速独立分量分析算法fastICA对带噪语音信号进行解混,分离效果好,不需要过多先验条件,不过多依赖麦克风数量,能在保证可懂度的前提下尽可能去除噪声;

(2)采用多窗谱估计的谱减法(MWS),可以有效去除基本谱减法中的“音乐噪声”,实现语音增强;

(3)采用误差反向传播神经网络BPNN预测最佳过减因子,能够使寂静区更加平滑,提升语音质量;

(4)本申请结合了针对麦克风阵列的盲源分离算法和针对单麦克风的多窗谱谱减法,可以有效弥补单个算法的不足,进一步提高语音增强效果。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为神经元的数学模型图;

图2为误差反向传播神经网络(BPNN)的结构模型图;

图3为本申请基于神经网络的语音增强方法的流程图;

图4为本申请基于fastICA和误差反向传播神经网络(BPNN)预测后的MWS的原理图;

图5为本申请误差反向传播神经网络(BPNN)预测过减因子的原理图;

图6为本申请示例中反向传播神经网络(BPNN)的结构图;

图7为多窗谱谱减法原理图;

图8为本申请基于神经网络的语音增强装置的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。

如图3所示,第一方面,本申请提供基于神经网络的语音增强方法,包括:

S301:获取麦克风阵列的各阵元采集到的多路带噪语音信号;

现有的麦克风阵列采集语音信号的方法有很多种,一般情况下,使用独立模数转换ADC进行数据采集,其结构包括麦克风语音传感单元、信号放大单元、数模转换ADC单元、数据读写控制单元、时钟发生单元、PC上位机单元和存储单元。时钟发生单元提供频率为FCLK的时钟信号,模数转换ADC电路单元在上述产生的时钟FCLK驱动下实现将双通道立体声语音模拟信号转换为数字信号的过程,然后数据读写控制单元使用相同速度的采样时钟(频率为FCLK)将此数字信号进行读出,最后使用存储单元对数字信号进行存储,从而获得期望的语音信号。

S302:对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混,得到多路分离信号;

盲源分离也称盲信号分离,在声源信息、噪声信息和阵列信息都未知的条件下,通过接收到的混叠信号的统计特性,直接分离出包括噪声在内的多个信号源。独立分量分析法(ICA)是常用的一种盲源分离算法,假设各信将源间统计独立,接收到的信号当做多路信源的线性组合,再解线性方程组来预测信源。ICA的除噪性能好,对其余信号的细节基本没有损坏。在ICA的基础上进行改良的fastICA算法,具有快速的收敛、免去选择步长以及计算量小等优点。

fastICA是由芬兰学者提出的快速独立分量分析算法,可以对独立分量逐一提取。fastICA算法的基本原理是源信号经过预处理(包括标准化处理和白化处理)后,再通过迭代分解得到独立分量,fastICA算法的计算步骤:

①初始权值矢量w(0)是随机选择的,并除以它的二范数来归一化。此时迭代次数为k=1;

②让w(k)=E{Z[Z

③归一化w(k)=w(k)/Pw(k)P;

④如果|w(k)

把分离矩阵B的一列限定为w,估算的独立分量s_est有:

s_est=w

再对w进行正交投影保证每个独立分量之间相互独立:

w=w-BB

w=w/PwP (3)

式中,Z表示白化处理后矩阵,w表示权值向量,B表示分离矩阵,P表示正交投影矩阵。

本申请中,对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混前后的信号流向图可参见图4,由图4可知,经fastICA算法解混后可得到多路分离信号。

本申请采用快速独立分量分析算法fastICA对带噪语音信号进行解混,分离效果好,不需要过多先验条件,不过多依赖麦克风数量,能在保证可懂度的前提下尽可能去除噪声。

S303:采用误差反向传播神经网络BPNN预测最佳过减因子;

具体的,预测最佳过减因子包括如下步骤:

(a)确定误差反向传播神经网络BPNN的输入信号、输入层的节点数和输出层的节点数;

其中,所述确定误差反向传播神经网络BPNN的输入信号的具体方法包括:

(a1)将所述解混后信噪比最高的一路分离信号与其中任一阵元采集的带噪语音信号进行语音质量评价,得到对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ;

语音质量评价标准通常主要包括两个方面:清晰度和可懂度。可使用主观和客观评价来对语音质量综合评价,客观评价是对纯净原始语音和处理后的声音用一些参数值进行比较来进行音质的评价,LLR(对数似然比测度)、segSNR(分段信噪比)、PESQ(感知语音质量评价)是三种客观评价方法。

将经fastICA算法解混后得到的多路分离信号中,信噪比最高的一路信号保留成音频xx.wav,将这个音频作为观测信号,并将其中任一阵元采集的带噪语音信号作为原始语音信号,然后基于观测信号和原始语音信号进行语音质量评价,得到LLR值、segSNR值以及PESQ值。

LLR通过线性预测分析,基于两组线性的预测参数之间的差异来计算,LLR值越小越好。

式(4)中,P

分段信噪比segSNR的计算方法如下,先计算每帧的信噪比,再求全部帧的均值。即:

式(5)中,L

式(6)中,N

PESQ是一种客观测度,该算法需要以处理后的语音和原始语音作为参数。PESQ将两个语音的听觉强度调整到相同水平,提取处理后的语音和纯净语音的参数,再综合其时频特征性质,获取PESQ分数,范围是-0.5~4.5。得分越高,代表语音质量越好。

(a2)将所述对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ作为神经网络的三个输入;

参见图5,得到上述三个语音质量评价的参数后,将该三个参数信号作为误差反向传播神经网络BPNN的三个输入信号。

(a3)将各阵元采集到的多路带噪语音信号分别与所述解混后信噪比最高的一路分离信号作比较,得到信噪比SNR1、SNR2…SNRn,将所述信噪比SNR1、SNR2…SNRn也作为神经网络的输入。

fastICA算法解混后可得到多路分离信号,将n个阵元采集的信号与将经fastICA算法解混后信噪比最高的一路信号作比较,得到信噪比SNR1、SNR2…SNRn,将所述信噪比SNR1、SNR2…SNRn也作为误差反向传播神经网络BPNN的输入也作为神经网络的输入,误差反向传播神经网络BPNN共有n+3个输入,其中上述n为麦克风阵列中阵元的个数。

(b)确定隐藏层的个数以及各隐藏层的节点数;

BPNN的结构中有输入层、隐藏层和输出层,隐藏层可以不止一个。

具体的,所述各隐藏层的节点数通过如下方法确定:

假设n为输入层节点个数,m为输出层节点个数,a为1~10之间的常数,则隐层节点l的个数为:

隐藏层的个数通常采取多次试验取经验值的方法。

(b)确定隐藏层的激活函数、网络训练函数和网络参数,所述网络参数包括神经网络训练的目标误差、显示中间结果的周期、最大迭代次数和动量因子。

常用的激活函数如表1所示,包括函数名称以及对应的函数数学表达式:

表1

如表2示出了网络参数和对应的含义,这些准则影响神经网络的停止。如果有一个参数到达目标,训练就会终止。

表2

具体实施时,所述激活函数、网络训练函数和网络参数通常采用多次试验按经验选取的方式选择。

(d)根据输出层的输出数据得到最佳过减因子。

通过上述步骤(a)、(b)和(c)即可创建误差反向传播神经网络BPNN,并获得误差反向传播神经网络BPNN的输入数据,根据已创建的误差反向传播神经网络BPNN和输入数据,即可从输出层的输出得到最佳过减因子,其原理图可参见图4和图5。

示例:

参见图4和图5,假设麦克风阵列有三个阵元,三路带噪语音信号在经fastICA算法分离出三路信号后,将信噪比最高的一路信号保留成音频xx.wav,将这个音频与第二个阵元采集的带噪语音信号进行语音质量评价,得到LLR、segSNR、PESQ,作为神经网络的三个输入,同时将三个阵元与解混后的信噪比最高的一路信号(xx.wav)比较,得到信噪比SNR1、SNR2和SNR3,将信噪比SNR1、SNR2和SNR3信号也作为神经网络的输入,神经网络共有这六个输入。

网络模型的建立:

第一步:输入层和输出层的设计:输入层的节点数为6,输出层为1。

第二步:隐藏层设计:假设n为输入节点个数,m为输出节点个数,a为1~10之间的常数。隐藏层节点l的个数为:

第三步:激励函数和参数的选择如表3所示:

表3

S304:根据神经网络预测的最佳过减因子,采用多窗谱谱减法对所述解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

参见图4,当预测出最佳过减因子后,就可利用该最佳过减因子,根据多窗谱谱减法对解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

多窗谱谱减法用多个正交的窗对输入信号“加窗”分帧求平均谱,获得的谱估计具备较小的估计方差,原理如如图7所示。具体算法为:

假设输入语音信号经加窗处理后为S

假设x(n)和N为输入语音对应的数据序列及其长度值,a

其中a

将输入语音信号的第i帧及其左右各M帧共2M+1帧,作均值处理,得到的平均幅度谱|X

多窗谱的语音信号功率谱密度为P(k,i),PMTM表示多窗谱功率运算:

P(k,i)=PMTM[x

对每一段输入语音都做相邻帧平滑处理,得到每一段语音功率谱P

P

根据寂静区对噪声进行估计,得到噪声功率谱P

将预测得到的最佳过减因子α代入式(14)中,β为增益补偿因子,g(k,i)为输出语音信号的谱减增益因子:

处理后的输出语音幅度谱为:增益补偿因子g(k,i)和输入语音信号的平均幅度谱|X(k)|的乘积,然后进行调相,最终输出处理后的语音信号

表4为利用误差反向传播神经网络(BPNN)预测最佳过减因子前后的MWS的质量评价表。

表4

根据表4所示,可以看到经过神经网络预测过减因子后,语音信号的LLR、segSNR、PESQ分别提高了1.3%,2.9%,0.3%。

本申请采用误差反向传播神经网络BPNN预测最佳过减因子,能够使寂静区更加平滑,提升语音质量;采用多窗谱估计的谱减法(MWS),可以有效去除基本谱减法中的“音乐噪声”,实现语音增强;另外还结合了针对麦克风阵列的盲源分离算法和针对单麦克风的多窗谱谱减法,可以有效弥补单个算法的不足,进一步提高语音增强效果。

第二方面,本申请提供基于神经网络的语音增强装置,如图8所示,包括:

第一获取模块810,用于获取麦克风阵列的各阵元采集到的多路带噪语音信号;

第一获取模块810通常使用独立模数转换ADC进行数据采集,其结构包括麦克风语音传感单元、信号放大单元、数模转换ADC单元、数据读写控制单元、时钟发生单元、PC上位机单元和存储单元。时钟发生单元提供频率为FCLK的时钟信号,模数转换ADC电路单元在上述产生的时钟FCLK驱动下实现将双通道立体声语音模拟信号转换为数字信号的过程,然后数据读写控制单元使用相同速度的采样时钟(频率为FCLK)将此数字信号进行读出,最后使用存储单元对数字信号进行存储,从而获得期望的语音信号。

分离模块820,用于对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混,得到多路分离信号;

盲源分离也称盲信号分离,在声源信息、噪声信息和阵列信息都未知的条件下,通过接收到的混叠信号的统计特性,直接分离出包括噪声在内的多个信号源。独立分量分析法(ICA)是常用的一种盲源分离算法,假设各信将源间统计独立,接收到的信号当做多路信源的线性组合,再解线性方程组来预测信源。ICA的除噪性能好,对其余信号的细节基本没有损坏。在ICA的基础上进行改良的fastICA算法,具有快速的收敛、免去选择步长以及计算量小等优点。

fastICA是由芬兰学者提出的快速独立分量分析算法,可以对独立分量逐一提取。fastICA算法的基本原理是源信号经过预处理后,再通过迭代分解得到独立分量。

本申请中,对所述多路带噪语音信号采用快速独立分量分析算法fastICA进行解混前后的信号流向图可参见图4,由图4可知,经fastICA算法解混后可得到多路分离信号。

本申请采用快速独立分量分析算法fastICA对带噪语音信号进行解混,分离效果好,不需要过多先验条件,不过多依赖麦克风数量,能在保证可懂度的前提下尽可能去除噪声。

预测模块830,用于采用误差反向传播神经网络BPNN预测最佳过减因子;

所述预测模块830具体包括:

第一确定模块831,用于确定误差反向传播神经网络BPNN的输入信号、输入层的节点数和输出层的节点数;

所述第一确定模块831具体用于:

将所述解混后信噪比最高的一路分离信号与其中任一阵元采集的带噪语音信号进行语音质量评价,得到对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ;

将所述对数似然比测度LLR、分段信噪比segSNR和感知语音质量评价PESQ作为神经网络的三个输入;

将各阵元采集到的多路带噪语音信号分别与所述解混后信噪比最高的一路分离信号作比较,得到信噪比SNR1、SNR2…SNRn,将所述信噪比SNR1、SNR2…SNRn也作为神经网络的输入,其中上述n为麦克风阵列总阵元的个数。

第二确定模块832,用于确定隐藏层的个数以及各隐藏层的节点数;

所述第二确定模块832具体用于:

假设n为输入层节点个数,m为输出层节点个数,a为1~10之间的常数,则隐层节点l的个数为:

第三确定模块833,用于确定隐藏层的激活函数、网络训练函数和网络参数,所述网络参数包括神经网络训练的目标误差、显示中间结果的周期、最大迭代次数和动量因子;

第二获取模块834,用于根据输出层的输出数据得到最佳过减因子。

第二获取模块834根据输出层的输出数据得到最佳过减因子。

通过第一确定模块831、第二确定模块832和第三确定模块833即可创建误差反向传播神经网络BPNN,并获得误差反向传播神经网络BPNN的输入数据,根据已创建的误差反向传播神经网络BPNN和输入数据,即可从输出层的输出得到最佳过减因子,其原理图可参见图4和图5。

语音增强模块840,用于根据神经网络预测的最佳过减因子,采用多窗谱谱减法对所述解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

参见图4,当预测出最佳过减因子后,语音增强模块840就可利用该最佳过减因子,根据多窗谱谱减法对解混后信噪比最高的一路分离信号进行语音处理,得到语音增强信号。

实验证明,经过神经网络预测过减因子后MWS得到的语音增强信号,比不经过神经网络预测过减因子的MWS得到的语音增强信号的LLR、segSNR、PESQ分别提高了1.3%,2.9%,0.3%。

第三方面,本申请实施例还提供一种终端,包括:处理器、存储器及通信单元;

所述存储器存储有所述处理器可执行的机器可读指令,当所述设备运行时,所述处理器与所述存储器之间通过所述通信单元通信;

其中,所述处理器执行所述机器可读指令,以执行上述各方面所述的方法。

所述存储器可以用于存储处理器的执行指令,存储器可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器中的执行指令由处理器执行时,使得设备能够执行以下上述方法实施例中的部分或全部步骤。

处理器为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(IntegratedCircuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器可以仅包括中央处理器(Central ProcessingUnit,简称CPU)。在本申请实施方式中,CPU可以是单运算核心,也可以包括多运算核心。

通信单元,用于建立通信信道,从而使所述存储设备可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

第四方面,本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。

本申请采用误差反向传播神经网络BPNN预测最佳过减因子,能够使寂静区更加平滑,提升语音质量;采用多窗谱估计的谱减法(MWS),可以有效去除基本谱减法中的“音乐噪声”,实现语音增强;另外还结合了针对麦克风阵列的盲源分离算法和针对单麦克风的多窗谱谱减法,可以有效弥补单个算法的不足,进一步提高语音增强效果。

在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的节点实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于神经网络的语音增强方法、装置、终端和介质
  • 基于卷积神经网络的语音增强方法、装置、设备及介质
技术分类

06120112530109