掌桥专利:专业的专利平台
掌桥专利
首页

语音增强方法、装置、设备

文献发布时间:2023-06-19 10:44:55


语音增强方法、装置、设备

技术领域

本发明属于声学领域,尤其涉及一种语音增强方法、装置、设备。

背景技术

随着人工智能的发展,越来越多的生活环境将体现更多的智能化,如车载环境、家居环境、教室环境、会议室环境等。这些环境中通常会应用多种智能化设备,如在家中使用的智能交互式设备,或者在教室、会议室使用的拾音设备等。不论是交互式设备还是拾音设备,其最重要的就是要准确地识别出声源。

现有的拾音算法有很多,采用较多的一种是球形麦克风阵列拾音算法。球形麦克风阵列拾音算法是基于波束形成的原理,在复杂的环境中进行期望语音信号的拾取,即只拾取期望方向传播来的声音信号,而其他方向的噪声、干扰信号会被抑制,从而达到目标语音增强的效果。

然而,现有的拾音算法在拾取语音信号的过程中会存在一定的问题,例如在复杂环境中抗干扰能力差、混响过大;另外,在声源与拾音设备距离较大时,现有拾音算法拾取到的语音信号信噪比会大幅下降,从而拾取到的语音信号可懂度急剧下降,影响拾音设备的使用效果。

发明内容

为了解决现有技术的问题,本发明提出一种语音增强方法、装置、设备。该方法无需对噪声进行特性估计,不依赖任何先验信息就能实现目标语音增强,鲁棒性强、可靠性高。

本发明实施例提供的具体技术方案如下:

第一方面,提供一种语音增强方法,所述方法包括:

对麦克风阵列采集到的包含目标语音的语音信号进行预处理,得到语音信号的时频谱数据;

基于预构建的扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量,利用所述权向量对所述时频谱数据进行波束形成;其中,所述扩散声场模型用于表示满足扩散声场条件时语音的扩散规律;

利用后置滤波器对波束形成后的数据进行滤波;

对滤波后的数据进行变换处理,得到增强的目标语音。

在一些实施例中,所述后置滤波器为最小均方误差估计器、对数谱幅度估计器、短时谱幅度估计器和Zelinski滤波器中的任意一种。

在一些实施例中,所述后置滤波器为维纳滤波器,所述利用后置滤波器对波束形成后的数据进行滤波具体包括:

基于所述扩散声场模型计算各个麦克风通道之间的相关系数;

利用各个麦克风通道之间的相关系数、语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值计算得到维纳滤波器的后置滤波系数;

根据所述后置滤波系数对波束形成后的数据进行维纳滤波;

其中,所述语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值基于对所述时频谱数据、相关系数按照给定的计算方法计算后确定得到。

在一些实施例中,在根据所述后置滤波系数对波束形成后的数据进行维纳滤波之前还包括:

对所述后置滤波系数进行平滑处理以及中值滤波。

在一些实施例中,所述基于预构建的扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量具体包括:

将所述扩散声场模型确定为相关矩阵R

基于语音信号的声波频率和声速、每一个麦克风阵元的坐标构成的坐标矩阵以及所述语音信号的到达角度确定导向矢量a

根据所述相关矩阵R

其中,所述计算模型为:

在一些实施例中,所述扩散声场模型的构建方法包括:

根据所有麦克风阵元的坐标确定各个麦克风阵元之间的相对距离;

基于各个麦克风阵元之间的相对距离、语音信号的声波频率和声速确定每一个频点对应的扩散声场矩阵;

将所有频点对应的扩散声场矩阵组合,形成所述扩散声场模型。

在一些实施例中,所述对麦克风阵列采集到的包含目标语音的语音信号进行预处理具体包括:

对麦克风阵列采集到的包含目标语音的语音信号进行分帧、加窗和傅里叶变换。

在一些实施例中,对滤波后的数据进行变换处理,得到增强的目标语音具体包括:

对滤波后的数据进行傅里叶反变换;

利用叠接相加法对傅里叶反变换后得到的数据进行重建,得到增强的目标表语音。

第二方面,提供一种语音增强装置,所述装置包括:

数据处理单元,用于对麦克风阵列采集到的包含目标语音的语音信号进行预处理,得到语音信号的时频谱数据;

波束形成单元,用于基于预构建的扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量,利用所述权向量对所述时频谱数据进行波束形成;其中,所述扩散声场模型用于表示满足扩散声场条件时语音的扩散规律;

后置滤波单元,用于利用后置滤波器对波束形成后的数据进行滤波;

所述数据处理单元还用于对滤波后的数据进行变换处理,得到增强的目标语音。

第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。

本发明实施例具有如下有益效果:

1、本发明通过扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量从而进行波束形成,实现声源识别,其中,由于扩散声场模型用于表示满足扩散声场条件时语音的扩散规律,因此本发明不像传统的算法(如基于谱减、维纳滤波以及自适应的增强等方法需要得到噪声的特性估计,通常依赖语音端点检测算法在非语音段估计或采用参考麦克风),本方法不依赖任何先验知识,能够随时使用,并且在复杂环境中鲁棒性较强、可靠性高;

2、本发明通过扩散声场模型计算各个麦克风通道之间的相关系数,结合语音信号中语音和噪声的自功率谱的估计值可以得到后置滤波系数,从而进行维纳滤波,可以进一步有效增强目标方向语音,当多人说话时可以有效抑制其他人声干扰,同时也能有效抑制环境噪声干扰;

3、本发明通过对后置滤波系数进行平滑及中值滤波处理,可以使得重建后的语音连续性好、不会发生卡顿等现象;

4、本发明所述的方法易于在视频会议设备上集成,同时算法复杂度较低,易于实时运行在运算能力有限的嵌入式平台上。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一些实施例可以应用于其中的示例性系统架构图;

图2是根据本申请的语音增强方法的一个实施例的流程图;

图3是根据本申请的语音增强方法的又一个实施例的流程图;

图4是根据本申请的语音增强方法的又一个实施例的流程图;

图5是根据本申请的语音增强装置的一个实施例的结构示意图;

图6是适于用来实现本申请的一些实施例的计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如背景技术所述,在一些较为复杂环境场景中,如存在多个声源/环境噪声较大时,传统的基于波束形成原理的球形麦克风阵列拾音算法的抗干扰能力并不强;此外,当声源距拾音设备较远时,无法获取有效信号,导致拾取到的语音信号的可懂度急剧下降,基于此,本申请申请人创造性想到利用扩散声场的原理来构建扩散声场模型,从而进行波束形成处理,进而可以得到目标语音。

其中,扩散声场在声学原理中理论定义的一种理想声场,其释义为“能量密度均匀,在各个传播方向作无归分布的声场”。它包含如下特征:

(1)扩散声场中各点声能密度均匀;(2)来自各个方向到达某点的声强近似相等;(3)来自各个方向达到某点声波的相位无规。

根据扩散声场的原理,本申请构建了扩散声场模型,用于表示满足扩散声场条件时语音的扩散规律。利用扩散声场模型来计算波束形成器的权向量,从而不再像传统的增强算法一样计算噪声的特征估计,即不需要任何先验信息就能完成波束形成。如此,克服了传统增强算法鲁棒性差、可靠性低的问题,即使在复杂的环境中,也能很好完成目标识别。

图1示出了可以应用本申请的语音增强方法或语音增强装置的实施例的示例性系统架构。如图1所示,系统架构包括麦克风阵列101、网络102和终端设备103。

麦克风阵列101为包括十六个麦克风的麦克风阵列,用于采集语音信号,并将采集到的语音信号通过网络102发送至终端设备103。

网络102用以在麦克风阵列101和终端设备103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路等等。

终端设备103用于接收麦克风阵列101发送的语音信号,并对该语音信号进行语音增强处理。终端设备103可以是硬件,也可以是软件。当终端设备103为硬件时,可以是各种计算机设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、智能空调、智能音响、智能音箱等等。当终端设备103为软件时,可以安装在上述所列举的计算机设备中。

需要指出的是,麦克风阵列101与终端设备103可以相互独立,或者,麦克风阵列101也可以包含在终端设备103中,在此不做具体限定。

应该理解,图1中的麦克风阵列、网络和终端设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的麦克风阵列、网络和终端设备。

参考图2,示出了根据本申请的语音增强方法的一个实施例的流程图,具体包括如下步骤:

201、对麦克风阵列采集到的包含目标语音的语音信号进行预处理,得到语音信号的时频谱数据。

在本实施例中,语音增强方法的执行主体可以为终端设备(例如图1所示的终端设备103)。终端设备可以与麦克风阵列(例如图1所示的麦克风阵列101)通信连接。其中,麦克风阵列与终端设备可以相互独立,或者,麦克风阵列可以包含在终端设备中,在此不做具体限定。

麦克风阵列中的十六个麦克风将采集到的语音信号发送至终端设备,终端设备接收到语音信号之后,对语音信号进行预处理,将时域信号变换成频域信号。

在本实施例的一些可选的实现方式中,由于麦克风阵列采集到的语音信号属于时域信号,直接对时域信号进行波束形成会大大增加计算难度,基于此,将时域信号转换成频域信号进行处理。上述预处理的过程可以如下:

对麦克风阵列采集到的包含目标语音的语音信号进行分帧、加窗和傅里叶变换。这里,分帧的帧长可以取20~50毫秒之间,在分帧后,需要对分帧的信号进行加窗处理,减轻频谱泄露。窗函数可以选择三角窗、汉宁窗、汉明窗、高斯窗等。加窗后,对每一帧信号进行傅里叶变换,得到语音信号的时频谱数据。由于分帧、加窗以及傅里叶变换属于目前广泛研究和应用的公知技术,在此不再赘述。

202、基于预构建的扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量,利用权向量对时频谱数据进行波束形成;其中,扩散声场模型用于表示满足扩散声场条件时语音的扩散规律。

在本实施例的一些可选的实现方式中,扩散声场模型的构建方法包括:

根据所有麦克风阵元的坐标确定各个麦克风阵元之间的相对距离;

基于各个麦克风阵元之间的相对距离、语音信号的声波频率和声速确定每一个频点对应的扩散声场矩阵;

将所有频点对应的扩散声场矩阵组合,形成扩散声场模型。

下面以麦克风阵列为图1所示的麦克风阵列101为例进行说明。十六个麦克风的坐标分别为(xi,yi,zi),i=1,2,3,……,16。首先,根据所有麦克风阵元的坐标确定各个麦克风阵元之间的相对距离:

随后,基于各个麦克风阵元之间的相对距离、语音信号的声波频率和声速确定每一个频点对应的扩散声场矩阵:

其中,pi为圆周率、f为语音信号的声波频率、c为语音信号的声速;

最后,将所有频点对应的扩散声场矩阵组合,形成扩散声场模型。这里,每个频点均对应一个16×16的Gama,而所有频点的Gama组成一个16×16×(NFFT/2+1)三维数组GamaDum,NFFT为傅里叶变换所取的采样点数。

在扩散声场模型构建完成后,便可基于扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量,利用权向量对时频谱数据进行波束形成。

在本实施例的一些可选的实现方式中,上述构建波束形成器的权向量的步骤可以包括:

将扩散声场模型确定为相关矩阵R

基于语音信号的声波频率和声速、每一个麦克风阵元的坐标构成的坐标矩阵以及语音信号的到达角度确定导向矢量a

根据相关矩阵R

其中,计算模型为:

这里,导向矢量a

tau=mics*ed;

其中,i为麦克风的序号、pi为圆周率、f为语音信号的声波频率、c为语音信号的声速、mics为每一个麦克风阵元的坐标构成的坐标矩阵、ed为语音信号到达角度的方向向量。

需要说明的是,上述到达角度的方向向量为语音信号相对于麦克风阵列的水平角和俯仰角得到的三维向量。到达角度的方向向量的计算方法是公知技术,在此不再赘述。

在计算得到波束形成器的权向量W

Y=W

其中,X为语音信号的时频谱数据,Y为期望数据,即波束形成后的数据。

203、利用后置滤波器对波束形成后的数据进行滤波。

在本实施例的一些可选的实现方式中,上述后置滤波器可以为最小均方误差估计器(如维纳滤波器)、对数谱幅度估计器、短时谱幅度估计器和Zelinski滤波器中的任意一种。上述列举的几种后置滤波器的研究都较为广泛,因此利用后置滤波器进行滤波的过程不再赘述。

204、对滤波后的数据进行变换处理,得到增强的目标语音。

由于滤波后的数据仍属于频域信号,为了得到目标语音,还需对频域信号进行转换以得到时域信号,可选地,上述对滤波后的数据进行变换处理的过程包括如下步骤:

对滤波后的数据进行傅里叶反变换;

利用叠接相加法对傅里叶反变换后得到的数据进行重建,得到增强的目标语音。

本申请的上述实施例提供的方法,通过构建一扩散声场模型,并利用扩散声场模型等数据设计波束形成器的权向量,如此,在识别目标语音时,不需要再计算噪声的特性估计(不同的场景下噪声的特性估计不同),即不再依赖先验信息就能完成目标语音识别,鲁棒性强、可靠性高。

继续参见图3,其示出了根据本申请的语音增强方法的又一个实施例的流程图,具体包括如下步骤:

301、基于扩散声场模型计算各个麦克风通道之间的相关系数。

302、利用各个麦克风通道之间的相关系数、语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值计算得到维纳滤波器的后置滤波系数。

303、根据后置滤波系数对波束形成后的数据进行维纳滤波。

这里,各个麦克风通道之间的相关系数通过如下公式计算得到:

这里,W

在计算得到各个麦克风通道之间的相关系数后,可利用各个麦克风通道之间的相关系数、语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值计算得到维纳滤波器的后置滤波系数。具体计算公式如下:

其中,h

这里,

其中,

根据上述公式可得到:

其中,

计算得到后置滤波系数h

在本实施例中,利用扩散声场模型来得到相关系数,通过相关系数等数据设计维纳滤波器的滤波系数,从而可以进一步增强目标语音,当多人说话时可以有效抑制其他人声干扰,同时也能有效抑制环境噪声干扰。

继续参见图4,其示出了根据本申请的语音增强方法的又一个实施例的流程图,具体包括如下步骤:

401、在根据后置滤波系数对波束形成后的数据进行维纳滤波之前,对后置滤波系数进行平滑处理。

这里,可以按照如下方式进行平滑处理:

h

其中,h

402、将平滑处理后得到的后置滤波系数进行中值滤波。

其中,中值滤波是指将每一像素点的灰度值设置为该点某领域窗口内的所有像素点灰度值的中值。中值滤波可以选用多个点进行滤波,如5个点、10个点等,可根据实际需要设置。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种语音增强装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种计算机设备中。

如图5所示,本实施例的语音增强装置包括:

数据处理单元501,用于对麦克风阵列采集到的包含目标语音的语音信号进行预处理,得到语音信号的时频谱数据;

波束形成单元502,用于基于预构建的扩散声场模型、麦克风阵列中每一麦克风阵元的坐标以及语音信号的到达角度,确定波束形成器的权向量,利用权向量对时频谱数据进行波束形成;其中,扩散声场模型用于表示满足扩散声场条件时语音的扩散规律;

后置滤波单元503,用于利用后置滤波器对波束形成后的数据进行滤波;

数据处理单元501还用于对滤波后的数据进行变换处理,得到增强的目标语音。

在本实施例的一些可选的实现方式中,后置滤波器为最小均方误差估计器、对数谱幅度估计器、短时谱幅度估计器和Zelinski滤波器中的任意一种。

在本实施例的一些可选的实现方式中,后置滤波器为维纳滤波器,后置滤波单元503具体用于:

基于扩散声场模型计算各个麦克风通道之间的相关系数;

利用各个麦克风通道之间的相关系数、语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值计算得到维纳滤波器的后置滤波系数;

根据后置滤波系数对波束形成后的数据进行维纳滤波;

其中,语音信号中语音的自功率谱的估计值和噪声的自功率谱的估计值基于对时频谱数据、相关系数按照给定的计算方法计算后确定得到。

在本实施例的一些可选的实现方式中,上述装置还包括:

平滑及滤波单元504,用于在根据后置滤波系数对波束形成后的数据进行维纳滤波之前,对后置滤波系数进行平滑处理以及中值滤波。

在本实施例的一些可选的实现方式中,上述波束形成单元502具体用于:

将扩散声场模型确定为相关矩阵R

基于语音信号的声波频率和声速、每一个麦克风阵元的坐标构成的坐标矩阵以及语音信号的到达角度确定导向矢量a

根据相关矩阵R

其中,计算模型为:

在本实施例的一些可选的实现方式中,上述装置还包括:

构建单元505,用于根据所有麦克风阵元的坐标确定各个麦克风阵元之间的相对距离;

基于各个麦克风阵元之间的相对距离、语音信号的声波频率和声速确定每一个频点对应的扩散声场矩阵;

将所有频点对应的扩散声场矩阵组合,形成扩散声场模型。

在本实施例的一些可选的实现方式中,上述数据处理单元501用于:

对麦克风阵列采集到的包含目标语音的语音信号进行分帧、加窗和傅里叶变换。

在本实施例的一些可选的实现方式中,上述数据处理单元501还用于:对滤波后的数据进行傅里叶反变换;

利用叠接相加法对傅里叶反变换后得到的数据进行重建,得到增强的目标语音。

下面参考图6,其示出了适于用来实现本申请实施例的计算机设备(例如图1所示的终端设备103)的结构示意图。图6示出的计算机设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

其中,图6所示的计算机设备,包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 语音增强方法、装置、智能语音设备和计算机设备
  • 生成语音增强模型的方法和设备以及语音增强方法和设备
技术分类

06120112668674