一种远场语音识别方法
文献发布时间:2023-06-19 11:45:49
技术领域
本发明涉及语音识别技术领域,具体涉及一种远场语音识别方法。
背景技术
随着人工智能技术的不断发展,人们越来越致力于使机器听懂人类的话语指令,并希望通过语音实现对机器的控制,从而极大的方便人们的生产和生活,在研究和探索语音识别技术过程中,针对语音识别的各个流程进行了各种尝试和改造。作为一项人机交互的关键技术,语音识别在过去几十年里取得了飞速的发展,应用于语音识别的远场语音识别模型在算法和构建上也愈发成熟,但是,目前的远场语音识别对环境的依赖性较强,距离较远带来的环境噪声影响,也使得语音识别的准确性严重下降。
在远场语音识别技术中,对语音信号的特征提取尤为重要,现有技术中常用的远场语音识别是通过梅尔倒谱系数原理实现特征提取。梅尔倒谱系数是基于平稳信号的计算方法,但针对非平稳信号语音特征提取具有局限性,因此,亟需一种方案可以解决上述技术问题,从而保证远场语音识别的准确性和有效性。
发明内容
本发明提供一种远场语音识别方法,用以解决现有技术中在语音特征提取过程中针对非平稳信号语音特征提取具有局限性,从而造成的远场语音识别的准确性和有效性降低的问题。
本发明提供一种远场语音识别方法,该方法包括:
获取远场语音信号;
对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号;
将所述预处理后的远场语音信号输入至语音特征提取模型,基于所述语音特征提取模型获取所述远场语音信号对应的语音特征;所述语音特征提取模型是采用小波变换与梅尔倒谱系数相结合的方法实现语音特征提取,其中,所述小波变换采用局部能量计算原则;
基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别。
可选的,所述语音特征提取模型的构建方法包括:
将所述远场语音信号分帧处理;
将每一帧的远场语音信号进行离散小波分解处理,获得分解后的小波系数;
将所述小波系数做快速傅里叶变换,确定所有小波系数对应的若干个频带局部能量;
确定若干个频带局部能量分布,基于所述分布结合梅尔滤波器组确定梅尔倒谱系数;
基于所述梅尔倒谱系数确定动态特性的差分参数;
基于所述差分参数对语音特征的提取进行训练,获取语音特征。
可选的,所述确定所有小波系数对应的若干个频带局部能量,包括:
将远场语音信号进行离散小波分解,分解为6层,形成7个频带能量;
将每个频带能量进行按照时间段划分为若干个频带局部能量。
可选的,所述将所述远场语音信号分帧处理,之后包括:
对分帧处理后的远场语音信号进行加窗处理;
所述将每一帧的远场语音信号进行离散小波分解处理,包括:
对加窗处理后的每一帧的远场语音信号进行离散小波分解处理。
可选的,所述对分帧处理后的远场语音信号进行加窗处理中,所述窗函数经过傅里叶变换后的频谱采用下述公式表示:
其中,W(w)为窗函数的频谱,M为窗函数的长度,w为频域变量,j
可选的,所述确定若干个频带局部能量分布,所述频带局部能量分布公式采用下述公式表示:
其中,P为频带局部能量分布的向量;
可选的,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
将所述远场语音信号采用经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量;
针对所述高频内涵模态分量进行小波变换分解,分解出高频系数和低频系数;
针对所述高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数;
根据经过阈值处理的估计小波系数以及所述低频系数对小波系数进行重构,获得重构后的小波系数;
基于所述重构后的小波系数及所述低频内涵模态分量对所述语音信号进行重构,获得降噪处理后的远场语音信号。
可选的,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
采用麦克风阵列算法确定期望信号的方向;
通过重新排列麦克风阵列的空间位置,增强期望信号并抑制噪声信号和干扰信号。
可选的,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
采用自适应滤波器对所述远场语音信号进行降噪处理,获得降噪处理后的远场语音信号。
可选的,所述基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别之后,包括:
将所述远场语音信号翻译为文字输出。
本发明提供一种远场语音识别方法,采用本发明提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本发明提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种远场语音识别方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供了一种远场语音识别方法,图1为本发明实施例中一种远场语音识别方法的流程图,请参照图1,该方法包括以下步骤:
步骤S101,获取远场语音信号;
步骤S102,对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号;
步骤S103,将所述预处理后的远场语音信号输入至语音特征提取模型,基于所述语音特征提取模型获取所述远场语音信号对应的语音特征;所述语音特征提取模型是采用小波变换与梅尔倒谱系数相结合的方法实现语音特征提取,其中,所述小波变换采用局部能量计算原则;
步骤S104,基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别。
上述技术方案的工作原理为:本实施例采用的方案是针对远场语音信号的特征提取过程的改进,具体采用的方案是将所述预处理后的远场语音信号输入至语音特征提取模型,基于所述语音特征提取模型获取所述远场语音信号对应的语音特征;所述语音特征提取模型是采用小波变换与梅尔倒谱系数相结合的方法实现语音特征提取,其中,所述小波变换采用局部能量计算原则。
所述的远场语音数据通常是指在距离1m-5m的条件下,需要让语音识别模型进行识别的语音指令。而针对远场语音信号其可能平稳信号也可能是非平稳信号,因此,简单采用梅尔倒谱系数的方法进行语音特征提取会存在一定的局限性,因此,本实施例采用的方案是结合梅尔倒谱系数和小波变换的原理实现语音信号的特征提取。并且采用小波变换的过程中,采用的是小波变换采用局部能量计算原则,在小波理论的基础上,引入了频带局部能量的概念,用以表征信号在某个频带的某个时段的能量大小,从而以此对信号进行更为有效的特征提取,并以几种典型的仿真信号为特征提取对象,将其与常规的频带能量特征提取法进行比较,从而说明了基于频带局部能量特征提取方法更具有有效性。
上述技术方案的有益效果为:采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例2:
在实施例1的基础上,所述语音特征提取模型的构建方法包括:
将所述远场语音信号分帧处理;
将每一帧的远场语音信号进行离散小波分解处理,获得分解后的小波系数;
将所述小波系数做快速傅里叶变换,确定所有小波系数对应的若干个频带局部能量;
确定若干个频带局部能量分布,基于所述分布结合梅尔滤波器组确定梅尔倒谱系数;
基于所述梅尔倒谱系数确定动态特性的差分参数;
基于所述差分参数对语音特征的提取进行训练,获取语音特征。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是所述语音特征提取模型的构建方法,具体的,将所述远场语音信号分帧处理,将每一帧的远场语音信号进行离散小波分解处理,获得分解后的小波系数;将所述小波系数做快速傅里叶变换,确定所有小波系数对应的若干个频带局部能量;确定若干个频带局部能量分布,基于所述分布结合梅尔滤波器组确定梅尔倒谱系数;基于所述梅尔倒谱系数确定动态特性的差分参数;基于所述差分参数对语音特征的提取进行训练,获取语音特征。因此,采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例3:
在实施例2的基础上,所述确定所有小波系数对应的若干个频带局部能量,包括:
将远场语音信号进行离散小波分解,分解为6层,形成7个频带能量;
将每个频带能量进行按照时间段划分为若干个频带局部能量。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是所述确定所有小波系数对应的若干个频带局部能量过程,具体的,将远场语音信号进行离散小波分解,分解为6层,形成7个频带能量;将每个频带能量进行按照时间段划分为若干个频带局部能量。采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例4:
在实施例2的基础上,所述将所述远场语音信号分帧处理,之后包括:
对分帧处理后的远场语音信号进行加窗处理;
所述将每一帧的远场语音信号进行离散小波分解处理,包括:
对加窗处理后的每一帧的远场语音信号进行离散小波分解处理。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是所述将所述远场语音信号分帧处理之后对分帧处理后的远场语音信号进行加窗处理,对加窗处理后的每一帧的远场语音信号进行离散小波分解处理。采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例5:
在实施例4的基础上,所述对分帧处理后的远场语音信号进行加窗处理中,所述窗函数经过傅里叶变换后的频谱采用下述公式表示:
其中,W(w)为窗函数的频谱,M为窗函数的长度,w为频域变量,j
上述技术方案的工作原理及有益效果为:本实施例采用的方案是设置的加窗函数的频谱的计算公式,采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例6:
在实施例2的基础上,所述确定若干个频带局部能量分布,所述频带局部能量分布公式采用下述公式表示:
其中,P为频带局部能量分布的向量;
上述技术方案的工作原理及有益效果为:本实施例采用的方案是频带局部能量分布的计算公式,通过该公式可以确定频带局部能量分布,进而根据该频带局部能量分布情况结合梅尔三角滤波器组最终实现语音特征的提取。采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例7:
在实施例1的基础上,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
将所述远场语音信号采用经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量;
针对所述高频内涵模态分量进行小波变换分解,分解出高频系数和低频系数;
针对所述高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数;
根据经过阈值处理的估计小波系数以及所述低频系数对小波系数进行重构,获得重构后的小波系数;
基于所述重构后的小波系数及所述低频内涵模态分量对所述语音信号进行重构,获得降噪处理后的远场语音信号。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是对所述远场语音信号进行降噪预处理的方法,具体方法包括:将所述远场语音信号采用经验模态分解,将语音信号分解为高频内涵模态分量和低频内涵模态分量,针对所述高频内涵模态分量进行小波变换分解,分解出高频系数和低频系数,针对所述高频系数采用阈值函数的方式进行阈值处理,获得阈值处理后的估计小波系数,根据经过阈值处理的估计小波系数以及所述低频系数对小波系数进行重构,获得重构后的小波系数,基于所述重构后的小波系数及所述低频内涵模态分量对所述语音信号进行重构,获得降噪处理后的远场语音信号。
采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
实施例8:
在实施例1的基础上,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
采用麦克风阵列算法确定期望信号的方向;
通过重新排列麦克风阵列的空间位置,增强期望信号并抑制噪声信号和干扰信号。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是对所述远场语音信号进行降噪预处理的另一种方法,具体包括:采用麦克风阵列算法确定期望信号的方向,通过重新排列麦克风阵列的空间位置,增强期望信号并抑制噪声信号和干扰信号。采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。并且,本实施例采用麦克风阵列波束形成技术可以最大程度降低噪声对语音信号的干扰,提高语音识别的准确性。
实施例9:
在实施例1的基础上,所述对所述远场语音信号进行降噪预处理,获得预处理后的远场语音信号,包括:
采用自适应滤波器对所述远场语音信号进行降噪处理,获得降噪处理后的远场语音信号。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是对所述远场语音信号进行降噪预处理的另一种方法,具体包括:采用自适应滤波器对所述远场语音信号进行降噪处理,获得降噪处理后的远场语音信号。
采用本实施例提供的方案可以通过自适应滤波器实现降噪处理,并且自适应滤波器具有自反馈的特点,通过多次采用自适应滤波器可以根据具体情况提升降噪的效率和降噪的准确性。
实施例10:
在实施例1的基础上,所述基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别之后,包括:
将所述远场语音信号翻译为文字输出。
上述技术方案的工作原理及有益效果为:本实施例采用的方案是基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别之后,将所述远场语音信号翻译为文字输出。通过对翻译出的文字进行输出,完成语音识别的最后步骤,采用本实施例提供的方案可以结合梅尔倒谱系数和小波变换的优点实现远场语音信号的语音特征提取,通过采用本实施例提供的方案获取的语音特征保证其准确性和有效性,进而在后续的通过基于获取的所述语音特征,采用声学模型和语言模型匹配完成远场语音识别的过程中,保证远场语音信号识别的准确性和有效性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
- 一种红外触发的远场双麦远场语音识别方法
- 一种远场语音识别方法、语音识别模型训练方法和服务器