语音音素的识别方法及系统、电子设备及存储介质

文献发布时间：2023-06-19 09:32:16

技术领域

本发明涉及英文语音识别领域，特别涉及一种语音音素的识别方法及系统、电子设备及存储介质。

背景技术

目前，存在以下两种现有的英文语音识别模型：

第一、GMM-HMM(高斯混合模型-隐马尔科夫模型)为代表的传统英文声学模型技术，虽然可以在英文声学模型训练过程中的小数据量的训练数据集得到很好的训练效果，但是在数据量增大的情况下会遇到模型本身的瓶颈，对英文的音素构建效果得不到充分拟合。模型在高斯假设条件和隐马尔可夫假设条件的双重假设下存在弊端。

第二、DNN-HMM(深度神经网络模型-隐马尔科夫模型)为代表的现代深度学习声学模型技术，只在隐马尔可夫假设条件下，DNN能很好地模拟出英文的音素构建的状态，对音频特征到音素状态的拟合效果更好，尤其在大批量的训练集上不仅效果可以得到提升，而且对音素状态的对齐效果也得到提高。

以上两种英文语音识别模型技术虽然能够很好地识别英文语音，但是在电话对话式语音过程中的识别效果却不是很好。英文电话式的对话式实时语音识别技术需要满足以下几个特点：一是需要能避免旁边人说话的较为复杂的嘈杂环境，即非当前说话人的说话语音信息；二是需要能够解决英文中的发音长、音素短的发音问题；三是需要考虑英文是没有声调特征的。

在OTA(Online Travel Agency，在线旅行社)行业中，当海外的客户或者酒店方通过电话语音中继系统与OTA智能客服通过电话实时语音沟通时，OTA智能客服需要实时识别出海外客户或酒店方表达的英文语音信息，在识别出该信息之后，通过文本理解手段作出反馈回应。在这种需要准确识别英文电话背景下，与16kHz的正常语音采样率相比，电话通话采样率是低采样率式的8kHz，采样点少，语音信息丰富度较低。另外，在OTA电话通话中海外的客户或酒店方所处的嘈杂环境较为复杂，例如各种彩铃声、马路边声音、火车站的声音等，需要将这些非当前说话人的信息进行屏蔽，不对其进行转写。

发明内容

本发明要解决的技术问题是为了克服现有语音识别模型中针对英文电话式的语音识别效果较差的缺陷，提供一种语音音素的识别方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明的第一方面提供一种语音音素的识别方法，包括以下步骤：

接收通话语音的音频数据；其中，所述音频数据对应的语言为英文；

根据预设的帧移和帧长对所述音频数据进行分帧处理；

利用音素识别模型对每帧音频数据的音素进行识别，其中，所述音素识别模型是基于音素对齐的英文训练样本训练得到的。

较佳地，所述利用音素识别模型对每帧音频数据的音素进行识别，具体包括：

确定待识别的当前帧音频数据；

针对所述当前帧音频数据之前的音频数据、所述当前帧音频数据以及所述当前帧音频数据之后的音频数据，分别提取每帧音频数据的目标特征；

将提取的所有目标特征输入所述音素识别模型，得到所述当前帧音频数据的音素。

较佳地，通过以下步骤获取所述音素对齐的英文训练样本：

统计英文训练语料中所有音频数据的时长；

选取时长最短的第一数量的音频数据训练单音素对齐模型；

从所述英文训练语料中随机选取第二数量的音频数据，利用所述单音素对齐模型对所述第二数量的音频数据进行音素对齐；

根据音素对齐的音频数据训练三音素对齐模型；

利用所述三音素对齐模型对部分英文训练样本进行音素对齐；

根据音素对齐的部分英文训练样本训练SAT(Speaker Adaptive Training，说话人自适应训练)模型；

利用所述SAT模型对所述部分英文训练样本进行音素对齐，并提取音素对齐后的部分英文训练样本的FMLLR(Feature-space Maximum Likelihood Linear Regression，特征空间最大似然线性回归)特征，根据所述FMLLR特征重新训练所述SAT模型；

结合其它英文训练样本训练所述SAT模型；

将全部英文训练样本输入所述SAT模型，得到音素对齐的英文训练样本；

其中，所述单音素对齐模型进行音素对齐的过程中用于输出每帧音频数据的音素，所述三音素对齐模型进行音素对齐的过程中用于输出每帧音频数据的前一个音素、每帧音频数据的音素以及每帧音频数据的下一个音素。

较佳地，所述目标特征包括梅尔倒谱特征和I-Vector特征。

本发明的第二方面提供一种语音音素的识别系统，包括：

接收模块，用于接收通话语音的音频数据；其中，所述音频数据对应的语言为英文；

分帧模块，用于根据预设的帧移和帧长对所述音频数据进行分帧处理；

识别模块，用于利用音素识别模型对每帧音频数据的音素进行识别，其中，所述音素识别模型是基于音素对齐的英文训练样本训练得到的。

较佳地，所述识别模块具体包括：

确定单元，用于确定待识别的当前帧音频数据；

提取单元，用于针对所述当前帧音频数据之前的音频数据、所述当前帧音频数据以及所述当前帧音频数据之后的音频数据，分别提取每帧音频数据的目标特征；

输入单元，用于将提取的所有目标特征输入所述音素识别模型，得到所述当前帧音频数据的音素。

较佳地，所述识别系统还包括获取模块，用于通过以下步骤获取所述音素对齐的英文训练样本：

统计英文训练语料中所有音频数据的时长；

选取时长最短的第一数量的音频数据训练单音素对齐模型；

从所述英文训练语料中随机选取第二数量的音频数据，利用所述单音素对齐模型对所述第二数量的音频数据进行音素对齐；

根据音素对齐的音频数据训练三音素对齐模型；

利用所述三音素对齐模型对部分英文训练样本进行音素对齐；

根据音素对齐的部分英文训练样本训练SAT模型；

利用所述SAT模型对所述部分英文训练样本进行音素对齐，并提取音素对齐后的部分英文训练样本的FMLLR特征，根据所述FMLLR特征重新训练所述SAT模型；

结合其它英文训练样本训练所述SAT模型；

将全部英文训练样本输入所述SAT模型，得到音素对齐的英文训练样本；

较佳地，所述目标特征包括梅尔倒谱特征和I-Vector特征。

本发明的第三方面提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的语音音素的识别方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面所述的语音音素的识别方法。

本发明的积极进步效果在于：根据预设的帧移对所述音频数据进行分帧处理，充分考虑到英文语音信号的短时平稳性以及上下文特征，提高了后续英文音素识别的准确率。同时，利用基于音素对齐的英文训练样本训练得到的音素识别模型对每帧音频数据的音素进行识别，进一步提高了英文音素识别的准确率。

另外，基于英文具有发音长、音素短的特点，制定了训练SAT模型的训练策略，基于训练好的SAT模型对英文训练样本进行音素对齐，使得音素对齐的准确率得到了保证。

附图说明

图1为本发明实施例1提供的一种语音音素的识别方法的流程图。

图2为本发明实施例1提供的一种音素识别模型的网络结构图。

图3为本发明实施例2提供的一种语音音素的识别系统的结构框图。

图4为本发明实施例3提供的一种电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。英文中包括48个音素，其中20个元音音素和28个辅音音素。元音音素包括/i：/、

实施例1

本实施例提供一种语音音素的识别方法，如图1所示，包括以下步骤：

步骤S101、接收通话语音的音频数据；其中，所述音频数据对应的语言为英文。

步骤S101中接收的音频数据为单通道的音频数据，并验证其采样率，根据采样率计算出音频数据的时长。在一个具体的例子中，如果音频数据的时长超过16.015s，则采用VAD(Voice Activity Detection，语音活动检测)技术将其划分为多个在16.015s内的音频数据。

需要说明的是，本实施例提供的语音音素的识别方法用于识别英文的音频数据。

步骤S102、根据预设的帧移和帧长对所述音频数据进行分帧处理。

考虑到英文语音信号的短时平稳性以及上下文特征，根据帧移对音频数据进行分帧处理，即连续的两帧音频数据存在重叠的区间。在一个具体的例子中，预设的帧移为10ms，预设的帧长为25ms。例如，t1帧音频数据为0～25ms，t2帧音频数据为10～35ms。

步骤S103、利用音素识别模型对每帧音频数据的音素进行识别，其中，所述音素识别模型是基于音素对齐的英文训练样本训练得到的。

本实施方式中，根据预设的帧移对所述音频数据进行分帧处理，充分考虑到英文语音信号的短时平稳性以及上下文特征，提高了后续英文音素识别的准确率。同时，利用基于音素对齐的英文训练样本训练得到的音素识别模型对每帧音频数据的音素进行识别，进一步提高了英文音素识别的准确率。

在可选的一种实施方式中，步骤S103具体包括以下步骤：

步骤S103a、确定待识别的当前帧音频数据。

步骤S103b、针对所述当前帧音频数据之前的音频数据、所述当前帧音频数据以及所述当前帧音频数据之后的音频数据，分别提取每帧音频数据的目标特征。

步骤S103c、将提取的所有目标特征输入所述音素识别模型，得到所述当前帧音频数据的音素。

进一步考虑到英文语音信号的短时平稳性以及上下文特征，本实施方式将当前帧音频数据之前的音频数据、当前帧音频数据以及当前帧音频数据之后的音频数据的所有目标特征均输入音素识别模型，以识别当前帧音频数据的音素。

在步骤S103b可选的一种实施方式中，相较于当前帧音频数据之后的音频数据，选取更多的当前帧音频数据之前的音频数据，即利用更多的历史音频数据识别当前帧音频数据的音素。

在一个具体的例子中，选取当前帧音频数据之前的17帧音频数据，以及当前帧音频数据之后的13帧音频数据，加上当前帧音频数据共31帧音频数据，分别提取这31帧音频数据的目标特征，并输入音素识别模型。

图2用于示出一种音素识别模型的网络结构示意图。如图2所示的音素识别模型包括七层网络。在第一层网络进入第二层网络的阶段，设计步长为1，宽度为5，设计网络的宽度范围为左右对称式即左边提取2帧、右边提取2帧以及当前帧，共提取5帧，让第二层网络能提取到更为密集的当前帧的左右信息，第一层网络的输出为当前帧前面的15帧以及当前帧后面的11帧，共27帧。在第二层网络进入第三层网络的阶段，设计步长为1，宽度为4，设计网络的宽度范围为非左右对称式即左边提取1帧、最右边提取1帧，共提取2帧，让第三层网络能提取到更多当前帧之后的左右信息，第二层网络的输出为当前帧前面的14帧以及当前帧后面的9帧，共24帧。在第三层网络进入第四层网络的阶段，设计步长为1，宽度为7，设计网络的宽度范围为左右对称式即左边提取3帧、右边提取3帧以及当前帧，共提取7帧，让第四层网络能将之前提取到的更多当前帧之后的左右信息重新聚焦到对称式的左右信息上，第三层网络的输出为当前帧前面的11帧以及当前帧后面的6帧，共18帧。在第四层网络进入第五层网络的阶段，设计步长为1，宽度为3，设计网络的宽度范围为左右对称式即最左边提取1帧、最右边提取1帧，共提取2帧，让第五层网络能够在左右信息对齐基础上，只聚焦到当前帧之前和之后的信息，第四层网络的输出为当前帧前面的10帧以及当前帧后面的5帧，共16帧。在第五层网络进入第六层网络的阶段，和第四层网络进入第五层网络的阶段相同，不同之处仅在于将宽度设为7。在第七层网络将所有目标特征连接到当前帧t，作为音素识别模型的输出。

在一个具体的例子中，上述音素识别模型为TDNN(时延神经网络)模型。

在可选的一种实施方式中，上述目标特征包括梅尔倒谱特征。在具体实施中，对有效的音频数据进行预加重、分帧和加窗等预处理以加强有效音频数据的语音性能，然后对每帧音频数据进行FFT得到对应的频谱。之后通过Mel频谱，将线性的自然频谱转换为体现人类听觉特性的Mel频谱，最后对Mel频谱进行倒谱分析，获得Mel频率倒谱系数MFCC，即每帧音频数据的梅尔倒谱特征MFCC。

在可选的一种实施方式中，上述目标特征包括梅尔倒谱特征和I-Vector特征。其中，I-Vector为从GMM均值超矢量中提取出的一个矢量，即为Identity-Vector，用于表征说话人的信息。在具体实施的一个例子中，采用GMM-UBM(用户背景高斯混合模型)提取，先将全部的训练集按照说话人区分，在GMM-UBM的框架下，使用EM(Expectation-Maximizationalgorithm，最大期望算法)算法不断更新GMM-UBM中的I-Vector转换矩阵，由转换矩阵计算得到音频数据的I-Vector特征。

本实施方式中，加入用于表征当前说话人信息的I-Vector特征可以屏蔽当前通道非主说话人的信息，从而使得上述音素识别模型更加适合于英文对话式的语音识别场景。

考虑到英文具有发音长、音素短的发音特点，在可选的一种实施方式中，通过以下步骤获取步骤S103中音素对齐的英文训练样本：

第一训练阶段：

步骤S201、统计英文训练语料中所有音频数据的时长。

步骤S202、选取时长最短的第一数量的音频数据训练单音素对齐模型。其中，所述单音素对齐模型进行音素对齐的过程中用于输出每帧音频数据的音素。在一个具体的例子中，第一数量为1000，单音素对齐模型为GMM。

步骤S203、从所述英文训练语料中随机选取第二数量的音频数据，利用所述单音素对齐模型对所述第二数量的音频数据进行音素对齐。在一个具体的例子中，第二数量为3000。

步骤S204、根据音素对齐的音频数据训练三音素对齐模型。其中，所述三音素对齐模型进行音素对齐的过程中用于输出每帧音频数据的前一个音素、每帧音频数据的音素以及每帧音频数据的下一个音素。

在第一训练阶段可选的一种实施方式中，步骤S204之后还包括：从所述英文训练语料中随机选取第三数量音频数据，利用步骤S204训练的三音素对齐模型对第三数量的音频数据进行音素对齐，根据音素对齐的音频数据重新训练一个三音素对齐模型。在一个具体的例子中，第三数量为9000。

第二训练阶段：

步骤S301、利用所述三音素对齐模型对部分英文训练样本进行音素对齐。步骤S301中利用第一训练阶段训练得到的三音素对齐模型对部分英文训练样本进行音素对齐。在可选的一种实施方式中，步骤S301中的英文训练样本与步骤S201中的英文训练语料不同。

在具体实施的一个例子中，英文训练样本的总时长为560小时。在步骤S301具体实施的一个例子中，部分英文训练样本为时长为100小时的英文训练样本。

步骤S302、根据音素对齐的部分英文训练样本训练SAT模型。

步骤S303、利用所述SAT模型对所述部分英文训练样本进行音素对齐，并提取音素对齐后的部分英文训练样本的FMLLR特征，根据所述FMLLR特征重新训练所述SAT模型。本实施方式中，为了提高泛化性以及音素对齐的准确性，引入了FMLLR特征训练SAT模型。

在步骤S303可选的一种实施方式中，根据音素对齐的部分英文训练样本调整英文发音词典中音素的概率。其中，调整概率之后的英文发音词典用于将识别出的音素翻译为相应的文字。

在具体实施的一个例子中，英文发音词典包括CMU(卡内基梅隆大学)的英文发音词典以及利用G2P(Grapheme-to-Phoneme，字素到音素)模型预测的英文单词的音素。需要说明的是，英文发音词典中音素的概率默认为1。根据音素对齐的部分英文训练样本中音素出现的概率调整英文发音词典中音素的概率，调整后英文发音词典中音素的概率小于等于1。

第三训练阶段：

步骤S401、结合其它英文训练样本训练所述SAT模型。

在步骤S401具体实施的一个例子中，利用第二训练阶段训练得到的SAT模型对其它的时长为60小时的英文训练样本进行音素对齐，根据音素对齐的英文训练样本重新训练新的SAT模型。再利用新的SAT模型对时长为160小时的英文训练样本进行音素对齐，重新训练新的SAT模型。再利用新的SAT模型结合增加的时长为140小时的英文训练样本，即时长共300小时的英文训练样本进行音素对齐，重新训练新的SAT模型。再利用新的SAT模型结合增加的时长为260小时的英文训练样本，即时长共560小时的英文训练样本进行音素对齐，重新训练新的SAT模型。

训练结束，输出SAT模型。

本实施方式中，基于英文具有发音长、音素短的特点，制定了训练SAT模型的训练策略，实现了SAT模型的精细化建模。经过三个训练阶段之后输出训练好的SAT模型，基于训练好的SAT模型对英文训练样本进行音素对齐，使得音素对齐的准确率得到了保证。

将全部英文训练样本输入训练好的SAT模型，得到音素对齐的英文训练样本。

结合前面的例子，将时长为560小时的英文训练样本输入训练好的SAT模型，得到音素对齐的英文训练样本。

实施例2

本发明实施例提供一种语音音素的识别系统30，如图3所示，包括接收模块31、分帧模块32以及识别模块33。

接收模块31用于接收通话语音的音频数据；其中，所述音频数据对应的语言为英文。

分帧模块32用于根据预设的帧移和帧长对所述音频数据进行分帧处理。

识别模块33用于利用音素识别模型对每帧音频数据的音素进行识别，其中，所述音素识别模型是基于音素对齐的英文训练样本训练得到的。

在可选的一种实施方式中，识别模块33具体包括确定单元、提取单元以及输入单元。

确定单元用于确定待识别的当前帧音频数据。

提取单元用于针对所述当前帧音频数据之前的音频数据、所述当前帧音频数据以及所述当前帧音频数据之后的音频数据，分别提取每帧音频数据的目标特征。

输入单元用于将提取的所有目标特征输入所述音素识别模型，得到所述当前帧音频数据的音素。

在可选的一种实施方式中，上述目标特征包括梅尔倒谱特征和I-Vector特征。

考虑到英文具有发音长、音素短的发音特点，在可选的一种实施方式中，上述语音音素的识别系统30还包括获取模块34，用于通过以下步骤获取所述音素对齐的英文训练样本：

统计英文训练语料中所有音频数据的时长；

选取时长最短的第一数量的音频数据训练单音素对齐模型；

从所述英文训练语料中随机选取第二数量的音频数据，利用所述单音素对齐模型对所述第二数量的音频数据进行音素对齐；

根据音素对齐的音频数据训练三音素对齐模型；

利用所述三音素对齐模型对部分英文训练样本进行音素对齐；

根据音素对齐的部分英文训练样本训练SAT模型；

利用所述SAT模型对所述部分英文训练样本进行音素对齐，并提取音素对齐后的部分英文训练样本的FMLLR特征，根据所述FMLLR特征重新训练所述SAT模型；

结合其它英文训练样本训练所述SAT模型；

将全部英文训练样本输入所述SAT模型，得到音素对齐的英文训练样本；

实施例3

图4为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器、存储在存储器上并可在处理器上运行的计算机程序以及实现不同功能的多个子系统，所述处理器执行所述程序时实现实施例1的语音音素的识别方法。图4显示的电子设备3仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备3的组件可以包括但不限于：上述至少一个处理器4、上述至少一个存储器5、连接不同系统组件(包括存储器5和处理器4)的总线6。

总线6包括数据总线、地址总线和控制总线。

存储器5可以包括易失性存储器，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。

存储器5还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器4通过运行存储在存储器5中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的语音音素的识别方法。

电子设备3也可以与一个或多个外部设备7(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口8进行。并且，电子设备3还可以通过网络适配器9与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器9通过总线6与电子设备3的其它模块通信。应当明白，尽管图4中未示出，可以结合电子设备3使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的语音音素的识别方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的语音音素的识别方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：罗超;胡泓;李巍;
专利申请人：携程计算机技术(上海)有限公司;

上一篇：训练数据更新方法及系统、语音识别方法及系统、设备
下一篇：一种大数据图像传输、查看方法及系统