一种基于英语趣配音功能的交互式儿童英语训练系统

文献发布时间：2023-06-19 09:55:50

技术领域

本发明属于英语训练技术领域，尤其涉及一种基于英语趣配音功能的交互式儿童英语训练系统。

背景技术

兴趣是最好的老师，儿童英语学习不应要求孩子们掌握多少单词或句子，而应坚持将激发和培养儿童英语学习的兴趣放在首位，并将其作为儿童英语教育成效的一个重要指标。培养儿童学习兴趣，促进儿童全面发展应是英语教育机构的真正目的。在儿童英语学习过程中，需要教师通过各种生动、形象、有趣的手段来营造轻松愉快的学习氛围，以激发儿童的兴趣，让孩子在轻松快乐的气氛中自然习得英语。同时，活动要尊重儿童的身心特点，难度要适宜，当孩子取得哪怕是一点点进步时，也要及时加以表扬和鼓励，这样孩子学习的兴趣会更高。否则，刚刚萌发的学习兴趣幼苗受到扼杀，将对学前儿童今后的学习产生巨大的负面作用，甚至终生影响其第二语言学习。然而，现有基于英语趣配音功能的交互式儿童英语训练系统容易受噪声影响导致语音信号弱；同时，对英语语音识别准确度差。

综上所述，现有技术存在的问题是：现有基于英语趣配音功能的交互式儿童英语训练系统容易受噪声影响导致语音信号弱；同时，对英语语音识别准确度差。

发明内容

针对现有技术存在的问题，本发明提供了一种基于英语趣配音功能的交互式儿童英语训练系统。

本发明是这样实现的，一种基于英语趣配音功能的交互式儿童英语训练系统包括：

语音采集模块、主控模块、语音增强模块、语音识别模块、语音翻译模块、英语游戏模块、英语测试模块、显示模块；

语音采集模块，与主控模块连接，用于通过语音采集器采集儿童英语发音的语音数据；

主控模块，与语音采集模块、语音增强模块、语音识别模块、语音翻译模块、英语游戏模块、英语测试模块、显示模块连接，用于通过主控器控制各个模块正常工作；

语音增强模块，与主控模块连接，用于通过语音增强器对采集的英语语音信号进行增强；

语音识别模块，与主控模块连接，用于通过语音识别器对采集的英语语音进行识别；

语音翻译模块，与主控模块连接，用于通过翻译程序对识别的英语语音进行翻译；

英语游戏模块，与主控模块连接，用于通过英语游戏程序进行英语游戏；

英语测试模块，与主控模块连接，用于通过测试程序对儿童英语进行测试；

显示模块，与主控模块连接，用于通过显示器显示英语语音识别结果、翻译结果、游戏内容、测试结果。

进一步，所述语音增强模块增强方法如下：

(1)通过语音处理程序获取关于所述识别对象语言的原始学习数据组，其中包含在所述原始学习数据组中的各个原始学习数据包含学习用英语语音数据及与所述学习用英语语音数据对应的文本信息；

(2)通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签；

(3)通过学习包含在所述各个原始学习数据中的学习用英语语音数据及与所述学习用英语语音数据对应的目标标签，构建基于深度神经网络的声学模型，

(4)在包含于所述目标标签的字母中，不同的字母在所述声学模型中被定义为彼此不同的类，即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类。

进一步，所述目标标签包含分写，所述分写包含在所述文本信息中，其中所述分写在所述声学模型中被定义为单独的类。

进一步，所述在包含于所述目标标签的相同的字母中，发音的字母和不发音的字母在所述声学模型中被定义为彼此不同的类。

进一步，所述构建所述声学模型的步骤包括：

(2.1)利用连接时序分类方法来更新构成所述声学模型的深度神经网络的加权值；

(2.2)利用图形处理器及并非所述图形处理器的其他处理单元来学习所述声学模型，其中由所述图形处理器处理的运算量随着所述声学模型中定义的类的个数增加而增加。

进一步，所述深度神经网络包含递归神经网络、双向递归神经网络、长短期记忆、双向长短期记忆、门控循环单元和双向门控循环单元中的至少一种。

进一步，所述识别对象语言为英语，

在包含于所述目标标签的相同的辅音中，排列位置为初声的辅音和排列位置为终声的辅音在所述声学模型中被定义为彼此不同的类。

进一步，所述语音识别模块识别方法如下：

1)通过语音识别程序提取各英语语音帧的声学特征；

2)利用干净英语语音的与噪声英语语音的样本对渐进式双输出神经网络模型进行训练，利用训练后的渐进式双输出神经网络模型估计各英语语音帧的理想软掩蔽，并进行声学特征的增强处理；

3)如果应用到人耳，则利用增强后的声学特征对波形进行重构，得到可主观测听的波形；如果应用到英语语音识别系统，则将估计到的理想软掩蔽应用到输入英语语音的声学特征上上，得到掩蔽后的声学特征，然后对波形进行重构得到增强后的英语语音。

进一步，所述通过语音识别程序提取各英语语音帧的声学特征包括：

1.1)对输入的英语语音信号进行分帧处理，获得英语语音帧序列；

1.2)声学特征采用对数功率谱特征，在提取各英语语音帧对数功率谱特征时，通过傅立叶变换和取模得到频域信号：

上式中，d为频率维度，h(l)为窗函数，L为做离散傅里叶变换的点数；

对数功率谱特征定义为：

Y(d)＝log|Y(d)'|

上式中，D＝L/2+1。

进一步，所述增强方法还包括：将提取的声学特征作为渐进式双输出神经网络模型的输入之前，还进行连续帧的拼接，拼接时以一定数量的帧拼接后的数据作为一个样本，样本的中心帧的标注作为其所在样本的标注。

进一步，所述渐进式双输出神经网络模型按照信噪比逐渐增加的方式去学习最终目标，最终训练好的渐进式双输出神经网络模型能够预测各个时频点的理想软掩蔽，还能够对声学特征进行增强处理，即预测干净英语语音的对数功率谱特征。

进一步，所述预测干净的对数功率谱特征的公式为：

其中，

本发明的优点及积极效果为：本发明通过语音增强模块基于渐进式双输出神经网络模型来做语音增强，既可以输出深度降噪后的语音来满足人耳的降噪需求，又可以同时输出部分降噪、提升了一定信噪比的语音来匹配后端数据驱动的识别模型；通过人工测听和客观指标度量，深度降噪后的语音在主观听感和各项指标上都取得了显著提升；同时，通过语音识别模块可以大大提高英语语音识别准确度。

附图说明

图1是本发明实施例提供的基于英语趣配音功能的交互式儿童英语训练系统结构框图。

图2是本发明实施例提供的语音增强模块增强方法流程图。

图3是本发明实施例提供的构建所述声学模型的方法流程图。

图4是本发明实施例提供的语音识别模块识别方法流程图。

图5是本发明实施例提供的通过语音识别程序提取各英语语音帧的声学特征方法流程图。

图1中：1、语音采集模块；2、主控模块；3、语音增强模块；4、语音识别模块；5、语音翻译模块；6、英语游戏模块；7、英语测试模块；8、显示模块。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示，本发明实施例提供的基于英语趣配音功能的交互式儿童英语训练系统包括：

语音采集模块1、主控模块2、语音增强模块3、语音识别模块4、语音翻译模块5、英语游戏模块6、英语测试模块7、显示模块8。

语音采集模块1，与主控模块2连接，用于通过语音采集器采集儿童英语发音的语音数据；

主控模块2，与语音采集模块1、语音增强模块3、语音识别模块4、语音翻译模块5、英语游戏模块6、英语测试模块7、显示模块8连接，用于通过主控器控制各个模块正常工作；

语音增强模块3，与主控模块2连接，用于通过语音增强器对采集的英语语音信号进行增强；

语音识别模块4，与主控模块2连接，用于通过语音识别器对采集的英语语音进行识别；

语音翻译模块5，与主控模块2连接，用于通过翻译程序对识别的英语语音进行翻译；

英语游戏模块6，与主控模块2连接，用于通过英语游戏程序进行英语游戏；

英语测试模块7，与主控模块2连接，用于通过测试程序对儿童英语进行测试；

显示模块8，与主控模块2连接，用于通过显示器显示英语语音识别结果、翻译结果、游戏内容、测试结果。

如图2所示，本发明提供的语音增强模块3增强方法如下：

S101，通过语音处理程序获取关于所述识别对象语言的原始学习数据组，其中包含在所述原始学习数据组中的各个原始学习数据包含学习用英语语音数据及与所述学习用英语语音数据对应的文本信息；

S102，通过将包含在所述各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签；

S103，通过学习包含在所述各个原始学习数据中的学习用英语语音数据及与所述学习用英语语音数据对应的目标标签，构建基于深度神经网络的声学模型；

S104，在包含于所述目标标签的字母中，不同的字母在所述声学模型中被定义为彼此不同的类，即便是相同的字母，在排列位置不同的情况下也被定义为彼此不同的类。

本发明提供的目标标签包含分写，所述分写包含在所述文本信息中，其中所述分写在所述声学模型中被定义为单独的类。

本发明提供的在包含于所述目标标签的相同的字母中，发音的字母和不发音的字母在所述声学模型中被定义为彼此不同的类。

如图3所示，本发明提供的构建所述声学模型的步骤包括：

S201，利用连接时序分类方法来更新构成所述声学模型的深度神经网络的加权值；

S202，利用图形处理器及并非所述图形处理器的其他处理单元来学习所述声学模型，其中由所述图形处理器处理的运算量随着所述声学模型中定义的类的个数增加而增加。

本发明提供的深度神经网络包含递归神经网络、双向递归神经网络、长短期记忆、双向长短期记忆、门控循环单元和双向门控循环单元中的至少一种。

本发明提供的识别对象语言为英语，

在包含于所述目标标签的相同的辅音中，排列位置为初声的辅音和排列位置为终声的辅音在所述声学模型中被定义为彼此不同的类。

如图4所示，本发明提供的语音识别模块4识别方法如下：

S301，通过语音识别程序提取各英语语音帧的声学特征；

S302，利用干净英语语音的与噪声英语语音的样本对渐进式双输出神经网络模型进行训练，利用训练后的渐进式双输出神经网络模型估计各英语语音帧的理想软掩蔽，并进行声学特征的增强处理；

S303，如果应用到人耳，则利用增强后的声学特征对波形进行重构，得到可主观测听的波形；如果应用到英语语音识别系统，则将估计到的理想软掩蔽应用到输入英语语音的声学特征上上，得到掩蔽后的声学特征，然后对波形进行重构得到增强后的英语语音。

如图5所示，本发明提供的通过语音识别程序提取各英语语音帧的声学特征包括：

S401，对输入的英语语音信号进行分帧处理，获得英语语音帧序列；

S402，声学特征采用对数功率谱特征，在提取各英语语音帧对数功率谱特征时，通过傅立叶变换和取模得到频域信号：

上式中，d为频率维度，h(l)为窗函数，L为做离散傅里叶变换的点数；

对数功率谱特征定义为：

Y(d)＝log|Y(d)'|

上式中，D＝L/2+1。

本发明提供的增强方法还包括：将提取的声学特征作为渐进式双输出神经网络模型的输入之前，还进行连续帧的拼接，拼接时以一定数量的帧拼接后的数据作为一个样本，样本的中心帧的标注作为其所在样本的标注。

本发明提供的渐进式双输出神经网络模型按照信噪比逐渐增加的方式去学习最终目标，最终训练好的渐进式双输出神经网络模型能够预测各个时频点的理想软掩蔽，还能够对声学特征进行增强处理，即预测干净英语语音的对数功率谱特征。

本发明提供的预测干净的对数功率谱特征的公式为：

其中，

本发明工作时，首先，通过语音采集模块1利用语音采集器采集儿童英语发音的语音数据；其次，主控模块2利用主控器控制各个模块正常工作；通过语音增强模块3利用语音增强器对采集的英语语音信号进行增强；通过语音识别模块4利用语音识别器对采集的英语语音进行识别；通过语音翻译模块5利用翻译程序对识别的英语语音进行翻译；通过英语游戏模块6利用英语游戏程序进行英语游戏；然后，通过英语测试模块7利用测试程序对儿童英语进行测试；最后，通过显示模块8利用显示器显示英语语音识别结果、翻译结果、游戏内容、测试结果。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王园园;
专利申请人：莱芜职业技术学院;

上一篇：一种模拟像增强器近贴距离参数的测试装置及方法
下一篇：一种施工现场用防护安全棚