一种语言学习方法及系统

文献发布时间：2023-06-19 11:05:16

技术领域

本发明涉及软件信息技术领域，具体涉及一种语言学习方法及系统。

背景技术

语言作为一个交流工具，能够正确标准的发音是现代语言教学与学习的一个重要目标。在发音学习中，有效的反馈是必不可少的一个重要环节。在传统的课堂教学中教师是一个有效的反馈源，然而由于课堂时间和教师资源都是有限的，不能保证每个学生的发音都能得到有效的反馈。另外，语言的学习是需要反复训练的，这也是传统课堂教学方式所不能提供的。在学习时，学生需要一个“教师”随时随地的对自己的听说训练进行有效的反馈和指导。

目前，随着互联网的迅猛发展，计算机辅助语言学习(CALL，Computer-AidedLanguageLeaming)技术‘11的兴起和发展为语言发音教学提供了新的途径。CALL是指在一定的语言学和心理学的理论基础上，利用计算机和信息技术辅助外语学习。结合自动语音分析技术的CALL可以用来进行辅助发音学习，学习者可以随时随地的得到即时的有效反馈，根据反馈信息及时调整改进自己的发音，有效的弥补了传统课堂语言教学中发音反馈的不足。但是，单纯的机器学习仍有不足，无法根据个体经验实时对进行在线指导和纠正。

发明内容

针对现有技术中的缺陷，本发明提供一种语言学习方法及系统，面向于外文的辅助学习对上传的语音和作业进行评分，从而增加了系统的可行性。

本发明的目的是采用下述技术方案实现的：

一种语言学习方法，所述方法包括：

基于用户信息及其相应的用户终端编号成功登陆系统后，对系统捕获的原始语音信号进行处理，对单词发音的孤立词语音分析，求取每个滤波器组输出的对数能量；

对输出的对数能量进行离散余弦变换，最终得到MFCC参数；

基于MFCC参数生成对应语音模型,保存语音模型文件；

采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型；

采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

优选的，所述用户信息成功登陆系统前包括预先存储步骤，预先将用户信息及其相应的用户终端编号保存到学生信息库，所述学生信息包括学生的标准照片。

优选的，所述对系统捕获的原始语音信号进行处理具体包括：对系统捕获的原始语音信号进行预加重、分帧、加窗预处理，得到每个语音帧的时域信号，然后对实施离散傅里叶变换得到线性频谱。

优选的，对单词发音的孤立词语音分析，求取每个滤波器组输出的对数能量包括：

计算所述线性频谱的能量谱，使用一组Mel尺度的三角形滤波器在频域对能量谱进行带通滤波。

进一步地，所述计算所述线性频谱的能量谱包括：

对于音素q

音素q

进一步地，通过下式计算q

其中，p(x

进一步地，通过下式计算音素q

其中，τ

优选的，所述标准音特征识别数据生成的步骤如下：使用编辑好的标准音频和标准文本配置文件和编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容。

优选的，所述语音模型生成模块的步骤如下：调用语音识别引擎,传入声学模型和生成的文段语音模型,依次对在预先生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型，在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。

一种语言学习系统，所述系统包括：

处理模块，用于基于用户信息及其相应的用户终端编号成功登陆系统后，对系统捕获的原始语音信号进行处理，对单词发音的孤立词语音分析，求取每个滤波器组输出的对数能量；

获取模块，用于对输出的对数能量进行离散余弦变换，最终得到MFCC参数；

第一生成模块，用于基于MFCC参数生成对应语音模型，保存语音模型文件；

第二生成模块，用于采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理，生成并保存标准音数据模型；

评分模块，用于采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

与最接近的现有技术比，本发明的有益效果为：

本发明提供一种语言学习系统方法及系统，解决l外语学习课堂上教师和时间资源的有限性，作为反馈源随时随地对学习者发音进行指导。

本发明利用自动语音分析技术对单词发音学习进行指导，使得本文工作是语音分析技术和语言教学的一个有效契合点，对语音技术和外语教学的进一步结合发展具有较强的参考意义。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明所提供的方法流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例一

本发明涉及软件信息技术领域，实施例提供一种语言学习方法，所述方法包括：

S101基于用户信息及其相应的用户终端编号成功登陆系统后，对系统捕获的原始语音信号进行处理，对单词发音的孤立词语音分析，求取每个滤波器组输出的对数能量；

S102对输出的对数能量进行离散余弦变换，最终得到MFCC参数；

S103基于MFCC参数生成对应语音模型,保存语音模型文件；

S104采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型；

S105采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

步骤S101中，所述用户信息成功登陆系统前包括预先存储步骤，预先将用户信息及其相应的用户终端编号保存到学生信息库，所述学生信息包括学生的标准照片。

步骤S102中，所述对系统捕获的原始语音信号进行处理具体包括：对系统捕获的原始语音信号进行预加重、分帧、加窗预处理，得到每个语音帧的时域信号，然后对实施离散傅里叶变换得到线性频谱。

此外，步骤S102中，对单词发音的孤立词语音分析，求取每个滤波器组输出的对数能量包括：

计算所述线性频谱的能量谱，使用一组Mel尺度的三角形滤波器在频域对能量谱进行带通滤波。

其中，计算所述线性频谱的能量谱包括：

对于音素q

音素q

通过下式计算q

其中，p(x

通过下式计算音素q

其中，τ

步骤S104中，标准音特征识别数据生成的步骤如下：使用编辑好的标准音频和标准文本配置文件和编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容。

所述语音模型生成模块的步骤如下：调用语音识别引擎,传入声学模型和生成的文段语音模型,依次对在预先生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型，在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。

英文的发音和学习水平的衡量评分方法是英文学习系统中使用到的另一项关键技术，不合理的评分算法会对发音给出错误的评分，对学习者造成误导。发音水平的计算机评分结果要可靠，要求尽可能的和现实专家对发音的评分保持一致。

现有评估发音质量的主要方法有：段分类评分、段时长评分等、HMM对数似然度评分和对数后验概率评分。它们的原理都是以标准发音为模板，通过计算学习者发音和这些模板之间相似度进行的。本发明是对单词发音的孤立词语音分析，因此段分类评分和段时长评分不适用本申请。以往的研究结果表明，对数后验概率评分具有最好的适用性，因此本文选取其作为英语学习的评分算法。

基于使用对数后验概率评分得到的分数不够直观，不便于学习者理解和接受，因此需要将该得分映射为一个概略的得分。系统将对数后验概率得分映射到A、B、C、D、E五个等级。为了鼓励学习者学习，评分最高的(和标准语音相似度)的35％都映射为等级A(非常标准)，同时为了督促学习者更好的掌握标准语音，评分最低后35％都被映射为等级E(非常不标准，建议学习重读)。当用户发音得分等级为D或E时，提示用户发音不合格，建议跟随标准发音重新学习。

为了进一步提高教学效果，本发明实施例还包括显示视频界面；为了提高视频的收看频率，具体地，该方法还包括：获取并显示商品展示界面。用户即可在观看指定的图片、视频时，也能够观看到相关的弹幕内容，有助于提高商品信息的传播效率。其中，指定的图片或视频可以是用户通过中心服务器关注的图片和视频，或好友推送的链接以及某张点击率较高的图片和视频。在指定图片的下方有一个滚动条，若用户欲详细了解弹幕信息，可向指定的方向滑动滚动条，则表示发送屏幕解锁指令，该方法还能够接收屏幕解锁指令，根据屏幕解锁指令，获取该商品信息的详细介绍和弹幕观看激励费用，以促进用户收看商品信息，该广告信息可以是文字、语音、商品展示或网页链接等，提高信息宣传效果。若用户不想了解广告信息，则可向指定的另一方向滑动滚动条，进入手机操作界面。

具体地，在播放视频之后，在屏幕的下方有一个滚动条，若用户欲详细了解弹幕，可向指定的方向滑动滚动条，则表示发送屏幕解锁指令，该方法还能够接收屏幕解锁指令。根据屏幕解锁指令，获取该弹幕的介绍信息和观看激励费用，用户即可获取该弹幕的详细介绍信息，该广告信息可以是文字、语音、商品展示或网页链接等，同时领取观看激励费用，如红包奖励等，以促进更多用户通过商品展示界面收看弹幕，从而提高商品展示界面的访问频率。若用户不想了解，则可向指定的另一方向滑动滚动条，进入手机操作界面。

基于同一发明技术构思，本发明实施例提供还提供一种语言学习系统，所述系统包括：

获取模块，用于对输出的对数能量进行离散余弦变换，最终得到MFCC参数；

第一生成模块，用于基于MFCC参数生成对应语音模型，保存语音模型文件；

第二生成模块，用于采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理，生成并保存标准音数据模型；

评分模块，用于采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：乐妙;王小波;
专利申请人：北京策腾教育科技集团有限公司;

上一篇：根据母材焊缝调节激光峰值的YAG焊接机能量调配机构
下一篇：一种植物油生产用超声波细胞破碎仪及植物油生产工艺