掌桥专利:专业的专利平台
掌桥专利
首页

一种西班牙语口语发音训练纠正方法及系统

文献发布时间:2023-06-19 16:06:26



技术领域

本发明属于计算机辅助教学领域,尤其涉及一种西班牙语口语发音训练纠正方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

西班牙语属拉丁语系,是罗曼语族的分支。以西班牙语为母语的人数仅次于汉语,居全世界第二。在西班牙语教育中,口语的学习占非常大的比重。然而,西班牙语某些音素的发音方式与汉语差异巨大,以汉语为母语的西班牙语学习者在初学阶段常常面临诸多发音困难:

首先,就辅音而言,清浊辅音以声带振动与否来区分,西班牙语中清浊辅音存在辨义区别,但中国北方方言(包括普通话在内)中的辅音不区分声带是否震动(也就是清浊),只区分送气和不送气,所以大部分时候我们的听觉系统都感受不到清浊辅音的差别,也自然无法正确发音。发明人在长期的教学和多个北方高校的调查中发现,中国西班牙语学习者在发不送气辅音时,普遍存在将不送气清辅音用送气的清辅音代替(如将原本不送气清辅音p发成送气清辅音)、将不送气浊辅音用不送气清辅音代替(如将原本不送气浊辅音b发成不送气清辅音)的现象。大部分中国西语学习者的第一习得外语是英语,而英语清辅音多送气,浊辅音多不送气,对以英语为母语的听者来说,尽管讲话者清浊不分,但可以通过送气与否区分词义,基本不构成交流问题,因此大部分中国英语学习者在学习的过程中清浊辅音不分的问题一直没有暴露出来。而在西班牙语中,辅音无论清浊都不送气,仅仅由声带是否震动(清浊)来区分词义(例如,Buda意为佛,b和d是浊不送气辅音;而puta意为妓女,p和t是清不送气辅音),因此上述用送气与否替代清浊的做法对西班牙语母语者会造成较大困扰。

综上所述,对中国西班牙语学习者尤其是北方学习者而言,西班牙语的清浊辅音比英语更为难以正确分辨和发音。由于缺乏练习和纠正,部分西班牙语学习者甚至在开始学习三四年之后都不能区分不送气的清辅音和浊辅音,因此,对于以汉语尤其是北方方言为母语的西班牙语学习者来说,区分清浊辅音一直是一个难点。

其次,重音位置对中国的西班牙语学习者来说也是一个经常出错的地方。由于汉语中不存在重读音节,西班牙语初学者发音时经常随意重读,给交流造成障碍。重音在西班牙语中非常重要,音素完全相同的单词可以因为重音的不同而改变语义,如:papá意为“爸爸”而papa则意为“土豆”;tómate为动词命令式,意为“你吃吧”,而tomate则是名词,意为“西红柿”。与汉语相比,西班牙语的重音规则相对复杂,以元音、s、n结尾的词重音落在倒数第二音节,以其他辅音结尾的词重音落在最后一个音节,而二重元音和两个强元音并列的情况更为复杂,给日常教学造成困难。

最后,汉语普通话中没有颤音,西班牙语中有单击颤音、多击颤音,并且颤音会造成语义上的区别,比如单击颤音pero意为“但是”,多击颤音perro意为“狗”,而不发颤音的pelo则意为“头发”。中国西班牙语学习容易在应该发颤音的地方以不颤的音素替代,或者在发单击颤音的地方发多击颤音,在发多击颤音的地方发单击颤音,因而常常造成语义上的混淆。

对于以上问题,传统语言学习中口语的学习纠正方法主要是通过课堂练习教师逐个单独纠正、以及课下学生通过跟读模仿标准语音资料反复练习的方法来进行。

传统发音训练及纠正方法有如下缺点:首先,在课堂练习中,一位教师只能同时纠正一位学生的发音,费时费力、效率不高,而在课下练习中,教师则完全无法即时纠正发音错误;其次,由于人类成年以后会丧失对非母语语音的敏感性,听觉上对非母语语音的失敏加上相对不充分的语言环境,以及受第一外语如英语的影响,导致学习者很难单纯通过听标准语音资料的方法自主纠正语音错误。

计算机辅助语言教学(computer-assisted language learning)可以被设计用来辅助解决以上问题。

发明人在实施本发明的过程中,发现已知计算机辅助语言教学技术在西班牙语辅助教学方面存在以下缺点:

(1)只能够对发音给出一个笼统的分数,无法就上述西班牙语学习者的发音难点给出具体评价;

(2)不能根据发音的具体问题自动给出纠正训练的方法;

(3)学生的学习情况教师不能及时掌握,不能向口语教师及时准确地反馈学生的学习情况;

(4)不能辅助教师及时对有问题的发音及时进行一对一的纠正。

发明内容

为了解决上述背景技术中存在的技术问题,本发明提供一种西班牙语口语发音训练纠正方法及系统,其能够对待训者的口语输入在发音质量的各相关方面进行评价,指出发音存在的具体问题并给出针对性的训练方法并反馈监督纠正结果,如此反复直到学习者形成条件反射;同时将学习记录上传,由教师决定是否反馈并亲自示范。加快了外语学习发音纠正的准确度,自动化了教师的部分工作,明显减轻了口语教师的工作。

为了实现上述目的,本发明采用如下技术方案:

本发明的第一个方面提供一种西班牙语口语发音训练纠正方法。

一种西班牙语口语发音训练纠正方法,包括:

获取待纠正语音语料,提取所述待纠正语音语料的特征参数;

根据所述待纠正语音语料的特征参数对所述待纠正语音进行发音错误识别,得到所述待纠正语音的发音错误识别结果;

分别对所述待纠正语音的每项指标进行评分,指出待纠正语音的每一项西班牙语发音中的错误,在给出语音的发音规律的同时给出针对性的训练资料并强化训练;

所述待纠正语音语料的特征参数包括梅尔倒谱系数-优化嗓音起始时间(MelFrequency Cepstrum Cofficient-Optimized Voice Onset Time,下称MFCC-OVOT)混合特征向量,所述MFCC-OVOT混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间,所述优化嗓音起始时间指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差。

本发明的第二个方面提供一种西班牙语口语发音训练纠正系统。

一种西班牙语口语发音训练纠正系统,包括:

获取模块,其被配置为:获取待纠正语音语料,提取所述待纠正语音语料的特征参数;

识别模块,其被配置为:根据所述待纠正语音语料的特征参数对所述待纠正语音进行发音错误识别,得到所述待纠正语音的发音错误识别结果;

输出训练模块,其被配置为:分别对所述待纠正语音的每项指标进行评分,指出待纠正语音的每一项西班牙语发音中的错误,在给出语音的发音规律的同时给出针对性的训练资料并强化训练;

所述待纠正语音语料的特征参数包括MFCC-OVOT混合特征向量,所述MFCC-OVOT混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间,所述优化嗓音起始时间指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的西班牙语口语发音训练纠正方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的西班牙语口语发音训练纠正方法中的步骤。

与现有技术相比,本发明的有益效果是:

本发明通过给出教师课堂上常使用的评判方法纠正发音,提高了发音训练的合理性和准确性,通过对所述项目的分数按照对应的权重系数进行加权,以得到总分,通过展示历史分数,可以形象的展示学习进度,提高学习的积极性,且教师可以针对不同题目设置各项指标的权重系数进行加权,使得评分方法更加灵活;通过反馈发音错误信息,被训者可以更清楚的了解自己的发音问题。也便于教师迅速掌握学习情况,提高教学工作的质量。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本发明示出的西班牙语口语发音训练纠正方法的流程图;

图2是本发明示出的西班牙语口语发音训练纠正系统的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示,本实施例提供了一种西班牙语口语发音训练纠正方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:

获取待纠正语音语料,提取所述待纠正语音语料的特征参数;

根据所述待纠正语音语料的特征参数对所述待纠正语音进行发音错误识别,得到所述待纠正语音的发音错误识别结果;

分别对所述待纠正语音的每项指标进行评分,指出待纠正语音的每一项西班牙语发音中的错误,在给出语音的发音规律的同时给出针对性的训练资料并强化训练;

所述待纠正语音语料的特征参数包括MFCC-OVOT混合特征向量,所述MFCC-OVOT混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间,所述优化嗓音起始时间指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差。

具体地,本实施例可采用如下步骤实现:

给出参考文本库、标记关键词关键信息;

录制标准参考文本库语音并建立标准正确语音语料模型;

根据参考文本录制不同的标准错误语音并建立标准错误模型;

给出一条参考文本并录制根据参考文本朗读的待纠正语音;

对录制的待纠正语音进行预处理,得到待纠正语音语料,提取所述待纠正语音预料的特征参数;

根据所述参考文本对所述对所述待纠正语音语料切分;

根据所述语音语料的切分对待纠正语音语料的每个评分项目进行成绩评分;

如果待纠正语音语料的某个评分项目的评分结果低于一定阀值则将该项目标记为需要纠正的语音语料,并将标记为需要纠正的语音语料与标准错误模型匹配,得到待纠正语音的错误类型;

将上述待纠正语音的错误类型与预先建立的纠正方法匹配,并给出纠正方法、发音规则,方便记忆(如适用);

记录学习进度,并向受训者直观展示。重复所述训练纠正方法,直至每个条目的成绩达到预先设定的数值;

将训练纠正情况传至教师端,并由教师决定是否反馈并亲自示教。

在一种可选的实施方式中,所述方法标记关键词关键信息包括:关键词的清辅音、浊辅音的发音、送气情况、重音位置,颤音(单击颤音、多击颤音)等中文母语者容易犯错的地方。

在一种可选的实施方式中,所述提取标准正确语音语料的特征参数模型包括:在常规语音训练的低噪声环境下使用MFCC-OVOT混合特征向量提取标准正确语音语料的特征参数。

在一种可选的实施方式中,所述提取标准错误语音语料的特征参数模型包括:

采用基于高斯混合模型-通用背景模型(Gaussian MixtureModel-UniversalBackground Model,下称GMM-UBM模型),提取标准错误语音语料的特征参数,在常规语音训练的低噪声环境下标准错误语音语料的特征参数使用MFCC-OVOT混合特征向量。在标准错误低样本量的情况下,将每个标准错误对应的正确发音的上述特征向量作为的GMM-UBM模型的输入向量,通过EM(Expection Maximizaiton,最大期望值)算法训练得到UBM模型;

通过UBM模型进行与每个标准错误的特征向量进行自适应变换(MAP)得到各个标准错误的GMM模型,作为所述标准错误的每个错误模型。通过GMM-UBM模型克服了标准错误样本数量不够的问题,更好的描述了标准错误的特征信息,提高了标准错误识别的准确性。

需要说明的是,所谓嗓音起始时间(Voice Onset Time,VOT)定义为口腔除阻时间与声带震动起始时间之差。VOT为正的话(先除阻再声带震动)就是不带声辅音,或者说清音。VOT如果长至20ms可以认为是送气音。反之如果VOT为零或者负数也就是浊辅音。所谓优化的嗓音起始时间(OVOT)指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差,这样做是为了有效避免两个西班牙语中两个辅音连续的情况。对于本实施例所针对的西班牙语发音训练纠正的辅音错误来说,除阻时间可以简单定义为语音语料按音素切分后音素开始时间,做为可选的,声带振动时间利用嗓音的周期性震动特性通过计算时域波形的相关系数决定,如果相关系数大于一预设数值即认为嗓音起始。送气与否可以通过OVOT来标记,由于西班牙语中没有送气辅音因此采用MFCC-OVOT混合特征向量而不是普通的MFCC特征向量可以更加有效的分辨出西班牙语发音中将不送气辅音发成送气辅音的错误分辨出来。

在一种可选的实施方式中,所述对预先录制的待纠正语音进行预处理,包括:对所述待纠正语音进行预加重、分帧、加窗和端点检测。高频部分在传播中会有比较大的衰减,通过预加重可以对高频部分进行提升,使信号的高频部分得到恢复,使频谱变得平坦。音频信号在一段时间内可以看作是平稳的,通过对所述语音信号进行分帧可以获得短时间内的相对平稳的语音信号以进行下一步处理。由于每帧之间的语音有一定的关联性,因此采取交叠分帧的方式,作为可选的,采用每帧30%的交叠方式进行分帧以保证语音信号之间的相关性,保证了每帧语音语料之间的平滑过渡。为了降低在对每帧语音进行快速傅立叶变换导致的频率泄漏,对每帧语音语料进行加窗处理,作为可选的,采用汉明窗函数对所述待纠正语音语料帧进行加窗。

对语音语料端点检测,作为可选的,采用通过提取时域短时能量和短时过零率的双门限法对所述待纠正语音语料进行端点检测。双门限法简单有效,可以避免小噪声的影响,在本方法/系统中已经足够好,端点检测后的语音语料可以作为下一步处理的输入。

以上通过对所述语音语料的预加重、分帧、加窗和端点检测可以实现对待纠正语音语料的预处理可以供后面步骤更好的提取特征参数。

在一种可选的实施方式中,所述根据所述待纠正语音语料的特征参数对所述待纠正语音语料切分包括:

根据给定的标准语音语料的隐马尔可夫HMM模型,按照维特比算法(ViterbiAlgorithm)调整HMM边界达到似然度最大化。在给定参考文本的情况下对待纠正语音语料进行音素和单词切分,确定单词音素的起始位置。

在一种可选的实施方式中,所述对待纠正语音语料进行清浊辅音错误进行识别评分,包括:提取所述待纠正语音语料的特征参数;根据所述待纠正语音语料的特征参数和标准语音语料的特征参数通过GMM计算概率,根据所述概率对所述语音语料进行评分。

在一种可选的实施方式中,所述将标记为需要纠正的语音语料与标准错误模型匹配包括:使用所述提取所述待纠正语音的特征参数;基于预先根据所述标准错误语音的特征参数建立的语音模型和根据所述待纠正语音语料的特征参数对所述待纠正语音语料进行匹配,得到匹配结果:即根据所述待纠正语音语料的特征参数和标准错误语音语料的特征参数通过GMM计算概率,计算该概率与上述待纠正语音与标准正确语音计算得到的概率之比,若大于一定值者则说明待纠正语音存在标准错误中对应的问题。通过结合所述待纠正语音语料与标准正确语音语料的相关性和所述待纠正语音语料与标准错误语音语料的相关性,提高了检测的准确性。

可选的,所述给出纠正训练方法包括:

给出标准正确发音的口型动画;

给出标准正确发音的语谱图;

给出录入的待训语音的语谱图;

给出口语教师预先录制的针对此发音错误的纠正技巧和方法;

给出下一步针对此发音错误的训练内容。

在一种可选的实施方式中,所述记录学习进度,并向受训者直观展示包括记录历次成绩并以直观的方式展示出来。作为优选的,将历次成绩按时间顺序以柱状图的形式表示出来。

作为优选的,所述将训练纠正情况传至教师端,可以通过将训练纠正情况传至云端服务器,并向教师推送训练简报并由教师根据简报由教师端(以手机上的app或者个人PC上的可执行程序或者web端的方式)从服务器获取详细信息并根据需要反馈至受训者端的方式实现。

实施例二

重音表现为重音音节的短时能量高于单词内的其他音素,并且发音长度长于非重音时的长度。因此可以通过将待训语音语料和标准正确语音语料对比计算重音位置音素的平均能量和发音长度来得到重音位置是否错误。

本实施例提供了一种西班牙语口语发音训练纠正方法。

本实施例除了包括第一实施例中的全部内容外,还进一步限定了所述对所述重音位置错误评分及错误匹配的具体步骤为:

提取所述标准正确语音语料每个音素的平均短时能量;

提取所述标准正确语音语料每个音素的时长;

计算所述标准正确语音语料每个重音音素的平均短时能量与同一单词内其他音素的平均短时能量平均值的比值,即相对强度E;

计算所述标准正确语音语料每个重音音素的平均时长与同一单词内其他音素的平均时长平均值的比值即相对时长T;

计算所述标准正确语音语料的重音加权值:W=E×c+T×(1-c),其中E为相对强度,c∈{0,1}为预先设定的常数,T是相对时长;

获取所述待纠正语音语料每个音素的平均短时能量E

提取所述待纠正语音语料每个音素的时长T

提取所述待纠正语音语料中每个音素的重音加权值:W

重音加权值最大的即为所述待评分语音语料的实际重音音素;

将实际重音音素位置与标准正确语音语料中的已知重音音素位置比较,若不一致则提示重音位置错误并给出正确重音音素以及重音规则(如适用),若一致则计算所述待纠正语音语料的重音加权值与所述标准正确语音语料的重音加权值之比R=W

根据所述重音位置错误和比值R对所述待评分语音语料的重音进行评分;

作为优选的,对待纠正语音语料中的所述重音位置加权评分可以表示为:

实施例三

西班牙语中的颤音都是大舌颤音,或者说舌龈颤音,分为单击颤音和多击颤音。单击颤音是指发音过程中舌尖敲击上颚一次,多击颤音是指舌尖敲击上颚三次或者三次以上,每一颤的时间大致与单击颤音的时间相等。在时域图上,单击颤音延续一般在30-40ms左右且能量集中在音素总时长的0.6倍左右,多击颤音延续时间一般在单击颤音的三倍或者三倍以上并且表现为多个单击的连续拼接,能量也是集中在每次单击所占时长的0.6倍左右,因此单击颤音和多击颤音可以比较容易的从音素时长和短时能量密度的周期性分辨出来。

本实施例提供了一种西班牙语口语发音训练纠正方法,除了包括第一实施例中的全部内容外,还进一步限定了对颤音错误评分及错误匹配的具体步骤为:

提取所述待纠正语音语料颤音音素的时长;

获取所述待纠正语音语料颤音音素的平均短时能量;

短时能量初次大于某一阀值是为击发,连续一段时间能量小于一阀值则为则认为是击发间隙,计算击发次数,如果大于等于三次则是多颤,如果一次则是单颤;

将计算得到的单颤/多颤与实现标注的正确发音比较,如果错误,给出提示;

根据正确颤音次数/文本中总颤音次数给出颤音评分。

实施例四

如图2所示,本实施例提供了一种西班牙语口语发音训练纠正系统。

一种西班牙语口语发音训练纠正系统,包括:

获取模块,其被配置为:获取待纠正语音语料,提取所述待纠正语音语料的特征参数;

识别模块,其被配置为:根据所述待纠正语音语料的特征参数对所述待纠正语音进行发音错误识别,得到所述待纠正语音的发音错误识别结果;

输出训练模块,其被配置为:分别对所述待纠正语音的每项指标进行评分,指出待纠正语音的每一项西班牙语发音中的错误,在给出语音的发音规律的同时给出针对性的训练资料并强化训练;

所述待纠正语音语料的特征参数包括MFCC-OVOT混合特征向量,所述MFCC-OVOT混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间,所述优化嗓音起始时间指的是声带震动与所对应音素结束中的较早发生的时间与口腔除阻时间之差。

具体地,本实施例上述获取模块包括下列模块中的给出参考文本库模块,参考文本库对应的标准正确语音语料库模块,参考文本库对应的标准错误语音语料库模块,出题模块,待纠正语音预料的录制、处理模块和语音语料切分模块。识别模块包括下列模块中的待纠正语音语料的每个评分项目的评分模块和错误匹配、纠正模块。输出训练模块包括下列模块中的训练进展记录、展示模块,教师互动模块。需要注意的是,本实施例不仅限于上述三种模块。本实施例的具体技术方案可以参考以下模块实现:

给出参考文本库模块,用于记录用于训练的文本内容和文本的关键词以及关键信息;

参考文本库对应的标准正确语音语料库模块,用于建立上述文本对应的标准正确语音语料模型;

参考文本库对应的标准错误语音语料库模块,用于建立上述文本对应的标准错误语音语料模型;

出题模块,用于根据训练者的训练历史从参考文本库中取出待训练的文本;

待纠正语音预料的录制、处理模块,用于录制待纠正的语音并进行预处理、提取所述待纠正语音语料的特征参数;

语音语料切分模块,用于对语音语料进行切分;

待纠正语音语料的每个评分项目的评分模块,用于对待纠正语音语料料的每个评分项目进行成绩评分;

错误匹配、纠正模块,用于匹配待纠正语音语料的主要错误,并给出训练改进方法;

训练进展记录、展示模块,用于记录历次训练的成绩以及向受训者直观展示学习进度;

教师互动模块,将训练纠正情况传至教师端并由教师决定是否反馈。

在一种可选的实施方式中,所述参考文本库模块包含用于训练的文本内容和文本的关键词以及关键信息,所述关键词关键信息包括:关键词的清辅音、浊辅音的发音、送气情况,重音位置,颤音(单击颤音、多击颤音)等中文母语者容易犯错的地方。

在一种可选的实施方式中,所述参考文本库对应语音的标准正确语音语料库模块包括对参考文本库对应的标准正确语音进行预加重、分帧、加窗、端点检测并提取特征参数。

作为优选的,所述预加重对高频部分进行提升,使信号的高频部分得到恢复,使频谱变得平坦。音频信号在段时间内可以看作是平稳的,所述分帧通过对所述语音信号进行切段可以获得短时间内的相对平稳的语音信号以进行下一步处理。由于每帧之间的语音有一定的关联性,因此采取交叠分帧的方式,作为可选的,采用每帧30%的交叠方式进行分帧以保证语音信号之间的相关性,保证了每帧语音语料之间的平滑过渡。所述加窗是指为了降低在对每帧语音进行快速傅立叶变换导致的频率泄漏,对每帧语音语料经行加窗处理,作为可选的,采用汉明窗函数对所述待纠正语音语料帧进行加窗。

所述端点检测为采用通过提取时域短时能量和短时过零率的双门限法对所述待纠正语音语料进行端点检测。双门限法简单有效,可以避免小噪声的影响,在本方法/系统中已经足够好,端点检测后的语音语料可以作为下一步处理的输入。以上通过对所述语音语料的预加重、分帧、加窗和端点检测可以实现对语音语料的预处理并供后面步骤更好的提取特征参数。

作为优选的,所述提取标准正确语音语料的特征参数模型包括:在常规语音训练的低噪声环境下使用MFCC-OVOT(梅尔频率倒谱系数-优化嗓音起始时间)混合特征向量提取标准正确语音语料的特征参数。使用MFCC-OVOT混合特征向量而不是仅使用传统的MFCC特征向量可以更加有效的分辨出西班牙语发音中将不送气辅音发成送气辅音的错误。

在一种可选的实施方式中,所述参考文本库的标准错误语料库模块,用于建立与文本库中文本对应的标准错误语音语料模型,可以采用与参考文本库语音的标准正确语音语料库模块相同的步骤,不同点在于建立模型的对象是标准错误语音语料并采用GMM-UBM模型提取特征参数。通过GMM-UBM模型克服了标准错误样本数量不够的问题,更好的描述了标准错误的特征信息,提高了标准错误识别的准确性。

在一种可选的实施方式中,所述出题模块用于根据训练者的训练历史从参考文本库中取出待训练的文本,如果训练者是第一次训练则随机给出文本供训练者朗读;如果不是第一次训练,则根据历次训练的结果,则根据分数比较低的项目选择对应项目成分较大的文本重点训练。

在一种可选的实施方式中,所述待纠正语言预料的录制、处理模块,用于录制待纠正的语音语料并进行预处理、提取待特征参数。在一种可选的实施方式中,所述录制、预处理以及提取特征参数可以采用与参考文本库语音的标准错误语音语料库模块相同的方法步骤,不同在于处理的对象是训练者录制的待纠正的语音预料。

在一种可选的实施方式中,所述语音语料切分模块,用于对语音语料进行切分,可以根据给定语音语料的隐马尔可夫(HMM)模型,按照维特比算法(Viterbi Algorithm)调整HMM边界达到似然度最大化。在给定参考文本的情况下对待纠正语音语料进行音素和单词切分,确定单词音素的起始位置。在正常低噪音环境下,切分可以达到足够的准确度。

在一种可选的实施方式中,所述待纠正语音语料的每个评分项目的评分模块包括清浊辅音发音评分模块、重音评分模块、颤音(单击颤音、多击颤音)评分模块。

作为优选的,所述清浊辅音发音评分模块根据所述待纠正语音语料的特征参数和标准语音语料的特征参数通过GMM计算概率,根据所述概率对所述待纠正语音语料进行评分。

在一种可选的实施方式中,所述错误匹配、纠正训练模块包括对待纠正语音语料的错误匹配单元,训练纠正方法单元。作为优选的,其中错误匹配单元部分包括:使用所述待纠正语音语料的MFCC-OVOT特征参数与预先建立的对应标准错误语音的特征参数进行匹配,得到匹配结果;即根据所述待纠正语音语料的特征参数和标准错误语音语料的特征参数通过GMM计算概率,计算该概率与上述待纠语音语料与标准正确语音语料计算得到的概率之比,若大于一定值者则说明待纠正语音存在标准错误中对应的问题。通过结合所述待纠正语音语料与标准正确语音语料的相关性和所述待纠正语音语料与标准错误语音语料的相关性,提高了检测的准确性。作为优选的,其中训练纠正方法单元部分用给出纠正训练发音的方法,包括:给出标准发音的口型动画;给出标准发音的语谱图;给出录入的待训语音的语谱图;给出口语教师预先录制的针对此发音错误的纠正技巧和方法;给出下一步针对此发音错误的训练内容。

在一种可选的实施方式中,训练进展记录、展示模块用于记录历次成绩并以直观的方式展示出来。作为优选的可以将历次成绩按时间顺序以柱状图的形式表示出来。

在一种可选的实施方式中,教师互动模块,用于将训练纠正情况传至教师端,由教师决定如何对发音训练做出反馈,包括受训者端,云端和教师端三部分,其中受训者端负责将训练数据上传至云端服务器,教师端定时查询云端数据从而及时得知受训者情况,并由教师根据需要以文本或音频形式的反馈传至云端服务器进而推送至受训者端,完成语音纠正训练的闭环。教师端可以以手机上的app或者个人PC上的可执行程序或者web端的方式实现。

实施例五

本实施例还提供了一种西班牙语口语发音训练纠正系统的又一实施例,其包括实施例四所述的西班牙语口语发音训练纠正系统的全部,还进一步限定了所述错误评分模块以及错误匹配纠正模块中对重音位置错误评分单元及错误匹配单元具体包括为:

重音能量、时长提取单元,用于提取所述标准正确语音语料和待纠正语音语料每个音素的平均短时能量和每个音素的时长;

相对强度计算单元,分别计算所述标准正确语音语料已标记的重音音素和待纠正语音语料每个音素的平均短时能量与同一单词内其他音素的平均短时能量平均值的比值,即相对强度E,E

相对时长计算单元,分别计算所述标准正确语音语料已标记的重音音素和待纠正语音语料每个音素的平均时长与同一单词内其他音素的平均时长平均值的比值即相对时长T,T

重音加权值计算单元,分别计算所述标准正确语音语料已标记的重音音素和待纠正语音语料的每个音素的加权值:W=E×c+T×(1-c),W

待纠正语音语料重音音素判别单元,提取待纠正语音语料重音加权值最大的即为所述待纠正语音语料的实际重音音素;

待纠正语音语料重音位置对比单元:将实际重音音素位置与标准正确语音语料中的已知重音音素位置比较,若不一致则提示重音位置错误并给出正确重音音素以及重音规则(如适用),若一致则计算所述待纠正语音语料的重音加权值与所述标准正确语音语料的重音加权值之比R=W

待纠正语音语料重音位置评分单元:根据所述待纠正语音语料的重音位置错误次数和比值R对所述待纠正语音语料的重音进行评分;作为优选的,对待纠正语音语料中的所述重音位置加权评分可以表示为:

实施例六

本实施例还提供了一种西班牙语口语发音训练纠正系统的又一实施例,其包括实施例四所述的西班牙语口语发音训练纠正系统的全部,还进一步限定了所述错误评分模块以及错误匹配纠正模块中对颤音错误的评分单元及错误匹配单元具体包括为:

待纠正语音语料颤音音素的时长、能量提取单元,用于提取所述待纠正语音语料颤音音素的时长以及所述待纠正语音语料颤音音素的平均短时能量;

待纠正语音预料颤音音素判断单元,用于判断单颤还是多颤。短时能量初次大于某一阀值视为击发,连续一段时间能量小于一阀值则为则认为是击发间隙,计算击发次数,如果大于等于三次则是多颤,如果一次则是单颤;

待纠正语音语料颤音音素错误评分单元,将计算得到的单颤、多颤与事先标注的正确发音颤音情况相比较,并根据正确颤音次数与文本中总颤音次数的比值给出颤音评分。

实施例七

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一或实施例二或实施例三所述的西班牙语口语发音训练纠正方法中的步骤。

实施例八

本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一或实施例二或实施例三所述的西班牙语口语发音训练纠正方法中的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120114700329