掌桥专利:专业的专利平台
掌桥专利
首页

一种句子发音测评的方法、装置及可读存储介质

文献发布时间:2023-06-19 15:47:50



技术领域

本发明涉及语音识别领域,尤其涉及一种句子发音测评的方法、装置及可读存储介质。

背景技术

口语发音评测技术因其能稳定快速评价发音准确度的特点,而被越来越多的语言学习者所接受。在句子发音评测系统的使用中,高分单词的低分误判常常会导致语言学习者的主观体验很差。

现有的方案中,通常会利用包含多读/漏读路径的目标词词间解码网络对待测音频做解码得到识别最优路径,使用最优路径所代表的词序列和其对应的似然度进行后续的发音评测。解码路径得分包括声学得分和语言模型得分两部分,由于一个词序列的语言模型代价得分常常是词与词之间的连接概率的累计,在声学得分相似的情况下会导致识别过程趋向于短的词序列。这会导致在句子评测中高分单词的评分偏低。

发明内容

本发明的目的在于提供一种能在兼顾多读/漏读/错读单词评分的同时,尽可能地减少高分单词评分错误的句子发音测评的方法、装置及可读存储介质。

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面,提供了一种句子发音测评的方法,包括:

步骤100,基于目标单词集合和高频单词集合构建解码网络;

步骤200,对待测音频进行语音识别,得到候选解码路径集合;

从候选路径集合中选择与待测评文本具有最小编辑距离的词序列作为候选词序列集合;

在候选词序列对应的候选解码路径中选择解码得分最高的路径作为识别最优路径输出;

步骤300,根据GOP公式得到识别词序列中各个词的发音得分;

步骤400,解析识别词序列和目标词序列,得到目标词序列中各个词的发音得分。

在一实施例中,所述步骤100中,所述解码网络中的目标单词相关路径包含目标文本的多读/漏读路径,所述解码网络以高频单词部分作为目标文本的错读路径。

在一实施例中,所述步骤100中,目标单词的语言模型代价分数被设置为每个词相同的一个定值。

在一实施例中,所述步骤100中,高频单词由训练数据统计得到,高频单词对应的语言模型代价得分为该单词在训练数据中出现概率乘以一个小于1的权重系数,且高频单词的语言模型代价分数大于目标单词的语言模型代价分数。

在一实施例中,所述步骤100包括:

步骤101,在评测开始前编译生成一个顶层状态网络;

步骤102,在评测时使用目标文本构建子状态网络;

步骤103,将子状态网络嵌套在顶层状态网络中得到最终的状态解码网络。

在一实施例中,所述步骤101包括:根据高频词及其对应语言模型代价得分,添加一个目标词符号,构建词间跳转的词级解码网络,再结合常规发音词典和音素的状态绑定信息构建状态解码网络,作为顶层状态网络。

在一实施例中,所述步骤102包括:根据目标词及其对应语言模型代价得分,结合特定发音词典和音素的状态绑定信息构建状态解码网络。

在一实施例中,所述步骤200中,每条候选解码路径包含与时间帧长度相同的状态序列、每个状态的似然度/跳转概率、单词序列和状态序列的对应关系、以及单词的声学得分/语言模型得分代价。

在一实施例中,所述步骤200中,所述从候选路径集合中选择与待测评文本具有最小编辑距离的词序列作为候选词序列集合,包括:提取当前候选路径集合中的词序列,在去除重复后的词序列中寻找和目标词序列具有最小编辑距离的词序列集合,作为候选词序列集合。

在一实施例中,所述最小编辑距离词路径的选择基于加权有限状态转换机进行。

在一实施例中,所述最小编辑距离词路径的选择方法具体包括:

对当前的候选词序列集合和目标词序列分别构建一个有限状态接收器;

建立目标词和候选词编辑代价对应的有限状态接收器,任意目标词和任意候选词之间都存在弧,当候选词和目标词相同时,弧的权重设为0,当候选词和目标词不同时,弧的权重设为1;空输入和候选词输出对应的弧的权重设为1,目标词和空输出的弧的权重设为0;

对目标词序列对应的FSA和编辑代价函数对应的WFST进行复合操作,然后使用候选词序列集合对应的FSA和新的WFST进行复合操作得到每条候选词路径对应的编辑距离,选择代价最小路径/路径集合输出。

在一实施例中,所述步骤400包括:对识别词序列和目标词序列进行文本对齐,将目标词序列中对应″删除″和″替换″错误的单词对应得分置为最低分,其余单词得分保持不变。

根据本发明的第二方面,提供了一种句子发音测评装置,包括:

解码网络构建模块,被配置为输入目标词集合和高频词集合,生成词间解码网络,再结合发音词典和HMM模型,输出生成状态级解码网络;

解码模块,被配置为使用状态级解码网络对待测音频进行识别,输出候选解码路径集合;

最优识别路径选择模块,被配置为在候选解码路径集合里选择和目标词序列具有最小编辑距离的词路径作为候选词路径集合,在候选词路径集合对应的候选解码路径中选择解码得分最高的路径输出;

单词GOP评分模块,被配置为输入最优识别路径对应的单词时间边界和单词似然度,输出识别词路径中每个词的GOP评分;

识别词序列解析模块,被配置为输入识别词路径中每个单词的GOP评分,根据识别词序列和目标词序列的对齐结果对评分进行改写,输出最终的单词发音评分。

根据本发明的第三方面,提供了一种句子发音测评装置,包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如第一方面所述的句子发音测评方法。

根据本发明的第四方面,提供了一种可读存储介质,所述存储介质上存储有程序,当所述程序被处理器执行时,实现如第一方面所述的句子发音测评方法。

本发明实施例的有益效果是:①利用高频词汇和目标单词构建含权重的词间解码网络,此解码网络涵盖了句子评测中可能出现的多读/漏读/错读现象,并通过给予目标单词较小的语言模型代价分数,给予作为错读吸收的高频词汇以较大的的语言模型代价分数,在兼顾了错读路径的同时,也尽可能保证高分单词不被误判。

②在解码搜索过程结束后,在最优和次优的候选路径集合中选择符合″和目标文本具有最小编辑距离″的词路径集合,再次提高目标词路径被选择的可能,进一步减少高分单词的评分错误。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是本申请实施例句子发音评测方法流程图;

图2是基于目标词序列和高频单词集合构建解码网络的示意图;

图3是一个目标文本对应的词级解码空间的示意图;

图4是本申请实施例中目标词序列的一种状态解码网络建立流程图;

图5是候选路径集合的一个示意图;

图6是句子发音评分展示的示例;

图7是本申请实施例装置的模块示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。

在本发明实施方式的第一方面,提供了一种句子发音评测的方法,包括:

步骤S100,基于目标词集合和高频单词集合构建含权重的词间解码网络。

在获取目标文本(即待评测文本)后,使用目标词集合和高频单词集合生成词级的网络(参照图2),此网络中的目标单词相关路径包含了目标文本的多读/漏读路径,高频单词部分则作为目标文本的错读路径。使用高频单词作为目标文本的错读路径符合发音评分细则中″目标单词错读为其他单词则判定为最低分″的规定,且易于实现。

其中目标单词的语言模型代价分数设置为每个词相同的一个定值。高频词汇由训练数据统计得到,高频词对应的语言模型代价得分为该单词在训练数据中出现概率乘以一个小于1的权重系数,lm_cost(w

基于HMM的语音识别是指在给定的状态搜索空间内寻找给定音频最可能对应的状态序列的过程,也称为解码,该状态序列对应的词序列即为解码文本,此过程可表示为如下公式:

其中O表示观测音频,W表示词序列,S

如果句子中出现目标词序列多读/漏读/错读的情况,而搜索空间中不存在对应路径,则会影响正确单词的时间边界以及对应的声学得分,随之影响依赖这些声学信息的单词评分。

图3为目标文本为″nice to meet you″时对应的解码空间示意图,节点之间的弧表示输出单词和对应的语言模型代价得分,粗圈表示结束节点,其中:(0,1,nice/alpha)-(1,2,to/alpha)-(2,3,meet/alpha)-(3,4,you/alpha)表示目标词序列nice-to-meet-you,对应的语言模型代价得分为4alpha。

(0,1,nice/alpha)-(1,2,to/alpha)-(3,4,you/alpha)表示漏读词序列nice-to-you,对应的语言模型代价得分为3alpha。

0,1,nice/alpha)-(1,2,nice/alpha)-(2,3,to/alpha)-(3,4,meet/alpha)-(4,5,you/alpha)表示多读词序列nice-nice-to-meet-to-you,对应的语言模型代价得分为5alpha。

(0,1,top_w1/beta1)-(1,2,top_w2/beta2)-(2,3,meet/alpha)-(3,4,you/alpha)表示错读词序列top_w1-top_w2-meet-you,对应的语言模型代价得分beta1+beta2+2*alpha。

在一些实施例中,为了降低解码网络编译的耗时,可以在评测开始前编译生成一个顶层状态网络,在评测时使用目标文本构建子状态网络,将子状态网络嵌套在顶层状态网络中得到最终的状态解码网络,流程图见图4。其中步骤S101顶层状态网络的编译为:根据前述的高频词及其对应语言模型代价得分,添加一个目标词符号,构建词间跳转的词级解码网络,再结合发音词典,音素的状态绑定信息构建状态解码网络,作为顶层状态网络。步骤S102子状态网络的编译过程为根据前述的高频词及其对应语言模型代价得分,结合特定发音词典,音素的状态绑定信息构建状态解码网络。

步骤S200,对待评测音频进行语音识别,得到候选解码路径集合。遍历当前候选解码路径集合对应所有可能的词序列,得到和待评测文本具有最小编辑距离的新候选词序列集合,在候选词序列对应的候选解码路径中选择解码得分最高的路径作为识别最优路径输出。

2.1)每条候选路径包含与时间帧长度相同的状态序列和每个状态的似然度/跳转概率、单词序列和状态序列的对应关系以及单词的声学得分/语言模型得分代价。此时一个词序列可能对应多个状态序列。图5是候选路径集合的一个示意图。对应三条路径:A1-B1-C1-D1;A2-B2-C2-D2;A3-B3-C3-D3-E3;每个节点里含有6个信息,分别为单词/对应的状态序列/的起始时间/结束时间/声学得分/语言模型得分代价。

2.2)提取当前候选路径集合中的词序列,在去除重复后的词序列中寻找和目标词序列具有最小编辑距离的词序列集合,作为候选词序列集合。最小编辑距离指的是符号序列S1转化到符号序列S2所需要的最少操作次数。

其中最小编辑距离词路径的选择可基于加权有限状态转换机(WFST,weightedfinite state transducer)进行。对当前的候选词序列集合和目标词序列分别构建一个有限状态接收器(FSA-finite state acceptor)。建立目标词和候选词编辑代价对应的FSA,任意目标词和任意候选词之间都存在弧,当候选词和目标词相同时,弧的权重为0,当候选词和目标词不同时,弧的权重为1。此外,空输入和候选词输出对应的弧的权重为1,目标词和空输出的弧的权重为0。对目标词序列对应的FSA和编辑代价函数对应的WFST进行复合操作,然后使用候选词序列集合对应的FSA和新的WFST进行复合操作得到每条候选词路径对应的编辑距离,选择代价最小路径/路径集合输出。

2.3)在原有候选路径中选择候选词序列集合对应的路径集合中,选择解码得分最高的路径作为识别路径输出。

假设音频内容为″How do you do″,目标文本为″how do you do″,该音频在在doyou处出现连读,解码得分最高的路径对应的识别文本为how-do-do,如果基于此路径信息进行发音评测,单词you会由于删除错误而导致评分错误。虽然可以通过在解码时通过设置插入惩罚解决识别过程中的删除错误,但同时也会带来插入错误的增加,而插入错误对应的单词会占用正确单词的时间边界,导致正确发音得分误判。本专利不直接使用解码得分最高的状态序列,而是在最优和次优的候选状态序列中选择和目标词路径具有最小编辑距离的路径,最大限度地提高了目标词路径被选择的可能,也即减少了高分单词被误判的可能。

步骤S300,根据GOP(Goodness of Pronunciation)公式得到识别词序列中各个词的发音得分,此处可参照论文Witt S M,F S J Y.Phone-level pronunciation scoringand assessment for interactive language learning[J].Speech Communication,2000,30(2/3):95-108。

步骤S400,解析识别词序列和目标词序列,得到目标词序列中各个词的最终发音得分

对识别词序列和目标词序列进行文本对齐,目标词序列中对应″删除″和″替换″错误的的单词对应得分置为最低分,其余单词得分保持不变。图6是一个句子发音评分展示的示例。

如图7所示,本发明还提供了一种句子发音评测装置,该句子发音评测装置包括:

解码网络构建模块701,被配置为输入目标词集合和高频词集合,生成词间解码网络,再结合发音词典和hmm模型,输出生成状态级解码网络;

解码模块702,被配置为使用状态级解码网络对待测音频进行识别,输出候选解码路径集合;

最优识别路径选择模块703,被配置为在候选解码路径集合里选择和目标词序列具有最小编辑距离的词路径作为候选词路径集合,在候选词路径集合对应的候选解码路径中选择解码得分最高的路径输出;

单词GOP评分模块704,被配置为输入最优识别路径对应的单词时间边界和单词似然度,输出识别词路径中每个词的GOP评分;

识别词序列解析模块705,被配置为输入识别词路径中每个单词的GOP评分,根据识别词序列和目标词序列的对齐结果对评分进行改写,输出最终的单词发音评分。

容易理解地,本申请实施例还提供了一种句子发音测评装置,包括存储器和处理器;其中,存储器可用于存储指令、程序、代码、代码集或指令集。存储器可以包括存储程序区和存储数据区,其中存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令以及用于实现上述句子发音测评方法的指令等;存储数据区可存储上述句子发音测评方法中涉及到的数据等。

处理器可以包括一个或者多个处理核心。处理器通过运行或执行存储在存储器内的指令、程序、代码集或指令集,调用存储在存储器内的数据,执行本申请的各种功能和处理数据。处理器可以为特定用途集成电路、数字信号处理器、数字信号处理装置、可编程逻辑装置、现场可编程门阵列、中央处理器、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。

本申请实施例上述方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

以上所述仅为本申请的较佳实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

技术分类

06120114581832