一种英语口语角色扮演题评分方法及系统

文献发布时间：2023-06-19 09:32:16

技术领域

本发明涉及语音识别和评价技术领域，尤其涉及一种英语口语角色扮演题评分方法及系统。

背景技术

随着计算机科学技术的发展，计算机技术已经渗透到了传统教育行业当中，带来了丰富的教学资源和便捷性的同时，师生之间的学习方式和教学行为也在发生着巨大的变化。因此，基于多学科知识的计算机辅助学习系统扮演着愈发重要的角色，在许多领域正在逐步渗透甚至替代传统学习方式。例如随着人工智能、语言学、声学等学科不断进步，语音智能技术成为新型的信息技术，并且已经被应用在计算机辅助教学之中，如蓝鸽机考系统、启明系统等。

但是传统的英语口语机考系统，在阅卷方面，仅支持客观题的阅卷，而主观题的阅卷工作仍需要投入大量的人力物力。例如英语考试主观题当中的角色扮演题，俗称“三问五答”题，其是要求考生观看一段大约两分钟情景对话的视频片段，明确自己拟要扮演的角色以及要完成的任务，其包含两部分的内容，第一部分为“三问”，学生需要将题目给出的三个中文问题翻译为英文后向计算机提问，提问后计算机会对问题进行回答；第二部分“五答”是根据观看的视频片段内容来回答五道题目中给出的问题。目前对于这种测试学生口语翻译能力表达水平评分任务而言，仍然主要由人工进行批阅，这种评分方式不仅主观性强，而且在时间紧、工作量大、强度高时，会因此导致对于英语口语“三问五答”题这种开放性题目，不能全面客观的给出合理的评价，阅卷质量低，评分速度慢。与此同时，教育资源供需不平衡的问题随着人口问题而变得愈发尖锐，英语口语教学需要发音准确而且语音语调等也需要重视。但是教师在口语教学课堂上无法照顾到每一位学生的学习，无法同时给予每一位学生相应的指导。

发明内容

本发明实施例所要解决的技术问题在于，提供一种英语口语角色扮演题评分方法及系统，能够提高评分的高效性和准确性，实现全自动评分方式，有效节省人力物力，减轻教师的教学负担。

为了实现上述目的，本发明实施例提供了一种英语口语角色扮演题评分方法，包括：

获取待评分语音信号，并对所述待评分语音信号进行预处理；

对预处理后的语音信号进行语音识别，将所述语音信号转换成“X问”文本和“Y答”文本，其中所述“X问”文本包括X个问题句，所述“Y答”文本包括Y个回答句；

采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；

采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数；

根据预先设定的角色扮演题的线性回归模型，计算第一分数和第二分数的总分；

根据所述总分生成学习指导建议。

进一步的，所述“X问”文本为“三问”文本，所述“Y答”文本为“五答”文本，其中，所述“三问”文本包括三个问题句，所述“五答”文本包括五个回答句，则所述采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数，具体为：

采用“三问”评分模型对所述“三问”文本进行评分，得到第一分数；

采用“五答”评分模型对所述“五答”文本进行评分，得到第二分数。

进一步的，所述对所述待评分语音信号进行预处理，具体包括：

采用多窗谱估计的谱减法对所述待评分语音信号进行降噪处理；

采用深度神经网络对所述待评分语音信号进行语音增强；

对所述待评分语音信号进行预加重和分帧处理；

对所述待评分语音信号进行加窗处理和端点检测。

进一步的，所述“X问”评分模型包括基于词性标注的语序评价子模型、基于WordNet的语义相似度评价子模型和基于TF-IDF的文本相似度评价子模型；所述“Y答”评分模型包括基于WordNet的语义相似度评价子模型和基于AC自动机的关键词覆盖率评价子模型。

进一步的，所述第一分数包括语序分数、第一语义相似度分数和文本相似度分数，其中：

所述语序分数由所述语序评价子模型对所述“X问”文本进行评分得到；

所述第一语义相似度分数由所述语义相似度评价子模型对所述“X问”文本进行评分得到；

所述文本相似度分数由所述文本相似度评价子模型对所述“X问”文本进行评分得到。

进一步的，所述第二分数包括第二语义相似度分数和关键词覆盖率分数，其中：

所述第二语义相似度分数由所述语义相似度评价子模型对所述“Y答”文本进行评分得到；

所述关键词覆盖率分数由关键词覆盖率评价子模型对所述“Y答”文本进行评分得到。

进一步的，所述预先设定的角色扮演题的线性回归模型，具体为：

P＝a1*P1+a2*P2+a3*P3+a4*P4+a5*P5,

其中，P表示总分，P1表示语序分数，P2表示第一语义相似度分数，P3表示文本相似度分数，P4表示第二语义相似度分数，P5表示关键词覆盖率分数，a1表示语序分数的权重，a2表示第一语义相似度分数的权重，a3表示文本相似度分数的权重，a4表示第二语义相似度分数的权重，a5表示关键词覆盖率分数的权重。

进一步的，所述a1、a2和a3满足a1+a2+a3＝1，a4和a5满足a4+a5＝1。

本发明实施例还提供了一种英语口语角色扮演题评分系统，包括：

预处理模块，用于获取待评分语音信号，并对所述待评分语音信号进行预处理；

语音识别模块，用于对预处理后的语音信号进行语音识别，将所述语音信号转换成“X问”文本和“Y答”文本，其中所述“X问”文本包括X个问题句，所述“Y答”文本包括Y个回答句；

第一评分模块，用于采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；

第二评分模块，用于采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数；

总分计算模块，用于根据预先设定的角色扮演题题的线性回归模型，计算第一分数和第二分数的总分；

学习指导模块，用于根据所述总分生成学习指导建议。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的英语口语角色扮演题评分方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的的英语口语角色扮演题评分方法。

相对于现有技术，本发明实施例提供的一种英语口语角色扮演题评分方法及系统的有益效果在于：本发明通过获取待评分语音信号，并对所述待评分语音信号进行预处理；对预处理后的语音信号进行语音识别，将所述语音信号转换成“X问”文本和“Y答”文本，其中所述“X问”文本包括X个问题句，所述“Y答”文本包括Y个回答句；采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数；根据预先设定的角色扮演题的线性回归模型，计算第一分数和第二分数的总分；根据所述总分生成学习指导建议。本发明能够有效解决英语口语角色扮演题的评分问题，并提高该题评分的高效性和准确性，实现全自动评分方式，有效节省人力物力，减轻教师的教学负担，同时还能为考生提供学习指导建议。

附图说明

图1是本发明实施例提供的一种英语口语角色扮演题评分方法的流程图；

图2是本发明实施例提供的一种英语口语角色扮演题评分方法中评分模型的组成示意图；

图3是本发明实施例提供的一个包含四个隐层的DNN网络结构示意图；

图4是本发明实施例提供的一种英语口语角色扮演题评分方法中语音识别的流程图；

图5是本发明实施例提供的一种英语口语角色扮演题评分方法中语音增强的流程图；

图6是本发明实施例提供的一种英语口语角色扮演题评分系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种英语口语角色扮演题评分方法的流程图。所述英语口语角色扮演题评分方法，包括：

S1，获取待评分语音信号，并对所述待评分语音信号进行预处理；

S2，对预处理后的语音信号进行语音识别，将所述语音信号转换成“X问”文本和“Y答”文本，其中所述“X问”文本包括X个问题句，所述“Y答”文本包括Y个回答句；

S3，采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；

S4，采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数；

S5，根据预先设定的角色扮演题的线性回归模型，计算第一分数和第二分数的总分；

S6，根据所述总分生成学习指导建议。

在另一个优选实施例中，所述“X问”文本为“三问”文本，所述“Y答”文本为“五答”文本，其中，所述“三问”文本包括三个问题句，所述“五答”文本包括五个回答句，则S3和S4具体为：

S31，采用“三问”评分模型对所述“三问”文本进行评分，得到第一分数；

S41，采用“五答”评分模型对所述“五答”文本进行评分，得到第二分数。

请参阅图2，图2是本发明实施例提供的一种英语口语角色扮演题评分方法中评分模型的组成示意图。

需要说明的是，高考英语口语中的角色扮演题，常见的为“三问五答”题，“三问五答”题一共包含两部分，第一部分是“三问”，考生在做题前会观看一段约两分钟的视频片段，理解下对话的关键内容，了解自己所要扮演的角色，在看完视频片段之后，机器显示与视频背景相关的三个中文问题，考生需要在二十秒倒计时后用英文转译，向计算机提出三个问题。提问后系统会继续播放一个视频片段，内容是回答以上“三问”的问题，并且对话中还会包含其他信息，考生需要记录下该段视频的关键内容，例如日期，时间，事件，对象和因果等等；第二部分是“五答”，系统会向考生分别显示五个问题，考生须根据所听的视频内容，结合笔记进行作答。

具体的，首先获取考生的待评分语音信号，并对所述待评分语音信号进行预处理；再对预处理后的语音信号进行语音识别，将所述语音信号转换成“三问”文本和“五答”文本，其中，所述“三问”文本是考生向计算机提出的三个问题句，所述“五答”文本是考生对五个问题的五个回答句；然后针对“三问”文本和“五答”文本分别采用不同的评分模型进行评分，请参阅图2，其中，采用“三问”评分模型对所述“三问”文本进行评分，得到第一分数；采用“五答”评分模型对所述“五答”文本进行评分，得到第二分数；再根据预先设定的角色扮演题的线性回归模型，计算第一分数和第二分数的总分；在得到了考生的总分之后，还能够根据考生的分数情况发现考生在答题中的问题，生成学习指导建议。

需要说明的是，所述语音识别采用基于前馈全连接深度神经网络(DNN)的语音识别。前馈全连接深度神经网络(DNN)本质上是一个包含多个隐层的多层感知机。请参阅图3，图3是本发明实施例提供的一个包含四个隐层的DNN网络结构示意图，DNN采用层级的结构，分为输入层，隐层和输出层。相邻层的节点采用全连接的方式，而在同一层的节点之间不存在连接。隐层节点的激活值是前一层激活值和当前层网络权重的线性加权求和再通过非线性激活函数得到。请参阅图4，图4是本发明实施例提供的一种英语口语角色扮演题评分方法中语音识别的流程图，其中样本即语料库。对所述语料库进行预处理后进行语音信号的特征提取，得到样本语音信号的特征参数，将所述特征参数作为网络的输入，并进行DNN训练，当DNN训练好后，即可用于对所述待评分语音信号进行语音识别。

在又一个优选实施例中，所述对所述待评分语音信号进行预处理，具体包括：

S11,采用多窗谱估计的谱减法与深度神经网络结合对所述待评分语音信号进行语音增强处理；

S13,对所述待评分语音信号进行预加重和分帧处理；

S14,对所述待评分语音信号进行加窗处理和端点检测。

需要说明的是，请参阅图5，图5为本发明实施例提供的一种英语口语角色扮演题评分方法中语音增强的流程图。深度神经网络的语音增强性能与训练过程有着一定的关系，训练数据库越大，数据库中包含的噪声种类越多，语音增强的性能就会越好。但是与此同时，对于深度神经网络的训练就会越耗时，会极大地加长深度神经网络语音增强模型的训练时间。因此，本发明提出在小数据库的情况下也能达到较好的语音增强效果，即在减少训练时间的情况下也能够有较好的语音增强性能。首先，对带噪语音信号进行一次初步的简单降噪过程；然后，将初步降噪之后的语音信号作为深度神经网络语音降噪模型的输入信号。因为经过初步降噪之后的语音信号含有的噪声相比于原始的带噪语音信号减轻了许多，同时含有的噪声类型也变得比较统一，而不像原始的带噪语音信号可能包含各种各样的噪声。多窗谱估计的谱减法与深度神经网络结合的语音增强算法首先将带噪语音进行谱减法语音增强，得到第一次语音增强之后的语音信号。谱减法增强后的语音信号有较大的残留音乐噪声，这种噪声是普通的方法比较难去除的，本发明采用深度神经网络增强模型对谱减法增强后的语音信号再进行第二次语音增强。

在又一个优选实施例中，所述“X问”评分模型包括基于词性标注的语序评价子模型、基于WordNet的语义相似度评价子模型和基于TF-IDF的文本相似度评价子模型；所述“Y答”评分模型包括基于WordNet的语义相似度评价子模型和基于AC自动机的关键词覆盖率评价子模型。

在又一个优选实施例中，所述第一分数包括语序分数、第一语义相似度分数和文本相似度分数，其中：

所述语序分数由所述语序评价子模型对所述“X问”文本进行评分得到；

所述第一语义相似度分数由所述语义相似度评价子模型对所述“X问”文本进行评分得到；

所述文本相似度分数由所述文本相似度评价子模型对所述“X问”文本进行评分得到。

需要说明的是，在采用基于词性标注的语序评价子模型对所述“X问”文本进行评分中，本发明针对训练和测试的语料库建立一个词性标记集，确定好词性标记集，再对输入的语音信号进行预处理和词性标注，记录词性标注的结果。在进行词性标注的过程中可能会出现未登录的词语，本发明对于在词性标记集里未登录的词语，假设它们可以由任意词性(也许只是一些开放的词性类别即名词或动词等，但不是介词或冠词)组成，这样可以提高算法的完整性和健壮性。在词性标注过程中，算法的整体框架可以表述为，首先对句子中的每个单词使用打分函数来找到一个最容易标注的单词，对单词进行标注，标注完成后使用打分函数更新与之相关的单词的得分，继续找相对来说最容易标注的单词,重复直到将句子标注完成。对于一段待评分语音信号，使用切词算法切割成单词序列,将所有的单词设置成未处理，算法执行过程中使用打分函数确定未处理集合中单词的标注顺序，当前单词标注完成后设置成已处理，直到未处理集合中单词为空。本发明在训练语料库的过程中建立一个符合英语语法规则的词性搭配表，并用字符串的形式表示，词性标注可以完成测试语音句子结构的基本判断。本发明也采用一个字符串的数据结构存储语音句子的词性标注结果，通过两个字符串相似度的比较来进行待评分语音的语序评分。

在又一个优选实施例中，所述第二分数包括第二语义相似度分数和关键词覆盖率分数，其中：

所述第二语义相似度分数由所述语义相似度评价子模型对所述“Y答”文本进行评分得到；

所述关键词覆盖率分数由关键词覆盖率评价子模型对所述“Y答”文本进行评分得到。

需要说明的是，采用基于WordNet的语义相似度评价子模型对文本进行语义相似度评分时，可以先对文本进行词语相似度评价，再进行句子相似度评价。词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构。两个词语如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，文本的语义相似度就越高。这里采用基于《知网(Hownet)》的词语相似度计算方法，《知网》是一个以汉语和英语词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。词语相似度的计算具体为：对于两个英语单词W1和W2，如果W1有n个义项(概念)：S11，S12，...，S1n；W2有m个义项(概念)：S21，S22,...,S2m，本发明中W1和W2的相似度是各个概念的相似度之最大值，即：

这样就把两个词语之间的相似度问题归结到了两个概念之间的相似度问题。

需要说明的是，句子相似度评价采用基于修正偏移量的算法，具体为：

将待计算相似度的两个句子S1和S2进行分词、词性标注、剔除停用词和虚词等预处理后，获得词语集合S1＝{W11，W12，...，W1m}，S2＝{W21，W22，...，W2n}；

采用《知网》计算两个词语集合中两两词语间的相似度形成特征矩阵，

其中，W1i W2j＝Sim(W1i,W2j)；

遍历特征矩阵，去除相似度最大的词语组合，删除其所在的行和列的所有元素并得到新的特征矩阵，反复此过程，直至特征矩阵中没有元素；

根据词语词性和语法规则确定句子中心词，剔除S1和S2集合中的地点、时间词语，标定句中剩余词的相对位置。

根据遍历特征矩阵的结果，获取相似度最大词语组合的集合，再和句中剩余词的相对位置，计算词语组合中两词语的相对位置偏移量；

根据下述句子相似度计算公式计算两个句子S1和S2的相似度，

其中，len(S)表示句子S的词语个数；pos(W)表示词语W基于句子中心词的相对位置；Sim(W1i,W2j)表示W1i和W2j基于《知网》的词语语义相似度。

需要说明的是，基于AC自动机的关键词覆盖率评价的算法由三部分构成：goto表，failure表和output表。

在又一个优选实施例中，所述预先设定的角色扮演题的线性回归模型，具体为：

P＝a1*P1+a2*P2+a3*P3+a4*P4+a5*P5,

作为优选方案，所述a1、a2和a3满足a1+a2+a3＝1，a4和a5满足a4+a5＝1。

相应地，本发明还提供一种英语口语角色扮演题评分系统，能够实现上述实施例中的英语口语角色扮演题评分方法的所有流程。

请参阅图6，图6为本发明实施例提供的一种英语口语角色扮演题评分系统，包括：

预处理模块601，用于获取待评分语音信号，并对所述待评分语音信号进行预处理；

语音识别模块602，用于用于对预处理后的语音信号进行语音识别，将所述语音信号转换成“X问”文本和“Y答”文本，其中所述“X问”文本包括X个问题句，所述“Y答”文本包括Y个回答句；

第一评分模块603，用于采用“X问”评分模型对所述“X问”文本进行评分，得到第一分数；

第二评分模块604，用于采用“Y答”评分模型对所述“Y答”文本进行评分，得到第二分数；

总分计算模块605，用于根据预先设定的角色扮演题的线性回归模型，计算第一分数和第二分数的总分；

学习指导模块606，用于根据所述总分生成学习指导建议。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述的英语口语角色扮演题评分方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的英语口语角色扮演题评分方法。

需说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的系统实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李心广;李苏梅;陈帅;杨志和;连梓炜;龙晓岚;章思盈;卢树炜;陈泽铭;梁楚铧;
专利申请人：广东外语外贸大学;

上一篇：一种生发片HPLC指纹图谱的构建方法
下一篇：基于电场敏感磁性材料的调压变压器结构