语言评测方法及相关装置、设备和存储介质

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语言评测方法及相关装置、设备和存储介质。

背景技术

在语音识别以及语音评测等应用领域，音频质量是决定待测语音性能的重要因素之一。

例如在智能教育场景中，朗读题是常见的评估学生语音表达和发音准确性的方式。现有技术中，通常依赖于人工主观评估的方法或者传统的音频数据识别方法实现对待测音频的质量评测。但是，人工主观评估需要大量的时间和人力投入，并且评估结果容易受到主观因素的影响。而传统音频数据识别技术通常依赖于待测音频中的声学特征作出评分，忽略目标对象朗读目标文本时影响实际朗读评分的其他特征，从而削弱语言评测的准确性。有鉴于此，如何提升语言评测的准确性，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语言评测方法及相关装置、设备和存储介质，能够提升语言评测的准确性。

为了解决上述技术问题，本申请第一方面提供了一种语言评测方法，包括：获取目标对象朗读目标文本的音频信息，作为待测音频；获取目标文本的第一发音序列，以及获取待测音频中顺序排列的各个语音段的第二发音序列；基于第一发音序列与语音段的第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息；基于各个语音段和语音段对应于目标文本中的位置信息，得到待测音频的评测结果。

为了解决上述技术问题，本申请第二方面提供了一种语言评测装置，包括：音频获取模块、序列获取模块、位置确定模块和质量检测模块，音频获取模块用于获取目标对象朗读目标文本的音频信息，作为待测音频；序列获取模块用于获取目标文本的第一发音序列，以及获取待测音频中顺序排列的各个语音段的第二发音序列；位置确定模块用于基于第一发音序列与语音段的第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息；质量检测模块用于基于各个语音段和语音段对应于目标文本中的位置信息，得到待测音频的评测结果。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语言评测方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面所述的语言评测方法。

上述方案，获取目标对象朗读目标文本的音频信息作为待测音频，获取目标文本的第一发音序列，以及获取待测音频中顺序排列的各个语音段的第二发音序列，基于第一发音序列与语音段的第二发音序列之间的匹配结果确定语音段对应于目标文本中的位置信息，基于各个语音段和语音段对应于目标文本中的位置信息，得到待测音频的评测结果。因此，将各个语音段对应于目标文本中的位置信息作为确定各个语音段音频质量的辅助信息，能够尽可能地降低在发生诸如目标对象朗读目标文本时朗读语序错误等情况而对语言评测造成的不利影响，使得即使发生诸如此类情况也能够基于第一发音序列与第二发音序列之间的匹配结果确定语音段实际对应于目标文本中的位置信息，故能提升语言评测的准确性。

附图说明

图1是本申请语言评测方法一实施例的流程示意图；

图2是本申请语言评测方法中位置确定方法一实施例的流程示意图；

图3是本申请语言评测装置一实施例的框架示意图；

图4是本申请电子设备一实施例的框架示意图；

图5是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中片段“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

请参阅图1，图1是本申请语言评测方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S10：获取目标对象朗读目标文本的音频信息，作为待测音频。

本公开实施例中，获取目标对象朗读目标文本的音频信息作为待测音频，且待测音频为自然语言，是基于人类使用的自然、非形式化的语言系统，可以用于沟通、表达观点、传达信息等。需要说明的是，目标文本和待测音频的语言体系在本申请中不做限定，例如中文、英语、法语等，可以理解的，目标文本与待测音频的语言体系具有一致性。

在一个实施场景中，目标文本中包含若干句文本，以构成篇章形式的目标文本，例如，书籍片段、演讲稿、新闻稿等，目标文本的具体内容以在本申请中不做限定。

在一个实施场景中，获取目标对象朗读目标文本的待测音频后，将待测音频划分为若干语音段，可以理解的，上述若干语音段表征至少一个语音段，具体数量在本申请中不做限定，且各个语音段的帧长可以相同，也可以不同，在本申请中不做限定。

在一个具体的实施场景中，对待测音频进行切分，以得到待测音频中的非静音段，作为一种可能的实施方式，使用语音端点检测方法，从包含语音的待测音频中确定语音的起始点和终止点，区分语音信号和非语音信号，基于包含语音信号的起始点和终止点确定语音段，排除待测音频中无声段和/或低噪声段的干扰。

在另一个具体的实施场景中，待测音频基于预设帧长或者预设时长进行切分，以得到若干帧长相同或者时长相同的语音段。需要说明的是，预设帧长和预设时长可以基于目标文本的文本内容动态设定，也可以人为设定为固定值，在本申请中不做限定。

在另一个具体的实施场景中，利用待测音频时域上的特征来进行音频切分，例如基于短时能量、过零率、自相关函数等计算这些时域特征并设置相应的阈值，可以确定待测音频中的切分点，以得到若干语音段。

在另一个具体的实施场景中，作为一种可能的实施方式，可以预先训练一个音频切分模型，音频切分模型可以包括但不限于卷积神经网络、循环神经网络架构的网络模型等，基于音频切分模型处理待测音频，以得到待测音频中的各个句音频并将句音频作为语音段。为了尽可能地确保音频切分模型的识别精度，可以收集样本音频，以及在样本音频标注真实切分结果，且真实切分结果中包括关于样本音频的若干样本句音频，在此基础上，可以基于音频切分模型对样本音频进行处理，得到样本音频的预测切分结果，从而可以基于真实切分结果与预测切分结果之间的差异，调整音频切分模型的网络参数，直至音频切分模型训练收敛为止，即可基于训练收敛的音频切分模型处理待测音频，得到若干句音频作为顺序排列的各个语音段。需要说明的是，音频切分模型的具体处理过程，可以参阅诸如卷积神经网络、循环神经网络架构等的网络模型的技术细节，在此不再赘述。

在另一个具体的实施场景中，将待测音频建模为一个隐马尔可夫模型(HiddenMarkov Model，HMM)或者条件随机场(Conditional Random Field，CRF)，并使用维特比算法来找到最可能的切分路径，以得到若干语音段。具体而言，音频切分可以看作是将待测音频分成连续的语音段和非语音段的过程。通过对待测音频进行特征提取并建立切分模型，可以得到语音状态和非语音状态的转移概率、发射概率以及初始概率。然后，应用维特比算法计算出最可能的状态序列，即最可能的切分路径。通过动态规划的方式，逐步计算每个时间步的最优状态路径和对应的概率。根据定义的转移概率和发射概率，计算当前时间步的每个状态的最大概率，并记录下最优的前一个状态，以便后续回溯得到最可能的切分路径。

步骤S20：获取目标文本的第一发音序列，以及获取待测音频中顺序排列的各个语音段的第二发音序列。

在一个实施场景中，基于目标文本，建模得到与目标文本对应的标准发音，并获取目标文本的第一发音序列，且第一发音序列为字级发音序列。

在一个具体的实施场景中，第一发音序列包括若干字级发音，且各个字级发音之间的排列顺序与目标文本的文本顺序保持一致。

在一个具体的实施方式中，基于预先构建包括多个词条的发音序列的发音词典，从发音词典中获取与目标文本对应的各个词条的发音序列，根据目标文本中各个词条的发音序列获取目标文本第一发音序列。

在另一个具体的实施场景中，作为一种可能的实施方式，可以预先训练一个语音建模模型，语音建模模型可以包括但不限于Encoder-Decoder架构的网络模型等，基于语音建模模型处理目标文本，以得到关于目标文本的建模语音，并基于建模语音得到第一发音序列。为了尽可能地确保语音建模模型的识别精度，可以收集样本文本，以及在样本文本标注真实发音，在此基础上，可以基于语音建模模型对样本文本进行处理，得到样本音频的预测发音，从而可以基于真实发音与预测发音之间的差异，调整语音建模模型的网络参数，直至语音建模模型训练收敛为止，即可基于训练收敛的语音建模模型处理目标文本，得到关于目标文本的建模语音，并基于建模语音得到第一发音序列。需要说明的是，语音建模模型的具体处理过程，可以参阅诸如Encoder-Decoder架构等的网络模型的技术细节，在此不再赘述。

在一个具体的实施场景中，语音建模模型基于建模语音的韵律特征对应训练调整网络参数，以提高基于目标文本所得到的建模语音的真实性。

在一个具体的实施场景中，在得到关于目标文本的建模语音，并基于建模语音得到第一发音序列之前，还可以对目标文本进行预处理，以得到关于目标文本的文本信息，例如文本分词、文本分句文本索引等文本信息，将文本信息作为生成第一发音序列的辅助信息，提高第一发音序列的准确性。

在一个实施场景中，基于待测音频中顺序排列的各个语音段，得到语音段的音素识别结果，且音素识别结果中包括与语音段对应的音素内容以及语音段位于待测音频中的音素帧区间。基于语音段的音素识别结果，得到语音段的第二发音序列。

在一个具体的实施场景中，第二发音序列包括若干字级发音，且各个字级发音之间的排列顺序与语音段中的发音顺序保持一致。

在一个具体的实施场景中，作为一种可能的实施方式，可以预先训练一个发音识别模型，具体的，发音识别模型为采用多层Conformer结构的编码器搭建而成，例如每个Conformer块由一个Convolutional Block和一个Transformer Block组成，ConvolutionalBlock包含一维卷积层、激活函数、归一化层和残差连接，Transformer Block采用Transformer的自注意力机制(Self-Attention)，包括多头注意力、前馈神经网络和残差连接。并且发音识别模型的输入尺寸为批数、语音段帧数和语音段的声学特征维度，模型的输出尺寸为批数、语音段帧数和发音建模最小单元的总数。为了尽可能地确保发音识别模型的识别精度，采用CTC损失函数和帧对齐损失函数来训练模型。CTC损失函数可以将音素序列与输入特征对齐，并学习对齐过程中的对应关系。具体的CTC损失函数可以参阅下述公式：

其中，公式(1)中，Y表征一个CTC路径，Validpaths(Y)表征在给定音素序列Y的情况下所有有效的CTC路径集合，X表征特征序列，P(y|X)表征模型在给定输入特征序列X的条件下，生成CTC路径Y的概率。Y由音素标签和CTC空白标记组成，并且满足一些对齐约束，例如不能有相邻的相同音素标签。P(y|X)由上述发音识别模型的输出进行计算，采用梯度计算的前向-后向算法(Forward-Backward Algorithm)或束搜索(Beam Search)来近似计算。具体的帧对齐损失函数可以参阅下述公式：

其中，公式(2)中，t表征时间步数，F表征CTC帧数，i表征在时间步数t上CTC帧标签的独热向量最大的索引，P

Loss＝w

其中，公式(3)中，w

在一个具体的实施场景中，为了尽可能地确保发音识别模型的识别精度，使用已标注的音素级别的样本语音数据进行监督训练。在训练阶段，使用解码器来获得最可能的音素序列作为发音识别模型的输出，解码器的解码方式在本申请中不做限定，例如贪婪解码(greedy decoding)等。在推理阶段，作为一种可能的实施方式，使用束搜索(beamsearch)算法来搜索最可能的音素序列。束搜索维护一个候选集合，根据当前的音素概率分布和历史概率的得分进行扩展和剪枝，最终选择概率最大的音素序列作为识别结果。由于是在每一帧音频的ctc上做集束搜索，因此识别结果中包含对应的帧数信息。上述方法，使用CTC-based的端到端语音识别模型识别语音段的发音，并得到发音的帧信息，使得发音识别模型具有更强的泛化性，以提高语言评测的鲁棒性。

步骤S30：基于第一发音序列与语音段的第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息。

在一个实施场景中，在基于第一发音序列与语音段的第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息之前，基于第二发音序列遍历第一发音序列，得到第一发音序列中与第二发音序列相匹配的子串数量，基于子串数量，确定第一发音序列与语音段的第二发音序列之间的匹配结果。上述方法，基于第一发音序列与第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息，将各个语音段对应于目标文本中的位置信息作为确定各个语音段音频质量的辅助信息，能够尽可能的降低目标对象朗读目标文本时存在朗读语序错误对语言评测的影响，故能提升语言评测的准确性。

在一个具体的实施场景中，基于最长公共子序列算法，得到第一发音序列与语音段的第二发音序列之间的匹配结果。

在一个具体的实施场景中，当子串数量唯一时，确定匹配结果包括唯一匹配，即表征语音段在目标文本中存在唯一对应，在匹配结果包括唯一匹配的情况下，获取目标文本中关于第二发音序列的子文本位于目标文本中的第一位置，并获取语音段位于待测音频中的第二位置，基于第一位置和第二位置，得到位置信息，位置信息表征与第二发音序列对应的语音段对应于目标文本中的位置。

在一个具体的实施场景中，当子串数量不唯一时，确定匹配结果包括多处匹配，即表征语音段在目标文本中存在多处对应，例如，第一发音序列对应的字符串为“ABCADGWJRI，ABCIWUAHSJNG，GDEJAHABCLO”，第二发音序列对应的字符串为“ABC”，即匹配结果包括三处匹配，在匹配结果包括多处匹配的情况下，基于待测音频中下一语音段，识别得到第三发音序列，将第二发音序列与第三发音序列进行拼接，得到新的第二发音序列，例如，在前述实施例中，基于下一语音段识别得到第三发音序列对应的字符串为“ADG”，由于语音段是顺序排列的，因此将第二发音序列和第三发音序列进行拼接，可以表征待测音频中的音频发音，即新的第二发音序列为“ABCADG”，获取第一发音序列与新的第二发音序列之间新的匹配结果，基于新的匹配结果是否包括唯一匹配，确定是否继续利用后续语音段更新第二发音序列，直至最新的匹配结果包括唯一匹配为止，以基于最新的匹配结果，确定语音段对应于目标文本中的位置信息。

在一个具体的实施场景中，在基于待测音频中下一语音段，识别得到第三发音序列，将第二发音序列与第三发音序列进行拼接，得到新的第二发音序列之后，新的第二发音序列与第一发音序列之间新的匹配结果包括多种情况，即新的匹配结果包括唯一匹配、多处匹配、无法匹配中的任一种，在本申请中不做限定。

在一个具体的实施场景中，当子串数量为零时，确定匹配结果包括无法匹配，即表征语音段在目标文本中不存在对应，具体的，当目标对象朗读目标文本时，出现了漏读、错读等情况时，目标对象并未按照目标文本的文本内容进行朗读，因此出现待测音频中与语音段对应的第二发音序列与第一发音序列之间的匹配结果为无法匹配的情况，在匹配结果包括无法匹配的情况下，基于第二发音序列进行删减处理，得到若干候选发音序列，例如，第二发音序列对应的字符串为“ABCDE”，进行删减处理后得到“BCDE”“ACDE”“ABDE”“ABCE”“ABCD”作为各个候选发音序列，选择各个候选发音序列分别作为第四发音序列，并获取第一发音序列分别与各个第四发音序列之间的匹配结果，基于各个第四发音序列分别对应的匹配结果，确定执行删减处理后新的匹配结果，基于新的匹配结果是否包括无法匹配，确定是否调整删减数量并重新对第二发音序列执行删减处理，直至最新的匹配结果不为无法匹配为止，以基于最新的匹配结果，确定语音段对应于目标文本中的位置信息，且对应的匹配结果不为无法匹配的第四发音序列作为新的第二发音序列。上述方法，在目标对象朗读目标文本存在朗读语序与目标文本不一致时，对第二发音序列执行删减处理，以得到第四发音序列，基于第四发音序列与第一发音序列之间的匹配结果，确定新的匹配结果，能够尽可能的降低因目标对象朗读出错导致无法将待测音频中的语音段与目标文本进行匹配的可能性，提高语音段对应于目标文本中的位置信息的获取准确度，故能提升待测音频进行语言评测的准确性。

需要说明的是，执行删减处理的具体删减数量以及删减方式在本申请中不做限定。

在一个具体的实施场景中，在选择各个候选发音序列分别作为第四发音序列，并获取第一发音序列分别与各个第四发音序列之间的匹配结果之后，响应于各个第四发音序列分别对应的匹配结果均包括无法匹配，确定新的匹配结果包括无法匹配。

在一个具体的实施场景中，响应于新的匹配结果包括无法匹配，调整删减数量并重新对第二发音序列执行删减处理，例如，各次执行删减处理时，删减数量均为固定值，即最新得到的第二发音序列对应的字符串数量随着删减处理的次数迭代减少。具体的，在上述实施例中，进行第一次删减处理后得到“BCDE”“ACDE”“ABDE”“ABCE”“ABCD”分别作为第四发音序列对应的字符串后，第一发音序列分别与各个第四发音序列之间的匹配结果包括无法匹配，第二次执行删减处理时，基于“BCDE”执行删减处理，得到“CDE”“BDE”“BCE”“BCD”，其他各个第四发音序列同理，以得到若干新的第四发音序列。

在一个具体的实施场景中，在对第二发音序列执行删减处理之后，检测所得到的第四发音序列对应的字符串的数量，当最新获取的第四发音序列对应的字符串数量小于预设阈值时，在本轮对各个最新获取的第四发音序列与第一发音序列进行匹配处理后，得到匹配结果仍然为无法匹配时，获取目标文本的索引信息以及上一匹配结果为唯一匹配的语音段位于目标文本中的位置信息，根据目标文本内索引位置优先的原则，将上一匹配结果为唯一匹配的语音段位于目标文本中的位置信息后的文本内容确定为对应于当前待匹配的语音段的位置信息。

在另一个具体的实施场景中，在选择各个候选发音序列分别作为第四发音序列，并获取第一发音序列分别与各个第四发音序列之间的匹配结果之后，响应于存在第四发音序列对应的匹配结果包括唯一匹配，确定新的匹配结果包括唯一匹配。

在一个具体的实施场景中，当存在第四发音序列对应的匹配结果包括唯一匹配时，将与第一发音序列唯一匹配的第四发音序列作为用于确定语音段位置信息的新的第二发音序列。语音段位置信息的确定方法具体可以参阅上述实施例中的详细描述，为了简洁，在此不再赘述。

在另一个具体的实施场景中，在选择各个候选发音序列分别作为第四发音序列，并获取第一发音序列分别与各个第四发音序列之间的匹配结果之后，响应于存在第四发音序列对应的匹配结果包括多处匹配，确定新的匹配结果包括多处匹配。

在一个具体的实施场景中，当存在第四发音序列对应的匹配结果包括多处匹配时，基于待测音频中下一语音段，识别得到第三发音序列，将第四发音序列与第三发音序列进行拼接，得到新的第二发音序列。语音段位置信息的确定方法具体可以参阅上述实施例中的详细描述，为了简洁，在此不再赘述。

步骤S40：基于各个语音段和语音段对应于目标文本中的位置信息，得到待测音频的评测结果。

本公开实施例中，待测音频的评测结果表征目标对象在在朗读待测音频时关于朗读的流利度、连贯性、发音准确性、语法正确性等多角度的衡量结果，例如普通话考试的测试结果等，具体应用场景在本申请中不做限定。

在一个实施场景中，在基于第一发音序列与语音段的第二发音序列之间的匹配结果，确定语音段对应于目标文本中的位置信息之后，以及在基于各个语音段和语音段对应于目标文本中的位置信息，得到待测音频的评测结果之前，基于目标文本，切分得到目标文本中的若干候选句文本，基于语音段在目标文本中的位置信息，确定关于语音段的候选句文本作为目标句文本，基于语音段的第二发音序列与目标句文本的第五发音序列之间的一致性检测结果，得到目标句文本的朗读比例，响应于目标句文本的朗读比例不小于预设比例，基于语音段和语音段对应于目标文本中的位置信息，确定语音段的目标评分，并基于各个语音段的目标评分，确定待测音频的评测结果。上述方法，基于目标文本中的目标句文本的朗读比例，确定是否对语音段进行质量检测，以达到逐句评测的效果，提升长篇章下目标文本朗读评测的准确度和合理性。

需要说明的是，预设比例的设置方法以及设置大小在本申请中不做限定，例如动态调节或者人为设置固定值等。

在一个具体的实施方式中，基于目标句文本的预测声学特征和语音段的真实声学特征，得到表征语音段质量的候选评分，可以理解的，目标句文本的预测声学特征和语音段的真实声学特征之间的一致性越高，表征语音段的音频质量越好，候选评分越高，基于语音段的排列顺序以及目标句文本位于目标文本中的切分顺序，得到目标权重，目标权重表征获取顺序与切分顺序的一致性，可以理解的，获取顺序与切分顺序的一致性越高，表征目标对象朗读目标文本的顺序越准确，目标权重越高，基于目标权重和候选评分，得到语音段的目标评分。

在一个具体的实施场景中，作为一种可能的实施方式，基于内容评分模型获取语音段的候选评分以及语音段中的发音检错概率。

在一个具体的实施场景中，在获取各个语音段的目标评分后，对各个目标评分和发音检错概率执行后处理，例如逐句加权求和得到整句段评分、通过发音检错概率对目标文本内逐字发音质量的分类，整理得到关于待测音频最终的评测结果并输出。

请参阅图2，图2是本申请语言评测方法中位置确定方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取目标文本的第一发音序列。