导航：首页> 建筑物>一种发音缺陷识别模型训练方法以及发音缺陷识别方法

一种发音缺陷识别模型训练方法以及发音缺陷识别方法

文献发布时间：2023-06-19 10:41:48

技术领域

本申请涉及计算机技术领域，尤其涉及一种发音缺陷识别模型训练方法以及发音缺陷识别方法。

背景技术

发音缺陷是指人说话时的发音存在问题，而且发音缺陷可以表现在很多方面(例如，发音不准、发音困难等)。目前，常用的发音缺陷识别过程为由相关人员通过主观听觉感知来识别一个人是否存在发音缺陷。

然而，因相关人员的主观识别容易发生错误，导致上述常用的发音缺陷识别过程的识别准确性较低，从而导致如何准确地识别发音缺陷成为一个亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种发音缺陷识别模型训练方法以及发音缺陷识别方法，能够准确地识别出发音缺陷。

本申请实施例提供了一种发音缺陷识别模型训练方法，所述方法包括：

获取语音样本和所述语音样本的缺陷标签；其中，所述语音样本的缺陷标签用于表示所述语音样本的提供者是否存在发音缺陷；

根据所述语音样本，生成所述语音样本的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

根据所述语音样本的语音特征和所述语音样本的缺陷标签，训练发音缺陷识别模型。

本申请实施例还提供了一种发音缺陷识别方法，所述方法包括：

获取待识别用户的目标语种测试语音；

根据所述目标语种测试语音，生成所述目标语种测试语音的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

将所述目标语种测试语音的语音特征输入预先训练的发音缺陷识别模型，得到所述发音缺陷识别模型输出的第一识别结果；其中，所述发音缺陷识别模型是利用本申请实施例提供的发音缺陷识别模型训练方法的任一实施方式进行训练的；

根据所述第一识别结果，确定待识别用户是否存在发音缺陷。

本申请实施例还提供了一种发音缺陷识别模型训练装置，所述装置包括：

第一获取单元，用于获取语音样本和所述语音样本的缺陷标签；其中，所述语音样本的缺陷标签用于表示所述语音样本的提供者是否存在发音缺陷；

第一生成单元，用于根据所述语音样本，生成所述语音样本的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

模型训练单元，用于根据所述语音样本的语音特征和所述语音样本的缺陷标签，训练发音缺陷识别模型。

本申请实施例还提供了一种发音缺陷识别装置，所述装置包括：

第二获取单元，用于获取待识别用户的目标语种测试语音；

第二生成单元，用于根据所述目标语种测试语音，生成所述目标语种测试语音的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

第一识别单元，用于将所述目标语种测试语音的语音特征输入预先训练的发音缺陷识别模型，得到所述发音缺陷识别模型输出的第一识别结果；其中，所述发音缺陷识别模型是利用本申请实施例提供的发音缺陷识别模型训练方法的任一实施方式进行训练的；

第一确定单元，用于根据所述第一识别结果，确定待识别用户是否存在发音缺陷。

基于上述技术方案，本申请具有以下有益效果：

本申请提供的发音缺陷识别模型训练方法中，在获取到语音样本和该语音样本的缺陷标签之后，先根据该语音样本，生成该语音样本的语音特征，以使该语音特征包括声学特征、音素特征和发音属性特征；再根据该语音样本的语音特征和该语音样本的缺陷标签，训练发音缺陷识别模型。其中，语音样本的缺陷标签用于表示该语音样本的提供者是否存在发音缺陷。

可见，因语音样本的语音特征包括该语音样本的声学特征、该语音样本的音素特征和该语音样本的发音属性特征，使得该语音样本的语音特征能够准确地表征出该语音样本携带的发音信息，从而使得该语音样本的语音特征能够准确地表征出该语音样本提供者的发音表现，如此使得基于该语音样本的语音特征以及缺陷标签训练好的发音缺陷识别模型具有较好的发音缺陷识别性能，从而使得后续能够利用训练好的发音缺陷识别模型准确地识别出发音缺陷。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种发音缺陷识别模型训练方法的流程图；

图2为本申请实施例提供的普通话声母以及韵母示意图；

图3为本申请实施例提供的普通话声母的发音属性示意图；

图4为本申请实施例提供的普通话韵母的发音属性示意图；

图5为本申请实施例提供的一种第一模型的结构示意图；

图6为本申请实施例提供的一种第一模型的工作流程示意图；

图7为本申请实施例提供的一种第二模型的结构示意图；

图8为本申请实施例提供的一种第二模型的工作流程示意图；

图9为本申请实施例提供的另一种第二模型的结构示意图；

图10为本申请实施例提供的本申请实施例提供的一种发音缺陷识别方法的流程图；

图11为本申请实施例提供的一种发音缺陷识别模型训练装置的结构示意图；

图12为本申请实施例提供的一种发音缺陷识别装置的结构示意图。

具体实施方式

发明人在对识别发音缺陷的研究中发现，在相关技术中，可以利用训练语音数据的声学特征和该训练语音数据的缺陷标签对预测模型进行训练，得到训练好的预测模型，以使该训练好的预测模型能够用于识别发音缺陷。然而，因训练语音数据的声学特征无法全面表征该训练语音数据携带的发音信息(也就是，该训练语音数据提供者的发音表现)，导致基于该训练语音数据的声学特征训练好的预测模型具有较差的发音缺陷识别性能。

为了解决背景技术部分的技术问题以及上述相关技术的缺陷，本申请实施例提供了一种发音缺陷识别模型训练方法，该方法包括：获取语音样本和该语音样本的缺陷标签；根据该语音样本，生成该语音样本的语音特征；根据该语音样本的语音特征和该语音样本的缺陷标签，训练发音缺陷识别模型。其中，语音样本的缺陷标签用于表示该语音样本的提供者是否存在发音缺陷；语音特征包括声学特征、音素特征和发音属性特征。

另外，本申请实施例不限定发音缺陷识别模型训练方法的执行主体，例如，本申请实施例提供的发音缺陷识别模型训练方法可以应用于终端设备或服务器等数据处理设备。其中，终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，该图为本申请实施例提供的一种发音缺陷识别模型训练方法的流程图。

本申请实施例提供的发音缺陷识别模型训练方法，包括S11-S13：

S11：获取语音样本和语音样本的缺陷标签。

其中，语音样本是指训练发音缺陷识别模型所需使用的语音数据；而且，本申请实施例不限定语音样本的个数。

另外，本申请实施例不限定语音样本的获取方式，例如，语音样本可以由待采集用户阅读待录制语料得到。其中，待采集用户是指语音样本的提供者。待录制语料可以预先根据应用场景设定；而且待录制语料可以是字(如民、热、床、盆等)、词(如熊猫、剪刀、孔雀、老虎等)、限定性句子(如“这是喜欢跳舞的女孩”、“小狗跑到外面玩”等)以及非限定性连续语流(如针对询问有关工作、兴趣爱好等问题进行的回答)。

实际上，因语音样本的提供者可能会使用不同种类的语言(也就是，不同语种)进行表达，故为了提高发音缺陷识别模型的识别性能，可以利用不同语种下的语音样本进行发音缺陷识别模型的训练过程。可见，为了提高发音缺陷识别模型的识别性能，本申请实施例可以利用多语种下的语音样本训练发音缺陷识别模型。

另外，语音样本的语种可以根据发音缺陷识别模型的应用场景确定。在一种可能的实施方式中，若发音缺陷识别模型用于对M个语种下的语音数据进行发音缺陷识别，则训练该发音缺陷识别模型所需使用的T个语音样本可以包括至少一个第1个语种下的语音数据、至少一个第2个语种下的语音数据、……、和至少一个第M个语种下的语音数据。其中，M为正整数，T为正整数。需要说明的是，本申请实施例不限定第1个语种至第M个语种，例如，第1个语种可以为普通话，第2个语种至第M个语种均可以是不同的中国地方方言(如，北方、吴、湘、赣、客、闽、粤等中国地方方言)。

语音样本的缺陷标签用于表示语音样本的提供者是否存在发音缺陷；而且本申请实施例不限定该语音样本的缺陷标签的获取方式，例如，可以由领域专家对该语音样本进行人工标注，也可以采用现有的或者未来出现的任一种能够实现对语音样本进行发音缺陷标注的方法进行实施。

基于上述S11的相关内容可知，可以根据发音缺陷识别模型的应用场景，获取T个语音样本和该T个语音样本的缺陷标签(例如，当发音缺陷识别模型的应用场景包括下文目标语种和下文辅助语种时，可以获取目标语种下语音样本及其缺陷标签、辅助语种下的语音样本及其缺陷标签)，以使该T个语音样本的语种能够覆盖在该发音缺陷识别模型的应用场景中涉及的所有语种，从而使得基于T个语音样本和该T个语音样本的缺陷标签训练得到的发音缺陷识别模型能够针对各个语种下的语音数据进行准确地发音缺陷识别。

S12：根据语音样本，生成语音样本的语音特征。

其中，语音样本的语音特征用于表征该语音样本携带的发音信息；而且该语音样本的语音特征可以包括该语音样本的声学特征、该语音样本的音素特征和该语音样本的发音属性特征。

语音样本的声学特征用于表征该语音样本携带的声学信息(例如，频率倒谱系数、功率归一化倒谱系数等)。另外，本申请实施例不限定语音样本的声学特征，而且该语音样本的声学特征可以包括该语音样本的至少一种传统声学特征。例如，该语音样本的声学特征可以包括梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCCs)、FBank(filter bank)、功率归一化倒谱系数(power-normalized cepstral coefficients，PNCC)等。

语音样本的音素特征用于表征该语音样本携带的音素信息。

其中，音素是根据语音的自然属性划分出来的最小语音单位；而且不同语种下的音素不同。例如，对于普通话来说，普通话可以包括23个声母和24个韵母(如图2所示)，而且该24个韵母包括6个单韵母、9个复韵母、5个前鼻韵母和4个后鼻韵母。可见，因9个复韵母、5个前鼻韵母和4个后鼻韵母可以由单韵母和声母进行组合得到，使得普通话的音素可以包括23个声母和6个单韵母。

另外，本申请实施例不限定语音样本的音素特征，为了便于理解，下面结合两个示例进行说明。

示例1，语音样本的音素特征可以包括该语音样本的音素。其中，语音样本的音素是指组成该语音样本的音素；而且本申请实施例不限定该语音样本的音素的获取过程。例如，若语音样本的语种为目标语种，则该语音样本的音素可以采用下文第一模型进行获取；若语音样本的语种为辅助语种，则该语音样本的音素可以采用下文第二模型进行获取。

示例2，语音样本的音素特征可以是音素识别模型中输出层的输入数据，而且该音素识别模型中输出层的输出数据为该语音样本的音素。其中，音素识别模型用于针对语音数据进行音素识别；而且本申请实施例不限定音素识别模型，例如，若语音样本的语种为目标语种，则该音素识别模型可以为下文第一模型；若语音样本的语种为辅助语种，则该音素识别模型可以为下文第二模型。

语音样本的发音属性特征用于表征该语音样本携带的发音属性信息。

其中，发音属性包括发音方式和发音部位，而且不同音素的发音属性不同。例如，对于普通话来说，因声母“y”的发音属性与单韵母“i”的发音属性相同，而且声母“w”的发音属性与单韵母“u”的发音属性相同，故普通话的发音属性可以包括27种发音属性，而且该27种发音属性可以包括图3所示的21个声母的发音属性和图4所示的6个单韵母的发音属性。

另外，本申请实施例不限定语音样本的发音属性特征，为了便于理解，下面结合两个示例进行说明。

示例1，语音样本的发音属性特征可以包括该语音样本的发音属性。其中，语音样本的发音属性是指组成该语音样本的音素所具有的发音属性；而且本申请实施例不限定该语音样本的发音属性的获取过程。例如，若语音样本的语种为目标语种，则该语音样本的发音属性可以采用下文第一模型进行获取；若语音样本的语种为辅助语种，则该语音样本的发音属性可以采用下文第二模型进行获取。

示例2，语音样本的发音属性特征可以是发音属性识别模型中输出层的输入数据，而且该发音属性识别模型中输出层的输出数据为该语音样本的发音属性。其中，发音属性识别模型用于针对语音数据进行发音属性识别；而且本申请实施例不限定发音属性识别模型，例如，若语音样本的语种为目标语种，则该发音属性识别模型可以为下文第一模型；若语音样本的语种为辅助语种，则该发音属性识别模型可以为下文第二模型。

此外，本申请实施例不限定S12的实施方式，例如，在一种可能的实施方式下，S12具体可以包括S121-S123：

S121：从语音样本中提取语音样本的声学特征。

本申请实施例不限定S121的实施方式，可以采用现有的或未来出现的任一种用于从语音数据中提取声学特征的方法进行实施。例如，在一种可能的实施方式中，S121具体可以为：按照预设声学指标，从该语音样本中提取语音样本的声学特征。其中，预设声学指标可以预先设定，而且本申请实施例不限定预设声学指标(如，预设声学指标可以包括FBank、MFCCs和PNCC中的至少一个)。

在一些情况下，语音样本可能会包括背景噪声和无效静音段，故为了提高声学特征的准确性，本申请实施例还提供了S121的一种可能的实施方式，其具体可以包括S1211-S1212：

S1211：对语音样本进行预处理，得到预处理后的语音样本。

预处理是指预先设定的语音处理过程；而且，本申请实施例不限定预处理。例如，预处理可以包括语音活动检测过程、高通滤波降噪过程、语音增强过程和语音归一化过程中的至少一个。其中，语音活动检测过程用于准确地定位出语音信号的起始点和结束点。高通滤波降噪过程用于降低语音信号的背景噪声。语音增强过程用于从带噪语音信号中提取尽可能纯净的原始语音。

基于上述S1211的相关内容可知，在获取到语音样本之后，可以对语音样本进行预处理，得到预处理后的语音样本。例如，当预处理包括语音活动检测过程、高通滤波降噪过程、语音增强过程和语音归一化过程时，可以先对语音样本进行语音活动检测过程，得到有效语音数据，以使该有效语音数据不包括无效静音段；再对该有效语音数据进行高通滤波降噪过程，得到低噪语音数据；再对该低噪语音数据进行语音增强过程，得到有用语音数据；再对该有用语音数据进行语音归一化过程，得到预处理后的语音样本，以使该预处理后的语音样本几乎不包括背景噪声以及无效静音段。

S1212：根据预处理后的语音样本，确定该语音样本的声学特征。

本申请实施例中，在获取到预处理后的语音样本之后，可以直接从该预处理后的语音样本中提取该语音样本的声学特征。其中，因预处理后的语音样本几乎不包括背景噪声以及无效静音段，使得基于该预处理后的语音样本确定的该语音样本的声学特征更准确，如此有利于提高发音缺陷识别模型的识别准确性。

基于上述S121的相关内容可知，本申请实施例中，在获取到语音样本之后，可以先对该语音样本进行预处理，得到预处理后的语音样本；再按照预设声学指标，从该预处理后的语音样本中提取语音样本的声学特征，以使该声学特征能够准确地表示出该语音样本携带的声学信息；而且该提取过程具体可以为：当预设声学指标包括FBank、MFCCs和PNCC时，可以先根据预设声学指标和该预处理后的语音样本，确定该语音样本的FBank值、MFCCs值以及PNCC值；再根据该语音样本的FBank值、MFCCs值以及PNCC值，生成该语音样本的声学特征，以使该语音样本的声学特征包括该语音样本的FBank值、MFCCs值以及PNCC值。

S122：根据语音样本的声学特征，确定该语音样本的音素特征和该语音样本的发音属性特征。

本申请实施例不限定语音样本的音素特征和该语音样本的发音属性特征的获取过程，可以同时获取，也可以依次获取。为了便于理解，下面以同时获取语音样本的音素特征以及发音属性特征为例进行说明。

作为示例，S122具体可以为：根据语音样本的声学特征和预先训练的多任务学习模型，得到该语音样本的音素特征和语音样本的发音属性特征。

其中，多任务学习模型用于进行音素识别过程和发音属性识别过程，而且该多任务学习模型是通过多任务学习方式进行训练的。

另外，因不同语种下的音素以及发音属性均不相同，故可以针对不同语种训练不同的多任务学习模型，以使该训练好的每个多任务学习模型能够专用于至少一个语种下的音素识别过程以及发音属性识别过程。可见，不同语种下的语音样本可以采用不同的多任务学习模型进行音素识别以及发音属性识别。基于此，本申请实施例还提供了S122的一种可能的实施方式，其具体可以包括S1221-S1222：

S1221：当语音样本的语种为目标语种时，根据该语音样本的声学特征和预先训练的第一模型，得到该语音样本的音素特征和该语音样本的发音属性特征。

本申请不限定目标语种，例如，目标语种可以是一种使用范围较广的语言(例如，普通话)。

第一模型用于进行目标语种下的音素识别过程以及发音属性识别过程；而且本申请实施例不限定第一模型的模型结构。例如，如图5所示，第一模型可以包括第一共享参数层、目标语种音素识别层和目标语种发音属性识别层；而且目标语种音素识别层的输入数据和目标语种发音属性识别层的输入数据均是第一共享参数层的输出数据。

其中，第一共享参数层用于对第一模型的输入数据(如，目标语种下语音样本的声学特征、下文目标语种测试语音的声学特征等)进行特征提取；而且本申请实施例不限定第一共享参数层，例如，第一共享参数层可以包括卷积神经网络(Convolutional NeuralNetworks，CNN)、全连接层和循环神经网络(Recurrent Neural Network，RNN)中的至少一个。

目标语种音素识别层用于根据第一共享参数层的输出数据进行音素识别；而且本申请实施例不限定目标语种音素识别层，例如，目标语种音素识别层可以是一个多分类器。另外，目标语种音素识别层可以包括第一子输出层(如图6所示)；而且该第一子输出层用于输出音素识别结果，以使该音素识别结果用于表示第一模型的输入数据所携带的音素。需要说明的是，本申请实施例不限定第一子输出层，例如，第一子输出层可以是全连接层。

目标语种发音属性识别层用于根据第一共享参数层的输出数据进行发音属性识别；而且本申请实施例不限定目标语种发音属性识别层，例如，目标语种发音属性识别层可以是一个多分类器。另外，目标语种发音属性识别层可以包括第二子输出层(如图6所示)；而且该第二子输出层用于输出发音属性识别结果，以使该发音属性识别结果用于表示第二模型的输入数据所携带的发音属性。需要说明的是，本申请实施例不限定第二子输出层，例如，第二子输出层可以是全连接层。

基于上述第一模型的模型结构的相关内容可知，第一模型可以按照图6所示的数据处理过程对第一模型的输入数据(如，目标语种下语音样本的声学特征、下文目标语种测试语音的声学特征等)进行音素识别以及发音属性识别，得到并输出第一模型的输入数据的预测音素以及预测发音属性。

另外，第一模型可以按照多任务学习方式进行训练；而且第一模型可以根据目标语种训练语音的声学特征、目标语种训练语音的实际音素和目标语种训练语音的实际发音属性训练得到。

其中，目标语种训练语音是指目标语种下的用于训练第一模型的语音数据，而且目标语种训练语音的声学特征可以在第一模型的训练过程充当该第一模型的输入数据。另外，本申请实施例不限定目标语种训练语音的个数。此外，本申请实施例也不限定目标语种训练语音的获取方式，例如，可以采用上文获取语音样本的任一实施方式进行实施。

目标语种训练语音的实际音素是指目标语种训练语音中携带的实际音素；而且该目标语种训练语音的实际音素可以在第一模型的训练过程充当该第一模型的标签信息的角色，以使该目标语种训练语音的实际音素可以指导该第一模型的更新过程。另外，本申请实施例不限定目标语种训练语音的实际音素的获取方式，例如，目标语种训练语音的实际音素可以由领域专家依据目标语种下的音素表对目标语种训练语音中的实际音素进行人工标注。

目标语种训练语音的实际发音属性是指目标语种训练语音中携带的实际发音属性；而且该目标语种训练语音的实际发音属性可以在第一模型的训练过程充当该第一模型的标签信息的角色，以使该目标语种训练语音的实际发音属性可以指导该第一模型的更新过程。另外，本申请实施例不限定目标语种训练语音的实际发音属性的获取方式，例如，目标语种训练语音的实际发音属性可以由领域专家依据目标语种下的发音属性表对目标语种训练语音中的实际发音属性进行人工标注。

本申请实施例不限定第一模型的训练过程，可以采用现有的或者未来出现的任一种多任务模型训练方法进行实施。例如，在一种可能的实施方式中，第一模型的训练过程可以包括步骤11-步骤13：

步骤11：将目标语种训练语音的声学特征输入第一模型，得到该第一模型输出的该目标语种训练语音的预测音素和该目标语种训练语音的预测发音属性。

步骤12：判断是否达到第一停止条件，若是，则结束第一模型的训练过程；若否，则执行步骤13。

其中，第一停止条件可以预先设定。另外，本申请实施例不限定第一停止条件，例如，第一停止条件可以是目标语种训练语音对应的预测信息(例如，预测音素和预测发音属性)与目标语种训练语音对应的实际信息(例如，实际音素和实际发音属性)之间的差距达到第一差距阈值，也可以是目标语种训练语音对应的预测信息的变化率低于第一变化阈值，还可以是第一模型的更新次数达到第一次数阈值。

本申请实施例中，可以判断当前轮的第一模型是否达到第一停止条件，若达到，则表示当前轮的第一模型具有较高的识别性能，故可以保存和/或使用当前轮的第一模型；若未达到，则表示当前轮的第一模型具有较差的识别性能，故可以依据目标语种训练语音的预测音素与实际音素之间的差距、以及该目标语种训练语音的预测发音属性与实际发音属性之间的差距，更新第一模型，以使更新后的第一模型具有更高的识别性能。

步骤13：根据目标语种训练语音的预测音素、目标语种训练语音的实际音素、目标语种训练语音的预测发音属性和目标语种训练语音的实际发音属性，更新第一模型，并返回执行步骤11。

需要说明的是，本申请实施例不限定第一模型的更新方式，可以采用现有的或者未来出现的任一种多任务模型更新过程进行实施。

基于上述步骤11至步骤13的相关内容可知，可以依据目标语种训练语音的声学特征、实际音素以及实际发音属性对第一模型进行训练，以使训练好的第一模型具有较高的识别性能，从而使得后续能够使用训练好的第一模型进行目标语种下的音素识别过程以及发音属性识别过程。

另外，本申请实施例不限定S1221的实施方式，例如，在一种可能的实施方式中，当第一模型包括目标语种音素识别层和目标语种发音属性识别层，该目标语种音素识别层包括第一子输出层，且该目标语种发音属性识别层包括第二子输出层时，S1221具体可以为：若语音样本的语种为目标语种，则先将语音样本的声学特征输入第一模型，得到第一子输出层的第一输入数据和第二子输出层的第一输入数据；再将第一子输出层的第一输入数据，确定为语音样本的音素特征，并将第二子输出层的第一输入数据，确定为语音样本的发音属性特征。

其中，第一子输出层的第一输入数据是指当第一模型根据语音样本的声学特征进行音素识别以及发音属性识别时输入到第一子输出层中的数据。同理，第二子输出层的第一输入数据是指当第一模型根据语音样本的声学特征进行音素识别以及发音属性识别时输入到第二子输出层中的数据。

可见，对于目标语种下语音样本(也就是，语音样本的语种为目标语种)来说，可以直接将该语音样本的声学特征输入到第一模型，以使该第一模型根据该语音样本的声学特征进行音素识别以及发音属性识别，以便将该第一模型中输入到第一子输出层的数据确定为该语音样本的音素特征，并将该第一模型中输入到第二子输出层的数据确定为该语音样本的发音属性特征。

基于上述S1221的相关内容可知，若语音样本的语种为目标语种，则可以由第一模型根据该语音样本的声学特征进行音素识别以及发音属性识别，得到该语音样本的音素特征和该语音样本的发音属性特征。

S1222：当语音样本的语种为辅助语种时，根据该语音样本的声学特征和预先训练的第二模型，得到该语音样本的音素特征和该语音样本的发音属性特征。

本申请实施例不限定辅助语种，例如，辅助语种可以是一种使用范围较小的语言。另外，辅助语种可以与目标语种相关，例如，若目标语种为普通话，则辅助语种可以为中国地方方言中的任一种。此外，本申请实施例不限定辅助语种的个数。

第二模型用于进行辅助语种下的音素识别过程以及发音属性识别过程；而且本申请实施例不限定第二模型，例如，第二模型可以只用于进行辅助语种下的音素识别过程以及发音属性识别过程。又如，因辅助语种下的语音数据较少，故为了提高第二模型的识别准确性，第二模型可以用于进行N个语种下的音素识别过程以及发音属性识别过程，而且该N个语种包括辅助语种。其中，N为正整数。需要说明的是，N个语种可以根据应用场景预先设定。例如，当目标语种为普通话时，该N个语种可以是N个中国地方方言。

另外，本申请实施例不限定第二模型的模型结构。例如，当第二模型用于进行N个语种下的音素识别过程以及发音属性识别过程时，如图7所示，第二模型可以包括第二共享参数层、N个语种音素识别层和N个语种发音属性识别层；而且该N个语种音素识别层的输入数据和该N个语种发音属性识别层的输入数据均是第二共享参数层的输出数据。

其中，第二共享参数层用于对第二模型的输入数据(如，辅助语种下的语音样本的声学特征、下文辅助语种测试语音的声学特征等)进行特征提取；而且本申请实施例不限定第二共享参数层，例如，第二共享参数层可以包括CNN、全连接层和RNN中的至少一个。需要说明的是，本申请实施例不限定第二共享参数层的初始化层参数，例如，为了提高第二模型的训练效率，可以将训练好的第一模型中第一共享参数层的层参数确定为第二共享参数层的初始化层参数。

第i个语种音素识别层用于进行第i个语种下的音素识别过程；而且本申请实施例不限定第i个语种音素识别层，例如，第i个语种音素识别层可以是一个多分类器。另外，第i个语种音素识别层可以包括第P

第i个语种发音属性识别层用于进行第i个语种下的发音属性识别过程；而且本申请实施例不限定第i个语种发音属性识别层，例如，第i个语种发音属性识别层可以是一个多分类器。另外，第i个语种发音属性识别层可以包括第A

基于上述第二模型的模型结构的相关内容可知，第二模型可以是一个多语种识别模型，以使该第二模型可以用于进行多个语种下的音素识别以及发音属性识别。另外，如图8所示，对于第二模型来说，若第二模型的输入数据的语种为第i个语种，则可以由第二模型中第i个语种音素识别层针对第二模型的输入数据进行音素识别，得到并输出该第二模型的输入数据的预测音素，并由第二模型中第i个语种发音属性识别层针对第二模型的输入数据进行发音属性识别，得到并输出该第二模型的输入数据的预测发音属性。

可见，当第二模型用于进行N个语种下的音素识别过程以及发音属性识别过程时，因第二模型需要依据该模型的输入数据的语种选择音素识别层和发音属性识别层，使得在利用第二模型进行音素识别以及发音属性识别时需要使用第二模型的输入数据的语种，故为了满足该需求，本申请实施例提供了以下两种解决方案。

方案一：如图9所示，可以在第二模型中增加一个语种识别层，以使该语种识别层能够根据第二共享参数层的输出数据进行语种识别，得到并输出第二模型的输入数据的预测语种，以便第二模型能够基于该预测语种选择音素识别层和发音属性识别层。可见，本申请实施例可以通过向第二模型中增加一个语种识别层的方式(也就是，增加第二模型的学习任务的方式)来获取第二模型的输入数据的语种。

方案二：可以直接向第二模型输入语种标识，以使该第二模型的输入数据可以包括语音数据和该语音数据的语种标识，从而使得该第二模型能够基于该输入数据携带的语种标识选择音素识别层和发音属性识别层。可见，本申请实施例可以通过向第二模型的直接输入语种标识的方式来获取第二模型的输入数据的语种。

需要说明的是，本申请实施例不限定方案二中“语音数据的语种标识”，例如，方案二中的“语音数据的语种标识”可以是指该语音数据的实际语种标识。又如，方案二中的“语音数据的语种标识”的获取过程可以为：将语音数据输入预先训练好的语种识别模型，得到该语种识别模型输出的预测语种标识，并将该预测语种标识确定为该语音数据的语种标识。另外，本申请实施例不限定语种识别模型，可以采用现有的或未来出现的任一种能够实现语种识别的模型(如，下文的语种分类模型)进行实施。

另外，第二模型可以按照多任务学习方式进行训练；而且当第二模型应用于N个语种下的音素识别以及发音属性识别时，该第二模型可以根据N个语种训练语音的声学特征、N个语种训练语音的实际音素和N个语种训练语音的实际发音属性训练得到。

第i个语种训练语音是指第i个语种下的用于训练第二模型的语音数据；该第i个语种训练语音的声学特征用于表征第i个语种训练语音中携带的声学信息；该第i个语种训练语音的实际音素是指第i个语种训练语音中携带的实际音素；该第i个语种训练语音的实际发音属性是指第i个语种训练语音中携带的实际发音属性。其中，i为正整数，i≤N。

需要说明的是，本申请实施例不限定第i个语种训练语音的获取方式，例如，可以采用上文获取语音样本的任一实施方式进行实施。另外，本申请实施例也不限定第i个语种训练语音的实际音素和第i个语种训练语音的实际发音属性的获取方式，例如，可以由领域专家依据第i个语种下的音素表和发音属性表针对第i个训练语音进行人工音素标注和人工发音属性标注。

此外，N个语种训练语音的声学特征可以在第二模型的训练过程充当第二模型的输入数据的角色；而且N个语种训练语音的实际音素和N个语种训练语音的实际发音属性均可以在第二模型的训练过程充当第二模型的标签信息的角色，以使该N个语种训练语音的实际音素以及实际发音属性均可以指导第二模型的更新过程。

需要说明的是，本申请实施例不限定第二模型的训练过程，可以采用任一种多任务模型训练方法进行实施。

基于上述第二模型的训练过程相关内容可知，当第二模型应用于N个语种下的音素识别以及发音属性识别时，若该N个语种包括辅助语种，则可以确定该第二模型是根据辅助语种训练语音的声学特征、辅助语种训练语音的实际音素和辅助语种训练语音的实际发音属性训练得到的，以使训练好的第二模型能够针对辅助语种下的语音数据(如，辅助语种下的语音样本或者下文辅助语种测试语音)进行音素识别以及发音属性识别。其中，辅助语种训练语音是指辅助语种下的用于训练第二模型的语音数据。

另外，本申请实施例不限定S1222的实施方式，例如，在一种可能的实施方式中，当第二模型包括N个语种音素识别层和N个语种发音属性识别层，第i个语种音素识别层包括第P

可见，对于第i个语种下的语音样本(也就是，语音样本的语种为第i个语种)来说，在获取到语音样本的声学特征之后，可以直接将该语音样本的声学特征和该语音样本的语种标识输入到第二模型，以使该第二模型可以根据该语音样本的声学特征以及语种标识进行音素识别以及发音属性识别，以便将该第一模型中第P

基于上述S1221至S1222的相关内容可知，在获取到语音样本之后，可以先确定该语音样本的语种；再根据该语音样本的语种和该语音样本的声学特征，确定该语音样本的音素特征以及发音属性特征，而且该确定过程具体可以为：当该语音样本的语种为目标语种时，由第一模型根据该语音样本的声学特征，得到该语音样本的音素特征以及发音属性特征；当该语音样本的语种为辅助语种(如，第i个语种)，且第二模型对应的N个语种包括该辅助语种时，由第二模型根据该语音样本的声学特征以及语种标识，得到该语音样本的音素特征以及发音属性特征。

需要说明的是，本申请实施例不限定语音样本的语种，例如，该语音样本的语种可以是指该语音样本的实际语种。又如，语音样本的语种的获取过程可以为：将该语音样本输入预先训练好的语种识别模型，得到该语种识别模型输出的预测语种标识，并将该预测语种标识确定为该语音样本的语种。其中，“语种识别模型”的相关内容参见上文。

S123：根据语音样本的声学特征、语音样本的音素特征和语音样本的发音属性特征，确定语音样本的语音特征。

本申请实施例中，在获取到语音样本的声学特征、音素特征以及发音属性特征之后，可以根据该语音样本的声学特征、该语音样本的音素特征和该语音样本的发音属性特征，生成该语音样本的语音特征，以使该语音样本的语音特征能够表征该语音样本携带的声学信息、音素信息以及发音属性信息。

需要说明的是，本申请实施例不限定S123的实施方式，例如，可以将语音样本的声学特征、语音样本的音素特征和语音样本的发音属性特征的集合，确定为语音样本的语音特征。

基于上述S121至S123的相关内容可知，在获取到语音样本之后，可以先根据该语音样本，确定该语音样本的声学特征，以使该声学特征能够表征该语音样本中携带的声学信息；再根据该语音样本的声学特征，确定该语音样本的音素特征和该语音样本的发音属性特征，以使该语音样本的音素特征能够表征该语音样本中携带的音素信息，以及该语音样本的发音属性特征能够表征该语音样本中携带的发音属性信息；最后，根据该语音样本的声学特征、音素特征以及发音属性特征，确定该语音样本的语音特征，以使该语音样本的语音特征能够表征该语音样本携带的声学信息、音素信息以及发音属性信息，从而使得该语音样本的语音特征能够更全面地表征该语音样本携带的发音信息。

S13：根据语音样本的语音特征和语音样本的缺陷标签，训练发音缺陷识别模型。

本申请实施例中，在获取到语音样本的语音特征以及缺陷标签之后，可以利用该语音样本的语音特征和该语音样本的缺陷标签对发音缺陷识别模型进行训练，以使训练好的发音缺陷识别模型具有较高的发音缺陷识别性能。其中，语音样本的语音特征在发音缺陷识别模型的训练过程中充当该发音缺陷识别模型的输入数据的角色；而且语音样本的缺陷标签在发音缺陷识别模型的训练过程中充当标签信息的角色，以使该语音样本的缺陷标签能够指导该发音缺陷识别模型的更新过程。

需要说明的是，本申请实施例不限定S13的实施方式，可以采用现有的或者未来出现的任一种模型训练方法进行实施。另外，本申请实施例也不限定发音缺陷识别模型的模型结构，可以采用现有的或者未来出现的任一种机器学习模型的模型结构进行实施。

基于上述S11至S13的相关内容可知，在本申请提供的发音缺陷识别模型训练方法中，在获取到语音样本和该语音样本的缺陷标签之后，先根据该语音样本，生成该语音样本的语音特征，以使该语音特征包括声学特征、音素特征和发音属性特征；再根据该语音样本的语音特征和该语音样本的缺陷标签，训练发音缺陷识别模型。其中，语音样本的缺陷标签用于表示该语音样本的提供者是否存在发音缺陷。

基于上述发音缺陷识别模型训练方法的相关内容可知，可以利用训练好的发音缺陷识别模型进行发音缺陷识别。基于此，本申请实施例还提供了一种发音缺陷识别方法，下面结合附图进行解释和说明。

参见图10，该图为本申请实施例提供的一种发音缺陷识别方法的流程图。

本申请实施例提供的发音缺陷识别方法，包括S101-S104：

S101：获取待识别用户的目标语种测试语音。

其中，待识别用户是指需要判断是否存在发音缺陷的用户；而且该待识别用户也是目标语种测试语音的提供者。另外，待识别用户可以使用目标语种进行表达。

目标语种测试语音是指在判断待识别用户是否存在发音缺陷时所需使用的语音数据；而且该目标语种测试语音的语种为目标语种。

另外，本申请实施例不限定目标语种测试语音的获取方式，例如，目标语种测试语音可以由待识别用户使用目标语种阅读待测试语料得到。其中，待测试语料可以预先设定；而且待测试语料类似于上文“待录制语料”。

基于S101的相关内容可知，若想判断待识别用户是否存在发音缺陷，则可以由该待识别用户使用目标语种阅读预先设定的待测试预料，得到目标语种测试语音，以便后续能够依据该目标语种测试语音判断该待识别用户是否存在发音缺陷。

S102：根据目标语种测试语音，生成目标语种测试语音的语音特征。

其中，目标语种测试语音的语音特征用于表征该目标语种测试语音携带的发音信息。

另外，目标语种测试语音的语音特征可以包括该目标语种测试语音的声学特征、该目标语种测试语音的音素特征和该目标语种测试语音的发音属性特征。其中，目标语种测试语音的声学特征用于表征该目标语种测试语音携带的声学信息；目标语种测试语音的音素特征用于表征该目标语种测试语音携带的音素信息；目标语种测试语音的发音属性特征用于表征该目标语种测试语音携带的发音属性信息。

需要说明的是，S102可以采用上文S12中获取目标语种下语音样本(也就是，该语音样本的语种为目标语种)的语音特征的任一实施方式进行实施，只需将上文S12中获取目标语种下语音样本的语音特征的任一实施方式的“语音样本”替换为“目标语种测试语音”即可。为了便于理解，下面结合示例进行说明。

作为示例，S102具体可以包括S1021-S1023：

S1021：从目标语种测试语音中提取目标语种测试语音的声学特征。

需要说明的是，S1021可以采用上文S121的任一实施方式进行实施，只需将上文S121的任一实施方式中“语音样本”替换为“目标语种测试语音”即可。

S1022：根据目标语种测试语音的声学特征，确定目标语种测试语音的音素特征和目标语种测试语音的发音属性特征。

需要说明的是，S1022可以采用上文S1221的任一实施方式进行实施，只需将上文S1221的任一实施方式中“语音样本”替换为“目标语种测试语音”即可。例如，在一种可能的实施方式下，S1022具体可以为：根据目标语种测试语音的声学特征和预先训练的第一模型，得到目标语种测试语音的音素特征和目标语种测试语音的发音属性特征。

其中，“第一模型”的相关内容请参见上文S1221中“第一模型”的相关内容。

另外，本申请实施例不限定目标语种测试语音的音素特征，例如，目标语种测试语音的音素特征可以为由第一模型根据目标语种测试语音的声学特征进行音素识别得到并输出的预测音素。又如，目标语种测试语音的音素特征也可以为在由第一模型根据目标语种测试语音的声学特征进行音素识别时输入到第一子输出层的数据。

此外，本申请实施例也不限定目标语种测试语音的发音属性特征，例如，目标语种测试语音的发音属性特征可以为由第一模型根据目标语种测试语音的声学特征进行发音属性识别得到并输出的预测发音属性。又如，目标语种测试语音的发音属性特征也可以为在由第一模型根据目标语种测试语音的声学特征进行发音属性识别时输入到第二子输出层的数据。

为了便于理解目标语种测试语音的音素特征以及发音属性，下面结合示例进行说明。

作为示例，当第一模型包括目标语种音素识别层和目标语种发音属性识别层，目标语种音素识别层包括第一子输出层，而且目标语种发音属性识别层包括第二子输出层时，S1022具体可以为：先将目标语种测试语音的声学特征输入第一模型，得到第一子输出层的第二输入数据和第二子输出层的第二输入数据；再将第一子输出层的第二输入数据，确定为目标语种测试语音的音素特征，并将第二子输出层的第二输入数据，确定为目标语种测试语音的发音属性特征。

其中，第一子输出层的第二输入数据是指当第一模型根据目标语种测试语音的声学特征进行音素识别以及发音属性识别时输入到第一子输出层中的数据。同理，第二子输出层的第二输入数据是指当第一模型根据目标语种测试语音的声学特征进行音素识别以及发音属性识别时输入到第二子输出层中的数据。

基于上述S1022的相关内容可知，在获取到目标语种测试语音的声学特征之后，可以由训练好的第一模型根据该目标语种测试语音的声学特征进行音素识别以及发音属性识别，得到该目标语种测试语音的音素特征和该目标语种测试语音的发音属性特征。

S1023：根据目标语种测试语音的声学特征、目标语种测试语音的音素特征和目标语种测试语音的发音属性特征，确定目标语种测试语音的语音特征。

需要说明的是，S1023可以采用上文S123的任一实施方式进行实施，只需将上文S123的任一实施方式中“语音样本”替换为“目标语种测试语音”即可。

基于上述S1021至S1023的相关内容可知，在获取到目标语种测试语音之后，可以先根据该目标语种测试语音，确定该目标语种测试语音的声学特征；再根据该目标语种测试语音的声学特征，确定该目标语种测试语音的音素特征以及发音属性特征；最后，根据该目标语种测试语音的声学特征、音素特征以及发音属性特征，确定该目标语种测试语音的语音特征，以使该目标语种测试语音的语音特征能够表征该目标语种测试语音的声学信息、音素信息以及发音属性信息，从而使得该目标语种测试语音的语音特征能够更全面地表征该目标语种测试语音携带的发音信息。

S103：将目标语种测试语音的语音特征输入预先训练的发音缺陷识别模型，得到发音缺陷识别模型输出的第一识别结果。

其中，发音缺陷识别模型用于进行发音缺陷识别过程；而且发音缺陷识别模型可以利用本申请实施例提供的发音缺陷识别模型训练方法的任一实施方式进行训练。

第一识别结果用于表示待识别用户(也就是目标语种测试语音的提供者)是否存在发音缺陷。另外，本申请实施例不限定第一识别结果的表示方式，例如，第一识别结果可以利用预设字符表示，其具体为：若第一识别结果为“1”，则表示待识别用户存在发音缺陷；若第一识别结果为“0”，则表示待识别用户不存在发音缺陷。又如，第一识别结果可以利用概率值进行表示，其具体为：第一识别结果可以包括第一概率值和/或第二概率值，第一概率值表示待识别用户存在发音缺陷的可能性，且第二概率值表示待识别用户不存在发音缺陷的可能性。

基于上述S103的相关内容可知，在获取到目标语种测试语音的语音特征之后，可以直接将该目标语种测试语音的语音特征输入到预先训练好的发音缺陷识别模型，以使该发音缺陷识别模型根据目标语种测试语音的语音特征进行发音缺陷识别，得到并输出第一识别结果，以使该第一识别结果能够准确地表示出待识别用户是否存在发音缺陷。

S104：根据第一识别结果，确定待识别用户是否存在发音缺陷。

本申请实施例中，在获取到第一识别结果之后，可以根据第一识别结果确定该待识别用户是否存在发音缺陷，而且该确定过程具体可以为：判断第一识别结果是否满足第一条件；若是，则确定该待识别用户存在发音缺陷；若否，则确定该待识别用户不存在发音缺陷。

其中，第一条件可以预先设定；而且本申请实施例不限定第一条件，例如，当第一识别结果利用预设字符表示时，该第一条件可以设定为“第一识别结果为1”。又如，当第一识别结果可以利用概率值进行表示时，该第一条件可以设定为“第一概率值≥第一概率阈值”和/或“第二概率值＜第一概率阈值”。需要说明的是，第一概率阈值可以预先设定，例如，第一概率阈值可以为0.5。

基于上述S101至S104的相关内容可知，在获取到待识别用户的目标语种测试语音之后，先根据该目标语种测试语音，生成该目标语种测试语音的语音特征；再将该目标语种测试语音的语音特征输入预先训练的发音缺陷识别模型，得到该发音缺陷识别模型输出的第一识别结果；最后，根据该第一识别结果，确定待识别用户是否存在发音缺陷。

其中，因目标语种测试语音的语音特征能够全面地表征该目标语种测试语音携带的发音信息，而且训练好的发音缺陷识别模型具有较好的发音缺陷识别性能，使得由发音缺陷识别模型根据目标语种测试语音的语音特征进行发音缺陷识别，得到并输出的第一识别结果能够准确地表示出待识别用户是否存在发音缺陷，从而使得基于第一识别结果得到的待识别用户是否存在发音缺陷的结论更准确。

在一些情况下，若待识别用户同时掌握了目标语种(如普通话)和辅助语种(如中国地方方言)，则易因辅助语种的发音影响导致该待识别用户在使用目标语种进行表达时出现发音错误的现象。例如，由于合肥话“东”的发音跟普通话“东”的发音相同，但是合肥话“西”发音“si”(第一声)，普通话“西”发音“xi”(第一声)，故对于同时掌握了合肥话和普通话的待识别用户来说，该待识别用户在利用普通话读“东西”时很容易读成“dong si”的发音，导致该待识别用户出现发音错误。可见，在一些情况下，待识别用户的发音缺陷的发生原因可以是该待识别用户已掌握的辅助语种对该待识别用户产生过度影响。

另外，待识别用户还可以因自身身体问题(例如，咽部问题、舌头问题等)导致该待识别用户的发音出现问题。可见，在一些情况下，待识别用户的发音缺陷的发生原因也可以是待识别用户的自身身体问题。

基于上述分析可知，待识别用户的发音缺陷的发生原因多样，故在确定出待识别用户存在发音缺陷之后，还可以进一步地识别该待识别用户的发音缺陷的发生原因。基于此，本申请实施例还提供了发音缺陷识别方法的一种可能的实施方式，在该实施方式中，当待识别用户掌握目标语种和辅助语种时，该发音缺陷识别方法除了包括上述S101-S104以外，还可以包括步骤21-步骤25：

步骤21：在确定第一识别结果满足第一条件时，确定待识别用户存在发音缺陷。其中，“第一条件”的相关内容可以参见上文S104中“第一条件”的相关内容。

步骤22：获取待识别用户的辅助语种测试语音。

其中，辅助语种测试语音是指由待识别用户利用辅助语种录制的；而且该辅助语种测试语音携带的语义信息与目标语种测试语音携带的语义信息相同。

另外，本申请实施例不限定辅助语种，例如，辅助语种可以是一种使用范围较小的语言。此外，本申请实施例也不限定辅助语种测试语音的获取方式，例如，若目标语种测试语音是由待识别用户使用目标语种阅读待测试语料得到的，则该辅助语种测试语音可以由待识别用户使用辅助语种阅读该待测试语料得到。

基于上述步骤22的相关内容可知，若待识别用户可以使用目标语种和辅助语种进行表达，则在根据目标语种测试语音确定出该待识别用户存在发音缺陷之后，可以由该待识别用户使用辅助语种再次阅读预先设定的待测试预料，得到辅助语种测试语音，以便后续能够根据该辅助语种测试语音，确定待识别用户的发音缺陷的发生原因。

步骤23：根据辅助语种测试语音，生成辅助语种测试语音的语音特征。

其中，辅助语种测试语音的语音特征用于表征该辅助语种测试语音携带的发音信息。

另外，辅助语种测试语音的语音特征可以包括该辅助语种测试语音的声学特征、该辅助语种测试语音的音素特征和该辅助语种测试语音的发音属性特征。其中，辅助语种测试语音的声学特征用于表征该辅助语种测试语音携带的声学信息；辅助语种测试语音的音素特征用于表征该辅助语种测试语音携带的音素信息；辅助语种测试语音的发音属性特征用于表征该辅助语种测试语音携带的发音属性信息。

需要说明的是，步骤23可以采用上文S12中获取辅助语种下语音样本(也就是，语音样本的语种为辅助语种)的语音特征的任一实施方式进行实施，只需将上文S12中获取辅助语种下语音样本的语音特征的任一实施方式的“语音样本”替换为“辅助语种测试语音”即可。例如，在一种可能的实施方式下，步骤23具体可以包括步骤231-步骤233：

步骤231：从辅助语种测试语音中提取辅助语种测试语音的声学特征。

需要说明的是，步骤231可以采用上文S121的任一实施方式进行实施，只需将上文S121的任一实施方式中“语音样本”替换为“辅助语种测试语音”即可。

步骤232：根据辅助语种测试语音的声学特征，确定辅助语种测试语音的音素特征和辅助语种测试语音的发音属性特征。

需要说明的是，步骤232可以采用上文S1222的任一实施方式进行实施，只需将上文S1222的任一实施方式中“语音样本”替换为“辅助语种测试语音”即可。例如，在一种可能的实施方式下，步骤232具体可以为：根据辅助语种测试语音的声学特征和预先训练的第二模型，得到辅助语种测试语音的音素特征和辅助语种测试语音的发音属性特征。

其中，“第二模型”的相关内容请参见上文S1222中“第二模型”的相关内容。

另外，本申请实施例不限定辅助语种测试语音的音素特征，例如，当辅助语种测试语音的语种为第j个语种时，该辅助语种测试语音的音素特征可以为由第二模型根据辅助语种测试语音的声学特征进行第j个语种下音素识别得到并输出的预测音素。又如，当辅助语种测试语音的语种为第j个语种时，辅助语种测试语音的音素特征也可以为在由第一模型根据辅助语种测试语音的声学特征进行第j个语种下音素识别时输入到第P

此外，本申请实施例不限定辅助语种测试语音的发音属性特征，例如，当辅助语种测试语音的语种为第j个语种时，该辅助语种测试语音的发音属性特征可以为由第二模型根据辅助语种测试语音的声学特征进行第j个语种下发音属性识别得到并输出的预测发音属性。又如，当辅助语种测试语音的语种为第j个语种时，辅助语种测试语音的发音属性特征也可以为在由第一模型根据辅助语种测试语音的声学特征进行第j个语种下发音属性识别时输入到第A

为了便于理解辅助语种测试语音的音素特征以及发音属性，下面结合示例进行说明。

作为示例，当第二模型包括N个语种音素识别层和N个语种发音属性识别层，第j个语种音素识别层包括第P

基于上述步骤232的相关内容可知，在获取到辅助语种测试语音的声学特征之后，可以由第二模型根据该辅助语种测试语音的声学特征进行音素识别以及发音属性识别，得到该辅助语种测试语音的音素特征以及发音属性特征。

步骤233：根据辅助语种测试语音的声学特征、辅助语种测试语音的音素特征和辅助语种测试语音的发音属性特征，确定辅助语种测试语音的语音特征。

需要说明的是，步骤233可以采用上文S123的任一实施方式进行实施，只需将上文S123的任一实施方式中“语音样本”替换为“辅助语种测试语音”即可。

基于上述步骤231至步骤233的相关内容可知，在获取到辅助语种测试语音之后，可以先根据该辅助语种测试语音，确定该辅助语种测试语音的声学特征；再根据该辅助语种测试语音的声学特征，确定该辅助语种测试语音的音素特征以及发音属性特征；最后，根据该辅助语种测试语音的声学特征、音素特征以及发音属性特征，确定该辅助语种测试语音的语音特征，以使该辅助语种测试语音的语音特征能够表征辅助语种测试语音的声学信息、音素信息以及发音属性信息，从而使得该辅助语种测试语音的语音特征能够更全面地表征该辅助语种测试语音携带的发音信息。

步骤24：根据目标语种测试语音的语音特征和辅助语种测试语音的语音特征，生成目标语种测试语音的融合特征。

其中，目标语种测试语音的融合特征用于表征目标语种测试语音携带的语音信息和辅助语种测试语音携带的语音信息。

另外，本申请实施例不限定步骤24的实施方式，可以采用现有的或未来出现的任一种特征融合方法进行实施。例如，在一种可能的实施方式下，步骤24具体可以包括步骤241-步骤244：

步骤241：根据目标语种测试语音的声学特征、辅助语种测试语音的声学特征和预先训练的语种分类模型，得到目标语种测试语音的目标语种概率、目标语种测试语音的辅助语种概率、辅助语种测试语音的目标语种概率和辅助语种测试语音的辅助语种概率。

其中，语种分类模型用于进行语种识别；而且本申请实施例不限定语种分类模型，可以采用现有的或者未来出现的任一种能够进行语种识别的模型进行实施。

另外，本申请实施例也不限定语种分类模型的训练过程，例如，语种分类模型可以根据分类训练语音的声学特征和分类训练语音的实际语种训练得到。其中，分类训练语音是指训练语种分类模型时所需使用的语音数据；而且该分类训练语音的语种可以根据语种分类模型的应用场景设定。此外，分类训练语音的声学特征在语种分类模型的训练过程中充当该语种分类模型的输入数据的角色；而且分类训练语音的实际语种在语种分类模型的训练过程中充当该语种分类模型的标签信息的角色，以使该分类训练语音的实际语种能够指导语种分类模型的更新过程。

目标语种测试语音的目标语种概率是指语种分类模型将该目标语种测试语音的语种确定为目标语种的可能性。

目标语种测试语音的辅助语种概率是指语种分类模型将该目标语种测试语音的语种确定为辅助语种的可能性。

辅助语种测试语音的目标语种概率是指语种分类模型将该辅助语种测试语音的语种确定为目标语种的可能性。

辅助语种测试语音的辅助语种概率是指语种分类模型将该辅助语种测试语音的语种确定为辅助语种的可能性。

另外，本申请实施例不限定步骤241的实施方式，例如，在一种可能的实施方式下，步骤241具体可以包括步骤2411-步骤2412：

步骤2411：将目标语种测试语音的声学特征输入语种分类模型，得到该语种分类模型输出的该目标语种测试语音的目标语种概率和该目标语种测试语音的辅助语种概率。

步骤2412：将辅助语种测试语音的声学特征输入语种分类模型，得到该语种分类模型输出的该辅助语种测试语音的目标语种概率和该辅助语种测试语音的辅助语种概率。

基于上述步骤241的相关内容可知，在获取到目标语种测试语音的语音特征和辅助语种测试语音的语音特征之后，可以由语种分类模型分别根据目标语种测试语音的语音特征和辅助语种测试语音的语音特征进行语种分类，得到该目标语种测试语音的目标语种概率以及辅助语种概率、该辅助语种测试语音的目标语种概率以及辅助语种概率。

步骤242：根据目标语种测试语音的目标语种概率和辅助语种测试语音的目标语种概率，确定目标语种测试语音的特征融合权重。

其中，目标语种测试语音的特征融合权重是指在将目标语种测试语音的语音特征和辅助语种测试语音的语音特征进行融合时该目标语种测试语音的语音特征所占的影响比重。

另外，本申请实施例不限定目标语种测试语音的特征融合权重的计算方式，例如，可以将目标语种测试语音的目标语种概率和辅助语种测试语音的目标语种概率的平均值，确定为该目标语种测试语音的特征融合权重。

步骤243：根据目标语种测试语音的辅助语种概率和辅助语种测试语音的辅助语种概率，确定辅助语种测试语音的特征融合权重。

其中，辅助语种测试语音的特征融合权重是指在将目标语种测试语音的语音特征和辅助语种测试语音的语音特征进行融合时该辅助语种测试语音的语音特征所占的影响比重。

另外，本申请实施例不限定辅助语种测试语音的特征融合权重的计算方式，例如，可以将目标语种测试语音的辅助语种概率和辅助语种测试语音的辅助语种概率的平均值，确定为该辅助语种测试语音的特征融合权重。

步骤244：根据目标语种测试语音的语音特征、目标语种测试语音的特征融合权重、辅助语种测试语音的语音特征和辅助语种测试语音的特征融合权重，生成目标语种测试语音的融合特征。

本申请实施例中，在获取到目标语种测试语音的语音特征、该目标语种测试语音的特征融合权重、辅助语种测试语音的语音特征和该辅助语种测试语音的特征融合权重之后，可以按照目标语种测试语音的特征融合权重和辅助语种测试语音的特征融合权重，对该目标语种测试语音的语音特征和辅助语种测试语音的语音特征进行加权融合，得到该目标语种测试语音的融合特征，以使该融合特征携带有目标语种测试语音中的发音信息以及辅助语种测试语音中的发音信息。

步骤25：将目标语种测试语音的融合特征输入发音缺陷识别模型，得到发音缺陷识别模型输出的第二识别结果。

其中，第二识别结果可以用于表示目标语种测试语音的融合特征是否携带有发音问题，也可以用于表征辅助语种测试语音的语种是否对待识别用户产生过度影响。

另外，本申请实施例不限定第二识别结果的表示方式，例如，第二识别结果可以利用预设字符表示，其具体为：若第二识别结果为“1”，则表示目标语种测试语音的融合特征携带有发音问题，从而可以表示目标语种测试语音中携带的发音问题不是因辅助语种的过度影响产生的，从而可以确定目标语种测试语音中携带的发音问题是由待识别用户的自身身体问题导致的；若第一识别结果为“0”，则表示目标语种测试语音的融合特征未携带有发音问题，从而可以表示目标语种测试语音中携带的发音问题是因辅助语种的过度影响产生的。又如，第二识别结果可以利用概率值进行表示，其具体为：第二识别结果可以包括第三概率值和/或第四概率值，第三概率值表示目标语种测试语音的融合特征携带有发音问题的可能性(也可以表示辅助语种测试语音的语种对待识别用户产生过度影响的可能性)，且第四概率值表示目标语种测试语音的融合特征不携带发音问题的可能性(也可以表示辅助语种测试语音的语种不对待识别用户产生过度影响的可能性)。

步骤26：根据第二识别结果，确定待识别用户的发音缺陷产生原因。

本申请实施例中，在获取到第二识别结果之后，可以根据该第二识别结果确定待识别用户的发音缺陷产生原因，其具体可以为：判断第二识别结果是否满足第二条件，若是，则可以将第一原因确定为该待识别用户的发音缺陷产生原因；若否，则可以将第二原因确定为该待识别用户的发音缺陷产生原因。

其中，第二条件可以预先设定；而且本申请实施例不限定第二条件，例如，当第二识别结果可以利用预设字符表示时，该第二条件可以设定为“第一识别结果为1”。又如，当第二识别结果可以利用概率值进行表示时，该第二条件可以设定为“第一概率值≥第二概率阈值”和/或“第二概率值＜第二概率阈值”。需要说明的是，第二概率阈值可以预先设定，例如，第二概率阈值可以为0.5。

第一原因为辅助语种测试语音的语种对待识别用户产生过度影响。

第二原因是指除了第一原因以外的其他原因；而且本申请实施例不限定第二原因。例如，第二原因可以为待识别用户的自身身体问题。

基于上述步骤21至步骤26的相关内容可知，在确定出第一识别结果满足第一条件之后，先获取待识别用户的辅助语种测试语音及其语音特征，再将该辅助语种测试语音的语音特征和目标语种测试语音的语音特征进行融合，得到该目标语种测试语音的融合特征，并将该目标语种测试语音的融合特征输入发音缺陷识别模型，得到该发音缺陷识别模型输出的第二识别结果，以使该第二识别结果能够准确地表征出目标语种测试语音中携带的发音错误是否是由辅助语种的过度影响造成的；最后，根据该第二识别结果确定该待识别用户的发音缺陷产生原因。

需要说明的是，本申请实施例不限定待识别用户是否存在发音缺陷的结论以及待识别用户的发音缺陷产生原因的后续应用。例如，可以利用待识别用户是否存在发音缺陷的结论以及待识别用户的发音缺陷产生原因辅助医生诊断该待识别用户是否具有构音障碍；而且构音障碍可以根据待识别用户是否存在发音缺陷的结论、待识别用户的发音缺陷以及待识别用户的发音部位(如，咽部、舌头等)检查结果进行确定。

在一些情况下，需要获取目标语种测试语音中携带的发音错误，故为了满足该需求，本申请实施例还提供了发音缺陷识别方法的另一种可能的实施方式，在该实施方式中，该发音缺陷识别方法除了包括上述全部或部分步骤以外，还包括步骤31-步骤34：

步骤31：根据目标语种测试语音，生成该目标语种测试语音的音素和该目标语种测试语音的发音属性。

其中，目标语种测试语音的音素用于描述该目标语种测试语音中携带的音素信息(也就是，待识别用户录制该目标语种测试语音所使用的音素)。

目标语种测试语音的发音属性用于描述该目标语种测试语音中携带的发音属性信息(也就是，待识别用户录制该目标语种测试语音所使用的发音属性)。

本申请实施例不限定步骤31的实施方式，例如，在一种可能的实施方式下，步骤31具体可以包括步骤311-步骤312：

步骤311：从目标语种测试语音中提取目标语种测试语音的声学特征。

需要说明的是，步骤311可以采用上文S121的任一实施方式进行实施，只需将上文S121的任一实施方式中“语音样本”替换为“目标语种测试语音”即可。

步骤312：将目标语种测试语音的声学特征输入预先构建的第一模型，得到第一模型输出的目标语种测试语音的音素和目标语种测试语音的发音属性。

其中，“第一模型”的相关内容请参见上文S1221中“第一模型”的相关内容。

基于上述步骤311至步骤312的相关内容可知，在获取到目标语种测试语音之后，可以先根据该目标语种测试语音，确定该目标语种测试语音的声学特征；再将该目标语种测试语音的声学特征输入到训练好的第一模型，以使该第一模型根据该目标语种测试语音的声学特征进行音素识别以及发音属性识别，得到并输出该目标语种测试语音的音素以及发音属性。

步骤32：将目标语种测试语音的音素与第一标准音素进行比对，得到目标语种音素比对结果。

其中，第一标准音素包括目标语种测试语音对应的实际音素；而且本申请实施例不限定第一标准音素的获取方式，例如，若目标语种测试语音是由待识别用户使用目标语种阅读待测试语料得到，则第一标准音素可以根据该待测试语料和目标语种下的音素表确定，以使该第一标准音素用于表示按照标准目标语种阅读该待测试语料时应该使用的音素。

目标语种音素比对结果用于描述目标语种测试语音的音素与第一标准音素之间的相同之处和/或不同之处。

步骤33：将目标语种测试语音的发音属性与第一标准发音属性进行比对，得到目标语种发音属性比对结果。

其中，第一标准发音属性包括目标语种测试语音对应的实际发音属性；而且本申请实施例不限定第一标准发音属性的获取方式，例如，若目标语种测试语音是由待识别用户使用目标语种阅读待测试语料得到，则第一标准发音属性可以根据该待测试语料和目标语种下的发音属性表确定，以使该第一标准发音属性用于表示按照标准目标语种阅读该待测试语料时应该使用的发音属性。

目标语种发音属性比对结果用于描述目标语种测试语音的发音属性与第一标准发音属性之间的相同之处和/或不同之处。

步骤34：根据目标语种音素比对结果和目标语种发音属性比对结果，确定目标语种发音错误。

其中，目标语种发音错误用于描述待识别用户在录制目标语种测试语音时出现的错误发音。

本申请实施例中，在获取到目标语种音素比对结果和目标语种发音属性比对结果之后，可以根据目标语种音素比对结果和目标语种发音属性比对结果，确定目标语种发音错误，其具体为：根据目标语种音素比对结果中记录的不同之处和目标语种发音属性比对结果中记录的不同之处，确定目标语种发音错误。

基于上述步骤31至步骤34的相关内容可知，本申请实施例中，在获取到目标语种测试语音之后，可以先利用第一模型针对该目标语种测试语音进行音素识别以及发音属性识别，得到并输出该目标语种测试语音的音素和该目标语种测试语音的发音属性；再根据目标语种测试语音的音素与第一标准音素之间的比对结果、以及该目标语种测试语音的发音属性分别与第一标准发音属性之间的比对结果，确定目标语种发音错误，以使该目标语种发音错误能够准确地表示出待识别用户在录制目标语种测试语音时出现的错误发音。

在一些情况下，若待识别用户掌握了目标语种和辅助语种，则该待识别用户的发音错误可以包括该待识别用户在目标语种下的发音错误和在辅助语种下的发音错误。基于此，本申请实施例还提供了发音缺陷识别方法的又一种可能的实施方式，在该实施方式中，该发音缺陷识别方法除了包括上述全部或部分步骤以外，还包括步骤41-步骤43：

步骤41：根据目标语种测试语音，生成该目标语种测试语音的音素和该目标语种测试语音的发音属性。

需要说明的是，步骤41的相关内容请参见上文步骤31的相关内容。

步骤42：根据辅助语种测试语音，生成该辅助语种测试语音的音素和该辅助语种测试语音的发音属性。

其中，辅助语种测试语音的音素用于描述该辅助语种测试语音中携带的音素信息(也就是，待识别用户录制辅助语种测试语音所使用的音素)。

辅助语种测试语音的发音属性用于描述该辅助语种测试语音中携带的发音属性信息(也就是，待识别用户录制辅助语种测试语音所使用的发音属性)。

本申请实施例不限定步骤42的实施方式，例如，在一种可能的实施方式下，步骤42具体可以包括步骤421-步骤422：

步骤421：从辅助语种测试语音中提取辅助语种测试语音的声学特征。

需要说明的是，步骤421可以采用上文S121的任一实施方式进行实施，只需将上文S121的任一实施方式中“语音样本”替换为“辅助语种测试语音”即可。

步骤422：将辅助语种测试语音的声学特征和该辅助语种测试语音的语种标识输入预先构建的第二模型，得到第二模型输出的辅助语种测试语音的音素和辅助语种测试语音的发音属性。

其中，“第二模型”的相关内容请参见上文S1222中“第二模型”的相关内容。

需要说明的是，本申请实施例不限定步骤422的实施方式，例如，当第二模型包括N个语种音素识别层和N个语种发音属性识别层时，步骤422具体可以为：若辅助语种测试语音的语种为第j个语种，则将辅助语种测试语音的声学特征和该辅助语种测试语音的语种标识输入第二模型，得到该第二模型中第j个语种音素识别层输出的该辅助语种测试语音的音素，以及第二模型中第j个语种发音属性识别层输出的该辅助语种测试语音的发音属性。

基于上述步骤421至步骤422的相关内容可知，在获取到辅助语种测试语音之后，可以先根据该辅助语种测试语音，确定该辅助语种测试语音的声学特征；再将该辅助语种测试语音的声学特征输入到训练好的第二模型，以使该第二模型根据该辅助语种测试语音的声学特征进行音素识别以及发音属性识别，得到并输出该辅助语种测试语音的音素以及发音属性。

步骤43：根据目标语种测试语音的音素、目标语种测试语音的发音属性、辅助语种测试语音的音素、辅助语种测试语音的发音属性、第一标准音素、第一标准发音属性、第二标准音素和第二标准发音属性，确定待识别用户的发音错误。

其中，“第一标准音素”的相关内容请参见上文步骤32中“第一标准音素”的相关内容；“第一标准发音属性”的相关内容请参见上文步骤32中“第第一标准发音属性”的相关内容。

第二标准音素包括辅助语种测试语音对应的实际音素；而且本申请实施例不限定第二标准音素的获取方式，例如，若辅助语种测试语音是由待识别用户使用辅助语种阅读待测试语料得到，则第二标准音素可以根据该待测试语料和辅助语种下的音素表确定，以使该第二标准音素用于表示按照标准辅助语种阅读该待测试语料时应该使用的音素。

第二标准发音属性包括辅助语种测试语音对应的实际发音属性；而且本申请实施例不限定第二标准发音属性的获取方式，例如，若辅助语种测试语音是由待识别用户使用辅助语种阅读待测试语料得到，则第二标准发音属性可以根据该待测试语料和辅助语种下的发音属性表确定，以使该第二标准音素用于表示按照标准辅助语种阅读该待测试语料时应该使用的发音属性。

待识别用户的发音错误用于描述该待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误发音；而且该待识别用户的发音错误可以包括待识别用户的音素错误和/或待识别用户的发音属性错误。

其中，待识别用户的音素错误用于描述该待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误音素。另外，本申请实施例不限定待识别用户的音素错误的确定过程，例如，在一种可能的实施方式下，该待识别用户的音素错误的确定过程可以包括步骤51-步骤53：

步骤51：将目标语种测试语音的音素与第一标准音素进行比对，得到目标语种音素比对结果。

需要说明的是，步骤51的相关内容请参见上文步骤32的相关内容。

步骤52：将辅助语种测试语音的音素与第二标准音素进行比对，得到辅助语种音素比对结果。

其中，辅助语种音素比对结果用于描述辅助语种测试语音的音素与第二标准音素之间的相同之处和/或不同之处。

步骤53根据目标语种音素比对结果和辅助语种音素比对结果，确定待识别用户的音素错误。

本申请实施例中，在获取到目标语种音素比对结果和辅助语种音素比对结果之后，可以根据该目标语种音素比对结果和该辅助语种音素比对结果，确定待识别用户的音素错误；而且该确定过程具体可以为：根据目标语种音素比对结果中记录的不同之处与辅助语种音素比对结果中记录的不同之处，确定待识别用户的音素错误，以使该音素错误用于表示待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误音素。

其中，待识别用户的发音属性错误用于描述该待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误发音属性。另外，本申请实施例不限定待识别用户的发音属性错误的确定过程，例如，在一种可能的实施方式下，该待识别用户的发音属性错误的确定过程可以包括步骤61-步骤63：

步骤61：将目标语种测试语音的发音属性与第一标准发音属性进行比对，得到目标语种发音属性比对结果。

需要说明的是，步骤61的相关内容请参见上文步骤33的相关内容。

步骤62：将辅助语种测试语音的发音属性与第二标准发音属性进行比对，得到辅助语种发音属性比对结果。

其中，辅助语种发音属性比对结果用于描述辅助语种测试语音的发音属性与第二标准发音属性之间的相同之处和/或不同之处。

步骤63根据目标语种发音属性比对结果和辅助语种发音属性比对结果，确定待识别用户的发音属性错误。

本申请实施例中，在获取到目标语种发音属性比对结果和辅助语种发音属性比对结果之后，可以根据该目标语种发音属性比对结果和该辅助语种发音属性比对结果，确定待识别用户的发音属性错误；而且该确定过程具体可以为：根据目标语种发音属性比对结果中记录的不同之处与辅助语种发音属性比对结果中记录的不同之处，确定待识别用户的发音属性错误，以使该发音属性错误用于表示待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误发音属性。

基于上述步骤41至步骤43的相关内容可知，若待识别用户可以使用目标语种和辅助语种进行表达，则可以根据该待识别用户录制的目标语种测试语音以及辅助语种测试语音，确定待识别用户的发音错误，以使该待识别用户的发音错误能够准确地描述出该待识别用户在录制目标语种测试语音和辅助语种测试语音时出现的错误发音(例如，错误音素和/或错误发音属性)，以便后续能够依据该待识别用户的发音错误进行相应处理(例如，显示给待识别用户、推荐发音纠正练习试题等)。

基于上述方法实施例提供的发音缺陷识别模型训练方法，本申请实施例还提供了一种发音缺陷识别模型训练装置，下面结合附图进行解释和说明。

装置实施例对发音缺陷识别模型训练装置进行介绍，相关内容请参见上述方法实施例。

参见图11，该图为本申请实施例提供的一种发音缺陷识别模型训练装置的结构示意图。

本申请实施例提供的发音缺陷识别模型训练装置1100，包括

第一获取单元1101，用于获取语音样本和所述语音样本的缺陷标签；其中，所述语音样本的缺陷标签用于表示所述语音样本的提供者是否存在发音缺陷；

第一生成单元1102，用于根据所述语音样本，生成所述语音样本的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

模型训练单元1103，用于根据所述语音样本的语音特征和所述语音样本的缺陷标签，训练发音缺陷识别模型。

在一种可能的实施方式中，所述第一生成单元1102，包括：

第一提取子单元，用于从所述语音样本中提取所述语音样本的声学特征；

第二确定子单元，用于根据所述语音样本的声学特征，确定所述语音样本的音素特征和所述语音样本的发音属性特征；

第三确定子单元，用于根据所述语音样本的声学特征、所述语音样本的音素特征和所述语音样本的发音属性特征，确定所述语音样本的语音特征。

在一种可能的实施方式中，所述第二确定子单元，包括：

第四确定子单元，用于当所述语音样本的语种为目标语种时，根据所述语音样本的声学特征和预先训练的第一模型，得到所述语音样本的音素特征和所述语音样本的发音属性特征；其中，所述第一模型是根据目标语种训练语音的声学特征、所述目标语种训练语音的实际音素和所述目标语种训练语音的实际发音属性训练得到的；

第五确定子单元，用于当所述语音样本的语种为辅助语种时，根据所述语音样本的声学特征和预先训练的第二模型，得到所述语音样本的音素特征和所述语音样本的发音属性特征；其中，所述第二模型是根据辅助语种训练语音的声学特征、所述辅助语种训练语音的实际音素和所述辅助语种训练语音的实际发音属性训练得到的。

在一种可能的实施方式中，所述第一模型包括目标语种音素识别层和目标语种发音属性识别层，所述目标语种音素识别层包括第一子输出层，所述目标语种发音属性识别层包括第二子输出层；

所述第四确定子单元，具体用于：将所述语音样本的声学特征输入所述第一模型，得到所述第一子输出层的第一输入数据和所述第二子输出层的第一输入数据；将所述第一子输出层的第一输入数据，确定为所述语音样本的音素特征；将所述第二子输出层的第一输入数据，确定为所述语音样本的发音属性特征。

在一种可能的实施方式中，所述第二模型包括N个语种音素识别层和N个语种发音属性识别层，第i个语种音素识别层包括第P

所述第五确定子单元，具体用于：当所述辅助语种为第i个语种时，将所述语音样本的声学特征和所述语音样本的语种标识输入所述第二模型，得到所述第P

基于上述方法实施例提供的发音缺陷识别方法，本申请实施例还提供了一种发音缺陷识别装置，下面结合附图进行解释和说明。

装置实施例对发音缺陷识别装置进行介绍，相关内容请参见上述方法实施例。

参见图12，该图为本申请实施例提供的一种发音缺陷识别装置的结构示意图。

本申请实施例提供的发音缺陷识别装置1200，包括：

第二获取单元1201，用于获取待识别用户的目标语种测试语音；

第二生成单元1202，用于根据所述目标语种测试语音，生成所述目标语种测试语音的语音特征；其中，所述语音特征包括声学特征、音素特征和发音属性特征；

第一识别单元1203，用于将所述目标语种测试语音的语音特征输入预先训练的发音缺陷识别模型，得到所述发音缺陷识别模型输出的第一识别结果；其中，所述发音缺陷识别模型是利用本申请实施例提供的发音缺陷识别模型训练方法的任一实施方式进行训练的；

第一确定单元1204，用于根据所述第一识别结果，确定待识别用户是否存在发音缺陷。

在一种可能的实施方式中，所述第二生成单元1202，包括：

第六确定子单元，用于从所述目标语种测试语音中提取所述目标语种测试语音的声学特征；

第七确定子单元，用于根据所述目标语种测试语音的声学特征，确定所述目标语种测试语音的音素特征和所述目标语种测试语音的发音属性特征；

第八确定子单元，用于根据所述目标语种测试语音的声学特征、所述目标语种测试语音的音素特征和所述目标语种测试语音的发音属性特征，确定所述目标语种测试语音的语音特征。

在一种可能的实施方式中，所述第七确定子单元，具体用于：

根据所述目标语种测试语音的声学特征和预先训练的第一模型，得到所述目标语种测试语音的音素特征和所述目标语种测试语音的发音属性特征；其中，所述第一模型是根据目标语种训练语音的声学特征、所述目标语种训练语音的实际音素和所述目标语种训练语音的实际发音属性训练得到的。

所述第七确定子单元，具体用于：将所述目标语种测试语音的声学特征输入所述第一模型，得到所述第一子输出层的第二输入数据和所述第二子输出层的第二输入数据；将所述第一子输出层的第二输入数据，确定为所述目标语种测试语音的音素特征；将所述第二子输出层的第二输入数据，确定为所述目标语种测试语音的发音属性特征。

在一种可能的实施方式中，所述发音缺陷识别装置1200还包括：

第三生成单元，用于根据所述目标语种测试语音，生成所述目标语种测试语音的音素和所述目标语种测试语音的发音属性；

第一比对单元，用于将所述目标语种测试语音的音素与所述第一标准音素进行比对，得到目标语种音素比对结果；

第二比对单元，用于将所述目标语种测试语音的发音属性与所述第一标准发音属性进行比对，得到目标语种发音属性比对结果；

第二确定单元，用于根据所述目标语种音素比对结果和所述目标语种发音属性比对结果，确定目标语种发音错误。

在一种可能的实施方式中，所述第三生成单元，具体用于：从所述目标语种测试语音中提取所述目标语种测试语音的声学特征；将所述目标语种测试语音的声学特征输入预先构建的第一模型，得到所述第一模型输出的所述目标语种测试语音的音素和所述目标语种测试语音的发音属性；其中，所述第一模型是根据目标语种训练语音的声学特征、所述目标语种训练语音的实际音素和所述目标语种训练语音的实际发音属性训练得到的。

在一种可能的实施方式中，所述发音缺陷识别装置1200还包括：

第三确定单元，用于在确定所述第一识别结果满足第一条件时，确定所述待识别用户存在发音缺陷；

第三获取单元，用于获取待识别用户的辅助语种测试语音；

第四生成单元，用于根据所述辅助语种测试语音，生成所述辅助语种测试语音的语音特征；

第五生成单元，用于根据所述目标语种测试语音的语音特征和所述辅助语种测试语音的语音特征，生成所述目标语种测试语音的融合特征；

第二识别单元，用于将所述目标语种测试语音的融合特征输入所述发音缺陷识别模型，得到所述发音缺陷识别模型输出的第二识别结果；

第四确定单元，用于根据所述第二识别结果，确定所述待识别用户的发音缺陷产生原因。

在一种可能的实施方式中，所述第四生成单元，包括：

第九确定子单元，用于从所述辅助语种测试语音中提取所述辅助语种测试语音的声学特征；

第十确定子单元，用于根据所述辅助语种测试语音的声学特征，确定所述辅助语种测试语音的音素特征和所述辅助语种测试语音的发音属性特征；

第十一确定子单元，用于根据所述辅助语种测试语音的声学特征、所述辅助语种测试语音的音素特征和所述辅助语种测试语音的发音属性特征，确定所述辅助语种测试语音的语音特征。

在一种可能的实施方式中，所述第十确定子单元，具体用于：根据所述辅助语种测试语音的声学特征和预先训练的第二模型，得到所述辅助语种测试语音的音素特征和所述辅助语种测试语音的发音属性特征；其中，所述第二模型是根据辅助语种训练语音的声学特征、所述辅助语种训练语音的实际音素和所述辅助语种训练语音的实际发音属性训练得到的。

在一种可能的实施方式中，所述第二模型包括N个语种音素识别层和N个语种发音属性识别层，第j个语种音素识别层包括第P

所述第十确定子单元，具体用于：当所述辅助语种测试语音的语种为第j个语种时，将所述辅助语种测试语音的声学特征和所述辅助语种测试语音的语种标识输入所述第二模型，得到所述第P

在一种可能的实施方式中，所述第五生成单元，具体用于：根据所述目标语种测试语音的声学特征、所述辅助语种测试语音的声学特征和预先训练的语种分类模型，得到所述目标语种测试语音的目标语种概率、所述目标语种测试语音的辅助语种概率、所述辅助语种测试语音的目标语种概率和所述辅助语种测试语音的辅助语种概率；其中，所述语种分类模型是根据分类训练语音的声学特征和所述分类训练语音的实际语种训练得到的；根据所述目标语种测试语音的目标语种概率和所述辅助语种测试语音的目标语种概率，确定所述目标语种测试语音的特征融合权重；根据所述目标语种测试语音的辅助语种概率和所述辅助语种测试语音的辅助语种概率，确定所述辅助语种测试语音的特征融合权重；根据所述目标语种测试语音的语音特征、所述目标语种测试语音的特征融合权重、所述辅助语种测试语音的语音特征和所述辅助语种测试语音的特征融合权重，生成所述目标语种测试语音的融合特征。

在一种可能的实施方式中，所述发音缺陷识别装置1200还包括：

第六生成单元，用于根据所述目标语种测试语音，生成所述目标语种测试语音的音素和所述目标语种测试语音的发音属性；

第七生成单元，用于根据所述辅助语种测试语音，生成所述辅助语种测试语音的音素和所述辅助语种测试语音的发音属性；

第五确定单元，用于根据所述目标语种测试语音的音素、所述目标语种测试语音的发音属性、所述辅助语种测试语音的音素、所述辅助语种测试语音的发音属性、第一标准音素、第一标准发音属性、第二标准音素和第二标准发音属性，确定所述待识别用户的发音错误。

在一种可能的实施方式中，所述第六生成单元，具体用于：从所述辅助语种测试语音中提取所述辅助语种测试语音的声学特征；将所述辅助语种测试语音的声学特征和所述辅助语种测试语音的语种标识输入预先构建的第二模型，得到所述第二模型输出的所述辅助语种测试语音的音素和所述辅助语种测试语音的发音属性；其中，所述第二模型是根据辅助语种训练语音的声学特征、所述辅助语种训练语音的实际音素和所述辅助语种训练语音的实际发音属性训练得到的。

在一种可能的实施方式中，所述待识别用户的发音错误包括所述待识别用户的音素错误和/或所述待识别用户的发音属性错误；

所述待识别用户的音素错误的确定过程为：将所述目标语种测试语音的音素与所述第一标准音素进行比对，得到目标语种音素比对结果；将所述辅助语种测试语音的音素与所述第二标准音素进行比对，得到辅助语种音素比对结果；根据所述目标语种音素比对结果和所述辅助语种音素比对结果，确定待识别用户的音素错误；

所述待识别用户的发音属性错误的确定过程为：将所述目标语种测试语音的发音属性与所述第一标准发音属性进行比对，得到目标语种发音属性比对结果；将所述辅助语种测试语音的发音属性与所述第二标准发音属性进行比对，得到辅助语种发音属性比对结果；根据所述目标语种发音属性比对结果和所述辅助语种发音属性比对结果，确定所述待识别用户的发音属性错误。

在一种可能的实施方式中，所述第一确定单元1204，具体用于：在确定所述第二识别结果第二条件时，将第一原因确定为所述待识别用户的发音缺陷产生原因；其中，第一原因是所述辅助语种测试语音的语种对所述待识别用户产生过度影响。

进一步地，本申请实施例还提供了一种发音缺陷识别模型训练设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述发音缺陷识别模型训练方法的任一种实现方法。

进一步地，本申请实施例还提供了一种发音缺陷识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述发音缺陷识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述发音缺陷识别模型训练方法的任一种实现方法，或者执行上述发音缺陷识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述发音缺陷识别模型训练方法的任一种实现方法，或者执行上述发音缺陷识别方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐飞扬;张弢;李鑫;凌震华;
专利申请人：科大讯飞股份有限公司;

上一篇：一种视频展示、生成方法及装置
下一篇：一种施工用钢丝绳索网平台及其安装方法