掌桥专利:专业的专利平台
掌桥专利
首页

语音评分方法和语音评分装置

文献发布时间:2023-06-19 19:30:30


语音评分方法和语音评分装置

技术领域

本申请涉及语音信号处理技术领域,尤其涉及一种语音评分方法和语音评分装置。

背景技术

随着计算机技术和互联网的快速发展,语音广泛地应用于生产生活的各个方面。为了语音更好地进行传输,以满足用户日益增长的语音需求,通常需要利用语音检测算法对语音的质量进行评分,以保证语音传输的质量。目前常用的语音检测算法分两类,第一类基于传统信号处理的语音有效性活动检测,第二类是基于深度学习神经网络的语音有效性检测。其中,第一类算法处理的耗时短,对硬件性能需求不高,但是准确度不够高,而第二类算法的准确度比较好,但算法处理耗时长,对硬件性能要求高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中传统语音检测算法准确度不够高、基于深度学习的语音检测算法处理耗时长的技术缺陷。

第一方面,本申请实施例提供了一种语音评分方法,方法包括:

获取待测音频,并将待测音频输入质量检测模型,得到置信度;置信度用于反映待测音频的音频质量;

判断置信度是否在预设置信度区间的范围内;

若置信度不在预设置信度区间的范围内,则将待测音频的评分确定为第一分值;

若置信度在预设置信度区间的范围内,则将待测音频输入活动检测模型,得到检测数据;检测数据包括人声长度和人声概率因素,人声概率因素用于反映待测音频包含人声的平均概率;

判断检测数据是否满足预设检测条件;

若检测数据不满足预设检测条件,则根据人声概率因素将待测音频的评分确定为第二分值;

若检测数据满足预设检测条件,则将待测音频和待测音频对应的参考文本输入发音检测模型,得到发音准确因素;发音准确因素用于反映待测音频的发音准确度;

根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值。

在其中一个实施例中,质量检测模型得到置信度的过程包括:

对待测音频进行预处理;预处理包括依次进行的加窗、分帧和预加重;

提取经过预处理的待测音频的第一声学特征,将第一声学特征输入决策树模型;第一声学特征用于反映待测音频的时域特征;

根据第一声学特征和决策树模型,判断待测音频中每一帧为有效帧或无效帧;

根据有效帧的数量与待测音频的总帧数之间的比例,得到置信度。

在其中一个实施例中,活动检测模型得到检测数据的过程包括:

将待测音频转换成频谱图;

利用特征提取层从频谱图中提取第二声学特征;特征提取层包括依次连接的卷积神经网络和循环神经网络;

基于第二声学特征,利用全连接层预测待测音频的每一帧音频包含人声的概率;

根据每一帧音频包含人声的概率,确定待测音频的人声帧,并根据人声帧确定人声长度;人声帧为包含人声的概率不小于概率阈值的音频帧;

利用池化层和每一帧音频包含人声的概率,得到人声概率因素。

在其中一个实施例中,发音检测模型得到发音准确因素的过程包括:

对待测音频进行分割处理,确定待测音频的各音频段、各音频段包含的字词以及组成各字词的音素;

利用GOP算法对音素进行打分,得到音素的分值;

根据字词对应的各音素的分值,确定字词的平均音素分值;

根据音频段对应的各字词的平均音素分值,确定音频段对应的有效字词;有效字词为字词的平均音素分值不小于音素阈值的字词;

根据音频段的有效字词数量与音频段的总字词数量之间的比例,确定音频段的分值;

根据各音频段的分值,确定发音准确因素。

在其中一个实施例中,根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值,包括:

判断发音准确因素是否小于发音阈值;

若发音准确因素不小于发音阈值,则确定权重比例为第一权重比例,并根据第一权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值;

若发音准确因素小于发音阈值,则确定权重比例为第二权重比例,并根据第二权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值;其中,第二权重比例中发音准确因素的权重小于第一权重比例中发音准确因素的权重。

在其中一个实施例中,活动检测模型得到检测数据的过程还包括:

确定各人声帧中的第一个人声帧为人声开始帧;

将待测音频和待测音频对应的参考文本输入发音检测模型,包括:

将人声开始帧、待测音频和参考文本输入发音检测模型,以使发音检测模型根据待测音频从人声开始帧以后的部分,得到发音准确因素。

在其中一个实施例中,判断检测数据是否满足预设检测条件,包括:

判断人声概率因素是否大于人声阈值,且判断人声长度是否不小于长度阈值;

若人声概率因素大于人声阈值,且人声长度不小于长度阈值,则判定检测数据满足预设检测条件;否则判定检测数据不满足预设检测条件。

在其中一个实施例中,在将待测音频输入质量检测模型,得到置信度前,还包括:

判断所述待测音频是否满足预设的文件格式规范;

若是,则将待测音频输入质量检测模型,得到置信度;

若否,则结束评分。

在其中一个实施例中,判断待测音频是否满足预设的文件格式规范,包括:

判断待测音频的文件格式是否为WAV、采样频率是否为16KHz、通道数是否为单通道且量化位数是否为16bits;

若待测音频的文件格式为WAV、采样频率为16KHz、通道数为单通道且量化位数为16bits,则判定待测音频满足预设的文件格式规范;否则判定待测音频不满足预设的文件格式规范。

第二方面,本申请实施例还提供了一种语音评分装置,包括:

质量检测模块,用于获取待测音频,并将待测音频输入质量检测模型,得到置信度;置信度用于反映待测音频的音频质量;

质量判断模块,用于判断置信度是否在预设置信度区间的范围内;

第一评分模块,用于若置信度不在预设置信度区间的范围内,则将待测音频的评分确定为第一分值;

活动检测模块,用于若置信度在预设置信度区间的范围内,则将待测音频输入活动检测模型,得到检测数据;检测数据包括人声长度和人声概率因素,人声概率因素用于反映待测音频包含人声的平均概率;

判断检测模块,用于判断检测数据是否满足预设检测条件;

第二评分模块,用于若检测数据不满足预设检测条件,则根据人声概率因素将待测音频的评分确定为第二分值;

发音检测模块,用于若检测数据满足预设检测条件,则将待测音频和待测音频对应的参考文本输入发音检测模型,得到发音准确因素;发音准确因素用于反映待测音频的发音准确度;

第三评分模块,用于根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值。

从以上技术方案可以看出,本申请实施例具有以下优点:

基于上述任一实施例,将获取的待测音频输入质量检测模型,可以得到反映该待测音频质量的置信度。若置信度不在预设置信度区间的范围内,则其评分为第一分值,若置信度在预设置信度区间的范围内,则将该待测音频输入活动检测模型,从而得到检测数据。当检测数据不满足预设条件时,根据检测数据中的人声概率因素,可以将该待测音频的评分确定为第二分值,当检测数据满足预设条件时,可以将该待测音频和该待测音频对应的参考文本输入发音检测模型,从而得到发音准确因素。最终可以根据人声概率因素和发音准确因素,确定该待测音频的评分为第三分值。本申请通过将待测音频输入质量检测模型,利用传统的检测算法评估音频质量,以节约评分处理时长,仅当音频质量满足一定条件时,才能够将该待测音频输入活动检测模型,利用基于深度学习的语音检测算法检测语音人声活动,以确保语音评分的准确性,且仅当语音人声活动满足一定条件时,才能够将待测音频输入发音检测模型,利用基于神经网络的语音检测算法检测语音发音的准确度,从而根据语音人声活动和语音发音的准确度来确定该待测音频的评分,使得语音评分的准确性进一步提高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本申请一个实施例提供的语音评分方法的流程示意图;

图2为本申请一个实施例中质量检测模型得到置信度的流程示意图;

图3为本申请一个实施例中活动检测模型得到检测数据的流程示意图;

图4为本申请一个实施例中发音检测模型得到发音准确因素的流程示意图;

图5为本申请一个实施例提供的语音评分装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

第一方面,本申请实施例提供了一种语音评分方法,请参阅语音评分方法的流程示意图,如图1所示,方法包括步骤S102至步骤S116:

S102,获取待测音频,并将待测音频输入质量检测模型,得到置信度。

可以理解的是,质量检测模型是用于检测待测音频的音频质量的模型,置信度可以用于反映待测音频的音频质量。其中,音频质量越高的待测音频,其噪音越少、失真度越低。例如,音频信噪比大于90dB且失真度小于0.5%的音频质量高。

S104,判断置信度是否在预设置信度区间的范围内。

可以理解的是,置信度区间是以置信度的上限和下限为上下界构成的区间,不同的音频应用场景对于音频质量有不同的要求,从而会设置不同的置信度区间。

举例来说,在音乐合成的应用场景下,需要对于用户上传的音频进行检测和处理,进而与音乐合成,此时对于用户上传的音频质量要求较高,要求音频的信噪比大于90dB且失真度小于0.5%,因此对应的置信度区间的下限较高。

S106,若置信度不在预设置信度区间的范围内,则将待测音频的评分确定为第一分值。

可以理解的是,当置信度不在预设置信度区间的范围内时,说明待测音频的音频质量不满足应用场景的要求,此时可以将待测音频的评分确定为第一分值,这里的第一分值可以是较低的分值。例如,假设语音评分的总分为100分,则第一分值可以是10分以下的分值,优选地,本申请可以设置第一分值为0分。

S108,若置信度在预设置信度区间的范围内,则将待测音频输入活动检测模型,得到检测数据。

可以理解的是,当置信度在预设置信度区间的范围内时,说明待测音频的音频质量满足应用场景的要求,可以进入下一个模型进行检测。活动检测模型是检测待测音频中人声活动的模型,优选地,本实施例中采用VAD(Voice activity detection,语音活动检测)模型作为活动检测模型。检测数据是经过活动检测模型检测到的结果,包括人声长度和人声概率因素。人声长度为检测到包含人声的音频长度,音频长度为各人声帧的帧长总和。其中,人声帧为检测到包含人声的音频帧。人声概率因素用于反映待测音频包含人声的平均概率,人声概率因素越大则待测音频包含人声的平均概率越大。

S110,判断检测数据是否满足预设检测条件。

可以理解的是,预设检测条件规定了待测音频包含的人声活动的程度需要达到一定的条件,以便在下一个模型进行检测。

举例来说,假设当前的应用场景为演唱打分,如果用户一字不差地演唱完一首歌曲,即待测音频包含的人声活动足够多的情况下,该待测音频需要对人声活动进一步地检测,例如检测用户的发音是否标准、发音是否清晰等。但如果用户整首歌曲只演唱了一两句,即待测音频包含的人声活动较少的情况下,该待测音频进入下一个模型后无法起到检测的效果,因此没有进一步检测人声活动的必要。

S112,若检测数据不满足预设检测条件,则根据人声概率因素将待测音频的评分确定为第二分值。

可以理解的是,当检测数据不满足预设检测条件时,说明待测音频的人声活动没有进一步检测的必要,此时根据人声概率因素将待测音频的评分确定为第二分值。

S114,若检测数据满足预设检测条件,则将待测音频和待测音频对应的参考文本输入发音检测模型,得到发音准确因素。

可以理解的是,当检测数据满足预设检测条件时,说明待测音频的人声活动需要进一步检测,可以进入下一个模型进行检测。发音检测模型是检测待测音频的发音准确度的模型,优选地,本申请可以采用基于神经网络的GOP(Goodness Of Pronunciation,良好发音度)模型作为发音检测模型。发音准确因素用于反映待测音频的发音准确度,发音准确因素越大则待测音频的发音越准确。

S116,根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值。

可以理解的是,第三分值的计算综合考虑了人声概率因素和发音准确因素。其中,人声概率因素取决于音频质量和人声活动,发音准确因素取决于待测音频的发音准确度。因此,将待测音频的评分确定为第三分值可以提高语音评分的准确性。

进一步地,待测音频的评分参考上文,分别有第一分值、第二分值和第三分值。本申请中,首先,需要评估该待测音频的音频质量,此时评分的标准与音频质量相关,第一分值的评分意味着音频质量不满足要求而终止评分。然后,没有赋值为第一分值的待测音频要继续检测该待测音频的人声活动,此时评分的标准与音频质量和人声活动相关,第二分值的评分意味着音频质量符合要求但人声活动没有进一步检测的必要,从而终止评分。最后,没有赋值为第二分值的待测音频要继续检测该待测音频的发音,此时评分的标准与音频质量、人声活动和发音相关,第三分值的评分意味着音频质量符合要求、人声活动需要进一步检测且发音有一定的准确度,因此语音评分结束。本申请依次对待测音频的音频质量、人声活动和发音进行检测的评分过程,体现了语音评分的针对性和准确性,可以让语音评分的逻辑更清晰、赋值更合理。

基于上述任一实施例,将获取的待测音频输入质量检测模型,可以得到反映该待测音频质量的置信度。若置信度不在预设置信度区间的范围内,则其评分为第一分值,若置信度在预设置信度区间的范围内,则将该待测音频输入活动检测模型,从而得到检测数据。当检测数据不满足预设条件时,根据检测数据中的人声概率因素,可以将该待测音频的评分确定为第二分值,当检测数据满足预设条件时,可以将该待测音频和该待测音频对应的参考文本输入发音检测模型,从而得到发音准确因素。最终可以根据人声概率因素和发音准确因素,确定该待测音频的评分为第三分值。本申请通过将待测音频输入质量检测模型,利用传统的检测算法评估音频质量,以节约评分处理时长,仅当音频质量满足一定条件时,才能够将该待测音频输入活动检测模型,利用基于深度学习的语音检测算法检测语音人声活动,以确保语音评分的准确性,且仅当语音人声活动满足一定条件时,才能够将待测音频输入发音检测模型,利用基于神经网络的语音检测算法检测语音发音的准确度,从而根据语音人声活动和语音发音的准确度来确定该待测音频的评分,使得语音评分的准确性进一步提高。

在其中一个实施例中,请参阅质量检测模型得到置信度的流程示意图,如图2所示,质量检测模型得到置信度的过程包括步骤S202至步骤S208:

S202,对待测音频进行预处理。

本步骤中,预处理是对PCM(Pulse Code Modulation,脉冲调制编码)依次进行分帧、加窗和预加重。其中,分帧是指将语音信号依据短时平稳性进行切片,本申请可以采用16ms帧长。加窗用于抑制和缓解频谱泄露,通常采用汉明窗或汉宁窗,优选地,本申请可以采用汉明窗。预加重用于提高高频分量的能量,以此来避免因为声波信号受声门振动和口鼻辐射引起的800Hz以上频率成分的6dB/倍频程衰减,优选地,本申请可以采用一阶高通滤波器来实现预加重。

S204,提取经过预处理的待测音频的第一声学特征,将第一声学特征输入决策树模型。

可以理解的是,第一声学特征用于反映待测音频的时域特征,包括但不限于短时平均过零率、短时平均幅度、短时平均能量、自相关系数、基频、谐波能量和、共振峰和峰谷比等。决策树模型能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,可用于二分类、多分类和回归,现实中在不同的领域中常应用决策树模型分析不同的目标。本申请采用的决策树模型对语音检测领域中音频帧的进行二分类以判定音频帧是否有效,该决策树模型为根据预设的声学特征样本训练得到的模型。决策树模型常用的算法有ID3算法、C4.5算法、CART算法等。优选地,本申请的决策树模型可以采用C4.5算法。C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。C4.5决策树算法的监督学习机制为:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

S206,根据第一声学特征和决策树模型,判断待测音频中每一帧为有效帧或无效帧。

可以理解的是,通过将第一声学特征输入决策树模型可以判断待测音频中每一帧为有效帧或无效帧。本申请中,决策树模型根据C4.5算法对待测音频的各音频帧进行二分类,二分类的结果可以为1和0,其中,可以判定输出结果为0的音频帧为无效帧,输出结果为1的音频帧为有效帧。

S208,根据有效帧的数量与待测音频的总帧数之间的比例,得到置信度。

可以理解的是,待测音频的总帧数为有效帧的数量与无效帧的数量之和,优选地,本实施例采用有效帧平均率作为置信度,在待测音频的总帧数不变的情况下,有效帧的数量越多,置信度越大。

举例来说,假设有效帧的数量作为分子,待测音频的总帧数作为分母,此时待测音频总共有100帧,其中包括50帧有效帧,则置信度为0.5。

在其中一个实施例中,请参阅活动检测模型得到检测数据的流程示意图,如图3所示,活动检测模型得到检测数据的过程包括步骤S302至步骤S310:

S302,将待测音频转换成频谱图。

可以理解的是,频谱图用于反映音频在某一时刻各个频率的能量的高低,常见的频谱图有线性振幅谱、对数振幅谱和自功率谱。

S304,利用特征提取层从频谱图中提取第二声学特征。

可以理解的是,特征提取层包括依次连接的卷积神经网络和循环神经网络,第二声学特征为待测音频中各音频帧的声学特征,优选地,本申请中每一音频帧的帧长可以为25毫秒。

值得一提的是,区别于上文具有可解释性的第一声学特征,第二声学特征为通过神经网络提取的不具备可解释性的声学特征。

S306,基于第二声学特征,利用全连接层预测待测音频的每一帧音频包含人声的概率。

可以理解的是,全连接层用于降维和融合第二声学特征,从而预测出待测音频的每一帧音频包含人声的概率。

S308,根据每一帧音频包含人声的概率,确定待测音频的人声帧,并根据人声帧确定人声长度。

本步骤中,人声帧为包含人声的概率不小于概率阈值的音频帧,人声长度为检测到包含人声的音频长度,音频长度为各人声帧的帧长总和。例如,假设待测音频总共有3个音频帧,分别为音频帧A、音频帧B和音频帧C,包含人声的概率分别为0.5、0.6、0.7,帧长为25毫秒,概率阈值为0.55,则此时音频帧B和音频帧C均为人声帧,人声长度为50毫秒。

S310,利用池化层和每一帧音频包含人声的概率,得到人声概率因素。

可以理解的是,池化层用于降维以降低数据量,常见的池化操作有平均池化和最大值池化,优选地,本申请可以采用平均池化计算待测音频包含人声的平均概率,从而得到人声概率因素。

在其中一个实施例中,请参阅发音检测模型得到发音准确因素的流程示意图,如图4所示,发音检测模型得到发音准确因素的过程包括:

S402,对待测音频进行分割处理,确定待测音频的各音频段、各音频段包含的字词以及组成各字词的音素。

可以理解的是,多个连续的音素可以组成一个字词,而多个连续的字词可以组成一个音频段,待测音频中包含了多个音频段,对待测音频进行分割处理可以将待测音频层层分割,得到待测音频所包含的各音频段、各音频段包含的字词以及组成各字词的音素,因此需要识别各音频段、各字词和各音素。本申请中,利用语音识别声学模型中语音识别技术的强制对齐方法,将待测音频和待测音频对应的参考文本进行强制对齐,获得该待测音频中各音素对应的声学特征序列、以及各音素的起始时间和结束时间。其中,常用的语音识别声学模型有HMM(隐马尔可夫)模型、GMM-HMM(高斯混合模型-隐马尔可夫)模型、DNN-HMM(深度神经网络-隐马尔可夫)模型等,优选地,本实施例采用DNN-HMM模型作为语音识别声学模型。

进一步地,本申请输入DNN-HMM模型的观测特征为待测音频转换的MFCC(Mel-scaleFrequency Cepstral Coefficients,梅尔倒谱系数),经过TDNN(Time Delay NeuralNetwork,延迟神经网络)解码,输出各音素的后验概率,后验概率指的是在获取当前音素之后,下一个音素出现的概率。

S404,利用GOP算法对音素进行打分,得到音素的分值。

GOP算法计算音素的分值公式如下:

其中,p为音素,O

S406,根据字词对应的各音素的分值,确定字词的平均音素分值。

可以理解的是,平均音素分值指的是字词中音素的平均分值。例如,字词“窗”可分为四个音素ch、u、a、ng,这四个音素在步骤S404计算的分值分别为0.5、0.6、0.7、0.8,那么“窗”的平均音素分值为0.65。

S408,根据音频段对应的各字词的平均音素分值,确定音频段对应的有效字词。

可以理解的是,有效音频指的是字词的平均音素不小于音素阈值的字词。例如,假设有一个音频段对应的参考文本为“窗外的鸟儿在叫”,该参考文本包含的字词分别为“窗”、“外”、“的”、“鸟儿”、“在”、“叫”,该音频段的音素阈值设置为0.6。已知这6个字词的平均音素分值分别为0.65、0.6、0.8、0.5、0.6、0.3,则该音频段的有效字词为“窗”、“外”、“的”、“在”。

S410,根据音频段的有效字词数量与音频段的总字词数量之间的比例,确定音频段的分值。

可以理解的是,在音频段的总字词数量不变的情况下,有效字词的数量越多,音频段的分值越大。例如,假设音频段A和音频段B的参考文本相同,均为“窗外的鸟儿在叫”,共6个字词,音频段A的有效字词有6个,音频段B的有效字词有3个,若以有效字词数量为分子、音频段的总字词数量为分母,则音频段A的分值为1,音频段B的分值为0.5。

S412,根据各音频段的分值,确定发音准确因素。

可以理解的是,发音准确因素用于反映待测音频的发音准确度。例如,假设待测音频总共有两段音频,分别为音频C和音频D,音频段分值分别为0.5和0.7,则该待测音频的发音准确因素为0.6。

在其中一个实施例中,根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值,可以包括:

1)判断发音准确因素是否小于发音阈值。

可以理解的是,不同参考文本的待测音频会设置不同的发音阈值,或者是同一参考文本在不同的应用场景下会设置不同的发音阈值。

2)若发音准确因素不小于发音阈值,则确定权重比例为第一权重比例,并根据第一权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值。

可以理解的是,当发音准确因素不小于发音阈值时,说明该待测音频的发音准确度较好,此时第一权重比例中发音准确因素的权重大于人声概率因素的权重。

3)若发音准确因素小于发音阈值,则确定权重比例为第二权重比例,并根据第二权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值。

可以理解的是,当发音准确因素小于发音阈值时,说明该待测音频的发音准确度较差,此时第二权重比例中发音准确因素的权重小于第一权重比例中发音准确因素的权重。

进一步地,综合考虑人声概率因素和发音准确因素确定第三分值,并根据发音准确因素确定权重比例,使得语音评分具有针对性,有利于提高语音评分的准确度。

举例来说,假设人声概率因素为A,发音准确因素为B,当发音阈值小于B时,确定权重比例人声概率因素:发音准确因素为1:9,对人声概率因素和发音准确因素进行加权求和,则第三分值为0.1A+0.9B。而当发音阈值大于B时,第二权重比例中发音准确因素的权重小于第一权重比例中发音准确因素的权重,则确定权重比例人声概率因素:发音准确因素为4:6,对人声概率因素和发音准确因素进行加权求和,因此第三分值为0.4A+0.6B。

在其中一个实施例中,若发音准确因素小于发音阈值,则确定权重比例为第三权重比例,并根据第三权重比例对人声概率因素、发音准确因素和随机因素进行加权求和,得到第三分值。其中,第三权重比例中随机因素的权重小于人声概率因素的权重,也小于发音准确因素的权重。加入随机因素的目的是为了保证第三分值有所变化,以避免加权求和结果多次相同。

在其中一个实施例中,活动检测模型得到检测数据的过程还可以包括:确定各人声帧中的第一个人声帧为人声开始帧。

将待测音频和待测音频对应的参考文本输入发音检测模型,可以包括:将人声开始帧、待测音频和参考文本输入发音检测模型,以使发音检测模型根据待测音频从人声开始帧以后的部分,得到发音准确因素。

本步骤中,将人声开始帧、待测音频和参考文本输入发音检测模型,可以先通过对待测音频的人声开始帧以前的部分进行过滤,然后将待测音频从人声开始帧以后的部分输入发音检测模型。也可以先通过剪切待测音频删除其人声开始帧以前的部分,然后将经过剪切的待测音频输入发音检测模型。还可以是发音检测模型直接识别出待测音频的人声开始帧的位置,然后从人声开始帧以后的部分开始检测等。这样能够减少音频数据量,加快了发音检测的速度。

在其中一个实施例中,判断检测数据是否满足预设检测条件,可以包括:

1)判断人声概率因素是否大于人声阈值,且判断人声长度是否不小于长度阈值。

可以理解的是,人声阈值、长度阈值将根据参考文本或应用场景而变化。

2)若人声概率因素大于人声阈值,且人声长度不小于长度阈值,则判定检测数据满足预设检测条件;否则判定检测数据不满足预设检测条件。

本实施例规定了预设检测条件的检测数据具体为人声阈值和长度阈值,设置人声阈值可以保证待测音频包含人声的平均概率达到一定大小,而设置长度阈值可以保证待测音频的人声长度达到一定长度,以便后续进行发音检测。

在其中一个实施例中,在将待测音频输入质量检测模型,得到置信度前,还可以包括:

1)判断所述待测音频是否满足预设的文件格式规范。

可以理解的是,规范述待测音频的文件格式能够减少检测音频的处理工作,有利于提高语音评分效率。例如,常见的音频文件格式有WAV、MP3、AAC等,若所有的音频文件格式能够输入质量检测模型中,则该质量检测模型将要对所有的音频文件格式进行对应的处理,加大了检测的复杂度,也使得处理耗时变长。

2)若是,则将待测音频输入质量检测模型,得到置信度。

3)若否,则结束评分。

可以理解的是,当待测音频不满足预设的文件格式规范时,说明待测音频无法进入质量检测模型,因此结束评分。

在其中一个实施例中,当待测音频不满足预设的文件格式规范时,还可以输出格式错误对应的错误码,以提醒用户重新输入待测音频。

在其中一个实施例中,判断待测音频是否满足预设的文件格式规范,可以包括:

1)判断待测音频的文件格式是否为WAV、采样频率是否为16KHz、通道数是否为单通道且量化位数是否为16bits。

2)若待测音频的文件格式为WAV、采样频率为16KHz、通道数为单通道且量化位数为16bits,则判定待测音频满足预设的文件格式规范;否则判定待测音频不满足预设的文件格式规范。

本申请中,WAV音频文件音质较好,被大多软件所支持,适用于多媒体开发的中间文件、保存音乐和音效素材等,而16KHz的采样频率、16bits的量化位数和单通道的音频通道数能够起到良好的语音检测效果。

下面对本申请实施例提供的语音评分装置进行描述,下文描述的语音评分装置与上文描述的语音评分方法可相互对应参照。

第二方面,本申请实施例还提供了一种语音评分装置,请参阅语音评分装置的结构示意图,如图5所示,包括质量检测模块502、质量判断模块504、第一评分模块506、活动检测模块508、判断检测模块510、第二评分模块512、发音检测模块514和第三评分模块516,具体包括如下:

质量检测模块502,用于获取待测音频,并将待测音频输入质量检测模型,得到置信度。

质量判断模块504,用于判断置信度是否在预设置信度区间的范围内。

第一评分模块506,用于若置信度不在预设置信度区间的范围内,则将待测音频的评分确定为第一分值。

活动检测模块508,用于若置信度在预设置信度区间的范围内,则将待测音频输入活动检测模型,得到检测数据。

判断检测模块510,用于判断检测数据是否满足预设检测条件。

第二评分模块512,用于若检测数据不满足预设检测条件,则根据人声概率因素将待测音频的评分确定为第二分值。

发音检测模块514,用于若检测数据满足预设检测条件,则将待测音频和待测音频对应的参考文本输入发音检测模型,得到发音准确因素。

第三评分模块516,用于根据人声概率因素和发音准确因素,将待测音频的评分确定为第三分值。

在其中一个实施例中,质量检测模块502可以包括:

预处理子模块,用于对待测音频进行预处理。

第一声学特征提取子模块,用于提取经过预处理的待测音频的第一声学特征,将第一声学特征输入决策树模型。

决策数判决子模块,用于根据第一声学特征和决策树模型,判断待测音频中每一帧为有效帧或无效帧。

置信度计算子模块,用于根据有效帧的数量与待测音频的总帧数之间的比例,得到置信度。

在其中一个实施例中,活动检测模块508可以包括:

音频转换子模块,用于将待测音频转换成频谱图。

第二声学特征提取子模块,用于利用特征提取层从频谱图中提取第二声学特征。

预测人声概率子模块,用于基于第二声学特征,利用全连接层预测待测音频的每一帧音频包含人声的概率。

人声数据确定子模块,用于根据每一帧音频包含人声的概率,确定待测音频的人声帧,并根据人声帧确定人声长度。

人声概率因素确定子模块,用于利用池化层和每一帧音频包含人声的概率,得到人声概率因素。

在其中一个实施例中,发音检测模块514可以包括:

音频处理子模块,用于对待测音频进行分割处理,确定待测音频的各音频段、各音频段包含的字词以及组成各字词的音素。

音素打分子模块,用于利用GOP算法对音素进行打分,得到音素的分值。

字词打分子模块,用于根据字词对应的各音素的分值,确定字词的平均音素分值。

有效字词确定子模块,用于根据音频段对应的各字词的平均音素分值,确定音频段对应的有效字词。

音频段打分子模块,用于根据音频段的有效字词数量与音频段的总字词数量之间的比例,确定音频段的分值。

发音准确因素确定子模块,用于根据各音频段的分值,确定发音准确因素。

在其中一个实施例中,第三评分模块516可以包括:

发音判断子模块,用于判断发音准确因素是否小于发音阈值。

第一权重比例打分子模块,用于若发音准确因素不小于发音阈值,则确定权重比例为第一权重比例,并根据第一权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值。

第二权重比例打分子模块,用于若发音准确因素小于发音阈值,则确定权重比例为第二权重比例,并根据第二权重比例对人声概率因素和发音准确因素进行加权求和,得到第三分值。

在其中一个实施例中,活动检测模块508还可以包括:人声开始帧确定子模块,用于确定各人声帧中的第一个人声帧为人声开始帧。

发音检测模块514,可以包括:

人声开始帧输入子模块,用于将人声开始帧、待测音频和参考文本输入发音检测模型,以使发音检测模型根据待测音频从人声开始帧以后的部分,得到发音准确因素。

在其中一个实施例中,判断检测模块510可以包括:

具体判断子模块,用于判断人声概率因素是否大于人声阈值,且判断人声长度是否不小于长度阈值。

判断结果子模块,用于若人声概率因素大于人声阈值,且人声长度不小于长度阈值,则判定检测数据满足预设检测条件;否则判定检测数据不满足预设检测条件。

在其中一个实施例中,在质量检测模块502前,还可以包括:

格式规范判断子模块,用于判断所述待测音频是否满足预设的文件格式规范。

质量检测子模块,用于当所述待测音频满足预设的文件格式规范时,将待测音频输入质量检测模型,得到置信度。

结束评分子模块,用于当所述待测音频不满足预设的文件格式规范时,结束评分。

在其中一个实施例中,格式规范判断子模块可以包括:

格式规范判断单元,用于判断待测音频的文件格式是否为WAV、采样频率是否为16KHz、通道数是否为单通道且量化位数是否为16bits。

判断规范结果单元,用于若待测音频的文件格式为WAV、采样频率为16KHz、通道数为单通道且量化位数为16bits,则判定待测音频满足预设的文件格式规范;否则判定待测音频不满足预设的文件格式规范。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 语音评分方法及装置、电子设备、存储介质
  • 语音评分方法、装置、计算机设备及存储介质
  • 用于智能语音产品的服务智商测试评分系统及方法
  • 语音识别方法、语音评分方法、语音识别系统及语音评分系统
  • 语音识别方法、语音评分方法、语音识别系统及语音评分系统
技术分类

06120115934094