掌桥专利:专业的专利平台
掌桥专利
首页

语音评测方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:24:27


语音评测方法、装置、设备及存储介质

技术领域

本公开实施例涉及计算机领域,尤其涉及一种语音评测方法、装置、设备及存储介质。

背景技术

随着计算机技术和深度学习的发展,计算机辅助发音训练成为当前研究热点之一,从英文学习中的单词背诵,到中文朗读训练,计算机辅助发音训练系统可以更方便、高效的帮助学生进行口语学习。

语音评测是让机器听懂人的发音,并及时给出反馈或打分,依此评价发音人的发音好坏,现有技术中的语音评测多是基于发音正确与否的评测,根据发音是否正确,反馈一个得分,对发音质量进行评测,用于纠正发音,但是,围绕情感度评测的朗诵评测也属于语音评测的一种,朗诵者要把作品的思想情感准确的表达出来,不仅需要发音正确,还需要理解作品的内在含义,以表现作品的思想情感。

因此,如何实现对于语音的情感测评,成为亟待解决的技术问题。

发明内容

本公开实施例解决的技术问题是提供一种语音评测方法、装置、设备及存储介质,以实现对于语音的情感测评。

为解决上述问题,本公开实施例提供一种语音评测方法,包括:

获取待测音频及与所述待测音频对应的参考文本;

根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;

根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;

根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

为解决上述问题,本公开实施例还提供一种语音评测装置,包括:

待测音频获取单元,适合获取待测音频及与所述待测音频对应的参考文本;

评测停顿时长获取单元,适合根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;

层级停顿评测结果获取单元,适合根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;

音频韵律评测结果获取单元,适合根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

为解决上述问题,本公开实施例还提供一种电子设备,包括:处理器,以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如前述的语音评测方法。

为解决上述问题,本公开实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如前述的语音评测方法。

与现有技术相比,本公开的技术方案具有以下优点:

本公开实施例所提供的一种语音评测方法,在进行语音评测时,首先获取待测音频及与所述待测音频对应的参考文本;然后根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;再根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;最后根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。可以看出,本公开实施例所提供的语音评测方法,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

附图说明

图1是本公开实施例所提供的语音评测方法一流程示意图;

图2是本公开实施例所提供的语音评测方法的基准停顿时长获取流程图;

图3是本公开实施例所提供的语音评测方法的第一停顿时长获取流程图;

图4是本公开实施例所提供的语音评测方法的韵律层级划分模型的训练步骤示意图;

图5是本公开实施例所提供的语音评测装置的一框图;

图6是本公开实施例所提供的语音评测装置的另一框图;

图7是本公开实施例提供设备的一种可选硬件设备架构。

具体实施方式

现有技术中的语音评测多是基于发音正确与否的评测,根据发音是否正确,反馈一个得分,对发音质量进行评测,用于纠正发音。

为了实现对于语音的情感测评,本公开实施例提供了一种语音评测方法、装置、设备及存储介质,其中,语音评测方法包括:

获取待测音频及与所述待测音频对应的参考文本;

根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;

根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;

根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

可以看出,本公开实施例所提供的一种语音评测方法,在进行语音评测时,首先获取待测音频及与所述待测音频对应的参考文本;然后根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;再根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;最后根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

这样,本公开实施例所提供的语音评测方法,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

请参考图1,图1是本公开实施例所提供的语音评测方法的一流程示意图。

如图中所示,本公开实施例所提供的语音评测方法包括以下步骤:

步骤S10:获取待测音频及与所述待测音频对应的参考文本。

容易理解的是,为了实现对于语音的情感测评,首先要获取待测音频和待测音频所对应的文本,所述待测音频和待测音频所对应的文本可以是学生朗读音频和对应的文本,也可以是老师用于教学的朗读音频和对应的文本,也可以是其他朗读者的朗读音频和对应的文本。

可以看出,在本公开所提供语音评测方法中,并不对待测音频和待测音频所对应的文本的来源做特殊的限制,这就意味着,可以方便地利用本公开提供的语音评测方法对任一待测音频进行语音评测,并得到评测结果,使得本公开所提供语音评测方法的应用场景更加广泛,并不仅仅局限于对学生朗读语音的评测上。

步骤S11:根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长。

获取了待测音频和待测音频所对应的参考文本之后,进一步获取待测音频的各个韵律层级的评测停顿时长,为后续实现情感评测做好准备。

容易理解的是,待测音频的各个韵律层级的评测停顿时长是指,对于待测音频的各个韵律层级分别获取的停顿时长。

具体地,韵律层级可以包括四种不同的类型,韵律词层#1、韵律短语层#2、语调短语层#3和语句层#4,其中:

韵律词层:表示基本韵律单元,在韵律词内部不能停顿,在韵律词边界处停顿不是必须的,在无标记的情况下,音系词与构词法的词是相同的,在有些情况下可能比词大些。

韵律短语层:多个韵律词组合,对应一次完整的韵律表达(不换气),韵律短语由一个或多个韵律词组成,通常认为韵律短语的长度是7个音节(一个字为一个音节),变化长度为2个音节,这与呼吸群的长度相当,韵律短语具有相对稳定的短语调模式和短语重音配置模式。

语调短语层:语调短语是最长的音系成分,一般长于韵律短语,在语法上,相当于较长的短语或较短的语句,语调短语有特定的语调模式,它可能通过一些方式与句法或篇章结构相联系。

语句层:一般以标点符号划分。

为方便结合案例进行描述,其中,#1表示韵律词层;#2表示韵律短语层;#3表示语调短语层;#4表示语句层。

在获取评测停顿时长时,首先获取待测音频的各个韵律层级,然后进一步获取各个韵律层级的预测停顿时长。

在一种具体实施方式中,为了能够提高所获得的待测音频的各个韵律层级的评测停顿时长的准确性,本公开实施例所提供的语音评测方法,可以包括:

首先,获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置;

然后,根据所述待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长。

语音的节奏是表达语音情感韵律的一部分,主要是通过不同韵律层级的停顿时长来实现,所以,准确的划分韵律层级和标明韵律层级的停顿位置,可以更好的从朗读节奏的维度出发,对待测音频的情感度进行评判。

而在得到了韵律层级和韵律层级的停顿位置的基础上,根据待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长,而韵律层级和韵律层级的停顿位置可以很好的体现朗读者的朗读节奏,也因此,所得到的各个所述评测停顿时长也可以很好的体现朗读者的朗读节奏,从而可以实现在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,实现对于语音的情感测评。

具体地,可以通过以下步骤获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置:

首先,根据参考文本确定是否已获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置,如果已获取过,那么直接使用;否则,当确定未获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置时,则对所述参考文本进行韵律层级划分,得到所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

容易理解的是,所获取的所述参考音频对应的参考文本,有可能已经划分过韵律层级并且得到过韵律层级的停顿位置,这样,就可以直接获取所述参考文本对应各个所述韵律层级和各个所述韵律层级的停顿位置,如果经判断,发现所述参考文本以往没有划分过层级并且没有得到过韵律层级的停顿位置,就要先对所述参考文本进行韵律层级划分,然后才能获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

具体地,可以直接在已经划分过韵律层级并且得到过韵律层级的停顿位置的参考文本库中查找是否存在参考文本。

这样,通过前述判断,可以直接利用已经获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置,从而避免对所述参考文本重复执行韵律层级的划分,提高效率。

在一种具体实施方式中,当确定未获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置时,可以利用预先训练完成的韵律层级划分模型对所述参考文本进行韵律层级划分,得到所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

具体地,将待测音频所对应的参考文本输入已训练完成的韵律层级划分模型,经过韵律层级划分模型后,就可以得到各个韵律层级和各个所述韵律层级的停顿位置。

为方便对前述方案理解,现结合具体的案例进行说明:

比如:针对“儿童医院,嘟嘟和爸爸在一起。”这一句话,首先,将例句输入到韵律层级划分模型进行韵律层级划分:

输入:儿童医院,嘟嘟和爸爸在一起。

经韵律层级划分模型进行韵律层级划分后:

输出:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

得到参考文本的各个韵律层级和各个所述韵律层级的停顿位置后,进一步根据待测音频,确定各个韵律层级的评测停顿时长。

继续结合前述案例,根据待测音频,确定“童”与“医”之间的停顿时长,得到第一个韵律层级#1的评测停顿时长,再获取“院”与“嘟”之间的停顿时长,得到第二个韵律层级#3的评测停顿时长,以此类推,得到待测音频的全部的各个韵律层级的停顿时长。

这样,通过上述方法,一方面可以保证待测音频的各个韵律层级都能够准确方便地获取,另一方面也可以方便评测停顿时长的确定。

具体地,为了方便获取评测停顿时长,可以通过强制对齐模型,确定待测音频的每一语音帧属于哪一字,即得到每个字对应的语音帧数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而得到每个字的时间点信息,这里也包括音频中停顿的静音时间点信息,例如:

结合前述案例,经过强制对齐模型强制对齐可知,在“儿童#1医院#3,”中:

语音帧第1-4帧是“儿”字,语音帧第5-7帧是“童”字,中间为#1的停顿时长,语音帧第8-9帧是“医”字,第10-15帧为“院”字,即通过强制对齐判断音频中“儿童”、“医院”、“嘟嘟”、“和爸爸”和“在一起”的停顿持续时长分别是多少,也包括停顿处的静音时间点的静音时长,根据待测音频的停顿位置处的静音时长,得知待测音频的各个层级的停顿时长,进而根据待测音频的各个层级的停顿时长,获取评测停顿时长。

在一种具体实施方式中,本发明实施例所提供的语音评测方法的根据所述待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长的步骤可以包括:

利用预先训练完成的强制对齐模型,根据相互对应的所述待测音频和所述待测文本,获得各个所述待测音频的各个不同韵律层级的停顿时长。

根据同一韵律层级的各个所述停顿时长,获取对应所述韵律层级的评测停顿时长,得到各个不同所述韵律层级的评测停顿时长。

即,首先获取待测音频的每个韵律层级的停顿时长,这里的每个韵律层级是指包括了相同的韵律层级和不同的韵律层级的全部韵律层级。

再次结合前述的案例:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。可以看出,在此案例中,#1的韵律层级有两个,停顿时长的个数有5个。

在前述案例中,#1停顿有两处:儿童#1和嘟嘟#1,停顿时长分别记为A1、A2,相应的,取待测文本中#2、#3、#4停顿处的停顿时长,分别得到#2、#3、#4的评测停顿时长,分别记为B,C,D。

得到各个韵律层级的评测停顿时长:

第一个层级#1的评测停顿时长为:A1。

第二个层级#1的评测停顿时长为:A2。

层级#2的评测停顿时长为:B。

层级#3的评测停顿时长为:C。

层级#4的评测停顿时长为:D。

当然,在另一种具体实施方式中,在计算评测停顿时长时,还可以对对应于同一韵律层级的停顿时长获取平均值,然后得到该韵律层级的评测停顿时长,即在前述案例中,#1停顿有两处:儿童#1和嘟嘟#1,停顿时长分别记为A1、A2,对应韵律层级的评测停顿时长可以为A1和A2的平均值,记为A,相应的,取待测文本中#2、#3、#4停顿处停顿时长的平均值,分别得到#2、#3、#4的评测停顿时长,分别记为B,C,D。

得到各个韵律层级的评测停顿时长:

层级#1的评测停顿时长为:A。

层级#2的评测停顿时长为:B。

层级#3的评测停顿时长为:C。

层级#4的评测停顿时长为:D。

从而,通过首先划分韵律层级和标明韵律层级的停顿位置,进一步根据待测音频确定各个所述韵律层级的停顿位置的停顿时长,可以很方便地获取评测停顿时长,方便后续进行待测音频的情感测评。

步骤S12:根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果。

得到评测停顿时长后,进一步结合基准停顿时长,获取各个韵律层级的层级停顿评测结果。

容易理解的是,基准停顿时长是指基于满足朗读质量要求的基准音频获取的,因此,基准停顿时长满足预定的质量要求,并且能够很好体现基准音频的朗读节奏,得到的所述韵律层级的层级停顿评测结果对待测音频的评测也更为准确。

在一种具体实施方式中,为了方便预定的基准停顿时长的获取,请参考图2,图2为本公开实施例所提供的语音评测方法的基准停顿时长获取流程图。

如图中所示,本公开实施例所提供的语音评测方法的基准停顿时长可以通过以下步骤获取:

步骤S120: 获取各个基准音频和分别与各个所述基准音频对应的各个基准文本;

为了更加准确的对待测音频做语音评测,基准停顿时长的获取尤为重要,由于基准音频满足预定的质量要求,所以可以保证对待测音频所做语音评测的高质量。

容易理解的是,基准音频是指满足质量要求的基准朗读音频,而基准文本是指与基准音频相互对应的文本,可以通过语音识别的方式获取,也可以通过其他方式获取。并且为了保证所获取的基准停顿时长的准确性和适用性,需要基于大量的基准音频和基准文本,因此,所获取的基准音频和基准文本并非只有一个。

步骤S121:根据相互对应的所述基准音频和所述基准文本,获得各个所述基准音频的各个不同韵律层级的第一停顿时长。

获取第一停顿时长,可以方便后续获取基准停顿时长。

得到基准音频和基准文本后,基于二者所包含的信息,获取基准停顿时长,由于基准音频的数量较大,大量的基准音频所对应的基准文本的韵律层级的数量也较多,为了获取最终用于层级停顿评测结果的基准停顿时长,首先获取大量的韵律层级的第一停顿时长。

在一种具体实施方式中,请参考图3,本公开实施例所提供的语音评测方法提供的获得各个所述基准音频的各个不同韵律层级的第一停顿时长的步骤可以包括:

步骤S1210:对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置。

要想获得基准音频的各个不同韵律层级的第一停顿时长,首先要对基准音频进行韵律层级的划分,语音的节奏是表达语音情感韵律的一部分,主要是通过不同韵律层级的停顿时长来实现,通过获取基准文本的各个韵律层级和各个所述韵律层级的停顿位置,可以与待测音频的韵律层级和各个所述韵律层级的停顿位置作对比,更好的从朗读节奏的维度出发,对待测音频的情感度表现进行评判。

在一种具体实施方式中,本公开提供的语音评测方法中对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置的步骤包括:

利用韵律层级划分模型,对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置,当然所述韵律层级与待测音频的韵律层级相同,包括韵律词层、韵律短语层、语调短语层和语句层。

例如:

为方便理解,现再次结合案例进行说明:

将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:

输入:

例1:李某的网站很快被警方查封。

例2:儿童医院,嘟嘟和爸爸在一起。

例3:经检查,老人有轻微的脑血栓。

输出:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

例3:经检查#3,老人有#1轻微的#2脑血栓#4。

这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置,例如:

例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。

可见,通过韵律层级划分模型对基准文本进行韵律层级划分,得到了基准文本对应的各个韵律层级和各个所述韵律层级的停顿位置,也就相应得到了基准文本准确的节奏变化,同时,韵律层级划分模型在训练过程中满足预定的质量要求,所以,也可以确保得到高质量的基准文本对应的各个韵律层级和各个所述韵律层级的停顿位置,进而,可以高质量的把握基准文本节奏的变化,从而为从朗读节奏的维度出发,实现对于语音的情感测评提供基础。

在一种具体实施方式中,本公开实施例所提供的语音评测方法中的韵律层级划分模型可以通过以下方式训练,请参考图4,图4是本公开实施例所提供的语音评测方法的韵律层级划分模型的训练步骤示意图。

如图中所示,韵律层级划分模型可以通过以下步骤训练,包括:

步骤S40:获取样本文本训练集,所述样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级。

为了训练韵律层级划分模型,需要获取样本文本训练集,样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级,并且满足预定的质量要求,可以根据这些满足质量要求的基准样本文本的基准韵律层级,来预测待测样本文本的预测韵律层级。

步骤S41:利用所述韵律层级划分模型,根据所述待测样本文本,获取所述待测样本文本的预测韵律层级。

根据待测样本文本,韵律层级划分模型会获得初步的待测样本文本的预测韵律层级。

步骤S42:根据所述预测韵律层级和所述基准韵律层级,确定所述待测样本文本的第一损失。

韵律层级划分模型会根据基准样本文本的基准韵律层级来计算待测样本文本的第一损失,此时获取的待测文本的预测韵律层级并不完善,需要根据待测文本的第一损失来判断获取的预测韵律层级的质量。

步骤S43:第一损失是否满足预定阈值,如果是,执行步骤S45,如果否,执行步骤S44。

利用第一损失来判断上述预测韵律层级的质量,如果第一损失不满足预定的阈值,则执行步骤S44,直至第一损失阈值满足预定的阈值,则执行步骤S45。

步骤S44:调整所述韵律层级划分模型的参数。

按照第一损失阈值,根据满足预定质量要求的基准样本文本的基准韵律层级,来调整韵律层级划分模型的参数,使得韵律层级划分模型按照新的模型参数来获得新的待测样本文本的预测韵律层级,使得新的预测韵律层级更加完善。

步骤S45:得到训练完成的韵律层级划分模型。

通过上述步骤的训练,得到训练完成的韵律层级划分模型。

可见,在韵律层级划分模型的训练过程中,利用基准样本文本的基准韵律层级,和待测样本文本,能够使模型学习到基准样本文本的基准韵律层级划分的特点,从而获取具有基准韵律层级特点的待测样本文本的预测韵律层级,由于韵律层级划分模型在训练过程中,对获取的预测韵律层级有严格的质量要求,通过对预测韵律层级质量的把握,调整韵律层级划分模型的参数,来保证韵律层级划分模型的质量,所以通过所述训练完成的韵律层级划分模型获取的预测韵律层级可以满足本公开对于韵律层级的高质量的要求。

步骤S1211:根据与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述第一停顿时长。

得到所述基准文本对应的各个所述韵律层级的停顿位置后,进一步结合与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,即获取第一停顿时长。

首先对基准文本准确的划分了韵律层级,得到了准确的韵律层级和韵律层级的停顿位置,在此基础上,根据基准音频,得到了各个所述第一停顿时长,而准确的的韵律层级和韵律层级的停顿位置可以很好的体现朗读者的朗读节奏,也因此,所得到的各个所述第一停顿时长也可以很好的体现朗读者的朗读节奏,从而可以实现对于语音的情感测评。

在一种具体实施方式中,本公开提供的语音评测方法提供的根据与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述第一停顿时长的步骤包括:

利用强制对齐模型,确定各个所述韵律层级的停顿位置在与所述基准文本对应的基准音频中的停顿时长,得到各个所述第一停顿时长。

强制对齐模型在训练的过程中有严格的质量要求,因此,通过强制对齐模型,可以得到满足质量要求的各个所述第一停顿时长,也进一步保证了从朗读节奏的维度出发,实现对于语音的情感测评的高质量。

在具体的实施例中,首先利用韵律层级划分模型对基准文本进行韵律层级划分,然后利用强制对齐模型根据基准音频获得各个所述第一停顿时长,例如:

首先,将例句输入到韵律层级划分模型进行韵律层级划分:

输入:经检查,老人有轻微的脑血栓。

经韵律层级划分模型进行韵律层级划分后:

输出:经检查#3,老人有#1轻微的#2脑血栓#4。

然后,通过强制对齐模型,根据基准音频,可以得知每一语音帧属于哪一字,即得到每个字对应的语音帧数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而得到每个字的时间点信息,这里也包括音频中停顿的静音时间点信息,例如:

经过强制对齐模型强制对齐可知,在“经检查#3,老人”中:

语音帧第1-4帧是“经”字,语音帧第5-7帧是“检”字,语音帧第8-9帧是“查”字,中间为#3的停顿时长,第10-15帧为“老”字,第16-18帧为“人”字,即通过强制对齐判断音频中“经检查”、“老人有”、“轻微的”和“脑血栓”的停顿持续时长分别是多少,也包括停顿处的静音时间点的静音时长,根据基准音频的停顿位置处的静音时长,得知基准音频的各个层级的停顿时长,基准音频的各个层级的停顿时长即为各个韵律层级的各个所述第一停顿时长。

在一种具体实施方式中,本公开实施例所提供的语音评测方法的强制对齐模型可以通过以下方式训练:

强制对齐模型的训练步骤包括:

1)、获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的基准音频帧。

为了训练强制对齐模型,需要获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的基准音频帧,具体地,所述基准音频帧与文字的对应关系可以通过人工标注的方式获取。

2)、通过所述强制对齐模型,根据所述训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧。

强制对齐模型会根据训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧,但此时获取的与文字对应的预测音频帧可能与基准音频帧之间存在差别,需要进一步调整。

3)、根据各个对应于同一个文字的所述预测音频帧和各个所述基准音频帧,获取第二损失并根据所述第二损失调整所述强制对齐模型的参数,直至所述第二损失满足预定的阈值,得到训练完成的强制对齐模型。

根据各个对应于同一个文字的所述预测音频帧和所述基准音频帧,获取第二损失,如果第二损失不满足预定的阈值,则根据第二损失来调整所述强制对齐模型的参数,重新获取预测音频帧,直至第二损失满足预定的阈值,即对应于同一个文字的预测音频帧和基准音频帧的相似度满足要求,得到训练完成的强制对齐模型。

可见,在强制对齐模型的训练过程中,利用训练文本的各个文字已标注完成的基准音频帧,能够使模型学习到音频帧与文字之间的对应关系,从而在对待对齐的音频和文本进行对齐时,能够得到满足准确性要求的与文字对应的音频帧。

可见,在获得各个所述第一停顿时长的过程中,首先通过训练完成的韵律层级划分模型对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置,然后利用训练完成的强制对齐模型,确定各个所述韵律层级的停顿位置在与所述基准文本对应的基准音频中的停顿时长,得到各个韵律层级的各个所述第一停顿时长。而韵律层级划分模型和强制对齐模型在训练的过程中都有严格的质量的要求,这也就保证了所获得基准文本的各个韵律层级和各个所述韵律层级的停顿位置的高质量,进而保证了各个所述第一停顿时长的高质量,因此,可以保证在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,对待测音频进行情感度表现评判的高质量。

步骤S122:根据同一韵律层级的各个所述第一停顿时长,获取对应所述韵律层级的基准停顿时长,得到各个不同所述韵律层级的基准停顿时长。

得到各个第一停顿时长后,获取各个韵律层级的基准停顿时长,容易理解的是,基准停顿时长的数量与韵律层级的种类相同,在一种实施例中,韵律层级有四种,那么基准停顿时长的数量也是四个,即一种韵律层级对应一个基准停顿时长。

由于基准音频满足预定的质量要求,所以在此基础上,获得的各个不同韵律层级的第一停顿时长也满足质量要求,因此,根据同一韵律层级的各个所述第一停顿时长,得到各个不同所述韵律层级的基准停顿时长也满足质量要求。

在另一种具体实施方式中,本公开实施例所提供的语音评测方法中的基准停顿时长可以包括以下几种:

同一韵律层级的各个所述第一停顿时长的平均值、出现次数最高值或加权平均值。

继续结合前述案例,以同一韵律层级的各个所述第一停顿时长的平均值获取基准停顿时长进行说明:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

例3:经检查#3,老人有#1轻微的#2脑血栓#4。

根据强制对齐模型和基准音频,得到上述例句中各个停顿层级处的第一停顿时长,在上述3个案例中,#1停顿有五处,如果,所述韵律层级的基准停顿时长在一个具体实施例中指的是各个所述第一停顿时长的平均值,那么,#1的基准停顿时长可以为各个#1的第一停顿时长的平均值记为a,相应的,取基准文本中#2、#3、#4停顿处的第一停顿时长的平均值,分别得到#2、#3、#4的基准停顿时长,分别记为b,c,d。

得到各个韵律层级的基准停顿时长:

层级#1的基准停顿时长为: a。

层级#2的基准停顿时长为: b。

层级#3的基准停顿时长为: c。

层级#4的基准停顿时长为:d。

当然,为了保证准确性,会对大量的基准文本和基准音频获取第一停顿时长,为此,获取大量的#1的第一停顿时长的平均值,得到#1的基准停顿时长,获取大量的#2的第一停顿时长的平均值,得到#2的基准停顿时长;获取大量的#3的第一停顿时长的平均值,得到#3的基准停顿时长;获取大量的#4的第一停顿时长的平均值,得到#4的基准停顿时长。

在其他的实施例中,基准停顿时长也可以是各个所述第一停顿时长出现次数最高值或加权平均值。

具体地,当基准停顿时长为各个所述第一停顿时长出现次数最高值时,比如:统计#1韵律层级的第一停顿时长,具体数值包括t1、t2和t3,其中t1的个数最多,那么将t1作为#1韵律层级的基准停顿时长。

当基准停顿时长为各个所述第一停顿时长的加权平均值时,比如:统计#1韵律层级的第一停顿时长,具体数值包括t1、t2和t3,其中t1的个数最多,t3的个数最少,可以使得t1的权重最大,t3的权重最小,然后,计算三者的加权平均值,将加权平均值作为#1韵律层级的基准停顿时长。

通过获取同一韵律层级的各个所述第一停顿时长的平均值,可以很方便地获取韵律层级的基准停顿时长,且计算方式简单;通过获取同一韵律层级的各个所述第一停顿时长的出现次数最高值作为基准停顿时长,所得到的基准停顿时长更贴合实际情况;通过获取同一韵律层级的各个所述第一停顿时长的加权平均值作为基准停顿时长,所得到的基准停顿时长可以结合各个停顿时长,但对基准停顿时长的影响不同,保证所得到的基准停顿时长的准确性。

由此可见,为了更加准确的对待测音频做语音评测,基准停顿时长的获取尤为重要,由于基准音频满足预定的质量要求,所以可以保证对待测音频所做语音评测的高质量,由于基准音频满足预定的质量要求,所以在此基础上,获得的各个不同韵律层级的第一停顿时长也满足质量要求,因此,根据同一韵律层级的各个所述第一停顿时长,得到各个不同所述韵律层级的基准停顿时长也满足质量要求,同时各个所述第一停顿时长和各个不同所述韵律层级的基准停顿时长都能够很好体现朗读者的朗读节奏,因此,可以在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,实现对于语音的情感测评。

得到对应于同一韵律层级的评测停顿时长和预定的基准停顿时长后,基于二者获取各个所述韵律层级的层级停顿评测结果。

在一种具体实施方式中,为了实现对各个所述韵律层级的层级停顿评测结果的获取,可以通过以下步骤:

获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果;

或者获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,获取所述绝对值与所述最大值的比值,得到所述层级停顿评测结果。

为了方便理解,现结合前述案例,分别说明如下:

根据待测音频的各个韵律层级的评测停顿时长:层级#1、#2、#3、#4分别记为A、B、C、D和预定的韵律层级的基准停顿时长:层级#1、#2、#3、#4分别记为a、b、c、d。

当采用获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果的方式时:

公式如下:

其中:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

A1、B2、C3、D4的值在[0,1]之间,得分越接近1,表明评测停顿时长与基准停顿时长越接近,发音规范;得分越接近0,表明两者相差越大,发音不规范。

在另一种具体的实施方式中,当采用获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,将所述绝对值与所述最大值的比值作为层级停顿评测结果时,公式如下:

其中:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

A1、B2、C3、D4的值在[0,1]之间,得分越接近0,表明评测停顿时长与基准停顿时长越接近,发音规范;得分越接近1,表明两者相差越大,发音不规范。

当采用获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果的方式时,所使用的公式简单,可以仅通过评测停顿时长与基准停顿时长的比值,即可获得层级停顿评测结果。

在另一种具体的实施方式中,当采用获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,将所述绝对值与所述最大值的比值作为层级停顿评测结果时,首先获取了所述评测停顿时长和基准停顿时长二者之差的绝对值,可以使层级停顿评测结果更加一目了然,二者相差越大,发音越不规范。

可以看出,本公开所提供的语音评测方法,在具体的实施例中可以采用不同的获取层级停顿评测结果的方法,这就提供了获取层级停顿评测结果方法的多样性与灵活性,在具体不同的实施例中,可以采用更加适合的方法来获取层级停顿评测结果。

步骤S13:根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

得到待测音频的各个层级停顿评测结果后,进一步获取整个待测音频的音频韵律评测结果。

在一种具体实施方式中,为了实现对待测语音进行评测,所述根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果的步骤包括:

将所述待测音频的各个同一韵律层级的停顿评测结果取平均值,得到所述待测音频的不同韵律层级的平均得分。

获取各个不同所述韵律层级的权重。

根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果。

根据待测音频的各个韵律层级的评测停顿时长:层级#1、#2、#3、#4分别记为A、B、C、D和预定的韵律层级的基准停顿时长:层级#1、#2、#3、#4分别记为a、b、c、d,所获取的层级停顿评测结果为:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

容易理解的是,待测音频中可以包含多个层级#1、层级#2、层级#3、层级#4。

例如:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例1中包含两个层级#1。

假设待测音频包含n1个层级#1,n2个层级#2,n3个层级#3,n4个层级#4,首先,将所述待测音频的各个同一韵律层级的停顿评测结果取平均值,得到所述待测音频的不同韵律层级的平均得分,即:将n1个层级#1对应的不同的A1取平均值得到A11,将n2个层级#2对应的不同的B2取平均值得到B22,将n3个层级#3对应的不同的C3取平均值得到C33,将n4个层级#4对应的不同的D4取平均值得到D44。

然后获取层级#1、层级#2、层级#3、层级#4的不同韵律层级的权重,假设,层级#1、层级#2、层级#3、层级#4的权重分别为:r1、r2、r3、r4,在具体的实施例中,可以结合不同的需求来调整每个韵律层级的权重,以获取侧重某一层级的得分,例如,在某一具体的实施例中,韵律短语层和语调短语层更能体现发音的节奏感,则可以适当的调高这两个韵律层级的权重,以便获得更为精确的评测结果。

最后,根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的数量,得到所述待测音频的韵律评测结果。

计算公式为:

如果在一个参考文本中不具备#3韵律层级,那么对应的公式即为:

当然,在另一种具体实施方式中,如果在获取各个韵律层级的评测停顿时长的过程中,已经对同一个韵律层级的多个停顿时长进行了平均值的获取,那么对应一个韵律层级就只有一个层级停顿评测结果,此时,为了实现对待测语音进行评测,具体可以包括:

获取各个不同所述韵律层级的权重;

根据所述待测音频的不同韵律层级的层级停顿评测结果、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果。

可见,在获取所述待测音频的韵律评测结果的过程中,首先获取了各个同一韵律层级的停顿评测结果的平均值,这样就可以保证各个同一韵律层级的停顿评测结果在最终的韵律评测结果都起了作用,没有哪一个是不重要被忽略掉的,然后,获取了不同韵律层级的不同的权重,并且在具体的实施例中,可以根据需求,来调整每个韵律层级的权重,因此保证了所获得最终韵律评测结果的准确性,最后根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果,在计算公式中,从待测文本中获取的韵律层级的类别数量不会影响计算结果的准确性,从而保证了对各种不同的待测音频所得到的待测音频的韵律评测结果的准确性。

综上所述,可见,本公开实施例所提供的语音评测方法,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

下面对本公开实施例提供的语音评测装置进行介绍,下文描述的语音评测装置可以认为是,电子设备(如:PC)为分别实现本公开实施例提供的语音评测方法所需设置的功能模块架构。下文描述的语音评测装置的内容,可分别与上文描述的语音评测方法的内容相互对应参照。

图5是本公开实施例所提供的语音评测装置的一框图,该语音评测装置即可应用于客户端,也可应用于服务器端,参考图5,该语音评测装置可以包括:

待测音频获取单元50,适合获取待测音频及与所述待测音频对应的参考文本。

评测停顿时长获取单元51,适合根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;

层级停顿评测结果获取单元52,适合根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;

音频韵律评测结果获取单元53,适合根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

可以看出,本公开实施例所提供的一种语音评测装置,在语音评测时,首先待测音频获取单元50,获取待测音频及与所述待测音频对应的参考文本,然后评测停顿时长获取单元51,根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;层级停顿评测结果获取单元52,根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;最后音频韵律评测结果获取单元53,根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

这样,本公开实施例所提供的语音评测装置,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

为了进行语音评测,待测音频获取单元50:获取待测音频及与所述待测音频对应的参考文本。

容易理解的是,为了实现对于语音的情感测评,首先要获取待测音频和待测音频所对应的文本,所述待测音频和待测音频所对应的文本可以是学生朗读音频和对应的文本,也可以是老师用于教学的朗读音频和对应的文本,也可以是其他朗读者的朗读音频和对应的文本。

可以看出,在本公开所提供语音评测方法中,并不对待测音频和待测音频所对应的文本的来源做特殊的限制,这就意味着,可以方便地利用本公开提供的语音评测方法对任一待测音频进行语音评测,并得到评测结果,使得本公开所提供语音评测方法的应用场景更加广泛,并不仅仅局限于对学生朗读语音的评测上。

评测停顿时长获取单元51:根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长。

获取了待测音频和待测音频所对应的参考文本之后,进一步获取待测音频的各个韵律层级的评测停顿时长,为后续实现情感评测做好准备。

容易理解的是,待测音频的各个韵律层级的评测停顿时长是指,对于待测音频的各个韵律层级分别获取的停顿时长。

具体地,韵律层级可以包括四种不同的类型,韵律词层#1、韵律短语层#2、语调短语层#3和语句层#4,其中:

韵律词层:表示基本韵律单元,在韵律词内部不能停顿,在韵律词边界处停顿不是必须的,在无标记的情况下,音系词与构词法的词是相同的,在有些情况下可能比词大些。

韵律短语层:多个韵律词组合,对应一次完整的韵律表达(不换气),韵律短语由一个或多个韵律词组成,通常认为韵律短语的长度是7个音节(一个字为一个音节),变化长度为2个音节,这与呼吸群的长度相当,韵律短语具有相对稳定的短语调模式和短语重音配置模式。

语调短语层:语调短语是最长的音系成分,一般长于韵律短语,在语法上,相当于较长的短语或较短的语句,语调短语有特定的语调模式,它可能通过一些方式与句法或篇章结构相联系。

语句层:一般以标点符号划分。

为方便结合案例进行描述,其中,#1表示韵律词层;#2表示韵律短语层;#3表示语调短语层;#4表示语句层。

在获取评测停顿时长时,首先获取待测音频的各个韵律层级,然后进一步获取各个韵律层级的预测停顿时长。

待测文本处理单元54,获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置;根据所述待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长;当确定未获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置时,对所述参考文本进行韵律层级划分,得到所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

在一种具体实施方式中,为了能够提高所获得的待测音频的各个韵律层级的评测停顿时长的准确性,本公开实施例所提供的语音评测方法,可以包括:

首先,获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置;

然后,根据所述待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长。

语音的节奏是表达语音情感韵律的一部分,主要是通过不同韵律层级的停顿时长来实现,所以,准确的划分韵律层级和标明韵律层级的停顿位置,可以更好的从朗读节奏的维度出发,对待测音频的情感度进行评判。

而在得到了韵律层级和韵律层级的停顿位置的基础上,根据待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长,而韵律层级和韵律层级的停顿位置可以很好的体现朗读者的朗读节奏,也因此,所得到的各个所述评测停顿时长也可以很好的体现朗读者的朗读节奏,从而可以实现在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,实现对于语音的情感测评。

具体地,可以通过以下步骤获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置:

首先,根据参考文本确定是否已获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置,如果已获取过,那么直接使用;否则,当确定未获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置时,则对所述参考文本进行韵律层级划分,得到所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

容易理解的是,所获取的所述参考音频对应的参考文本,有可能已经划分过韵律层级并且得到过韵律层级的停顿位置,这样,就可以直接获取所述参考文本对应各个所述韵律层级和各个所述韵律层级的停顿位置,如果经判断,发现所述参考文本以往没有划分过层级并且没有得到过韵律层级的停顿位置,就要先对所述参考文本进行韵律层级划分,然后才能获取所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

具体地,可以直接在已经划分过韵律层级并且得到过韵律层级的停顿位置的参考文本库中查找是否存在参考文本。

这样,通过前述判断,可以直接利用已经获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置,从而避免对所述参考文本重复执行韵律层级的划分,提高效率。

在一种具体实施方式中,当确定未获取过所述参考文本各个所述韵律层级和各个所述韵律层级的停顿位置时,可以利用预先训练完成的韵律层级划分模型对所述参考文本进行韵律层级划分,得到所述参考文本的各个韵律层级和各个所述韵律层级的停顿位置。

具体地,将待测音频所对应的参考文本输入已训练完成的韵律层级划分模型,经过韵律层级划分模型后,就可以得到各个韵律层级和各个所述韵律层级的停顿位置。

为方便对前述方案理解,现结合具体的案例进行说明:

比如:针对“儿童医院,嘟嘟和爸爸在一起。”这一句话,首先,将例句输入到韵律层级划分模型进行韵律层级划分:

输入:儿童医院,嘟嘟和爸爸在一起。

经韵律层级划分模型进行韵律层级划分后:

输出:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

得到参考文本的各个韵律层级和各个所述韵律层级的停顿位置后,进一步根据待测音频,确定各个韵律层级的评测停顿时长。

继续结合前述案例,根据待测音频,确定“童”与“医”之间的停顿时长,得到第一个韵律层级#1的评测停顿时长,再获取“院”与“嘟”之间的停顿时长,得到第二个韵律层级#3的评测停顿时长,以此类推,得到待测音频的全部的各个韵律层级的停顿时长。

这样,通过上述方法,一方面可以保证待测音频的各个韵律层级都能够准确方便地获取,另一方面也可以方便评测停顿时长的确定。

具体地,为了方便获取评测停顿时长,可以通过强制对齐模型,确定待测音频的每一语音帧属于哪一字,即得到每个字对应的语音帧数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而得到每个字的时间点信息,这里也包括音频中停顿的静音时间点信息,例如:

结合前述案例,经过强制对齐模型强制对齐可知,在“儿童#1医院#3,”中:

语音帧第1-4帧是“儿”字,语音帧第5-7帧是“童”字,中间为#1的停顿时长,语音帧第8-9帧是“医”字,第10-15帧为“院”字,即通过强制对齐判断音频中“儿童”、“医院”、“嘟嘟”、“和爸爸”和“在一起”的停顿持续时长分别是多少,也包括停顿处的静音时间点的静音时长,根据待测音频的停顿位置处的静音时长,得知待测音频的各个层级的停顿时长,进而根据待测音频的各个层级的停顿时长,获取评测停顿时长。

在一种具体实施方式中,本发明实施例所提供的语音评测方法的根据所述待测音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述评测停顿时长的步骤可以包括:

利用预先训练完成的强制对齐模型,根据相互对应的所述待测音频和所述待测文本,获得各个所述待测音频的各个不同韵律层级的停顿时长。

根据同一韵律层级的各个所述停顿时长,获取对应所述韵律层级的评测停顿时长,得到各个不同所述韵律层级的评测停顿时长。

即,首先获取待测音频的每个韵律层级的停顿时长,这里的每个韵律层级是指包括了相同的韵律层级和不同的韵律层级的全部韵律层级。

再次结合前述的案例:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。可以看出,在此案例中,#1的韵律层级有两个,停顿时长的个数有5个。

在前述案例中,#1停顿有两处:儿童#1和嘟嘟#1,停顿时长分别记为A1、A2,相应的,取待测文本中#2、#3、#4停顿处的停顿时长,分别得到#2、#3、#4的评测停顿时长,分别记为B,C,D。

得到各个韵律层级的评测停顿时长:

第一个层级#1的评测停顿时长为:A1。

第二个层级#1的评测停顿时长为:A2。

层级#2的评测停顿时长为:B。

层级#3的评测停顿时长为:C。

层级#4的评测停顿时长为:D。

当然,在另一种具体实施方式中,在计算评测停顿时长时,还可以对对应于同一韵律层级的停顿时长获取平均值,然后得到该韵律层级的评测停顿时长,即在前述案例中,#1停顿有两处:儿童#1和嘟嘟#1,停顿时长分别记为A1、A2,对应韵律层级的评测停顿时长可以为A1和A2的平均值,记为A,相应的,取待测文本中#2、#3、#4停顿处停顿时长的平均值,分别得到#2、#3、#4的评测停顿时长,分别记为B,C,D。

得到各个韵律层级的评测停顿时长:

层级#1的评测停顿时长为:A。

层级#2的评测停顿时长为:B。

层级#3的评测停顿时长为:C。

层级#4的评测停顿时长为:D。

从而,通过首先划分韵律层级和标明韵律层级的停顿位置,进一步根据待测音频确定各个所述韵律层级的停顿位置的停顿时长,可以很方便地获取评测停顿时长,方便后续进行待测音频的情感测评。

层级停顿评测结果获取单元52:根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果。

得到评测停顿时长后,进一步结合基准停顿时长,获取各个韵律层级的层级停顿评测结果。

容易理解的是,基准停顿时长是指基于满足朗读质量要求的基准音频获取的,因此,基准停顿时长满足预定的质量要求,并且能够很好体现基准音频的朗读节奏,得到的所述韵律层级的层级停顿评测结果对待测音频的评测也更为准确。

在一种具体实施方式中,为了方便预定的基准停顿时长的获取,请参考图6,图6是本公开实施例所提供的语音评测装置的另一框图。

如图中所示,本公开实施例所提供的语音评测方法的基准停顿时长可以通过以下步骤获取:

基准音频获取单元60: 获取各个基准音频和分别与各个所述基准音频对应的各个基准文本;

为了更加准确的对待测音频做语音评测,基准停顿时长的获取尤为重要,由于基准音频满足预定的质量要求,所以可以保证对待测音频所做语音评测的高质量。

容易理解的是,基准音频是指满足质量要求的基准朗读音频,而基准文本是指与基准音频相互对应的文本,可以通过语音识别的方式获取,也可以通过其他方式获取。并且为了保证所获取的基准停顿时长的准确性和适用性,需要基于大量的基准音频和基准文本,因此,所获取的基准音频和基准文本并非只有一个。

第一停顿时长获取单元61:根据相互对应的所述基准音频和所述基准文本,获得各个所述基准音频的各个不同韵律层级的第一停顿时长。

获取第一停顿时长,可以方便后续获取基准停顿时长。

得到基准音频和基准文本后,基于二者所包含的信息,获取基准停顿时长,由于基准音频的数量较大,大量的基准音频所对应的基准文本的韵律层级的数量也较多,为了获取最终用于层级停顿评测结果的基准停顿时长,首先获取大量的韵律层级的第一停顿时长。

第一执行单元62:执行所述根据相互对应的所述基准音频和所述基准文本,获得各个所述基准音频的各个不同韵律层级的第一停顿时长的步骤,所述步骤包括:

对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置;根据与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述第一停顿时长。

对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置。

要想获得基准音频的各个不同韵律层级的第一停顿时长,首先要对基准音频进行韵律层级的划分,语音的节奏是表达语音情感韵律的一部分,主要是通过不同韵律层级的停顿时长来实现,通过获取基准文本的各个韵律层级和各个所述韵律层级的停顿位置,可以与待测音频的韵律层级和各个所述韵律层级的停顿位置作对比,更好的从朗读节奏的维度出发,对待测音频的情感度表现进行评判。

第二执行单元63:执行所述对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置的步骤包括:

利用韵律层级划分模型,对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置,当然所述韵律层级与待测音频的韵律层级相同,包括韵律词层、韵律短语层、语调短语层和语句层。

例如:

为方便理解,现再次结合案例进行说明:

将下列例句输入到韵律层级划分模型,韵律层级划分模型对它们进行韵律层级划分,输出的结果如下:

输入:

例1:李某的网站很快被警方查封。

例2:儿童医院,嘟嘟和爸爸在一起。

例3:经检查,老人有轻微的脑血栓。

输出:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

例3:经检查#3,老人有#1轻微的#2脑血栓#4。

这样,通过韵律层级划分模型对句子的韵律层级的划分,可以得到句子的韵律层级的类别以及停顿位置,例如:

例1中:李某的#1【李某的后面停顿,韵律层级为#1韵律词层】网站#3【网站后面停顿,韵律层级为#3语调短语层】很快#2【很快后面停顿,韵律层级为#2韵律短语层】被警方#1【警方后面停顿,韵律层级为#1韵律词层】查封#4。【句号后面停顿,韵律层级为#4语句层】。

可见,通过韵律层级划分模型对基准文本进行韵律层级划分,得到了基准文本对应的各个韵律层级和各个所述韵律层级的停顿位置,也就相应得到了基准文本准确的节奏变化,同时,韵律层级划分模型在训练过程中满足预定的质量要求,所以,也可以确保得到高质量的基准文本对应的各个韵律层级和各个所述韵律层级的停顿位置,进而,可以高质量的把握基准文本节奏的变化,从而为从朗读节奏的维度出发,实现对于语音的情感测评提供基础。

韵律层级划分模型训练单元64:适合训练韵律层级划分模型,韵律层级划分模型可以通过以下步骤训练,包括:

1)、获取样本文本训练集,所述样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级。

为了训练韵律层级划分模型,需要获取样本文本训练集,样本文本训练集包括相互对应的待测样本文本和基准样本文本,所述基准样本文本标注有各个基准韵律层级,并且满足预定的质量要求,可以根据这些满足质量要求的基准样本文本的基准韵律层级,来预测待测样本文本的预测韵律层级。

2)、利用所述韵律层级划分模型,根据所述待测样本文本,获取所述待测样本文本的预测韵律层级。

根据待测样本文本,韵律层级划分模型会获得初步的待测样本文本的预测韵律层级。

3)、根据所述预测韵律层级和所述基准韵律层级,确定所述待测样本文本的第一损失。

韵律层级划分模型会根据基准样本文本的基准韵律层级来计算待测样本文本的第一损失,此时获取的待测文本的预测韵律层级并不完善,需要根据待测文本的第一损失来判断获取的预测韵律层级的质量。

4)、第一损失是否满足预定阈值,如果是,执行步骤6),如果否,执行步骤5)。

利用第一损失来判断上述预测韵律层级的质量,如果第一损失不满足预定的阈值,则执行步骤5),直至第一损失阈值满足预定的阈值,则执行步骤6)。

5)、调整所述韵律层级划分模型的参数。

按照第一损失阈值,根据满足预定质量要求的基准样本文本的基准韵律层级,来调整韵律层级划分模型的参数,使得韵律层级划分模型按照新的模型参数来获得新的待测样本文本的预测韵律层级,使得新的预测韵律层级更加完善。

6)、得到训练完成的韵律层级划分模型。

通过上述步骤的训练,得到训练完成的韵律层级划分模型。

可见,在韵律层级划分模型的训练过程中,利用基准样本文本的基准韵律层级,和待测样本文本,能够使模型学习到基准样本文本的基准韵律层级划分的特点,从而获取具有基准韵律层级特点的待测样本文本的预测韵律层级,由于韵律层级划分模型在训练过程中,对获取的预测韵律层级有严格的质量要求,通过对预测韵律层级质量的把握,调整韵律层级划分模型的参数,来保证韵律层级划分模型的质量,所以通过所述训练完成的韵律层级划分模型获取的预测韵律层级可以满足本公开对于韵律层级的高质量的要求。

根据与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述第一停顿时长。

得到所述基准文本对应的各个所述韵律层级的停顿位置后,进一步结合与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,即获取第一停顿时长。

首先对基准文本准确的划分了韵律层级,得到了准确的韵律层级和韵律层级的停顿位置,在此基础上,根据基准音频,得到了各个所述第一停顿时长,而准确的的韵律层级和韵律层级的停顿位置可以很好的体现朗读者的朗读节奏,也因此,所得到的各个所述第一停顿时长也可以很好的体现朗读者的朗读节奏,从而可以实现对于语音的情感测评。

第三执行单元65:执行所述根据与所述基准文本对应的基准音频确定各个所述韵律层级的停顿位置的停顿时长,得到各个所述第一停顿时长的步骤,包括:

利用强制对齐模型,确定各个所述韵律层级的停顿位置在与所述基准文本对应的基准音频中的停顿时长,得到各个所述第一停顿时长。

强制对齐模型在训练的过程中有严格的质量要求,因此,通过强制对齐模型,可以得到满足质量要求的各个所述第一停顿时长,也进一步保证了从朗读节奏的维度出发,实现对于语音的情感测评的高质量。

在具体的实施例中,首先利用韵律层级划分模型对基准文本进行韵律层级划分,然后利用强制对齐模型根据基准音频获得各个所述第一停顿时长,例如:

首先,将例句输入到韵律层级划分模型进行韵律层级划分:

输入:经检查,老人有轻微的脑血栓。

经韵律层级划分模型进行韵律层级划分后:

输出:经检查#3,老人有#1轻微的#2脑血栓#4。

然后,通过强制对齐模型,根据基准音频,可以得知每一语音帧属于哪一字,即得到每个字对应的语音帧数量,因为语音帧有固定窗长和帧移(一般为25ms窗长,10ms帧移),进而得到每个字的时间点信息,这里也包括音频中停顿的静音时间点信息,例如:

经过强制对齐模型强制对齐可知,在“经检查#3,老人”中:

语音帧第1-4帧是“经”字,语音帧第5-7帧是“检”字,语音帧第8-9帧是“查”字,中间为#3的停顿时长,第10-15帧为“老”字,第16-18帧为“人”字,即通过强制对齐判断音频中“经检查”、“老人有”、“轻微的”和“脑血栓”的停顿持续时长分别是多少,也包括停顿处的静音时间点的静音时长,根据基准音频的停顿位置处的静音时长,得知基准音频的各个层级的停顿时长,基准音频的各个层级的停顿时长即为各个韵律层级的各个所述第一停顿时长。

强制对齐模型训练单元66:可以训练强制对齐模型:

强制对齐模型的训练步骤包括:

1)、获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的基准音频帧。

为了训练强制对齐模型,需要获取训练文本和所述训练文本对应的训练音频,所述训练文本的各个文字标注有与其对应的基准音频帧,具体地,所述基准音频帧与文字的对应关系可以通过人工标注的方式获取。

2)、通过所述强制对齐模型,根据所述训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧。

强制对齐模型会根据训练文本和与所述训练文本对应的训练音频,获取与各个所述文字对应的预测音频帧,但此时获取的与文字对应的预测音频帧可能与基准音频帧之间存在差别,需要进一步调整。

3)、根据各个对应于同一个文字的所述预测音频帧和各个所述基准音频帧,获取第二损失并根据所述第二损失调整所述强制对齐模型的参数,直至所述第二损失满足预定的阈值,得到训练完成的强制对齐模型。

根据各个对应于同一个文字的所述预测音频帧和所述基准音频帧,获取第二损失,如果第二损失不满足预定的阈值,则根据第二损失来调整所述强制对齐模型的参数,重新获取预测音频帧,直至第二损失满足预定的阈值,即对应于同一个文字的预测音频帧和基准音频帧的相似度满足要求,得到训练完成的强制对齐模型。

可见,在强制对齐模型的训练过程中,利用训练文本的各个文字已标注完成的基准音频帧,能够使模型学习到音频帧与文字之间的对应关系,从而在对待对齐的音频和文本进行对齐时,能够得到满足准确性要求的与文字对应的音频帧。

可见,在获得各个所述第一停顿时长的过程中,首先通过训练完成的韵律层级划分模型对所述基准文本进行韵律层级划分,得到所述基准文本的各个韵律层级和各个所述韵律层级的停顿位置,然后利用训练完成的强制对齐模型,确定各个所述韵律层级的停顿位置在与所述基准文本对应的基准音频中的停顿时长,得到各个韵律层级的各个所述第一停顿时长。而韵律层级划分模型和强制对齐模型在训练的过程中都有严格的质量的要求,这也就保证了所获得基准文本的各个韵律层级和各个所述韵律层级的停顿位置的高质量,进而保证了各个所述第一停顿时长的高质量,因此,可以保证在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,对待测音频进行情感度表现评判的高质量。

基准停顿时长获取单元67:适合根据同一韵律层级的各个所述第一停顿时长,获取对应所述韵律层级的基准停顿时长,得到各个不同所述韵律层级的基准停顿时长,所述韵律层级的基准停顿时长包括同一韵律层级的各个所述第一停顿时长的平均值、出现次数最高值或加权平均值。

根据同一韵律层级的各个所述第一停顿时长,获取对应所述韵律层级的基准停顿时长,得到各个不同所述韵律层级的基准停顿时长。

得到各个第一停顿时长后,获取各个韵律层级的基准停顿时长,容易理解的是,基准停顿时长的数量与韵律层级的种类相同,在一种实施例中,韵律层级有四种,那么基准停顿时长的数量也是四个,即一种韵律层级对应一个基准停顿时长。

由于基准音频满足预定的质量要求,所以在此基础上,获得的各个不同韵律层级的第一停顿时长也满足质量要求,因此,根据同一韵律层级的各个所述第一停顿时长,得到各个不同所述韵律层级的基准停顿时长也满足质量要求。

在另一种具体实施方式中,本公开实施例所提供的语音评测方法中的基准停顿时长可以包括以下几种:

同一韵律层级的各个所述第一停顿时长的平均值、出现次数最高值或加权平均值。

继续结合前述案例,以同一韵律层级的各个所述第一停顿时长的平均值获取基准停顿时长进行说明:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例2:儿童#1医院#3,嘟嘟#1和爸爸#2在一起#4。

例3:经检查#3,老人有#1轻微的#2脑血栓#4。

根据强制对齐模型和基准音频,得到上述例句中各个停顿层级处的第一停顿时长,在上述3个案例中,#1停顿有五处,如果,所述韵律层级的基准停顿时长在一个具体实施例中指的是各个所述第一停顿时长的平均值,那么,#1的基准停顿时长可以为各个#1的第一停顿时长的平均值记为a,相应的,取基准文本中#2、#3、#4停顿处的第一停顿时长的平均值,分别得到#2、#3、#4的基准停顿时长,分别记为b,c,d。

得到各个韵律层级的基准停顿时长:

层级#1的基准停顿时长为: a。

层级#2的基准停顿时长为: b。

层级#3的基准停顿时长为: c。

层级#4的基准停顿时长为:d。

当然,为了保证准确性,会对大量的基准文本和基准音频获取第一停顿时长,为此,获取大量的#1的第一停顿时长的平均值,得到#1的基准停顿时长,获取大量的#2的第一停顿时长的平均值,得到#2的基准停顿时长;获取大量的#3的第一停顿时长的平均值,得到#3的基准停顿时长;获取大量的#4的第一停顿时长的平均值,得到#4的基准停顿时长。

在其他的实施例中,基准停顿时长也可以是各个所述第一停顿时长出现次数最高值或加权平均值。

具体地,当基准停顿时长为各个所述第一停顿时长出现次数最高值时,比如:统计#1韵律层级的第一停顿时长,具体数值包括t1、t2和t3,其中t1的个数最多,那么将t1作为#1韵律层级的基准停顿时长。

当基准停顿时长为各个所述第一停顿时长的加权平均值时,比如:统计#1韵律层级的第一停顿时长,具体数值包括t1、t2和t3,其中t1的个数最多,t3的个数最少,可以使得t1的权重最大,t3的权重最小,然后,计算三者的加权平均值,将加权平均值作为#1韵律层级的基准停顿时长。

通过获取同一韵律层级的各个所述第一停顿时长的平均值,可以很方便地获取韵律层级的基准停顿时长,且计算方式简单;通过获取同一韵律层级的各个所述第一停顿时长的出现次数最高值作为基准停顿时长,所得到的基准停顿时长更贴合实际情况;通过获取同一韵律层级的各个所述第一停顿时长的加权平均值作为基准停顿时长,所得到的基准停顿时长可以结合各个停顿时长,但对基准停顿时长的影响不同,保证所得到的基准停顿时长的准确性。

由此可见,为了更加准确的对待测音频做语音评测,基准停顿时长的获取尤为重要,由于基准音频满足预定的质量要求,所以可以保证对待测音频所做语音评测的高质量,由于基准音频满足预定的质量要求,所以在此基础上,获得的各个不同韵律层级的第一停顿时长也满足质量要求,因此,根据同一韵律层级的各个所述第一停顿时长,得到各个不同所述韵律层级的基准停顿时长也满足质量要求,同时各个所述第一停顿时长和各个不同所述韵律层级的基准停顿时长都能够很好体现朗读者的朗读节奏,因此,可以在围绕情感度评测的朗诵评测中,从朗读节奏的维度出发,实现对于语音的情感测评。

第四执行单元55:适合执行所述根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果的方法包括:获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果;或者获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,获取所述绝对值与所述最大值的比值,得到所述层级停顿评测结果。

得到对应于同一韵律层级的评测停顿时长和预定的基准停顿时长后,基于二者获取各个所述韵律层级的层级停顿评测结果。

在一种具体实施方式中,为了实现对各个所述韵律层级的层级停顿评测结果的获取,可以通过以下步骤:

获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果;

或者获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,获取所述绝对值与所述最大值的比值,得到所述层级停顿评测结果。

为了方便理解,现结合前述案例,分别说明如下:

根据待测音频的各个韵律层级的评测停顿时长:层级#1、#2、#3、#4分别记为A、B、C、D和预定的韵律层级的基准停顿时长:层级#1、#2、#3、#4分别记为a、b、c、d。

当采用获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果的方式时:

公式如下:

其中:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

A1、B2、C3、D4的值在[0,1]之间,得分越接近1,表明评测停顿时长与基准停顿时长越接近,发音规范;得分越接近0,表明两者相差越大,发音不规范。

在另一种具体的实施方式中,当获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,将所述绝对值与所述最大值的比值作为层级停顿评测结果时,公式如下:

其中:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

A1、B2、C3、D4的值在[0,1]之间,得分越接近0,表明评测停顿时长与基准停顿时长越接近,发音规范;得分越接近1,表明两者相差越大,发音不规范。

当采用获取所述评测停顿时长和基准停顿时长二者之中最大值和最小值,获取所述最小值与所述最大值的比值,得到所述层级停顿评测结果的方式时,所使用的公式简单,可以仅通过评测停顿时长与基准停顿时长的比值,即可获得层级停顿评测结果。

在另一种具体的实施方式中,当采用获取所述评测停顿时长和基准停顿时长二者之差的绝对值,获取所述评测停顿时长和基准停顿时长二者之中的最大值,将所述绝对值与所述最大值的比值作为层级停顿评测结果时,首先获取了所述评测停顿时长和基准停顿时长二者之差的绝对值,可以使层级停顿评测结果更加一目了然,二者相差越大,发音越不规范。

可以看出,本公开所提供的语音评测方法,在具体的实施例中可以采用不同的获取层级停顿评测结果的方法,这就提供了获取层级停顿评测结果方法的多样性与灵活性,在具体不同的实施例中,可以采用更加适合的方法来获取层级停顿评测结果。

音频韵律评测结果获取单元53:适合根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。

得到待测音频的各个层级停顿评测结果后,进一步获取整个待测音频的音频韵律评测结果。

为了实现对待测语音进行评测,第五执行单元56:适合执行所述根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果的步骤,包括:将所述待测音频的各个同一韵律层级的停顿评测结果取平均值,得到所述待测音频的不同韵律层级的平均得分;获取各个不同所述韵律层级的权重;根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果。

具体可以包括:

将所述待测音频的各个同一韵律层级的停顿评测结果取平均值,得到所述待测音频的不同韵律层级的平均得分;

获取各个不同所述韵律层级的权重;

根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果。

根据待测音频的各个韵律层级的评测停顿时长:层级#1、#2、#3、#4分别记为A、B、C、D和预定的韵律层级的基准停顿时长:层级#1、#2、#3、#4分别记为a、b、c、d,所获取的层级停顿评测结果为:A1为层级#1的层级停顿评测结果,B2为层级#2的层级停顿评测结果,C3为层级#3的层级停顿评测结果,D4为层级#4的层级停顿评测结果。

容易理解的是,待测音频中可以包含多个层级#1、层级#2、层级#3、层级#4。

例如:

例1:李某的#1网站#3很快#2被警方#1查封#4。

例1中包含两个层级#1。

假设待测音频包含n1个层级#1,n2个层级#2,n3个层级#3,n4个层级#4,首先,将所述待测音频的各个同一韵律层级的停顿评测结果取平均值,得到所述待测音频的不同韵律层级的平均得分,即:将n1个层级#1对应的不同的A1取平均值得到A11,将n2个层级#2对应的不同的B2取平均值得到B22,将n3个层级#3对应的不同的C3取平均值得到C33,将n4个层级#4对应的不同的D4取平均值得到D44。

然后获取层级#1、层级#2、层级#3、层级#4的不同韵律层级的权重,假设,层级#1、层级#2、层级#3、层级#4的权重分别为:r1、r2、r3、r4,在具体的实施例中,可以结合不同的需求来调整每个韵律层级的权重,以获取侧重某一层级的得分,例如,在某一具体的实施例中,韵律短语层和语调短语层更能体现发音的节奏感,则可以适当的调高这两个韵律层级的权重,以便获得更为精确的评测结果。

最后,根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的数量,得到所述待测音频的韵律评测结果。

计算公式为:

如果在一个参考文本中不具备#3韵律层级,那么对应的公式即为:

当然,在另一种具体实施方式中,如果在获取各个韵律层级的评测停顿时长的过程中,已经对同一个韵律层级的多个停顿时长进行了平均值的获取,那么对应一个韵律层级就只有一个层级停顿评测结果,此时,为了实现对待测语音进行评测,具体可以包括:

获取各个不同所述韵律层级的权重;

根据所述待测音频的不同韵律层级的层级停顿评测结果、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果。

可见,在获取所述待测音频的韵律评测结果的过程中,首先获取了各个同一韵律层级的停顿评测结果的平均值,这样就可以保证各个同一韵律层级的停顿评测结果在最终的韵律评测结果都起了作用,没有哪一个是不重要被忽略掉的,然后,获取了不同韵律层级的不同的权重,并且在具体的实施例中,可以根据需求,来调整每个韵律层级的权重,因此保证了所获得最终韵律评测结果的准确性,最后根据所述待测音频的不同韵律层级的平均得分、各个不同所述韵律层级的权重、不同韵律层级的类别数量,得到所述待测音频的韵律评测结果,在计算公式中,从待测文本中获取的韵律层级的类别数量不会影响计算结果的准确性,从而保证了对各种不同的待测音频所得到的待测音频的韵律评测结果的准确性。

综上所述,可见,本公开实施例所提供的语音评测方法,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例所提供的非瞬时计算机可读存储介质所存储的计算机可执行指令,在语音评测时,首先获取待测音频及与所述待测音频对应的参考文本;然后根据所述待测音频和所述参考文本,获取所述待测音频的各个韵律层级的评测停顿时长;再根据对应于同一韵律层级的评测停顿时长和预定的基准停顿时长,获取各个所述韵律层级的层级停顿评测结果;最后根据各个所述韵律层级的层级停顿评测结果,获取所述待测音频的音频韵律评测结果。可以看出,本公开实施例所提供的语音评测方法,通过待测音频的各个韵律层级的评测停顿时长,结合对应于同一韵律层级的基准停顿时长,获取待测评音频的各个韵律层级的层级停顿评测结果,进而获取整个待测音频的音频韵律评测结果,利用了不同韵律层级的停顿时长所表现的轻重缓急的节奏与基准音频的轻重缓急的节奏的比较,可以实现对于待测音频的节奏的评测,进而可以实现对于待测音频的情感的测评,并且在节奏的比较的时候,区分了不同的韵律层级分别进行测评,可以提高对于待测音频的情感的测评的准确性。

参考图7,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,方法S10-S13可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S10-S13。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其他实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本公开实施例披露如上,但本公开并非限定于此。任何本领域技术人员,在不脱离本公开的精神和范围内,均可作各种变动与修改,因此本公开的保护范围应当以权利要求所限定的范围为准。

相关技术
  • 语音处理、语音评测方法、装置、计算机设备和存储介质
  • 语音评测及语音识别方法、装置、设备及存储介质
技术分类

06120113282775