掌桥专利:专业的专利平台
掌桥专利
首页

电子设备及其控制方法

文献发布时间:2024-04-18 20:01:23


电子设备及其控制方法

技术领域

本公开总体涉及一种电子设备及其控制方法。更具体地,本公开涉及一种使用人工智能模型执行语音合成的电子设备及其控制方法。

背景技术

随着电子技术的发展,各种类型的设备已经被开发和分布,特别是执行语音合成的设备被推广。

语音合成是一种被称为文本到语音(TTS)的从文本实现人声的技术,近年来,使用神经网络模型的神经TTS正在被开发。

例如,神经TTS可以包括韵律神经网络模型和神经声码器神经网络模型。韵律神经网络模型可以接收文本并输出声学特征信息,并且神经声码器神经网络模型可以接收声学特征信息并输出语音数据(波形)。

在TTS模型中,韵律神经网络模型具有用于学习的说话者的语音特征。换言之,韵律神经网络模型的输出可以是声学特征信息,其包括特定说话者的语音特征和特定说话者的话语速度特征。

在相关技术中,随着人工智能模型的发展,提出了一种个性化TTS模型,个性化TTS模型输出包括电子设备的用户的语音特征的语音数据。个性化TTS模型是基于个人用户的话语语音数据训练的TTS模型,并且输出包括在学习中使用的用户的语音特征和话语速度特征的语音数据。

在个性化TTS模型的训练中使用的个人用户的话语语音数据的声音质量通常低于在通用TTS模型训练中使用数据的声音质量,并且因此,可能出现关于从个性化TTS模式输出的语音数据的话语速度的问题。

发明内容

技术问题

提供了一种用于文本到语音(TTS)模型的自适应话语速度调节方法。

技术方案

根据示例性实施例的一方面,用于控制电子设备的方法可以包括:获得文本;通过将文本输入到第一神经网络模型中,获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与包括在文本中的每个音素匹配的对准信息;基于对准信息识别声学特征信息的话语速度;基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度;基于声学特征信息的话语速度和每个音素的参考话语速度获得话语速度调节信息;以及基于话语速度调节信息,通过将声学特征信息输入到第二神经网络模型中获得与文本相对应的语音数据。

识别声学特征信息的话语速度可以包括基于对准信息识别与包括在声学特性信息中的第一音素相对应的话语速度。识别每个音素的参考话语速度可以包括:基于声学特征信息识别包括在声学特征信息中的第一音素,以及基于文本识别与第一音素相对应的参考话语速度。

识别与第一音素相对应的参考话语速度可以包括:基于文本获得与第一音素相对应的第一参考话语速度,以及获得用于训练第一神经网络模型的样本数据。

识别与第一音素相对应的参考话语速度可以包括:获得用于训练第一神经网络模型的样本数据的评估信息,以及基于与第一音素相对应的第一参考话语速度和评估信息识别与第一音素相对应的第二参考话语速度。评估信息可以由电子设备的用户获得。

该方法可以包括基于第一参考话语速度和第二参考话语速度中的一个识别与第一音素相对应的参考话语速度。

识别与第一音素相对应的话语速度可以包括:基于声学特征信息中与第一音素相对应的话语速度和与在第一音素之前的至少一个音素相对应的话语速度,识别与第一音素相对应的平均话语速度。获得话语速度调节信息可以包括基于与第一音素相对应的平均话语速度和与第一音素相对应的参考话语速度获得与第一音素相对应的话语速度调节信息。

第二神经网络模型可以包括编码器,被配置为接收声学特征信息的输入;以及解码器,被配置为从编码器接收向量信息输出的输入。获得语音数据可以包括:当声学特征信息中与第一音素相对应的至少一帧被输入到第二神经网络模型时,基于与第一音素相对应的话语速度调节信息识别包括在第二神经网模型中的解码器的循环数;以及基于与第一音素相对应的至少一帧向第二神经网络模型的输入,获得与第一音素相对应的至少一帧和多条第一语音数据,多条第一语言数据与循环数相对应。第一语音数据包括与第一音素相对应的语音数据。

基于被输入到第二神经网络模型的声学特征信息中与第一音素相对应的至少一帧中的一个,可以获得多条第二语音数据,第二语音数据与循环数相对应。

解码器可以被配置为基于其中偏移大小是第一时间间隔的声学特征信息获得第一频率的语音数据。基于作为参考值的话语速度调节信息的值,将包括在声学特征信息中的一帧输入到第二神经网络模型,并且可以获得多条第二语音数据,多条第二语音数据与第一时间间隔和第一频率的乘积相对应。

话语速度调节信息可以包括关于声学特征信息的话语速度与每个音素的参考话语速度的比值的信息。

根据示例性实施例的一方面,电子设备可以包括:存储器,被配置为存储指令;以及处理器,被配置为执行指令以:获得文本;通过将文本输入到第一神经网络模型中,获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与包括在文本中的每个音素匹配的对准信息;基于对准信息识别声学特征信息的话语速度;基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度;基于声学特征信息的话语速度和每个音素的参考话语速度获得话语速度调节信息;以及基于话语速度调节信息,通过将声学特征信息输入到第二神经网络模型中获得与文本相对应的语音数据。

处理器还可以被配置为执行指令以:基于对准信息识别与包括在声学特性信息中的第一音素相对应的话语速度,基于声学特征信息识别包括在声学特征信息中的第一音素,以及基于文本识别与第一音素相对应的参考话语速度。

处理器还可以被配置为执行指令以:基于文本获得与第一音素相对应的第一参考话语速度,以及获得用于训练第一神经网络模型的样本数据。

处理器还可以被配置为执行指令以:获得用于训练第一神经网络模型的样本数据的评估信息;以及基于与第一音素相对应的第一参考话语速度和评估信息识别与第一音素相对应的第二参考话语速度。评估信息由电子设备的用户获得。

处理器还可以被配置为执行指令以:基于第一参考话语速度和第二参考话语速度中的一个识别与第一音素相对应的参考话语速度。

附图说明

通过结合附图进行的以下描述,本公开的某些实施例的上述和其他方面、特征和优点将更加明显,其中:

图1是示出根据示例实施例的电子设备的配置的框图。

图2是示出根据示例实施例的文本到语音(TTS)模型的配置的框图。

图3是示出根据示例实施例的TTS模型中的神经网络模型的配置的框图。

图4是示出根据示例实施例的用于获得具有改进的话语速度的语音数据的方法的图。

图5是示出根据示例实施例的其中声学特征信息的每个帧与包括在文本中的每个音素相匹配的对准信息的图。

图6是示出根据示例实施例的用于识别包括在声学特征信息中的每个音素的参考话语速度的方法的图。

图7是用于描述根据实施例的通过指数移动平均(EMA)方法识别每个音素的平均话语速度的实施例的数学表达式。

图8是示出根据示例实施例的用于识别参考话语速度的方法的图。

图9是示出根据示例实施例的电子设备的操作的流程图。

图10是示出根据示例实施例的电子设备的配置的框图。

具体实施方式

在下文中,将参考附图详细描述本公开。

图1是示出根据示例实施例的电子设备的配置的框图。

参考图1,电子设备100可以包括存储器110和处理器120。根据本公开,电子设备100可以被实现为各种类型的电子设备,诸如智能手机、增强现实(AR)眼镜、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、电视(TV)、台式PC、膝上型PC、上网本计算机、工作站、相机、智能手表和服务器。

存储器110可以存储关于电子设备100的其他元件中的至少一个的至少一个指令或数据。特别地,存储器110可以被实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SDD)。存储器110可以由处理器120访问,并且由处理器120对数据执行读出、记录、校正、删除、更新等。

根据本公开,术语存储器可以包括存储器110、处理器120中的只读存储器(ROM)和随机存取存储器(RAM),以及附接到电子设备100的存储卡(未示出)(例如,微安全数字(SD)卡或记忆棒)。

如上所述,存储器110可以存储至少一个指令。在本文中,指令可以是用于控制电子设备100的指令。存储器110可以存储与用于根据用户的对话情况改变操作模式的功能相关的指令。具体地,根据本公开,存储器110可以包括用于根据用户的对话情况改变操作模式的多个构成元件(或模块),这将在下面描述。

存储器110可以存储数据,数据是以能够表示字符、数字、图像等的比特或字节为单位的信息。例如,存储器110可以存储第一神经网络模型10和第二神经网络模型20。在此,第一神经网络模型可以是韵律神经网络模型,并且第二神经网络模型可以是神经声码器神经网络模型。

处理器120可以电连接到存储器110以控制电子设备100的通用操作和功能。

根据实施例,处理器120可以被实现为数字信号处理器(DSP)、微处理器、时间控制器(TCON)等。然而,处理器不限于此,并且可以包括中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)或通信处理器(CP)和ARM处理器中的一个或多个,或者可以被定义为对应术语。此外,处理器132可以实现为包括处理算法的片上系统(SoC)或大规模集成电路(LSI),或者可以以现场可编程门阵列(FPGA)的形式实现。

一个或多个处理器可以执行控制以根据存储在存储器110中的预定义的动作规则或人工智能模型来处理输入数据。预定义的动作规则或人工智能模型是通过训练形成的。例如,通过本文中的训练被形成可以意味着通过将学习算法应用于多条学习数据形成用于期望特征的预定义的动作规则或人工智能模型。这种训练可以在根据本公开的演示人工智能的设备中执行,或者由单独的服务器和/或系统执行。

人工智能模型可以包括多个神经网络层。每个层具有多个权重值,并通过前一层的运算结果和多个权重之间的运算来执行层的运算。神经网络的示例可以包括卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度置信网络(DBN)、双向循环深度神经网络和深度Q网络,但是除非另有说明,否则本公开的神经网络不限于上述示例。

例如,处理器120可以通过驱动操作系统或应用程序来控制连接到处理器120的多个硬件或软件元件,并执行各种数据处理和操作。此外,处理器120可以将从其他元件中的至少一个接收的命令或数据加载并处理到非易失性存储器,并且将各种数据存储在非易失存储器中。

具体地,处理器120可以在合成语音数据时提供自适应话语速度调节功能。参考图1,根据本公开的自适应话语速度调节功能可以包括文本获得模块121、声学特征信息获得模块122、话语速度获得模块123、参考话语速度获得单元124、话语速度调节信息获得模块125和语音数据获得模块126,每个模块可以被存储在存储器110中。在示例中,自适应话语速度调节功能可以通过调节包括在图2中所示的文本到语音(TTS)模型200中的第二神经网络模型20的循环数来调节话语速度。

图2是示出根据示例实施例的TTS模型的配置的框图。图3是示出根据示例实施例的TTS模型中的神经网络模型(例如,神经声码器神经网络模型)的配置的框图。

图2中所示的TTS模型200可以包括第一神经网络模型10和第二神经网络模型20。

第一神经网络模型10可以是用于接收文本210并输出与文本210相对应的声学特征信息220的构成元件。在示例中,第一神经网络模型10可以被实现为韵律神经网络模型。

韵律神经网络模型可以是已经学习了多个样本文本和分别与多个样本文本相对应的多条样本声学特征信息之间的关系的神经网络模型。具体地,韵律神经网络模型可以学习一个样本文本和从与该一个样本文本相对应的样本语音数据获得的样本声学特征信息之间的关系,并对多个样本文本执行这样的处理,从而执行韵律神经网络模型的学习。此外,在示例中,韵律神经网络模型可以包括用于性能增强的语言处理器,并且语言处理器可以包括文本归一化模块、音素转换(字形到音素(G2P))模块等。从第一神经网络模型10输出的声学特征信息220可以包括在第一神经网络模块10的训练中使用的说话者的语音特征。换言之,从第一神经网络模型10输出的声学特征信息220可以包括特定说话者(例如,与在第一神经网络模式的训练中使用的数据相对应的说话者)的语音特征。

第二神经网络模型20是用于将声学特征信息220转换为语音数据230的神经网络模型,并且可以被实现为神经声码器神经网络模型。根据本公开,神经声码器神经网络模型可以接收从第一神经网络模型10输出的声学特征信息220,并输出与声学特征信息220相对应的语音数据230。具体地,第二神经网络模型20可以是已经学习了多条样本声学特征信息与与多条样本音频特征信息中的每一条相对应的样本语音数据之间的关系的神经网络模型。

此外,参考图3,第二神经网络模型20可以包括接收声学特征信息220的输入的编码器20-1和接收从编码器20-1输出的向量信息的输入并输出语音数据230的解码器20-2,并且下面将参考图3描述第二神经网络模型20。

返回图1,多个模块121至126可以被加载到包括在处理器120中的存储器(例如,易失性存储器),以便执行自适应话语速度调节功能。换言之,为了执行自适应话语速度调节功能,处理器120可以通过将多个模块121至126从非易失性存储器加载到易失性存储器来执行多个模块121-126中的每一个的功能。加载可以指将存储在非易失性存储器中的数据调用到易失性存储器并将数据存储在其中以使得处理器120能够访问该数据的操作。

在根据本公开的实施例中,参考图1,可以通过存储在存储器110中的多个模块121至126来实现自适应话语速度调节功能,但不限于此,并且可以通过连接到电子设备100的外部设备实现自适应话语速度调节功能。

根据本公开的多个模块121至126可以实现为每个软件,但不限于此,并且一些模块可以实现为硬件和软件的组合。在另一实施例中,多个模块121至126可以被实现为一个软件。此外,一些模块可以在电子设备100中实现,其他模块可以在外部设备中实现。

文本获得模块121可以是用于获得要转换为语音数据的文本的模块。在示例中,文本获得模块121获得的文本可以是与对用户的语音命令的响应相对应的文本。在示例中,文本可以是显示在电子设备100的显示器上的文本。在示例中,文本可以是从电子设备100的用户输入的文本。在示例中,文本可以是从语音识别系统(例如,Bixby)提供的文本。在示例中,文本可以是从外部服务器接收的文本。换言之,根据本公开,文本可以是要转换成语音数据的各种文本。

声学特征信息获得模块122可以是用于获得与文本获得模块121获得的文本相对应的声学特征信息的构成元件。

声学特征信息获得模块122可以将文本获得模块121获得的文本输入到第一神经网络模型10,并输出与输入文本相对应的声学特征信息。

根据本公开,声学特征信息可以是包括关于特定说话者的语音特征的信息(例如,语调信息、节奏信息和话语速度信息)的信息。这样的声学特征信息可以被输入到将在下面描述的第二神经网络模型20,从而输出与文本相对应的语音数据。

在本文中,声学特征信息可以是指语音数据的短区间(例如,帧)内的无声特征,并且可以在对语音数据进行短时间分析之后获得每个区间的声学特征信息。声学特征信息的帧可以被设置为10到20msec,但是可以被设置成任何其他时间区间。声学特征信息的示例可以包括频谱、Mel频谱、倒谱、音调滞后、音调相关性等,并且可以使用这些中的一个或其组合。

例如,可以通过257维频谱、80维Mel频谱或倒谱(20维)+音调滞后(一维)+音调相关性(一维)的方法设置声学特征信息。更具体地,例如,在偏移大小为10msec并且80维Mel频谱被用作声学特征信息的情况下,可以从1秒的语音数据获得[100,80]维声学特征信息,并且本文的[T,D]可以包含以下含义。

[T,D]:T帧,D维声学特征信息。

此外,声学特征信息获得模块122可以获得对准信息,在对准信息中从第一神经网络模型10输出的声学特征信息的每帧与包括在输入文本中的每个音素相匹配。具体地,声学特征信息获得模块122可以通过将文本输入到第一神经网络模型10获得与文本相对应的声学特征信息,并且获得对准信息,在对准信息中声学特征信息的每帧与包括在输入到第一神经元网络模型10的文本中的每个音素相匹配。

根据本公开,对准信息可以是用于序列到序列模型上的输入/输出序列之间的对准的矩阵信息。具体地,可以通过对准信息获得关于从哪个输入预测输出序列的每个时间步长的信息。此外,根据本公开,由第一神经网络模型10获得的对准信息可以是在其中与输入到第一神经网络模块10的文本相对应的“音素”与从第一神经网络模式10输出的“声学特征信息的帧”相匹配的对准信息,并且下面将参考图5描述对准信息。

话语速度获得模块123是用于基于从声学特征信息获得模块122获得的对准信息来识别从声学特征信息获得模块122获得的声学特征信息的话语速度的构成元件。

话语速度获得模块123可以基于从声学特征信息获得模块122获得的对准信息来识别与包括在从声学特征信息获得模块122获得的声学特征信息中的每个音素相对应的话语速度。

具体地,话语速度获得模块123可以基于从声学特征信息获得模块122获得的对准信息来识别包括在从声学特征信息获得模块122获得的声学特征信息中的每个音素的话语速度。根据本公开,由于对准信息是在其中与输入到第一神经网络模型10的文本相对应的“音素”与从第一神经网络模块10输出的“声学特征信息的帧”相匹配的对准信息,因此发现,随着与包括在对准信息中的音素中的第一音素相对应的声学特征信息的帧数变大,第一音素被缓慢地发声。在示例中,当基于对准信息将与第一音素相对应的声学特征信息的帧数识别为三并且将与第二音素相对应的声学特征信息的帧数识别为五时,发现第一音素的话语速度相对高于第二音素的话语速度。

当获得包括在文本中的每个音素的话语速度时,话语速度获得模块123可以考虑与特定音素和包括在文本内的对应音素之前的至少一个音素相对应的话语速度来获得特定音素的平均话语速度。在示例中,话语速度获得模块123可以基于与包括在文本中的第一音素相对应的话语速度和与至少一个音素中的每一个相对应的话语速度来识别与第一音素相对应的平均话语速度。

然而,由于一个音素的话语速度是短区间的速度,因此当预测极短区间的话语速度时,音素之间的长度差可能减小,从而产生不自然的结果。此外,当预测极短区间的话语速度时,话语速度预测值在时间轴上过快地变化,从而产生不自然的结果。因此,在本公开中,可以识别与考虑到音素之前的音素的话语速度的音素相对应的平均话语速度,并且可以将识别的平均话语速度用作对应音素的话语速度。

然而,当在话语速度预测中预测超长区间的平均话语速度时,很难反映低速话语和高速话语是否一起在文本中。此外,在流传输结构中,其是已经被输出的识别的话语速度话语的速度预测,因此,可能发生话语速度调节的延迟,并且因此,有必要提供一种用于测量适当区间的平均话语速度的方法。

根据实施例,可以通过简单移动平均方法或指数移动平均(EMA)方法来识别平均话语速度,并且这将在下面参考图6和图7进行详细描述。

参考话语速度获得模块124是用于识别包括在声学特征信息中的每个音素的参考话语速度的构成元件。根据本公开,参考话语速度可以是指对于包括在声学特征信息中的每个音素而言感觉为适当速度的最佳话语速度。

在第一实施例中,参考话语速度获得模块124可以基于用于训练第一神经网络模型10的样本数据(例如,样本文本和样本语音数据),获得与包括在声学特征信息中的第一音素相对应的第一参考话语速度。

在示例中,当在包括第一音素的音素环中元音的数量大时,与第一音素相对应的第一参考话语速度可能相对慢。此外,当在包括第一音素的音素环中辅音的数量大时,与第一音素相对应的第一参考话语速度可能相对快。此外,当包括第一音素的单词是要被强调的单词时,对应单词将被缓慢地发声,因此,与第一音素相对应的第一参考话语速度可能相对慢。

在示例中,参考话语速度获得模块124可以使用估计参考话语速度的第三神经网络模型来获得与第一音素相对应的第一参考话语速度。具体地,参考话语速度获得模块124可以根据从声学特征信息获得模块122获得的对准信息识别第一音素。此外,参考话语速度获得模块124可以通过将关于识别的第一音素的信息和从文本获得模块121获得的文本输入到第三神经网络模型来获得与第一音素相对应的第一参考话语速度。

在示例中,可以基于在第一神经网络模型10的训练中使用的样本数据(例如,样本文本和样本语音数据)来训练第三神经网络模型。换言之,第三神经网络模型可以被训练为基于样本声学特征信息和与样本声学特征信号相对应的样本文本来估计样本声学特征信息的区间平均话语速度。在此,第三神经网络模型可以被实现为诸如隐马尔可夫模型(HMM)和DNN的能够估计区间平均话语速度的统计模型。下面将参考图8描述用于训练第三神经网络模型的数据。

在上述实施例中,描述了使用第三神经网络模型获得与第一音素相对应的第一参考话语速度,但本公开不限于此。换言之,参考话语速度获得模块124可以使用除第三神经网络之外的基于规则的预测方法或基于决策的预测方法来获得与第一音素相对应的第一参考话语速度。

在第二实施例中,参考话语速度获得模块124可以获得第二参考话语速度,其是由收听语音数据的用户主观确定的话语速度。具体地,参考话语速度获得模块124可以获得在第一神经网络模型10的训练中使用的样本数据的评估信息。在示例中,参考话语速度获得模块124可以获得用户对在第一神经网络模型10的训练中使用的样本语音数据的评估信息。在此,评估信息可以是收听样本语音数据的用户主观感受到的速度的评估信息。在示例中,可以通过接收通过显示在电子设备100的显示器上的UI的用户输入获得评估信息。

在示例中,如果收听样本语音数据的用户感觉样本语音数据的话语速度稍慢,则参考话语速度获得模块124可以从用户获得用于将样本语音数据话语速度设置得更快(例如,1.1倍)的第一评估信息。在示例中,如果收听样本语音数据的用户感觉样本语音数据的话语速度稍快,则参考话语速度获得模块124可以从用户获得用于将样本语音数据设置得更慢(例如,0.95倍)的第二评估信息。

此外,参考话语速度获得模块124可以获得通过将评估信息应用于与第一音素相对应的第一参考话语速度而获得的第二参考话语速度。在示例中,当获得第一评估信息时,参考话语速度获得模块124可以将与对应于第一音素的第一参考话语速度的1.1倍相对应的话语速度识别为对应于第一音素的第二参考话语速度。在示例中,当获得第二评估信息时,参考话语速度获得模块124可以将与对应于第一音素的第一参考话语速度的0.95倍相对应的话语速度识别为对应于第一音素的第二参考话语速度。

在第三实施例中,参考话语速度获得模块124可以基于参考样本数据的评估信息获得第三参考话语速度。在本文中,参考样本数据可以包括多个样本文本和多条样本语音数据,其通过参考说话者说出多个样本文本中的每一个而获得。在示例中,第一参考样本数据可以包括通过由特定配音演员说出多个样本文本中的每一个而获得的多个样本语音数据,并且第二参考样本数据可包括通过由另一配音演员说出多个样本文本中的每一个而获得的多个样本语音数据。此外,参考话语速度获得模块124可以基于用户对参考样本数据的评估信息获得第三参考话语速度。在示例中,当针对第一参考样本数据获得第一评估信息时,参考话语速度获得模块124可以将与第一参考样本数相对应的第一音素的话语速度的1.1倍的速度识别为与第一音素相对应的第三参考话语速度。在示例中,当针对第一参考样本数据获得第二评估信息时,参考话语速度获得模块124可以将与第一参考样本数相对应的第一音素的话语速度的0.95倍的速度识别为与第一音素相对应的第三参考话语速度。

此外,参考话语速度获得模块124可以将与第一音素相对应的第一参考话语速度、与第一音素相对应的第二参考话语速度和与第一音素相对应的第三参考话语速度中的一个识别为与第一音素相对应的参考话语速度。

话语速度调节信息获得模块125是用于基于通过话语速度获得模块123获得的与第一音素相对应的话语速度并且通过参考话语速度获得单元124获得的与第一音素相对应的话语速度获得话语速度调节信息的构成元件。

具体地,当与通过话语速度获得模块123获得的第n音素相对应的话语速度被定义为Xn,并且与通过参考话语速度获得模块124获得的第n音素对应的参考话语速度被限定为Xrefn时,与第n音素相对应的话语速度调节信息Sn可以被定义为(Xrefn/Xn)。在示例中,当与第一音素相对应的当前预测的话语速度X1是20(音素/秒)并且与第一音素相对应的参考话语速度Xref1是18(音素/秒)时,与第一音素相对应的话语速度调节信息S1可以是0.9。

语音数据获得模块126是用于获得与文本相对应的语音数据的构成元件。

具体地,语音数据获得模块126可以通过将与从声学特征信息获得模块122获得的文本相对应的声学特征信息输入到基于话语速度调节信息设置的第二神经网络模型20获得与文本相对应的语音数据。

当声学特征信息220中与第一音素相对应的至少一个帧被输入到第二神经网络模型20时,语音数据获得模块126可以基于与第一音素相对应的话语速度调节信息来识别第二神经网模型20中的解码器20-2的循环数。此外,语音数据获得模块126可以在与第一音素相对应的至少一个帧被输入到第二神经网络模型20的同时,从解码器20-2获得与循环数相对应的多条第一语音数据。

当声学特征信息中与第一音素相对应的至少一个帧中的一个被输入到第二神经网络模型20时,可以获得多条第二语音样本数据,其数量与循环数相对应。此外,通过将与第一音素相对应的至少一个帧中的每一个输入到第二神经网络模型20而获得的第二语音样本数据的集合可以是第一语音数据。在此,多条第一语音数据可以是与第一音素相对应的语音数据。

换言之,可以通过调节解码器20-2的循环数来调节要输出的语音数据的样本数,并且相应地,可以通过调节解码器20-2的循环数来调节语音数据的话语速度。下面将参考图3描述通过第二神经网络模型20的话语速度调节方法。

语音数据获得模块126可以通过将包括在声学特征信息中的多个音素中的每一个输入到第二神经网络模型20获得与文本相对应的语音数据,在第二神经网模型20中,解码器20-2的循环数是基于与多个音素中的每一个相对应的话语速度调节信息设置的。

图3是示出根据示例实施例的TTS模型中的神经网络模型(例如,神经声码器神经网络模型)的配置的框图。

参考图3,第二神经网络模型20的编码器20-1可以接收声学特征信息220并输出与声学特征信息22相对应的向量信息225。在本文中,从第二神经网络模型20的角度来看,向量信息225是从隐藏层输出的数据,因此可以被称为隐藏表示。

当声学特征信息220中与第一音素相对应的至少一个帧被输入到第二神经网络模型20时,语音数据获得模块126可以基于与第一音素相对应的话语速度调节信息识别解码器20-2的循环数。此外,语音数据获得模块126可以在与第一音素相对应的至少一帧被输入到第二神经网络模型20的同时,获得与从解码器20-2识别的循环数相对应的多条第一语音数据。

换言之,当声学特征信息中与第一音素相对应的至少一个帧中的一个被输入到第二神经网络模型20时,可以获得多条第二语音样本数据,其数量与循环数相对应。在示例中,当声学特征信息220中与第一音素相对应的至少一个帧中的一个被输入到第二神经网络模型20的编码器20-1时,可以输出与其相对应的向量信息。此外,向量信息被输入到解码器20-2,并且解码器20-2可以以N个循环操作,即,声学特征信息220的每一帧N个循环,并且输出N条语音数据。

此外,通过将与第一音素相对应的至少一个帧中的每一个输入到第二神经网络模型20而获得的第二语音数据的集合可以是第一语音数据。在此,多条第一语音数据可以是与第一音素相对应的语音数据。

在其中基于偏移大小是第一时间间隔(sec)的声学特征信息从解码器20-2获得第一频率(khz)的语音数据的实施例中,当话语速度调节信息的值是参考值(例如,1)时,声学特征信息中包括的一帧被输入到第二神经网络模型20,并且解码器20-2可以以与第一时间间隔X(第一频率)相对应的循环数进行操作,从而获得语音数据,其数量与对应的循环数相对应。在示例中,当基于偏移大小是10msec的声学特征信息从解码器20-2获得24khz的语音数据时,当话语速度调节信息的值是参考值(例如,1)时,声学特征信息中包括的一帧被输入到第二神经网络模型20,并且解码器20-2可以以240个循环操作,从而获得240个语音数据。

此外,在其中基于偏移大小是第一时间间隔的声学特征信息从解码器20-2获得第一频率的语音数据的实施例中,包括在声学特征信息中的一帧被输入到第二神经网络模型20,并且解码器20-2可以利用与第一时间间隔、第一频率和话语速度调节信息的乘积相对应的循环数进行操作,从而获得语音数据,语音数据的数量与对应的循环数相对应。在示例中,当基于偏移大小是10msec的声学特征信息从解码器20-2获得24khz的语音数据时,当话语速度调节信息的值是参考值(例如,1.1)时,声学特征信息中包括的一帧被输入到第二神经网络模型20,并且解码器20-2可以以264个循环操作,从而获得264个语音数据。

在本文中,当话语速度调节信息的值是1.1时获得的语音数据的数量(例如,264)可以大于当话语速度调节信息的值是参考值时获得的语音数据的数量(例如,240)。换言之,当话语速度调节信息的值被调节为1.1时,与10msec的先前移位值相对应的语音数据被输出11msec,因此,与话语速度调节信号的值是参考值的情况相比,话语速度可以被调节为更慢。

换言之,当话语速度调节信息的参考值是1时,如果话语速度调节信号的值被定义为S,则解码器20-2的循环数N’可以如等式(1)所示。

等式(1)

在等式(1)中,N′

此外,如等式(1)所示,对于输入到第二神经网络模型20的声学特征信息220中包括的每个音素,可以不同地设置话语速度调节信息。换言之,在本公开中,基于等式(1),可以通过使用自适应话语速度调节方法获得具有实时调节的话语速度的语音数据,该自适应话语速度调节方法用于对包括在声学特征信息220中的每个音素不同地调节话语速度。

图4是示出根据示例实施例的用于通过电子设备获得具有改进的话语速度的语音数据的方法的图。

参考图4,电子设备100可以获得文本210。在此,文本210是要被转换成语音数据的文本,并且用于获得文本的方法不受限制。换言之,文本210可以包括各种文本,诸如从电子设备100的用户输入的文本、从电子设备100的语音识别系统(例如,Bixby)提供的文本以及从外部服务器接收的文本。

此外,电子设备100可以通过将文本210输入到第一神经网络模型10获得声学特征信息220和对准信息400。在此,声学特征信息220可以是包括与特定说话者(例如,与第一神经网络模型相对应的特定说话者)的文本210相对应的语音特征和话语速度特征的信息。对准信息400可以是包括在文本210中的音素与声学特征信息220的每一帧相匹配的对准信息。

此外,电子设备100可以通过话语速度获得模块123基于对准信息400获得与声学特征信息220相对应的话语速度410。在本文中,在声学特征信息220被转换为语音数据230的情况下,话语速度410可以是关于实际话语速度的信息。此外,话语速度410可以包括对声学特征信息220中包括的每个音素的话语速度信息。

此外,电子设备100可以通过话语速度调节信息获得模块125基于文本210和对准信息400获得参考话语速度420。在此,参考话语速度420可以是指文本210中包括的音素的最佳话语速度。此外,参考话语速度420可以包括对声学特征信息220中包括的每个音素的参考话语速度信息。

此外,电子设备100可以通过话语速度调节信息获得模块125基于话语速度410和参考话语速度420获得话语速度调节信息430。在此,话语速度调节信息430可以是用于调节包括在声学特征信息220中的每个音素的话语速度的信息。例如,如果第m音素的话语速度410是20(音素/秒)并且第m音素的参考话语速度420是18(音素/秒),则第m音素的话语速度调节信息430可以被识别为0.9(18/20)。

此外,电子设备100可以通过将声学特征信息220输入到基于话语速度调节信息430设置的第二神经网络模型20来获得与文本210相对应的语音数据230。

在实施例中,当声学特征信息220中与第m音素对应的至少一个帧被输入到第二神经网络模型20的编码器20-1时,电子设备100可以基于与第m音素相对应的话语速度调节信息430识别第二神经网络模型20的解码器20-2的循环数。在示例中,当用于第m音素的话语速度调节信息430是0.9时,在将声学特征信息220中与第m音素相对应的帧输入到编码器20-1的同时解码器20-2的循环数可以是(基本循环数/与m音素相对应的话语速度调节信息)。换言之,如果基本循环数是240次,则在声学特征信息220中与第m音素相对应的帧被输入到编码器20-1的同时,解码器20-2的循环数可以是264次。

当识别出循环数时,电子设备100可以通过与第m音素相对应的循环数操作解码器20-2,同时在声学特征信息220中与第m音素相对应的帧被输入到解码器20-2,并且获得与对应于声学特征信息220的每帧的第m音素的循环数相对应的语音数据。此外,电子设备100可以通过对包括在文本210中的所有音素执行这样的处理获得与文本210相对应的语音数据230。

图5是示出根据示例实施例的对准信息的图,其中声学特征信息的每帧与包括在文本中的每个音素相匹配。

参考图5,声学特征信息的每帧与文本中包括的每个音素相匹配的对准信息可以具有(N,T)的大小。在本文中,N可以表示包括在文本210中的所有音素的数量,T可以表示与文本210相对应的声学特征信息220的帧数。

当Λ

在对准信息中第t帧映射的音素P

等式(2)

换言之,参考等式(2),第t帧映射的音素P

可以识别P

等式(3)

换言之,参考等式(3),图5的对准信息d

未映射为最大值的因素可能如图5的正方形区域中那样存在。在示例中,可以使用第一神经网络模型10将特殊符号用于TTS模型中的音素,并且在这种情况下,特殊符号可以产生停顿,但是可以仅影响前韵律和后韵律,并且可以不实际发声。在这种情况下,帧未映射的音素可以如图5的正方形区域中那样存在。

在这种情况下,可以如等式(4)中分配未映射的音素的长度。换言之,在P

公式(4)

参考等式(4),图5的对准信息d

如上所述,通过对准信息,可以识别包括在声学特征信息220中的音素的长度,并且可以通过音素的长识别每个音素的话语速度。

具体地,包括在声学特征信息220中的第n音素的话语速度x

等式(5)

在等式(5)中,r可以是第一神经网络模型10的折减因子。在示例中,当r是1并且帧长度是10ms时,x

然而,由于一个音素的话语速度是短区间的速度,因此当预测极短区间的话语速度时,音素之间的长度差可能减小,从而产生不自然的结果。此外,当预测极短区间的话语速度时,话语速度预测值在时间轴上过快地变化,从而产生不自然的结果。此外,当在话语速度预测中预测超长区间的平均话语速度时,很难反映慢速发声和快速发声是否一起在文本中。此外,在流传输结构中,其是已经输出识别的话语速度的说话的速度预测,因此,可能发生话语速度调节的延迟,因此,有必要提供一种用于测量适当区间的平均话语速度的方法,并且这将在下文参考图6和图7进行描述。

图6是示出根据示例实施例的用于识别声学特征信息中包括的每个音素的平均话语速度的方法的图。

参考图6的实施例610,电子设备100可以计算包括在声学特征信息220中的最近M个音素的话语速度的平均值。在示例中,如果n<M,则可以通过仅对对应元素求平均来计算平均话语速度。

此外,当M是5时,如在图6的实施例620中,第三音素的平均话语速度

通过图6的实施例610和实施例620计算每个音素的平均话语速度的方法可以是指简单移动平均方法。

图7是示出根据实施例的通过EMA(指数移动平均)方法识别每个音素的平均语音速率的实施例的图。

图7是用于描述根据实施例的通过指数移动平均(EMA)方法识别每个音素的平均话语速度的实施例的数学表达式。

换言之,根据作为图7的数学表达式的EMA方法,由于权重是远离当前音素的音素的话语速度,所以权重被指数地减小,因此,可以计算适当区间的平均长度。

在此,当图7的α值大时,可以计算短区间的平均话语速度,当α值小时,可以计算长区间的平均话语速度。因此,电子设备100可以通过根据情况选择合适的α值实时计算当前平均话语速度。

图8是示出根据实施例的用于识别参考话语速度的方法的图。

图8是示出了根据实施例的用于训练第三神经网络模型的方法的图,获得与包括在声学特征信息220中的每个音素相对应的参考话语速度。

在示例中,可以基于样本数据(例如,样本文本和样本语音数据)训练第三神经网络模型。在示例中,样本数据可以是在第一神经网络模型10的训练中使用的样本数据。

可以基于样本语音数据提取与样本语音数据相对应的声学特征信息,并且可以如图8中识别样本语音数据中包括的每个音素的话语速度。此外,可以基于样本文本和包括在样本语音数据中的每个音素的话语速度训练第三神经网络模型。

换言之,第三神经网络模型可以被训练为基于样本声学特征信息和与样本声学特征信号相对应的样本文本来估计样本声学特征信息的区间平均话语速度。在此,第三神经网络模型可以被实现为能够估计区间平均话语速度的诸如HMM和DNN的统计模型。

电子设备100可以通过使用训练的第三神经网络模型、文本210和对准信息400来识别声学特征信息220中包括的每个音素的参考话语速度。

图9是示出根据实施例的电子设备的操作的流程图。

参考图9,在操作S910中,电子设备100可以获得文本。在本文中,文本可以包括各种文本,诸如从电子设备100的用户输入的文本、从电子设备的语音识别系统(例如,Bixby)提供的文本以及从外部服务器接收的文本。

此外,在操作S920中,电子设备100可以通过将文本输入到第一神经网络模型获得与文本相对应的声学特征信息以及其中声学特征信息的每帧与文本中包括的每个音素相匹配的对准信息。在示例中,对准信息可以是具有(N,T)大小的矩阵信息,如图5所示。

在操作S930中,电子设备100可以基于获得的对准信息识别声学特征信息的话语速度。具体地,电子设备100可以基于获得的对准信息识别包括在声学特征信息中的每个音素的话语速度。在本文中,每个音素的话语速度可以是与一个音素相对应的话语速度,但不限于此。换言之,每个音素的话语速度可以是通过进一步考虑与对应音素之前的至少一个音素中的每一个相对应的话语速度而获得的平均话语速度。

此外,在操作S940中,电子设备100可以基于文本和声学特征信息识别声学特征信息中包括的每个音素的参考话语速度。在此,可以通过如参考图1所描述的各种方法识别参考话语速度。

在示例中,电子设备100可以基于在第一神经网络的训练中使用的获得的文本和样本数据获得声学特征信息中包括的每个音素的第一参考话语速度。

在示例中,电子设备100可以获得在第一神经网络模型的训练中使用的样本数据的评估信息。在示例中,电子设备100可以向用户提供样本数据中的语音数据,然后接收针对其反馈的评估信息的输入。电子设备100可以基于第一参考话语速度和评估信息获得包括在声学特征信息中的每个音素的第二参考话语速度。

电子设备100可以基于第一参考话语速度和第二参考话语速度中的至少一个识别声学特征信息中包括的每个音素的参考话语速度。

在操作S950中,电子设备100可以基于声学特征信息的话语速度和参考话语速度获得话语速度调节信息。具体地,当与第n音素相对应的话语速度被定义为Xn,并且与第n音素相对应的参考话语速度被定义为Xrefn时,与第n音素相对应的话语速度调节信息Sn可以被定义为(Xrefn/Xn)。

电子设备100可以通过将声学特征信息输入到基于获得的话语速度调节信息设置的第二神经网络模型获得与文本相对应的语音数据(S960)。

具体地,第二神经网络模型可以包括接收声学特征信息的输入的编码器和接收从编码器输出的向量信息的输入并输出语音数据的解码器。当与包括在声学特征信息中的特定音素相对应的至少一个帧被输入到第二神经网络模型时,电子设备100可以基于与对应音素相对应的话语速度调节信息识别包括在第二神经网模型中的解码器的循环数。电子设备100可以通过以识别的循环数操作解码器来获得与循环数相对应的第一语音数据,循环数基于对第二神经网络模型的与对应音素相对应的至少一个帧的输入。

具体地,当声学特征信息中与特定音素相对应的至少一个帧中的一个被输入到第二神经网络模型时,可以获得其数量与识别的循环数相对应的多条第二语音数据。此外,通过声学特征信息中与特定音素相对应的至少一帧获得的多个第二语音数据的集合可以是与特定音素相对应的第一语音数据。换言之,第二语音数据可以是与声学特征信息的一帧相对应的语音数据,并且第一语音数据可以是与一个特定音素相对应的语音数据。

在示例中,基于其中偏移大小是第一时间间隔的声学特征信息获得第一频率的语音数据,并且当话语速度调节信息的值是参考值时,将声学特征信息中包括的一帧被输入到第二神经网络模型,从而获得第二语音数据,其数量与第一时间间隔和第一频率的乘积相对应。

图10是示出根据示例实施例的电子设备的配置的框图。参考图10,电子设备100可以包括存储器110、处理器120、麦克风130、显示器140、扬声器150、通信接口160和用户接口170。图10所示的存储器110和处理器120与图1所示的处理器120和存储器110重叠,因此不再重复其描述。此外,根据电子设备100的实现示例,可以移除图10的一些构成元件或者可以添加其他构成元件。

麦克风130是用于电子设备100接收语音信号的输入的构成元件。具体地,麦克风130可以使用麦克风接收外部语音信号,并将其处理为电语音数据。在这种情况下,麦克风130可以将处理的语音数据传送到处理器120。

显示器140是用于电子设备100视觉地提供信息的构成元件。电子设备100可以包括一个或多个显示器140,并且可以通过显示器140显示要转换成语音数据的文本、用于从用户获得评估信息的UI等。在这种情况下,显示器140可以实现为液晶显示器(LCD)、等离子体显示面板(PDP)、有机发光二极管(OLED)、透明OLED(TOLED)、微型LED等。此外,显示器140可以被实现为能够感测用户的触摸操纵的触摸屏类型,并且还可以被实现为由能够折叠或弯曲的柔性显示器。特别地,显示器140可以在视觉上提供与包括在语音信号中的命令相对应的响应。

扬声器150是用于电子设备100以声学方式提供信息的构成元件。电子设备100可以包括一个或多个扬声器150,并且通过扬声器150将根据本公开获得的语音数据作为音频信号输出。用于输出音频信号的构成元件可以被实现为扬声器150,但这仅仅是一个实施例,并且还可以被实现作为输出端子。

通信接口160是能够与外部设备进行通信的构成元件。通信接口160与外部设备的通信连接可以包括经由第三设备(例如,中继器、集线器、接入点、服务器、网关等)的通信。例如,无线通信可以包括使用长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)和全球移动通信系统(GSM)中的至少一个的蜂窝通信。根据实施例,无线通信可以包括例如无线保真(WiFi)、蓝牙、蓝牙低能量(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频(RF)或体域网络(BAN)中的至少一个。有线通信可以包括例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、电力线通信或普通老式电话服务(POTS)中的至少一个。用于无线通信和有线通信的网络可以包括电信网络,例如,计算机网络(例如,LAN或WAN)、互联网或电话网络中的至少一个。

特别地,通信接口160可以通过与外部服务器通信向电子设备100提供语音识别功能。然而,本公开不限于此,并且电子设备100可以在不与外部服务器通信的情况下在电子设备100内提供语音识别功能。

用户接口170是用于接收用于控制电子设备100的用户命令的构成元件。特别地,用户接口170可以被实现为诸如按钮、触摸板、鼠标和键盘的设备,并且还可以被实现为由能够执行显示功能和操纵输入功能的触摸屏。在此,按钮可以是各种类型的按钮,诸如形成在电子设备100的主体外部的前部、侧部或后部的任何区域中的机械按钮、触摸板或轮子。

应当理解,本公开包括本公开的实施例的各种修改、等同物和/或替代方案。关于附图的说明,相似的附图标记可以用于相似的构成元件。

在本公开中,诸如“包括”、“可能包括”、“由…组成”或“可能由…组成”的术语在本文中用于指定对应特征(例如,构成元件,诸如数量、功能、操作或部件)的存在,而不是排除附加特征的存在。

在说明书中,术语“A或B”、“A或/和B中的至少一个”或“A或/和和B的一个或多个”可以包括一起列举的项目的所有可能组合。例如,术语“A或B”或“A或/和B中的至少一个”可以表示(1)至少一个A,(2)至少一个B,或(3)至少一个A和至少一个B。在说明书中,术语“第一、第二等”用于描述不同的构成元件,而不管它们的顺序和/或重要性如何,并区分一个构成元件与另一构成元件,但不限于对应的构成元件。

如果描述了某个元件(例如,第一元件)与另一元件(例如,第二元件)“可操作地或可通信地耦合/连接”或“连接到”另一元件,则应当理解,某个元件可以直接或通过另一元件(例如,第三元件)连接到另一元件。另一方面,如果描述某个元件(例如,第一元件)“直接耦合到”或“直接连接到”另一元件(例如,第二元件),则可以理解为在某个元件和另一元件之间不存在元件(例如,第三元件)。

在说明书中,术语“配置为”可以改为,例如,在某些情况下,“适合”、“有能力”、“设计为”、“适应”、“制造为”或“能够”。术语“配置为(设置为)”在硬件级别上并不一定意味着“专门设计为”。在某些情况下,术语“配置为”可以是指“能够”与另一设备或组件一起做某事的设备。例如,短语“被配置(或设置)执行A、B和C的单元或处理器”可以是指例如用于执行对应操作的专用处理器(例如,嵌入式处理器)、通用处理器(例如,中央处理单元(CPU)或应用处理器)等,其可以通过执行存储在存储器设备中的一个或多个软件程序执行对应的操作。

本文使用的术语“单元”或“模块”包括由硬件、软件或固件组成的单元,并且可以与诸如逻辑、逻辑块、组件或电路的术语互换使用。“单元”或“模块”可以是一个整体构建的组件,也可以是执行一个或多个功能的最小单元或其一部分。例如,模块可以被实现为专用集成电路(ASIC)。

本公开的各种实施例可以被实现为包括存储在机器(例如,计算机)可读存储介质中的指令的软件。机器是能够调用存储在存储介质中的指令并根据调用的指令进行操作的设备,并且可以包括根据所公开的实施例的层压显示设备。在指令由处理器执行的情况下,处理器可以在处理器的控制下直接或使用其他元件执行与指令相对应的功能。指令可以包括由编译器生成的代码或者由解释器可执行的代码。机器可读存储介质可以以非临时存储介质的形式提供。在此,“非暂时性”存储介质是有形的,并且可能不包括信号,并且它不区分数据是半永久性或临时存储在存储介质中的。

根据实施例,根据本公开中公开的各种实施例的方法可以在计算机程序产品中提供。计算机程序产品可以作为商业上可获得的产品在卖方和买方之间交换。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者通过应用商店(例如,PlayStoreTM)在线分发。在在线分发的情况下,计算机程序产品的至少一部分可以至少临时存储或临时生成在诸如制造商的服务器的存储器、应用商店的服务器或中继服务器的存储介质中。

根据上述各种实施例的每个元件(例如,模块或程序)可以包括单个实体或多个实体,并且在各种实施例中可以省略上述子元件的一些子元件或者可以进一步包括其他子元件。可替换地或附加地,一些元件(例如,模块或程序)可以被集成到一个实体中,以执行在集成之前由每个相应元件执行的相同或相似的功能。根据各种实施例,由模块、程序或其他元件执行的操作可以顺序地、并行地、重复地或试探性地执行,或者至少一些操作可以以不同的顺序执行、省略或者可以添加不同的操作。

相关技术
  • 一种基于主题域的智慧水务大数据融合方法及系统
  • 一种车辆顶盖防错自动控制方法、系统及装置
  • 一种基于Kaa Project的物联网智慧服务系统及其实现方法
  • 一种基于屏联网的智慧校园信息交互系统及实现方法
  • 一种火电厂自动控制防垢的智慧水务系统及其实现方法
  • 一种大型火电厂智慧水务控制系统
技术分类

06120116548731