导航：首页> 乐器；声学>语音合成的方法、装置、设备和计算机可读介质

语音合成的方法、装置、设备和计算机可读介质

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音合成的方法、装置、设备和计算机可读介质。

背景技术

随着人工智能的高速发展，语音合成技术应用越来越广泛，在小说阅读、数字人、营销外呼和智能客户机器人等场景都会使用语音合成的声音，用于机器人播报或与客户实时交互。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：在实际场景中，对语音合成实时性有很高的要求。目前语音合成的速度较慢，导致难以实时流畅与用户交互。

发明内容

有鉴于此，本发明实施例提供一种语音合成的方法、装置、设备和计算机可读介质，能够提高语音合成的速度，保障实时流畅与用户交互。

为实现上述目的，根据本发明实施例的一个方面，提供了一种语音合成的方法，包括：

在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频之前，还包括：

在所述语音数据库中，若基于所述合成文本匹配历史语句合成音频失败，则执行以所述合并文本的韵律短语匹配历史短语合成音频。

所述在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，包括：

将所述合成文本通过文本归一化、分词和韵律预测，定位韵律短语；

以所述韵律短语作为关键词，在语音数据库中匹配历史短语合成音频。

所述将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频，包括：

将匹配失败的韵律短语，发送至后端服务器；

在所述后端服务器中，调用所述声学模型处理所述匹配失败的韵律短语；

接收所述声学模型输出的所述新建短语合成音频。

所述方法还包括：

以所述新建短语合成音频和/或所述合成文本的语音，更新所述语音数据库。

所述合成文本包括电子书文本或商品介绍文本。。

所述语音数据库用于存储合成文本的短语音频合成音频和合成文本的语句合成音频，所述合成文本包括用户标识。

根据本发明实施例的第二方面，提供了一种语音合成的装置，包括：

匹配模块，用于在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

新建模块，用于将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

输出模块，用于以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

根据本发明实施例的第三方面，提供了一种语音合成的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。以韵律短语作为匹配音频的依据，能够提高语音合成的速度，保障实时流畅与用户交互。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的语音合成的方法的主要流程示意图；

图2是根据本发明实施例的定位韵律短语的流程示意图；

图3是根据本发明实施例的调用声学模型输出音频的流程示意图；

图4是根据本发明实施例的首次语音合成的示意图；

图5是根据本发明实施例的再次语音合成的示意图；

图6是根据本发明实施例的语音合成的装置的主要结构示意图；

图7是本发明实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实时流畅地与用户交互，以及在更短的时间内合成更多语音是业内一直不断追求和突破的目标。

目前，主要有以下主流技术实现语音合成的推理加速：

方式一：使用图形处理器(Graphics Processing Unit，GPU)和张量处理器(Tensor Processing Unit，TPU)等硬件架构加速。使用GPU和TPU等硬件架构不仅加速成本较高，还需要进行一些适配和开发工作。

方式二：通过模型量化和蒸馏等方式减小模型推理的计算量，从而提高实时率。上述方式通常对语音合成的效果也是有损的，是用质量换取性能。

方式三：缓存合成后的音频，相同文本和请求参数可直接从缓存中获取并返回音频。缓存技术一般针对固定话术和固定参数的请求文本，无法在有变量和改变合成参数的情况下命中缓存。其中，合成参数包括语速和发音人等。

为了解决语音合成的速度较慢，导致难以实时流畅与用户交互的技术问题，可以采用以下本发明实施例中的技术方案。

参见图1，图1是根据本发明实施例的语音合成的方法主要流程示意图，以合成文本中的韵律短语作为匹配依据，以提高匹配成功率和速度。如图1所示，具体包括以下步骤：

S101、在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语。

在本发明实施例中，需要将合成文本转换为语音。合成文本是需要转换为语音的文本。作为一个示例，合成文本是下述应用场景中，需要转换为语音的文本：小说阅读、数字人、营销外呼和智能客户机器人。

在本发明的一个实施例中，合成文本是从应用中接收到的文本。作为一个示例，用户终端安装有应用(APP)，用户终端操作APP，在APP中操作得到合成文本，并需要将合成文本转换为语音。

具体地，需要在合成文本中定位韵律短语。韵律词是最小的能够自由运用的语言单元。韵律短语是有规则性语法结构的、停延和音步的音域展敛可以使用规则控制的、可能多音步。韵律短语则可能逆向连调,是多音步或可选多音步。语调短句是具有完整的语调，听感上可独立成句的一段发音。

参见图2，图2是根据本发明实施例的定位韵律短语的流程示意图。具体包括以下步骤：

S201、将合成文本通过文本归一化、分词和韵律预测，定位韵律短语。

合成文本属于自然语言，为了便于计算机处理合成文本需要通过文本归一化、分词和韵律预测，定位韵律短语。

文本归一化主要是通过正则表达式匹配合成文本，然后进行规则替换。作为一个示例，合成文本包括：“12号”，通过“(d+)号”正则匹配命中，并调用相关方法将“12号”文本归一化为汉字”十二号”。

分词就是把连续的文本分割成一个个独立的词元。可以采用自然语言处理工具和/或语言模型实现分词。

韵律预测是将词语转换为符号描述。作为一个示例，符号描述包括：节奏层级、边界位置、重音等级、位置和语调类型等。可以采用韵律预测模型实现韵律预测。

下面举例说明韵律预测。

韵律等级结构为：韵律词(PW)，以#1标识；韵律短语(PPH)，以#2标识；语调短句(IPH)，以#3标识。

分词后的合成文本为：请问您是张三本人吗？

请问#2您是#2张三#2本人#1吗？#3

其中，韵律词包括：本人；韵律短语包括：请问；您是；张三；语调短句包括：请问您是张三本人吗？

在本发明的实施例中，在确定韵律短语和语调短句后，可以定位韵律短语。作为一个示例，第一韵律短语在第一语调短句的第一个字符至第二字符的位置；第二韵律短语在第一语调短句的第四个字符至第八字符的位置。第一语调短句包括第一个句号之前的所有字符。

需要说明的是，韵律词与韵律短语和语调语句相比来说，对应音频数据量较小。本发明实施例中，为了提高语音合成的速度，将韵律短语的音频和语调短句的音频作为历史短语合成音频。

S202、以韵律短语作为关键词，在语音数据库中匹配历史短语合成音频。

在语音数据库中存储有历史短语合成音频。历史短语合成音频是在语音合成过程中已有韵律短语对应的短语合成音频。可以理解的是，随着语音合成的次数的增加，历史短语合成音频的数量也会随之而增加。

在本发明的一个实施例中，语音数据库用于存储合成文本的短语音频合成音频和合成文本的语句合成音频，合成文本包括用户标识。也就是说，语音数据库与用户相关。对于用户来说，多采用同类合成文本实现语音合成。同类合成文本重复的词语较多，利用语音数据库实现语音合成有助于提高语音合成的速度。

在图2的实施例中，在语音数据库中以韵律短语匹配，能够提高语音合成的速度。具体地，在语音数据库中按照韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语。

S102、将匹配失败的韵律短语输入声学模型，声学模型输出新建短语合成音频。

语音数据库中并非包括所有韵律短语和所有语调短句。在语音数据库中匹配失败的情况下，可以将匹配失败的韵律短语输入后端服务器中的声学模型。

参见图3，图3是根据本发明实施例的调用声学模型输出音频的流程示意图。具体包括以下步骤：

S301、将匹配失败的韵律短语，发送至后端服务器。

在本发明的实施例中，在语音数据库中匹配韵律短语是在前端实现。在匹配失败的情况下，则需要将匹配失败的韵律短语，发送至后端服务器。后端服务器与前端相比而言，后端服务器的计算能力更强大。

S302、在后端服务器中，调用声学模型处理匹配失败的韵律短语。

在后端服务器，可以调用声学模型处理匹配失败的韵律短语。作为一个示例，声学模型包括(Grapheme-To-Phoneme，G2P)模型。G2P模型可以将汉字或英文单词转换成音素。音素是最小的发音单元。如：将“张三”转换成“zh ang1 s an1”。

S303、接收声学模型输出的新建短语合成音频。

后端服务器调用声学模型输出的音频，即，匹配失败的韵律短语输入声学模型后，声学模型输出的新建短语合成音频。将新建短语合成音频发送至前端，以满足语音合成。

在图3的实施例中，后端服务器调用声学模型以将匹配失败的韵律短语转换为音频。

S103、以合成文本中韵律短语的排列顺序、新建短语合成音频和匹配成功的韵律短语对应历史短语合成音频，构建并输出合成文本的语音。

合成文本中韵律短语对应的短语合成音频涉及匹配成功的韵律短语对应历史短语合成音频和新建短语合成音频。合成文本中韵律短语的排列顺序是固定的，可以按照韵律短语的排列顺序、新建短语合成音频和匹配成功的韵律短语对应历史短语合成音频，构建合成文本的语音。然后输出合成文本的语音。

在本发明的一个实施例中，以新建短语合成音频和/或合成文本的语音，更新语音数据库。语音数据库中的语音越多，则语音合成的速度越快。为了提高语音合成的速度，以新建短语合成音频和/或合成文本的语音，更新语音数据库，满足语音合成的要求。

在本发明的一个实施例中，为了提高语音合成的效率，在合成文本中定位韵律短语，以在语音数据库中按照韵律短语匹配历史短语合成音频之前，还可以在语音数据库中，基于合成文本匹配历史语句合成音频。若基于合成文本匹配历史语句合成音频失败，则执行以合并文本的韵律短语匹配历史短语合成音频。

可以理解的是，可以先以合成文本作为依据，在语音数据库中匹配历史语句合成音频。其中，历史语音合成音频是语句对应的已有音频。若合成文本在语音数据库中匹配历史语句合成音频成功，则无需以韵律短语匹配，能够提高语音合成速度。若合成文本在语音数据库中匹配历史语句合成音频失败，则再需以韵律短语匹配。作为一个示例，合成文本包括语调短句。

在上述本发明的实施例中，在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。以韵律短语作为匹配音频的依据，能够提高语音合成的速度，保障实时流畅与用户交互。

参见图4，图4是根据本发明实施例的首次语音合成的示意图。合成文本包括：请问您是张三本人吗？以合成文本直接在语音数据库中匹配失败，则定位韵律短语。韵律短语包括：“请问”、“您是”、“张三”和“本人吗”。

由于是首次语音合成，语音数据库中的语音数量较少，在语音数据库中上述韵律短语均匹配失败。需要通过后端服务器中的声学模型输出新建短语合成音频。以韵律短语的排列顺序和新建短语合成音频，构建并输出合成文本的语音。然后，将新建短语合成语音存储在语音数据库中。

其中，“本人”属于韵律词。相比于韵律短语和语调语句，韵律词对应音频数据量较小。将韵律短语和语调语句的音频，作为新建短语合成语音存储在语音数据库中，再次调用上述新建短语合成语音即历史短语合成音频的情况下，就能够提高语音合成的速度。

参见图5，图5是根据本发明实施例的再次语音合成的示意图。合成文本包括：请问您是李四本人吗？以合成文本直接在语音数据库中匹配失败，则定位韵律短语。韵律短语包括：“请问”、“您是”、“李四”和“本人吗”。

由于是再次语音合成，语音数据库中预测有“请问”、“您是”和“本人吗”的历史短语合成音频，在语音数据库中上述韵律短语均匹配成功。“李四”需要通过后端服务器中的声学模型输出新建短语合成音频。以韵律短语的排列顺序、历史短语合成音频和新建短语合成音频，构建并输出合成文本的语音。然后，将新建短语合成语音存储在语音数据库中。

可见，采用本发明实施例中的技术方案，合成文本中的部分韵律短语由“张三”更换为“李四”，则只需要单独合成“李四”韵律短语的新建短语合成语音即可，其他韵律短语的短语合成语音直接从语音数据库中获取，最后构建合成文本的语音。大大降低了后端服务器中调用声学模型合成语音的工作量，从而提高语音合成的速度，保障实时流畅与用户交互。

参见图6，图6是根据本发明实施例的语音合成的装置的主要结构示意图，语音合成的装置可以实现语音合成的方法，如图6所示，语音合成的装置具体包括：

匹配模块601，用于在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

新建模块602，用于将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

输出模块603，用于以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

匹配模块601，还用于在所述语音数据库中，若基于所述合成文本匹配历史语句合成音频失败，则执行以所述合并文本的韵律短语匹配历史短语合成音频。

在本发明的一个实施例中，匹配模块601，具体用于将所述合成文本通过文本归一化、分词和韵律预测，定位韵律短语；

以所述韵律短语作为关键词，在语音数据库中匹配历史短语合成音频。

在本发明的一个实施例中，新建模块602，具体用于将匹配失败的韵律短语，发送至后端服务器；

在所述后端服务器中，调用所述声学模型处理所述匹配失败的韵律短语；

接收所述声学模型输出的所述新建短语合成音频。

在本发明的一个实施例中，输出模块603，还用于以所述新建短语合成音频和/或所述合成文本的语音，更新所述语音数据库。

在本发明的一个实施例中，所述合成文本包括电子书文本或商品介绍文本。在本发明的一个实施例中，所述语音数据库用于存储发送所述合成文本的用户合成文本端的短语音频合成音频和合成文本的语句合成音频，所述合成文本包括用户标识。

图7示出了可以应用本发明实施例的语音合成的方法或语音合成的装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器705交互，以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的语音合成的方法一般由服务器705执行，相应地，语音合成的装置一般设置于服务器705中。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括匹配模块、新建模块和输出模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，匹配模块还可以被描述为“用于在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；

将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；

以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。

根据本发明实施例的技术方案，在合成文本中定位韵律短语，以在语音数据库中按照所述韵律短语匹配历史短语合成音频，得到匹配失败的韵律短语和匹配成功的韵律短语；将匹配失败的韵律短语输入声学模型，所述声学模型输出新建短语合成音频；以所述合成文本中韵律短语的排列顺序、所述新建短语合成音频和所述匹配成功的韵律短语对应历史短语合成音频，构建并输出所述合成文本的语音。以韵律短语作为匹配音频的依据，能够提高语音合成的速度，保障实时流畅与用户交互。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：京东科技信息技术有限公司;