声音合成模型训练方法、装置及计算机设备

文献发布时间：2024-04-18 20:02:18

技术领域

本发明涉及声音合成技术领域，尤其是指一种声音合成模型训练方法、装置及计算机设备。

背景技术

在当今信息爆炸的时代，大量的音频数据被广泛应用于声音合成、声音克隆、语音识别、人机交互、智能音箱等领域。越来越多的人开始关注和使用声音合成技术，而定制属于自己的声音合成模型正成为一种趋势。定制声音合成模型能够提供个性化和独特的声音。传统的通用声音合成模型虽然功能强大，但无法满足每个人的个性化需求。通过定制自己的声音合成模型，人们可以拥有一个专属的声音，使其在各种应用场景中更加独特和个性化。无论是个人博客、视频制作、语音助手还是其他应用领域，定制的声音合成模型都能赋予用户更具辨识度和个性化的声音。

训练数据的质量对于声音合成模型的准确性和稳定性至关重要。不同的录制环境、说话人特点或语言风格等因素使得音频质量层次不齐。自动检测声音合成模型训练数据可以在较短时间内进行，大大节省了人工检查的时间成本，提高了效率。对于大规模的训练数据集，使用自动检测可以方便地进行批量处理，而人工检查往往需要投入大量的人力资源，还可能会受到主观因素的影响。

发明内容

本发明所要解决的技术问题是：提供一种声音合成模型训练方法、装置及计算机设备，旨在使得训练出来的声音合成模型更准确和更稳定。

为了解决上述技术问题，本发明采用的技术方案为：一种声音合成模型训练方法，包括以下步骤：

S1、在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

S2、判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

S3、对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

S4、当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

S5、判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

S6、当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

本发明另一技术方案为：一种声音合成模型训练装置，包括：

检测提交模块，用于在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

检测类型判断模块，用于判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

录音文本检测模块，用于对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

检测结果判断模块，用于当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

全量检测判断模块，用于判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

声音合成模型训练模块，用于当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

本发明的有益效果在于：采用增量全量混合检测，即首次检测使用全量检测，当首次检测存在不通过的数据，再下次检测采用增量检测，在训练前进行全量检测，弥补了增量检测问题训练数据没有机会再被发现和修复的问题；使得训练出来的声音合成模型的进行声音合成的音频质量更准确和更稳定。

附图说明

下面结合附图详述本发明的具体结构。

图1为本发明实施例的声音合成模型训练方法流程图；

图2为本发明实施例的另一声音合成模型训练方法流程图；

图3为本发明实施例的声音合成模型训练装置框图；

图4为本发明实施例的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明一实施例为：一种声音合成模型训练方法，包括以下步骤：

步骤S1，在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

步骤S2，判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

步骤S3，对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

步骤S4，当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

步骤S5，判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

步骤S6，当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

进一步的，所述系统包括当前系统下的录音文本检测程序和录音音频文件检测程序。

进一步的，步骤S2中，全量检测为对整个录音文本和录音文本中存在的录音音频文件名的录音音频文件进行检测；增量检测为将过滤掉上一轮检测通过的数据，仅对上一轮检测失败或在上一轮不存在记录的录音文本和录音文本中存在的录音音频文件名的录音音频文件进行检测。

进一步的，所述步骤S3包括：

步骤S31，录音文本文件检测，若文件存在，转到下一步，若不存在，则记录错误信息：录音文本文件不存在；

步骤32，对录音文本中的每一行文本进行检测，若当前行文本符合所规定文本格式，则根据约定格式中的分隔符对当前行文本进行分割，转到下一步，若不符合，则将当前行错误信息进行记录；

步骤S33，对当前行符合所规定文本格式的内容进行进一步检测，若当前行中录音音频文件名为空和录音音频文件对应文本都存在，转到下一步，若当前行中录音音频文件名为空或录音音频文件对应文本为空，则将当前行错误信息进行记录；

步骤S34，对当前行中的录音音频文件名进行判断，当录音音频文件名重复，则将当前行错误信息进行记录，转到下一步，若与前面检测过的录音音频文件名不重复，则转到下一步；

步骤S35，对当前行的录音音频文件对应文本内容进行进一步过滤检测，当文本检测结果符合系统设定的标准时，则录音音频文件对应文本内容检测通过，并将当前行进行记录，进入下一步，若不符合，则将当前行错误信息进行记录；

步骤S36，将录音文本中的符合所规定文本格式的录音音频文件名记录数量进行统计，判断是否录音音频文件名记录数量大于等于系统中规定的最少声音训练音频数据数量，若符合系统设定值，则转到下一步，若不符合，则记录错误信息，进入下一步；

步骤S37，录音音频文件检测，若录音音频压缩包文件存在，转到下一步，若不存在，则记录错误信息：录音音频压缩包文件不存在，并将所有的错误信息写入数据库，直接退出程序；

步骤S38，解压音频压缩包，并读取在录音文本中存在的录音音频文件名的录音音频文件信息，对音频文件进行多项检测，当录音音频文件所有检测结果符合系统设定的标准时，则录音音频文件检测通过，并将当前行进行记录，进入下一步，若不符合，则将当前录音音频文件对应错误信息进行记录，进入下一步；

步骤S39，录音使用自动语音识别技术对录音音频文件进行识别得到录音音频识别文本，进入下一步；

步骤S310，将录音音频文件对应的文本与录音音频识别文本进行对比，判断文本字数差异是否达到系统设定的标准，当符合系统设定的标准时，则录音音频文件检测通过，并将当前行进行记录，进入下一步，若不符合，则将当前录音音频文件对应错误信息进行记录，进入下一步；

步骤S311，判断本次检测是否全部符合系统设定的标准，如果全部检测通过，则转到下一步，若没有全部检测通过，则将本次检测信息写入数据库；

步骤S312，判断本次检测是否是在训练服务器上执行的，若是在训练服务器上执行的，则进行声音模型训练，若不是在训练服务器上执行的，则将数据传送到训练服务器，并进入步骤S31。

进一步的，步骤S32中，根据约定格式中的分隔符对当前行文本进行分割，前面部分为录音音频文件的文件名，后面部分为录音音频文件对应文本内容。

进一步的，步骤S35中，对当前行的录音音频文件对应文本内容进行进一步过滤检测具体包括：根据选择与录音文本对应训练声音模型的语言种类不同，用与不同语言种类对应的正则表达式对录音音频文件对应文本内容进行过滤检测。

进一步的，步骤S38中，对音频文件进行多项检测包括：检测音频文件是否缺失；检测音频是否可以读取；检测音频是否符合格式要求；检测音频时长是否满足系统中规定的音频时长；检测音频采样率是否满足要求；统计检测音频总时长是否满足系统中规定的音频总时长。

如图2所示，本发明的另一实施例为：一种声音合成模型训练方法，包括：

步骤S201，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包。

步骤S202，判断本次训练检测任务是否是第一次执行，若不是第一次执行，进入步骤S203，若是第一次执行，直接进入步骤S204。

步骤S203，选择本次训练检测任务是否进行全量检测，若进行全量检测，则进入步骤S204，若进行增量检测，则进入步骤S205。

步骤S204，全量检测，即所有的文件都需要进行检测，进入步骤S206。

步骤S205，增量检测，即无需对所有文件进行检测，从检测记录模块获取上一轮检测信息，过滤掉上一轮检测通过的数据，进入步骤S206。

步骤S206，对录音文本和录音音频文件进行检测，进入步骤S207。

步骤S207，将本次检测信息进行记录，进入步骤S208。

步骤S208，根据检测记录进行判断，本次检测中是否所有文件都通过检测；若存在不通过的记录，则进入步骤S209；若所有记录都通过，则进入步骤S210。

步骤S209，检测不通过，本次检测结束。

步骤S210，本系统通过文件名来判断是否为同一文件，在增量检测会过滤掉上一轮检测通过的数据，不排除会出现文件名同名但是与上一轮不是同一个文件的情况，所以需要在中转服务器上进行了增量检测之后，在训练服务器上再进行一次全量检测。若本次检测不在训练服务器，则进入步骤S204进行全量检测；若本次检测在训练服务器执行，即本次执行检测为全量检测，则进入步骤S211。

步骤S211，使用检测通过的数据进行训练，等待若干时间后可得到训练好的声音合成模型。

本发明的另一实施例为：一种声音合成模型训练方法，包括：

步骤S301，对录音文本进行检查，若录音文本文件不存在，则将当前错误信息进行记录，并进入步骤S302，进行下一步的检测，若录音文本文件存在，对录音文本中的内容进行检测。

步骤S301a，对录音文本中的每一行文本进行检测，若当前行文本符合所规定文本格式，则根据约定格式中的分隔符对当前行文本进行分割，前面部分为录音音频文件的文件名，后面部分为录音音频文件对应文本内容，转到步骤S301b，若不符合，则将当前行错误信息进行记录，并进入步骤S302；

步骤S301b，对当前行符合所规定文本格式的内容进行进一步检测，若当前行中录音音频文件名为空和录音音频文件对应文本都存在，转到步骤S301c，若当前行中录音音频文件名为空或录音音频文件对应文本为空，则将当前行错误信息进行记录，并进入步骤S302；

步骤S302c，对当前行中的录音音频文件名进行判断，若与前面检测过的录音音频文件名不重复，则转到步骤S302d，当录音音频文件名重复，则将当前行错误信息进行记录，并进入步骤S302；

S302d，对当前行的录音音频文件对应文本内容进行进一步检测，根据选择与录音文本对应训练声音模型的语言种类不同，用不同的正则表达式对录音音频文件对应文本内容进行过滤检测，当文本检测结果符合系统设定的标准时，则录音音频文件对应文本内容检测通过，转到步骤S302e，若不符合，则将当前行错误信息进行记录，并进入步骤S302；

步骤S302e，将录音文本内容检测通过的录音音频文件名记录数量进行统计，判断是否录音音频文件名记录数量大于等于系统中规定的最少声音训练音频数据数量，若不符合，则记录错误信息，若符合系统设定值，进入步骤S302；

步骤S302，录音音频文件检测，若录音音频文件不存在，则将当前错误信息进行记录，并进入步骤S305，将本次检测记录写入数据库，并结束检测；若录音音频文本文件存在，对录音音频文件进行检测。

步骤S302a，读取在录音文本中存在的录音音频文件名的录音音频文件，判断音频文件是否缺失；判断音频是否可以读取；判断音频是否符合格式要求；判断音频时长是否满足系统中规定的音频时长；判断音频采样率是否满足要求；统计检测音频总时长是否满足系统中规定的音频总时长。若录音音频文件没有全部通过检测，则进入步骤S305，将本次检测记录写入数据库，并结束检测；若所有录音音频文件检测都通过，则进入步骤S303。

步骤S303，录音音频文件识别，将所有录音音频文件使用自动语音识别ASR技术进行识别，得到每个录音音频文件的识别文本，进入步骤S304。

步骤S304，录音文本与识别文本对比，将用户上传的录音文本字数x

步骤S304a，识别文本字数x

当e

当值e

当e

所以当e

步骤S304b，识别文本字数x

当e

所以e

步骤S305，检测记录，将本次结果进行记录，结束音频处理，整个流程结束。

上述实施例，采用增量全量混合检测，即首次检测使用全量检测，当首次检测存在不通过的数据，再下次检测采用增量检测，在训练前进行全量检测，弥补了增量检测问题训练数据没有机会再被发现和修复的问题；从而提高了训练数据的质量，减少人工校验，使得训练出来的声音合成模型的进行声音合成的音频质量更准确和更稳定。

如图3所示，本发明的另一实施例为：一种声音合成模型训练装置，包括：

检测提交模块10，用于在当前系统下，新建声音合成模型训练任务，在终端界面上选择与录音文本对应训练声音模型的语言种类、录音文本文件和录音音频文件压缩包确认提交进行检测，或选择任务状态为文件检测失败的任务，选择本次是否进行全量检测、录音文本文件和录音音频文件压缩包确认提交进行检测；

检测类型判断模块20，用于判断本次任务是否是第一次执行检测，若是第一次进行检测，则进行全量检测；若不是第一次进行检测，则根据用户终端界面上选择是否进行全量检测，若选择不进行全量检测，则为增量检测；

录音文本检测模块30，用于对录音文本内容和录音音频文件分别进行检测，并将本次检测的结果进行记录；

检测结果判断模块40，用于当所有文件检测完毕，根据记录下来的检测结果，判断本次检测是否所有数据都通过检测，若存在检测不通过的记录，则将本次检测信息写入数据库，用户可以在终端上下载到本次检测失败的相关信息；若所有数据检测通过，进入下一步；

全量检测判断模块50，用于判断本次检测是否是在训练服务器进行的全量检测，若是在训练服务器上运行的，则进行声音合成模型的训练，若不是在训练服务器上运行的，则将任务提交到训练服务器，在训练服务器上进行全量检测；

声音合成模型训练模块60，用于当本次检测音频数据和录音文本在训练服务器全部检测通过，则进行声音合成模型训练。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述声音合成模型训练装置的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述声音合成模型训练装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种声音合成模型训练方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种声音合成模型训练方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如上所述的声音合成模型训练方法。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如上所述的声音合成模型训练方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市木愚科技有限公司;

上一篇：一种基于软件审价数据功能簇的发现与审价应用的方法
下一篇：基于特征变换的遥感图像特征提取模型预训练方法及装置