一种数据收集方法、装置、电子设备和存储介质

文献发布时间：2024-04-18 19:58:21

技术领域

本公开涉及语音技术领域，尤其涉及一种数据收集方法、装置、电子设备和存储介质。

背景技术

语音合成(Text-to-Speech，TTS)技术是将文字转化为语音的一种技术。在商用TTS系统发布前，通常会针对应用场景做大量优化测试，以确保合成结果正确。目前通常是由企业内部人员针对特定场景采集有限数据集作为TTS系统的优化数据。

这种数据采集方式存在以下缺点：一是使得测试具有局限性，在有限数据集下进行测试，会使得通用的TTS系统经常有难以发现的坏例(bad case)，导致用户使用时合成结果不准确；二是反馈链路长，无法及时收集到用户发现的bad case；三是优化周期长，如果没有发现大量bad case，很难在TTS系统的一次迭代里解决大量问题。

发明内容

有鉴于此，本公开提出了一种数据收集方法、装置、电子设备和存储介质，可以基于对用户交互动作的分析收集TTS系统的优化数据，及时收集到用户侧产生的数据，从而可以对TTS系统进行快速优化；可以从真实应用场景中过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升TTS系统的鲁棒性。

根据本公开的一方面，提供了一种数据收集方法，应用于语音合成TTS系统，所述方法包括：根据初始输入的第一文本数据，生成第一音频数据；响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据；根据所述第二文本数据，生成第二音频数据；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集，包括：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集，包括：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

在一种可能的实现方式中，所述响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据，包括：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理包括：确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据；基于所述调整操作和所述目标文本数据，得到新的中间文本数据；响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

在一种可能的实现方式中，所述基于所述调整操作和所述目标文本数据，得到新的中间文本数据，包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

在一种可能的实现方式中，所述响应于满足调整结束条件，包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

在一种可能的实现方式中，所述方法还包括：从所述数据集中获取目标用户标识对应的至少一个目标用户数据；根据所述目标用户数据，对所述TTS系统进行训练，得到适用于所述目标用户标识的目标TTS系统。

在一种可能的实现方式中，所述方法还包括：对所述数据集中的数据进行共性分析，得到共性分析结果；根据所述共性分析结果，从所述数据集中获取多个共性数据；根据所述共性数据，对所述TTS系统进行训练。

根据本公开的另一方面，提供了一种数据收集装置，所述装置包括：第一生成模块，用于根据初始输入的第一文本数据，生成第一音频数据；调整模块，用于响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据；第二生成模块，用于根据所述第二文本数据，生成第二音频数据；数据集获取模块，用于在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练TTS系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；所述数据集获取模块，还用于：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；所述数据集获取模块，还用于：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

在一种可能的实现方式中，所述调整模块，还用于：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理包括：确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据；基于所述调整操作和所述目标文本数据，得到新的中间文本数据；响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

在一种可能的实现方式中，所述调整模块，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

在一种可能的实现方式中，所述调整模块，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

在一种可能的实现方式中，所述装置还包括：目标用户数据获取模块，用于从所述数据集中获取目标用户标识对应的至少一个目标用户数据；第一训练模块，用于根据所述目标用户数据，对所述TTS系统进行训练，得到适用于所述目标用户标识的目标TTS系统。

在一种可能的实现方式中，所述装置还包括：共性分析模块，用于对所述数据集中的数据进行共性分析，得到共性分析结果；共性数据获取模块，用于根据所述共性分析结果，从所述数据集中获取多个共性数据；第二训练模块，用于根据所述共性数据，对所述TTS系统进行训练。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述数据收集方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述数据收集方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述数据收集方法。

本公开提供的数据收集方法，根据用户的调整操作结果判断是否利用初始输入的文本-音频数据对和/或经过调整后最终得到的文本-音频数据得到用于训练TTS系统的数据集，可以基于对用户交互动作的分析收集TTS系统的优化数据，及时收集到用户侧产生的数据，从而可以对TTS系统进行快速优化；可以从真实应用场景过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升TTS系统的鲁棒性。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的TTS系统的建模架构示意图。

图2示出根据本公开一实施例的一种数据收集方法的流程图。

图3示出根据本公开一实施例的一种数据收集方法的流程图。

图4示出根据本公开一实施例的一种数据收集装置的结构示意图。

图5示出根据本公开一实施例的一种电子设备的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

TTS是将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。TTS技术主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分。语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

目前商用的TTS系统中的人声模型大都是基于深度学习的方法进行训练，例如Tacotron2模型、FastSpeech2模型等，这些模型建模需要大量有标注的数据，即“文本-语音”数据对，用于建模的文本语料通常不会超过2万句(20小时)。通常定制一个中文的TTS系统，会收集2000～10000句文本(2～10小时)语料。

TTS系统可以分为文本前端和后端，文本前端负责把文本转换成发音特征，后端负责把发音特征依次转换为声学特征、波形特征。图1示出根据本公开一实施例的TTS系统的建模架构示意图，如图1所示，输入的文本经过文本前端后可以得到文本特征，文本特征经过人声模型后可以转换成声学特征，声学特征经过声码器后可以输出语音。

由于TTS系统的各个模块通常会引入大量错误，在商用的TTS系统发布之前，通常会针对应用场景做大量测试，确保合成结果没有错误，消除bad case。TTS系统语音合成错误的原因包括语言的歧义、文本中包含数字特殊符号、多语种等。对于TTS系统的文本前端，主要的错误原因是语言的歧义。

语言歧义主要包括发音歧义和韵律歧义。发音歧义包括数字的发音歧义和多音字的发音歧义，例如，输入文本为“我有2～4成的把握”，输出语音可以是“我有二到四成的把握”或“我有两到四成的把握”；输入文本为“现在是10:30”，输出语音可以是“现在是十点半”或“现在是十点三十”；输入文本为“我的头发又长长了”，输出语音可以是“我的头发又长(zhǎng)长(cháng)了”或“我的头发又长(cháng)长(cháng)了”。韵律歧义包括语句中的停顿歧义，例如输入文本为“方便面试吗？”，输出语音可以是“方便面试吗？”或“方便/面试/吗？”。还有发音歧义和韵律歧义同时存在的情况，例如输入文本为“武汉市长江大桥欢迎您”，输出语音可以是“武汉市/长(cháng)江大桥/欢迎您”或“武汉市长(zhǎng)/江大桥/欢迎您”。

基于以上原因，在商用的TTS系统发布前需要进行的大量的优化测试。现有的TTS系统的优化数据的采集方式通常是由企业内部人员针对特定场景采集有限数据集，比如阅读场景、客服场景、交互场景等。

这种数据采集方式存在以下缺点：一是使得测试具有局限性，在有限数据集下进行测试，会使得通用的TTS系统经常有难以发现的bad case，导致用户使用时合成结果不准确，对于开放的TTS系统，最终可能会在用户侧暴露出问题；二是反馈链路长，无法及时收集到用户发现的bad case，只有等到用户和售后人员联系或等到内部人员测试时才能发现这些bad case，才能开始调试并计划优化方法，导致TTS系统难以快速优化；三是优化周期长，基于上面两点原因，如果没有发现大量bad case，很难在TTS系统的一次迭代里解决大量问题。

为了解决现有的TTS系统的优化数据的收集方法无法及时收集用户侧产生的badcase，导致TTS系统难以快速优化的问题，本公开实施例提供了一种数据收集方法，可以基于对用户交互动作的分析收集TTS系统的优化数据，及时收集到用户侧产生的数据，从而可以对TTS系统进行快速优化；可以从真实应用场景中过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升TTS系统的鲁棒性。

如果TTS系统合成的音频不够好，用户可以使用工具调整输入的文本从而可以调整TTS系统的合成结果。如果用户最终确定输出音频前，做了很多调整动作，可以认为初始输入的文本数据和合成的音频数据属于边界情况(corner case)。基于这一思想，本公开实施例提供了一种数据收集方法。

图2示出根据本公开一实施例的一种数据收集方法的流程图，该方法可以应用于TTS系统，如图2所示，该方法可以包括：

S201、根据初始输入的第一文本数据，生成第一音频数据。

示例性地，第一文本数据可以是语音合成标记语言(Speech Synthesis MarkupLanguage，SSML)数据。作为一个示例，用户可以直接将SSML数据输入至TTS系统中进行语音合成。作为另一个示例，用户可以将TXT格式的文本数据输入至TTS系统中，TTS系统可以将用户输入的TXT格式的文本数据转换成SSML文本数据(即第一文本数据)，再进行语音合成。

示例性地，TTS系统可以根据用户初始输入的第一文本数据，合成与第一文本数据对应的第一音频数据。可以记录用户初始输入的第一文本数据和TTS系统合成的第一音频数据，第一文本数据可以记为T1，第一音频数据可以记为A1。

S202、响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据。

示例性地，在用户不满意TTS系统合成的第一音频数据的情况下，用户可以通过SSML文本调整工具对第一文本数据进行调整，以获得更满意的音频数据；或者，用户可以通过封装好的图形用户界面(Graphical User Interface，GUI)对第一文本数据进行调整，GUI的底层可以转换成SSML文本。需要说明的是，本公开对用户对第一文本数据进行调整的方式不做限定，只要能获得最终调整过后得到的第二文本数据即可。

示例性地，TTS系统可以接收用户对第一文本数据的至少一次调整操作，直至用户最终确定输出音频时，可以得到用户最后一次调整操作后的第二文本数据。

示例性地，第二文本数据可以是SSML文本数据。

在一种可能的实现方式中，所述响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据，可以包括：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理可以包括：

(1)确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据。

示例性地，在每一次调整操作中，用户可以对第一文本数据进行调整，也可以对中间文本数据进行调整(除第一次调整操作外)，用户进行调整操作的对象可以被称为目标文本数据。例如，在一次调整操作中，用户对第一文本数据进行调整，则目标文本数据为第一文本数据；在一次调整操作中，用户对中间文本数据进行调整，则目标文本数据为中间文本数据。

(2)基于所述调整操作和所述目标文本数据，得到新的中间文本数据。

示例性地，所述基于所述调整操作和所述目标文本数据，得到新的中间文本数据，可以包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

用户在对目标文本数据进行调整并将调整后的文本数据提交至TTS系统后，可以认为完成了一次调整操作。当TTS系统检测到用户的提交操作时，可以判断该提交操作是否为调整操作。TTS系统可以根据该提交操作对应的输入文本数据(即用户提交的文本数据)和目标文本数据的相似度和/或编辑距离，判断该提交操作是否为调整操作。编辑距离表示将目标文本数据转换成输入文本数据所需的最少编辑次数。若输入文本数据与目标文本数据的相似度高于第一预设阈值，和/或，若输入文本数据与目标文本数据之间的编辑距离低于第二预设阈值，则可以认为该输入文本数据是用户对目标文本数据进行调整后得到的，可以确定该提交操作为一次调整操作，可以将该输入文本数据作为新的中间文本数据。

其中，第一预设阈值和第二预设阈值可以由本领域技术人员根据实际需求进行确定。例如，第一预设阈值可以为98％，第二预设阈值可以为2次，若输入文本数据与目标文本数据高于98％，和/或，若输入文本数据与目标文本数据之间的编辑距离低于2次，可以认为该输入文本数据是用户对目标文本数据进行调整后得到的，可以确定该提交操作为一次调整操作。

(3)响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

示例性地，TTS系统可以获取用户的提交操作，判断该提交操作是否为调整操作，若该提交操作为调整操作，继续获取下一次提交操作并判断是否为调整操作，直至满足调整结束条件，可以将最后一次调整操作后得到的文本数据确定为第二文本数据。

示例性地，所述响应于满足调整结束条件，可以包括：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

作为一个示例，当TTS系统检测到用户的提交操作时，可以根据该提交操作对应的输入文本数据和目标文本数据的相似度和/或编辑距离，判断是否满足调整结束条件。若输入文本数据与目标文本数据的相似度低于第一预设阈值，和/或，若输入文本数据与目标文本数据之间的编辑距离高于第二预设阈值，则可以认为该输入文本数据不是用户对目标文本数据进行调整后得到的，该输入文本数据可能是用户重新输入的新文本数据，即该输入文本数据不能作为新的中间文本数据，可以确定该提交操作不是调整操作，此时可以确定满足调整结束条件，可以将最新得到的中间文本数据(即最后一次调整操作后得到的文本数据)确定为第二文本数据。

其中，第一预设阈值和第二预设阈值可以由本领域技术人员根据实际需求进行确定。例如，第一预设阈值可以为96％，第二预设阈值可以为5次，若输入文本数据与目标文本数据低于96％，和/或，若输入文本数据与目标文本数据之间的编辑距离高于5次，可以认为该输入文本数据不是用户对目标文本数据进行调整后得到的，该输入文本数据可能是用户重新输入的新文本数据，此时可以确定满足调整结束条件。

作为另一个示例，若TTS系统在预设时间间隔内未获取到用户的新的提交操作，可以确定满足调整结束条件，可以将最新得到的中间文本数据(即最后一次调整操作后得到的文本数据)确定为第二文本数据。预设时间间隔可以由本领域技术人员根据实际需求进行确定。例如，预设时间间隔可以为10分钟，若在最后一次调整操作后的10分钟后TTS系统未检测到用户有新的提交操作，可以确定满足调整结束条件。

在一个实施例中，用户可以每一次都在第一文本数据的基础上进行调整，即对于每一次调整操作，目标文本数据都是第一文本数据。设第一文本数据为T1，在调整操作的过程中，用户可以每一次都对T1进行调整，得到中间文本数据T2、T3、……、Tn，其中，T2表示用户对T1进行第一次调整后得到的中间文本数据，Tn表示用户对T1进行第n-1次调整后得到的中间文本数据。若用户进行第n-1次调整操作后满足调整结束条件，则可以将第n-1次调整操作后得到的中间文本数据Tn确定为第二文本数据。

在另一个实施例中，用户可以每一次都在上一次调整操作得到的中间文本数据的基础上进行调整。设第一文本数据为T1，在第一次调整操作中，用户对T1进行调整，得到中间文本数据T2，第一次调整操作的目标文本数据为第一文本数据；在第二次调整操作中，用户可以对T2进行调整，即目标文本数据为中间文本数据T2，得到新的中间文本数据T3；以此类推，在第n次调整操作中，用户可以对第n-1次调整操作得到的中间文本数据Tn进行调整，即目标文本数据为中间文本数据Tn，得到新的中间文本数据T(n+1)。若用户进行第n次调整操作后满足调整结束条件，则可以将第n次调整操作后得到的中间文本数据T(n+1)确定为第二文本数据。

S203、根据所述第二文本数据，生成第二音频数据。

示例性地，在用户对第一文本数据T1进行调整的过程中，可以记录每一次调整操作后得到的文本数据T2，……，Tn和TTS系统合成的音频数据A2，……，An；其中，T2表示用户第一次调整操作后得到的文本数据，Tn表示用户最后一次调整操作后得到的文本数据(即第二文本数据)，A2表示TTS系统根据T2合成的音频数据，An表示TTS系统根据Tn合成的音频数据(即第二音频数据)。

S204、在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集，可以包括：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

示例性地，若用户在进行调整操作的过程中进行了发音调整和/或停顿调整，可以将第一数据和/或第二数据加入用于训练TTS系统的数据集。

作为一个示例，用户可以对第一文本数据中文字的发音进行调整，例如可以修改某个多音字的发音。作为另一个示例，用户可以对第一文本数据中语句的停顿进行调整，例如可以在语句中插入停顿标记。

由于在TTS系统中发生合成结果错误的主要原因包括发音歧义和停顿歧义，如果用户对第一文本数据的调整操作结果中包括发音调整和/或停顿调整，则可以认为用户是由于对合成结果不满意而进行的调整，可以将第一文本数据和第一音频数据(即第一数据)作为bad case加入训练TTS系统的数据集，将经过用户调整后最终得到的第二文本数据和第二音频数据(即第二数据)作为好例(good case)加入训练TTS系统的数据集。

在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集，可以包括：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

文本数据相似度可以利用相关技术中文本相似度的计算方法进行计算。如果文本数据相似度低，则说明用户对第一文本数据的调整操作可能是因为想要改变文案，而不是因为对合成结果不满意；如果文本数据相似度高，则说明第一文本数据的合成结果可能表现不好，用户的调整操作可能是因为对合成结果不满意。

可以预设一个相似度阈值，例如，相似度阈值可以是98％，在第一文本数据和第二文本数据之间的文本相似度高于98％时，可以将第一文本数据和第一音频数据(即第一数据)作为bad case加入训练TTS系统的数据集，将经过用户调整后最终得到的第二文本数据和第二音频数据(即第二数据)作为good case加入训练TTS系统的数据集。

在文本数据相似度高于相似度阈值的情况下，用户对第一文本数据进行调整也可能不是因为不满意合成结果，需要结合具体的调整操作判断用户进行调整的原因。示例性地，在文本数据相似度高于相似度阈值的情况下，将第一数据和/或第二数据加入训练TTS系统的数据集后，可以人工分析用户的调整操作，对加入数据集的数据进行修正。

可以通过归因分析判断用户对第一文本数据进行调整的原因是否是用户不满意合成结果；如果判断是用户不满意合成结果而进行的调整，则可以在数据集中保留第一数据和/或第二数据；如果判断不是用户不满意合成结果而进行的调整，则可以从数据集中移除第一数据和/或第二数据。通过人工分析用户的调整操作判断用户进行调整的原因，根据用户进行调整的原因对加入训练TTS系统的数据集的数据进行修正，可以使收集到的训练数据更加准确。

在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整，以及所述第一文本数据和所述第二文本数据的文本数据相似度；在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练所述TTS系统的数据集，可以包括：在所述调整操作的结果包括发音调整和/或停顿调整且所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

示例性地，可以在用户的调整操作结果中包含发音调整和/或停顿调整且文本数据相似度高于相似度阈值时，将第一文本数据和第一音频数据(即第一数据)作为bad case加入训练TTS系统的数据集，将第二文本数据和第二音频数据(即第二数据)作为good case加入训练TTS系统的数据集。

示例性地，在进行上述步骤S201～S204之前，可以询问用户是否同意TTS系统收集用户对输入的文本数据进行调整操作的信息。例如，可以在用户使用TTS系统时，通过弹窗询问用户是否同意TTS系统收集用户进行调整操作的信息；若用户点击“是”，则TTS系统可以收集用户进行调整操作的信息，可以进行上述步骤S201～S204；若用户点击“否”，则系统不能收集用户进行调整操作的信息，不能进行上述步骤S201～S204。

示例性地，可以通过上述步骤S201～S204构造训练TTS系统的数据集，可以根据该数据集对TTS系统进行训练，从而可以对TTS系统进行调整和优化。

示例性地，本公开实施例提供的数据收集方法可以应用于在线的TTS系统，在线系统的用户基数大，通过在线系统，基于对大量用户交互动作的分析，从真实应用场景过滤出数据，可以使收集到的数据更贴合应用场景，并且可以使收集到的数据更多样，使用这些数据对TTS系统进行优化，可以快速提升TTS系统的鲁棒性。

本公开实施例提供的数据收集方法，根据用户的调整操作结果判断是否利用初始输入的文本-音频数据对和/或经过调整后最终得到的文本-音频数据对得到用于训练TTS系统的数据集，可以基于对用户交互动作的分析收集TTS系统的优化数据，及时收集到用户侧产生的数据，从而可以对TTS系统进行快速优化；可以从真实应用场景中过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升TTS系统的鲁棒性。

本公开实施例提供的数据收集方法，与现有的靠用户主动上报或企业内部人员进行有限数据集采集的数据收集方法相比，通过用户侧分析隐式地获取数据，可以回收很多被用户忽略上报的数据，扩充数据量，收集更多样的数据，克服测试的局限性，不同于企业内部在收集的有限数据集下进行的测试，开放的TTS系统下用户的基数大，在真实应用场景下收集数据使得收集到的bad case更多样；可以通过交互策略，及时收集到用户发现的badcase，从而大大缩短用户到产品的反馈链路；可以在线收集大量用户产生的bad case，减少人工参与，可以缩短优化周期，快速迭代产品，实现数据驱动。

图3示出根据本公开一实施例的一种数据收集方法的流程图，如图3所示，用户将第一文本数据T1输入至TTS系统中进行语音合成，可以得到第一音频数据A1；用户可以评估合成结果，如果用户认为合成结果好，可以确定输出A1；如果用户认为合成结果不好，可以通过SSML调整工具对T1进行调整后，再评估合成结果，直至用户认为合成结果好，确定输出音频；可以记录用户调整后最终得到的第二文本数据Tn和最终输出的第二音频数据An。

可以判断用户的调整操作结果中是否包括发音调整和/或停顿调整，如果用户的调整操作结果中包括发音调整和/或停顿调整，可以判定T1为表现不好的数据，可以将T1和A1作为bad case加入训练TTS系统的数据集，将Tn和An作为good case加入训练TTS系统的数据集；否则可以忽略T1、A1和Tn和An；或者，可以判断T1和Tn之间的文本相似度是否高于预设的相似度阈值，如果T1和Tn之间的文本相似度高于相似度阈值，可以判定T1为表现不好的数据，可以将T1和A1作为bad case加入训练TTS系统的数据集，将Tn和An作为goodcase加入训练TTS系统的数据集；否则可以忽略T1、A1和Tn和An；或者，可以判断用户的调整操作结果中是否包括发音调整和/或停顿调整且T1和Tn之间的文本相似度是否高于预设的相似度阈值，如果用户的调整操作结果中包括发音调整和/或停顿调整且T1和Tn之间的文本相似度高于相似度阈值，可以判定T1为表现不好的数据，可以将T1和A1作为bad case加入训练TTS系统的数据集，将Tn和An作为good case加入训练TTS系统的数据集；否则可以忽略T1、A1和Tn、An。

这样，根据用户的调整操作结果判断是否利用初始输入的文本-音频数据对和/或经过调整后最终得到的文本-音频数据对得到用于训练TTS系统的数据集，可以基于对用户交互动作的分析收集TTS系统的优化数据，及时收集到用户侧产生的数据，从而可以对TTS系统进行快速优化；可以从真实应用场景中过滤出数据，使得收集到的数据更贴合应用场景，从而可以快速地提升TTS系统的鲁棒性。

在一种可能的实现方式中，在上述图2的步骤S204之后，还可以包括：

(1)从所述数据集中获取目标用户标识对应的至少一个目标用户数据。

示例性地，TTS系统可以为每个用户分配一个用户标识，用户标识可以为用户id。在目标用户使用TTS系统的过程中，TTS系统可以检测到目标用户标识，可以通过上述步骤S201～S204收集数据加入训练TTS系统的数据集，这样收集到的数据可以被称为目标用户标识对应的至少一个目标用户数据。可以根据目标用户标识从数据集中获取目标用户数据。

(2)根据所述目标用户数据，对所述TTS系统进行训练，得到适用于所述目标用户标识的目标TTS系统。

示例性地，可以将目标用户数据上传至云端，在云端使用目标用户数据对TTS系统进行训练，得到适用于目标用户标识的目标TTS系统。可以在云端储存目标用户对应的目标TTS系统和目标用户标识，在目标用户在线使用TTS系统的情况下，目标用户向云端发送使用请求时，云端可以根据目标用户标识查询到目标用户对应的目标TTS系统，提供给目标用户进行使用；还可以将目标用户对应的目标TTS系统分发到终端，使目标用户可以离线使用目标TTS系统。

示例性地，可以在终端使用目标用户数据对TTS系统进行训练，得到适用于目标用户标识的目标TTS系统，目标用户可以在终端直接使用目标TTS系统。

这样，基于对不同用户的交互动作的分析，可以收集到个性化的TTS系统优化数据，根据每个用户对应的用户数据对TTS系统进行优化，可以定制出适用于该用户的TTS系统，实现千人千面，这样定制出的TTS系统偏向于该用户的使用习惯，从而可以减少用户的手工编辑工作，进一步提升用户体验。

在一种可能的实现方式中，在上述图2的步骤S204之后，还可以包括：

对所述数据集中的数据进行共性分析，得到共性分析结果；根据所述共性分析结果，从所述数据集中获取多个共性数据；根据所述共性数据，对所述TTS系统进行训练。

示例性地，针对数据集中的数据，可以通过分析发音或停顿方式上的共性、对数据求交集、比较语句的相似度等方式进行共性分析，得到通用的TTS系统优化数据(即共性数据)。根据通用的TTS系统优化数据对TTS系统进行训练，可以得到通用的TTS系统。考虑到用户的基数，单个用户调整的动作，在大量用户的数据分析下，更容易找出共性。通过对数据集中的大量用户数据进行共性分析，可以进一步提取出覆盖面更广、更通用的优化数据，从而可以得到更通用的TTS系统。

基于上述数据收集方法实施例的同一发明构思，本公开实施例还提供了一种数据收集装置，该数据收集装置可以用于执行上述数据收集方法实施例所描述的技术方案。例如，可以执行上述图2所示数据收集方法的各步骤。

图4示出根据本公开一实施例的一种数据收集装置的结构示意图，如图4所示，该装置可以包括：第一生成模块401，用于根据初始输入的第一文本数据，生成第一音频数据；调整模块402，用于响应于所述第一文本数据对应的至少一次调整操作，得到调整后的第二文本数据；第二生成模块403，用于根据所述第二文本数据，生成第二音频数据；数据集获取模块404，用于在所述调整操作的结果表明用户对所述第一音频数据不满意的情况下，利用第一数据和/或第二数据得到用于训练TTS系统的数据集；其中，所述第一数据包括所述第一文本数据和所述第一音频数据；所述第二数据包括所述第二文本数据和所述第二音频数据。

在一种可能的实现方式中，所述调整操作的结果包括所述第一文本数据和所述第二文本数据的文本数据相似度；所述数据集获取模块404，还用于：在所述文本数据相似度高于相似度阈值的情况下，利用所述第一数据和/或所述第二数据得到所述数据集；所述文本数据相似度为所述第一文本数据和所述第二文本数据的相似度。

在一种可能的实现方式中，所述调整操作的结果包括发音调整和/或停顿调整；所述数据集获取模块404，还用于：在所述调整操作的结果包括发音调整和/或停顿调整的情况下，利用所述第一数据和/或所述第二数据得到所述数据集。

在一种可能的实现方式中，所述调整模块402，还用于：在检测到调整操作的情况下，基于调整操作对所述第一文本数据进行调整处理，直至得到所述第二文本数据；其中，所述调整处理包括：确定目标文本数据；所述目标文本数据为第一文本数据或中间文本数据，所述中间文本数据为对所述第一文本数据执行至少一次调整操作后得到的文本数据；基于所述调整操作和所述目标文本数据，得到新的中间文本数据；响应于满足调整结束条件，将中间文本数据确定为第二文本数据。

在一种可能的实现方式中，所述调整模块402，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度高于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离低于第二预设阈值，确定所述提交操作为调整操作，确定所述输入文本数据为新的中间文本数据。

在一种可能的实现方式中，所述调整模块402，还用于：获取提交操作，并利用所述提交操作得到对应的输入文本数据；响应于所述输入文本数据与所述目标文本数据的相似度低于第一预设阈值，和/或，所述操作前后对应的两个文本数据之间的编辑距离高于第二预设阈值，确定满足所述调整结束条件；或，响应于预设时间间隔内未获取到提交操作，确定满足所述调整结束条件。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。示例性地，可以执行上述图2所示数据收集方法的各步骤。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。示例性地，可以执行上述图2所示数据收集方法的各步骤。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。示例性地，可以执行上述图2所示数据收集方法的各步骤。

图5示出根据本公开一实施例的一种电子设备的结构示意图。例如，电子设备1900可以被提供为一服务器或终端设备。参照图5，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。示例性地，可以执行上述图2所示数据收集方法的各步骤。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出接口1958(I/O接口)。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows Server

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。示例性地，可以执行上述图2所示数据收集方法的各步骤。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：摩尔线程智能科技(北京)有限责任公司;

上一篇：一种乳酸生产用脱色吸附活性炭在线再生设备及工艺
下一篇：一种用于晶圆的清洗装置