导航：首页> 乐器；声学>音频处理方法、装置、可读存储介质和电子设备

音频处理方法、装置、可读存储介质和电子设备

文献发布时间：2023-06-19 09:27:35

技术领域

本发明涉及计算机技术领域，尤其涉及一种音频处理方法、装置、可读存储介质和电子设备。

背景技术

目前语音处理技术应用于各个领域，包括语音识别、语音合成以及人机语音交互等多种语音处理技术。现有技术中，在输出通过语音合成得到的语音信息时，得到的声音比较生硬，“机器人声音”痕迹明显，缺少情感，使得听者的真实感不强。

发明内容

有鉴于此，本发明实施例提供了一种音频处理方法、装置、可读存储介质和电子设备，旨在进行语音合成的过程中增加情感色彩，提升真实感。

第一方面，本发明实施例提供了一种音频处理方法，所述方法包括：

确定第一音频数据；

根据所述第一音频数据确定音频片段序列，所述音频片段序列中包括至少一个具有对应音频属性的音频片段；

根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列；

拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据。

进一步地，所述根据所述第一音频数据确定音频片段序列包括：

确定所述第一音频数据对应的词向量序列；

基于所述词向量序列进行分词处理，以确定多个词向量对应的音频片段；

根据各所述音频片段确定音频片段序列。

进一步地，所述音频属性包括音调、音量和语速中至少一种。

进一步地，所述根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列包括：

根据对应的音频属性确定各所述音频片段对应的扰动系数；

根据各所述扰动系数为对应的音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。

进一步地，所述根据对应的音频属性确定各所述音频片段对应的扰动系数包括：

确定当前音频片段；

确定所述当前音频片段对应的音频属性值与所述音频片段序列中至少一个相邻的音频片段对应的音频属性值的差值；

根据所述差值确定所述当前音频片段对应的扰动系数。

进一步地，所述根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列具体为：

对所述音频片段序列中各所述音频片段进行随机扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。

进一步地，所述拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据包括：

拼接所述目标音频片段序列中各所述目标音频片段以确定候选音频数据；

对所述候选音频数据进行平滑处理以确定第二音频数据。

第二方面，本发明实施例提供了一种音频处理装置，所述装置包括：

第一音频确定模块，用于确定第一音频数据；

分词模块，用于根据所述第一音频数据确定音频片段序列，所述音频片段序列中包括至少一个具有对应音频属性的音频片段；

调整模块，用于根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列；

第二音频确定模块，用于拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据。

第三方面，本发明实施例提供了一种计算机可读存储介质，用于存储计算机程序指令，，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例通过确定第一音频数据，对所述第一音频数据进行分割，以确定包括至少一个音频片段的音频片段序列。根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据。本发明实施例通过对音频数据进行分割，获得多个具有对应音频属性的音频片段，对各音频片段添加扰动以调整音调、音量、语速等音频属性，为调整后音频片段确定的音频数据增加情感色彩，提升了合成语音的真实感。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1为本发明实施例的音频处理方法的流程图；

图2为本发明实施例的音频片段的示意图；

图3为本发明实施例的音频片段拼接过程的示意图；

图4为本发明实施例的音频处理装置的示意图；

图5为本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明实施例中，所述音频处理方法可以通过服务器或终端设备实现，即通过进行所述音频处理的终端设备或服务器通过生成或接收等方式确定第一音频数据，根据所述第一音频数据确定音频片段序列以分别对音频属性进行调整，基于根据调整后的音频片段序列确定第二音频数据。其中，所述终端设备可以是能够运行计算机程序的、具有通信功能通用数据处理终端，例如，智能手机、平板电脑或笔记本电脑等。所述服务器可以是单个服务器、也可以是以分布式方式配置的服务器集群。所述第一音频数据可以通过终端设备上设置的或与服务器连接的音频获取装置获取，也可以通过其他设备向所述终端设备或服务器传输，或直接通过所述终端设备或服务器自动生成，以通过所述终端设备或服务器进行音频处理。以下以本发明实施例通过服务器进行音频处理为例进行说明。

图1为本发明实施例的音频处理方法的流程图。如图1所示，所述音频处理方法包括以下步骤：

步骤S100、确定第一音频数据。

具体地，所述第一音频数据为待处理的音频数据，可以通过服务器确定。在本发明实施例中，所述第一音频数据的存储形式可以为存储文本数据和对应的音频属性，或直接以时域波形的形式存储。在所述第一音频数据直接以时域波形的形式存储的情况下，所述第一音频数据的确定方式可以为通过语音合成技术将服务器生成、接收或预先存储的文本信息转化为语音信息。例如，当本发明实施例应用于幼儿文字识别软件时，所述文本信息可以为儿童或家长通过用户终端输入的待识别文本，所述幼儿文字识别软件的服务器在接收到待识别文本后通过语音合成的方式将所述待识别文本转换为对应的语音信息，作为第一音频数据。当本发明实施例应用于具有语音交互功能的软件时，所述文本信息可以为服务器中预先设定用于引导用户操作软件的系统信息，在用户选择语音提示的情况下，将系统信息通过语音合成的方式转换为对应的语音信息，作为第一音频数据。

可选地，所述语音合成过程可以通过WaveNet、DeepVoice、Tacotron等语音合成系统完成。所述语音合成的过程包括文本分析、韵律分析和声学分析三个部分，即先通过文本分析提取出文本特征，在此基础上预测基频、时长、节奏等多种韵律特征得到文本对应的注音字符。然后通过声学模型实现从前端参数到语音参数的映射，最后通过声码器合成语音。

步骤S200、根据所述第一音频数据确定音频片段序列。

具体地，服务器在确定待处理的第一音频数据后，对所述第一音频数据进行分割，以得到包括多个音频片段的音频片段序列。其中，各所述音频片段具有对应的音频属性，用于表征对应音频片段的音调、语速、音量等属性。例如，当所述第一音频数据对应的内容为“今天的天气真好”，服务器根据所述第一音频数据确定音频片段序列中各所述音频片段对应的内容可以为“今天”、“的”、“天气”、“真”、“好”。由于所述第一音频数据的存储形式不同，例如可以通过存储第一音频数据文本数据和对应的音频属性的形式存储，或直接以承载音频信息和音频数据的时域波形的形式存储。因此，对于不同格式存储的第一音频数据，本发明实施例确定对于音频片段序列的方式不同。

基于上文所述的第一音频数据存储形式，在本发明实施例的一个可选地实现方式中，所述第一音频数据以时域波形格式存储时，所述第一音频数据对应的音频内容和音频属性均承载在所述时域波形上。所述服务器可以通过预设的分割规则在时域上对所述第一音频数据进行分割，以得到多个承载对应音频内容和音频属性的波形文件作为音频片段。并根据各所述音频片段在所述第一音频数据中的位置关系确定所述音频片段序列。例如，当所述第一音频数据为“今天的天气真好”对应的时域波形数据，所述波形数据的纵轴表征对应的音量、横轴用于表征对应的语速和音调。服务器直接分割所述第一音频数据得到分别承载“今天”、“的”、“天气”、“真”、“好”的时域波形数据，各所述时域波形数据的纵轴分别表征对应内容的音量、横轴用于表征对应内容的语速和音调。

在本发明实施例的另一个可选地实现方式中，所述第一音频数据以文本数据的形式存储，并同时存储所述文本数据对应的音频属性。在上述情况下，所述根据第一音频数据确定所述音频片段序列的方法为对所述文本数据进行分词处理，再将分词得到的多个结果基于对应的音频属性转换为时域波形以确定音频片段。并根据各所述音频片段在所述第一音频数据中的位置关系确定所述音频片段序列。其中，所述分词处理过程可以通过自然语言处理(Natural Language Processing)的方式实现，例如基于词典进行分词、基于神经网络进行分词以及基于字进行分词等。

可选地，所述服务器可以预先根据词向量训练集训练得到一个分词模型，所述词向量训练集中可以包括多个词向量序列和对应于每个词向量序列的多个词向量。所述分词模型的训练过程为将所述词向量训练集中的词向量序列作为所述分词模型的输入，将对应的多个词向量作为分词模型的输出以训练所述分词模型。在确定第一音频数据后，将所述第一音频数据对应的文本数据转换为词向量序列。以将所述词向量序列输入训练好的所述分词模型中，输出多个词向量。再根据各所述词向量确定对应的文字或词，通过语音合成技术转换为时域波形以确定音频片段，以根据各所述音频片段确定音频片段序列。例如，当所述第一音频数据为文本数据“今天的天气真好”，所述文本数据对应音频属性包括音量、语速和音调时。服务器将所述文本数据输入训练好的分词模型中得到如下多个分词结果：“今天”、“的”、“天气”、“真”、“好”，各所述分词结果分别具有对应的音量、语速和音调。所述服务器根据各所述分词结果各对应的音频属性确定对应的音频片段，以得到音频片段序列。

图2为本发明实施例的音频片段的示意图。如图2所示，本发明实施例中音频片段20以时域波形的形式存储。其中，所述时域波形用于记载音频片段20对应的信息。所述音频片段20的纵轴为分贝，用于表征所述音频片段20对应的音量。当所述音频片段20对应的时域波形峰值分贝越高时，音量越大；分贝越低，音量越小。所述音频片段20的横轴为时间，用于表征所述音频片段20的语速和音调。当所述音频片段20对应的时域波形的时间越短时，语速越快，音调越高；时间越长时，语速越慢，音调越低。

步骤S300、根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。

具体地，由于所述音频片段序列中各所述音频片段为直接或间接通过语音合成的方式确定，其中各所述音频片段组合在一起输出的声音通常会出现发音机械、缺乏情感的情况。因此服务器在确定所述音频片段序列后，根据预设的扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性，使其在组合后输出时能够增加情感色彩，提升合成语音的真实感。本发明实施例中，所述服务器可以通过多种不同的扰动方式对所述音频片段序列中各所述音频片段添加扰动。

在本发明实施例的一个可选地实现方式中，服务器对所述音频片段序列中各所述音频片段添加扰动的方式可以为直接对各所述音频片段添加随机扰动，以在不改变音频片段承载内容的前提下，随机对各所述音频片段的音量、语速和音调等音频属性进行调整。所述添加随机扰动的方法可以为向所述音频片段对应的时域波形信号中添加随机噪声。所述服务器确定调整后的各所述音频片段为目标音频片段，并基于各所述音频片段在所述音频片段序列中的位置确定目标音频片段序列。由于为信号添加随机扰动的扰动方法处理速度较快，所述音频片段扰动方法能够实现快速为各所述音频片段增加情感色彩。

在本发明实施例的另一个可选地实现方式中，服务器对所述音频片段序列中各所述音频片段添加扰动的方式还可以包括以下步骤：

步骤S310、根据对应的音频属性确定各所述音频片段对应的扰动系数。

具体地，服务器可以根据各所述音频片段对应的音频属性，针对性的为每一个音频片段添加对应的扰动，以提高扰动结果的精确度。为实现针对性的对每一个音频片段进行扰动，需要先根据对应的音频属性确定各所述音频片段对应的扰动系数。在本发明实施例中，确定各所述音频片段扰动系数的方法还可以包括以下步骤：

步骤S311、确定当前音频片段。

具体地，在确定所述音频片段序列中各所述音频片段对应的扰动系数时，先在所述音频片段序列中选择一个音频片段作为当前音频片段，以确定当前音频片段对应的扰动系数。在确定当前音频片段对应的扰动系数后，再次在所述音频片段序列中选择其他未确定扰动系数的音频片段作为当前音频片段，直到确定了所述音频片段序列中全部音频片段对应的扰动系数。进一步地，所述服务器还可以预先设定当前音频片段的确定顺序。所述确定顺序可以为有前到后依次确定所述音频片段序列中的音频片段为当前音频片段。

可选地，所述服务器还可以同时在所述当前音频片段序列中确定预设数量的音频片段，或全部音频片段为当前音频片段，以并行确定各所述当前音频片段对应的扰动系数，提高数据处理速度。

步骤S312、确定所述当前音频片段对应的音频属性值与所述音频片段序列中至少一个相邻的音频片段对应的音频属性值的差值。

具体地，对于一个当前音频片段，确定对应的音频属性值与所述音频片段序列中至少一个相邻的音频片段的音频属性值。所述音频属性值为所述音频片段对应的至少一个需要调整的音频属性的值，所述需要调整的音频属性可以预先确定。例如，当所述音频片段需要调整音量时，所述音频属性值为所述音频片段对应的音量值。当所述音频片段需要调整音调时，所述音频属性值为所述音频片段对应的音调值。

所述服务器在确定当前音频片段对应的音频属性值后，还确定所述音频片段序列中与所述当前音频片段相邻的至少一个音频片段对应的音频属性。例如，可以在所述音频片段序列中确定位置在当前音频片段之前的音频片段对应的音频属性、在所述当前音频片段之后的音频片段对应的音频属性，或在所述当前音频片段之前和之后的音频片段对应的音频属性。并计算所述当前音频片段的音频属性与确定的向量音频片段的音频属性之间的差值。例如，当所述音频属性值为音量，当前片段对应的音频属性值为80分贝，所述音频片段序列中迁移音频片段对应的音频属性值为70分贝，则计算得到的差值为10分贝。

步骤S313、根据所述差值确定所述当前音频片段对应的扰动系数。

具体地，所述服务器可以根据步骤S312得到的差值确定当前音频片段对应的音频属性值与相邻音频片段对应音频属性值的差异，并根据差异程度确定对应的扰动系数。在本发明实施例中，所述服务器可以预先设定对应于各所述音频属性值的扰动系数集合，其中包括对应于各所述音频属性值差值范围的多个扰动系数。以对应于音量值的扰动系数集合为{“-10～-5:0.8”，“-4～0:0.9”，“0～5:1”，“6～10:1.1”，“11～15:1.2”}为例进行说明。当所述音频属性值为音量，当前片段对应的音频属性值为80分贝，所述音频片段序列中迁移音频片段对应的音频属性值为70分贝，则计算得到的差值为10分贝。确定对应的扰动系数为1.1。

步骤S320、根据各所述扰动系数为对应的音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。

具体地，在确定各所述音频片段对应的扰动系数后，根据各所述扰动系数为对应的音频片段添加扰动，以调整各所述音频片段对应的音频属性。在分别扰动各所述音频片段后，得到对应的目标音频片段，以确定目标音频片段序列。其中，所述扰动方式可以为直接将扰动系数与音量属性值相乘。例如，当所述服务器确定的扰动系数为1.1，且对应于音频片段的音量值时，所述服务器将所述音频片段整体对应的音量值乘1.1倍。

由于所述扰动方法针对性确定各音频片段对应的扰动系数，以分别对各音频片段添加扰动，所述音频片段扰动方法能够提高为各所述音频片段添加情感色彩的效果。

步骤S400、拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据。

具体地，所述第二音频数据为时域波形信号。在确定目标音频片段序列后，按各所述目标音频片段在所述音频片段序列中的顺序拼接各所述目标音频片段，以确定第二音频数据。由于各所述目标音频片段对应的时域波形为通过语音合成的方式生成时域波形后进行多次处理得到，各所述目标音频片段会出现衔接不流畅的问题。因此，在本发明实施例中，所述第二音频数据的确定过程可以为先拼接所述目标音频片段序列中各所述目标音频片段得到候选音频数据，再对所述候选音频数据进行平滑处理以确定第二音频数据。可选地，对所述候选音频数据进行平滑处理的方法可以为一阶低通滤波、互补滤波以及卡尔曼滤波等。

图3为本发明实施例的音频片段拼接过程的示意图。如图3所示，当本发明实施例中确定的目标音频片段序列中包括第一目标音频片段30和第二目标音频片段31时，先拼接所述第一目标音频片段30和第二目标音频片段31得到候选音频数据32，再进一步对所述候选音频数据32进行平滑处理得到对应的第二音频数据33。

由此，本发明实施例可以通过步骤S400得到具有情感色彩的第二音频信号输出。以在线教育领域的人机语音交互过程为例进行说明。学生可以通过使用的学生终端输入文本，在线教育平台的服务器接收到所述文本后确定与所述文本对应的回答文本，通过语音合成技术确定回答文本对应的第一音频数据，再对第一音频数据确定的音频片段序列进行添加扰动。最终根据扰动后得到的目标音频片段序列确定第二音频信号返回学生终端，通过学生终端的扬声装置输出。

本发明实施例的音频处理方法通过对音频数据进行分割，获得多个具有对应音频属性的音频片段，对各音频片段添加扰动以调整音调、音量、语速等音频属性，为调整后音频片段确定的音频数据增加情感色彩，提升了合成语音的真实感。同时，由于所述音频处理方法的过程简单，处理时间短，能够在人机语音交互的过程中实时进行语音处理。

图4为本发明实施例的音频处理装置的示意图，如图4所示，所述音频处理装置包括第一音频确定模块40、分词模块41、调整模块42和第二音频确定模块43。

具体地，所述第一音频确定模块40用于确定第一音频数据。所述分词模块41用于根据所述第一音频数据确定音频片段序列，所述音频片段序列中包括至少一个具有对应音频属性的音频片段。所述调整模块42用于根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动，以调整各所述音频片段对应的音频属性确定目标音频片段序列。所述第二音频确定模块43用于拼接所述目标音频片段序列中各所述目标音频片段，以确定第二音频数据。

本发明实施例的音频处理装置通过对音频数据进行分割，获得多个具有对应音频属性的音频片段，对各音频片段添加扰动以调整音调、音量、语速等音频属性，为调整后音频片段确定的音频数据增加情感色彩，提升了合成语音的真实感。

图5为本发明实施例的电子设备的示意图。如图5所示，图5所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器50和存储器51。处理器50和存储器51通过总线52连接。存储器51适于存储处理器50可执行的指令或程序。处理器50可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器50通过执行存储器51所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线52将上述多个组件连接在一起，同时将上述组件连接到显示控制器53和显示装置以及输入/输出(I/O)装置54。输入/输出(I/O)装置54可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置54通过输入/输出(I/O)控制器55与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程车辆调度设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程车辆调度设备的处理器以产生一个机器，使得通过计算机或其他可编程车辆调度设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：梁光;杨惠;吴雨璇;舒景辰;周鼎皓;
专利申请人：北京大米科技有限公司;