一种音频数据处理方法、装置、计算机设备以及介质

文献发布时间：2023-06-19 16:04:54

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、计算机设备以及介质。

背景技术

目前，配音制作的方式主要是调用语音合成算法的方式，即将需要进行语音制作的文本信息直接输入至语音合成算法，通过语音合成算法直接生成文本信息对应的音频数据。对于语音合成算法的方式来实现配音制作而言，可以快速生成发音标准的音频数据，然而，生成的音频数据在语气、语速和情感等音频信息上比较单一，从而降低了音频创作的丰富度。此外，由于不同的场景需要具有不同音频信息的音频数据，语音合成算法所生成的单一的音频数据难以适应于多种场景下的配音需求，进而明显降低音频数据的质量。

发明内容

本申请实施例提供一种音频数据处理方法、装置、计算机设备以及介质，可以提高音频创作的丰富度，且提高音频数据的质量。

本申请实施例一方面提供了一种音频数据处理方法，包括：

在应用界面中显示原始文本信息；

获取目标音色信息和目标文本信息对应的目标音频数据；目标文本信息是指在原始文本信息中所选择的文本信息；目标音频数据中的音频内容与目标文本信息相匹配；

获取针对原始文本信息的拼接音频数据；拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；融合音频数据是由目标音频数据和目标音色信息进行融合得到；标准音频数据中的音频内容与剩余文本信息相匹配。

本申请实施例一方面提供了一种音频数据处理装置，包括：

文本显示模块，用于在应用界面中显示原始文本信息；

音频获取模块，用于获取目标音色信息和目标文本信息对应的目标音频数据；目标文本信息是指在原始文本信息中所选择的文本信息；目标音频数据中的音频内容与目标文本信息相匹配；

音频拼接模块，用于获取针对原始文本信息的拼接音频数据；拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；融合音频数据是由目标音频数据和目标音色信息进行融合得到；标准音频数据中的音频内容与剩余文本信息相匹配。

其中，文本显示模块，具体用于显示应用界面；应用界面包括文本录入区域；

文本显示模块，具体用于响应针对文本录入区域的输入操作，在文本录入区域中显示所输入的原始文本信息。

其中，文本显示模块，具体用于显示应用界面；应用界面包括文本上传控件；

文本显示模块，具体用于响应针对文本上传控件的触发操作，显示用于选择文本文件的文本选择界面；

文本显示模块，具体用于响应针对文本选择界面的文本文件选择操作，将基于文本文件选择操作所选择的文本文件作为目标文本文件；

文本显示模块，具体用于响应针对文本选择界面的文本文件确认操作，将目标文本文件中的文本信息作为原始文本信息，在应用界面中显示原始文本信息。

其中，音频获取模块包括：

文本选择单元，用于响应针对原始文本信息的文本选择操作，将基于文本选择操作所选择的文本信息作为目标文本信息；

语音转换单元，用于响应针对目标文本信息的语音转换操作，显示音频转换界面；

音色获取单元，用于在音频转换界面中获取目标音色信息；

音频获取单元，用于响应针对音频转换界面的音频上传操作，获取目标文本信息对应的目标音频数据。

其中，应用界面包括第一语音转换控件；

语音转换单元，具体用于响应针对第一语音转换控件的触发操作，显示音频转换界面。

其中，语音转换单元，具体用于响应针对目标文本信息的触发操作，显示文本控制列表；文本控制列表包括第二语音转换控件；

语音转换单元，具体用于响应针对第二语音转换控件的触发操作，显示音频转换界面。

其中，音频转换界面包括录音启动控件；

音频获取单元，具体用于响应针对录音启动控件的触发操作，在音频转换界面中显示录音停止控件；

音频获取单元，具体用于响应针对录音停止控件的触发操作，获取目标对象在响应针对录音启动控件的触发操作和响应针对录音停止控件的触发操作的时间间隔内所录入的音频数据，将目标对象所录入音频数据作为目标文本信息对应的目标音频数据；

音频获取单元，还具体用于在音频转换界面中显示目标音频数据对应的音频文件标识。

其中，音频转换界面包括音频上传控件；

音频获取单元，具体用于响应针对音频上传控件的触发操作，显示用于选择音频文件的音频选择界面；

音频获取单元，具体用于响应针对音频选择界面的音频文件选择操作，将基于音频文件选择操作所选择的音频文件作为目标音频文件；

音频获取单元，具体用于响应针对音频选择界面的音频文件确认操作，将目标音频文件中的音频数据作为目标文本信息对应的目标音频数据；

音频获取单元，还具体用于在音频转换界面中显示目标音频数据对应的音频文件标识。

其中，音频转换界面包括一个或多个候选音色信息；

音色获取单元，具体用于响应针对一个或多个候选音色信息的音色选择操作，将基于音色选择操作所选择的候选音色信息作为目标音色信息；

音色获取单元，还具体用于对音频转换界面中的目标音色信息进行突出显示。

其中，音频拼接模块包括：

融合单元，用于响应针对目标音频数据和目标音色信息的确认操作，对目标音频数据和目标音色信息进行融合，得到融合音频数据；

拼接单元，用于获取剩余文本信息对应的标准音频数据，对融合音频数据和标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据；

音频拼接模块，还具体用于在生成拼接音频数据时，在与目标文本信息相关联的目标区域中显示音频转换标识；音频转换标识用于表征目标文本信息在一个或多个候选音色信息中所对应的目标音色信息。

其中，应用界面包括音频下载控件和音频分享控件；

装置，还具体用于响应针对音频下载控件的触发操作，将拼接音频数据下载至终端磁盘中；

装置，还具体用于响应针对音频分享控件的触发操作，对拼接音频数据进行分享。

其中，音频获取单元包括：

音频上传子单元，用于响应针对音频转换界面的音频上传操作，获取与目标文本信息相关联的辅助音频数据；

去噪处理子单元，用于对辅助音频数据进行去噪处理，得到去噪后的辅助音频数据；

内容检测子单元，用于对去噪后的辅助音频数据进行内容检测，得到去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度；

音频确定子单元，用于若内容匹配度大于匹配度阈值，则将去噪后的辅助音频数据确定为目标文本信息对应的目标音频数据。

其中，去噪处理子单元，具体用于将辅助音频数据的辅助频率信号输入至去噪网络模型，通过去噪网络模型对辅助频率信号进行去噪处理，得到目标频率信号；

去噪处理子单元，具体用于获取辅助音频数据的音频属性，通过音频属性对目标频率信号进行还原，得到去噪后的辅助音频数据。

其中，内容检测子单元，具体用于确定去噪后的辅助音频数据的音频发音序列和目标文本信息的文本发音序列；

内容检测子单元，具体用于将音频发音序列划分为至少两个音频发音子序列，确定每个音频发音子序列相对于文本发音序列的子序列匹配度，将子序列匹配度大于子序列阈值的音频发音子序列，作为匹配发音子序列；

内容检测子单元，具体用于确定匹配发音子序列在至少两个音频发音子序列中的比例，将匹配发音子序列在至少两个音频发音子序列中的比例，作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。

其中，内容检测子单元，具体用于对去噪后的辅助音频数据进行语音识别，得到去噪后的辅助音频数据的音频文本信息；

内容检测子单元，具体用于确定音频文本信息和目标文本信息之间的文本相似度，将文本相似度作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。

其中，音频获取单元，还具体用于若内容匹配度小于或等于匹配度阈值，则在音频转换界面中显示错误提示信息；或者，

音频获取单元，还具体用于若内容匹配度小于或等于匹配度阈值，则显示错误提示界面，在错误提示界面中显示错误提示信息。

其中，融合单元，具体用于将目标音频数据输入至融合网络模型，通过融合网络模型提取目标音频数据中的音频文本信息和音频特征；音频特征包括情感特征、语气特征或者韵律特征中的至少一个；

融合单元，具体用于在融合网络模型中，对音频文本信息、音频特征和目标音色信息进行融合，得到融合音频数据。

其中，拼接单元包括：

语音转换子单元，用于将原始文本信息输入至语音转换网络模型，通过语音转换网络模型对原始文本信息进行语音转换，得到原始文本信息对应的原始音频数据；

位置确定子单元，用于根据目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置，将原始音频数据在音频起始位置之前的音频数据以及在音频结尾位置之后的音频数据，作为剩余文本信息对应的标准音频数据；

音频拼接子单元，用于从融合音频数据中提取候选音频数据，将候选音频数据拼接至标准音频数据中的音频起始位置和音频结尾位置，得到针对原始文本信息的拼接音频数据。

其中，位置确定子单元，具体用于获取原始音频数据的原始时长，以及原始文本数据中的每个单位文本的单位时长；

位置确定子单元，具体用于根据原始时长、单位时长和目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置。

其中，音频拼接子单元，具体用于获取融合音频数据的融合波形数据，根据融合波形数据确定融合音频数据中的静音时间段；

音频拼接子单元，具体用于根据静音时间段对融合音频数据进行裁切，将裁切掉静音时间段所对应的音频数据的融合音频数据作为候选音频数据。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例可以通过变声融合技术将目标音频数据和目标音色信息进行融合，得到具有目标音频数据所指示的音频信息和目标音色信息所指示的标准音色发音的融合音频数据，进而将融合音频数据与通过语音合成技术所生成的标准音色发音的标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据。其中，融合音频数据是基于原始文本信息中选择的目标文本信息所生成的，标准音频数据是基于原始文本信息中除目标文本信息之外的剩余文本信息所生成的。因此，本申请实施例可以对具有音频信息和标准音色发音的融合音频数据、以及具有标准音色发音的标准音频数据进行合并，使得生成的拼接音频数据同时满足不具有音频信息的标准音色发音和具有音频信息的标准音色发音相结合的配音诉求，从而可以针对原始文本信息中的不同场景生成具有不同音频信息的音频数据，进而可以在保证配音效率的同时，提高音频创作的丰富度，且提高音频数据的质量。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种音频数据处理方法的流程示意图；

图4a是本申请实施例提供的一种显示原始文本信息的场景示意图；

图4b是本申请实施例提供的一种显示原始文本信息的场景示意图；

图4c是本申请实施例提供的一种显示原始文本信息的场景示意图；

图5a是本申请实施例提供的一种显示音频转换界面的场景示意图；

图5b是本申请实施例提供的一种显示音频转换界面的场景示意图；

图5c是本申请实施例提供的一种显示音频转换界面的场景示意图；

图6a是本申请实施例提供的一种获取目标音频数据的场景示意图；

图6b是本申请实施例提供的一种获取目标音频数据的场景示意图；

图7a是本申请实施例提供的一种显示音频转换标识的场景示意图；

图7b是本申请实施例提供的一种显示音频转换标识的场景示意图；

图8是本申请实施例提供的一种音频数据处理方法的流程示意图；

图9是本申请实施例提供的一种音频数据处理方法的流程示意图；

图10是本申请实施例提供的一种音频合成方案的流程示意图；

图11是本申请实施例提供的一种音频变声方案的流程示意图；

图12是本申请实施例提供的一种音频数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器2000和终端设备集群。其中，终端设备集群具体可以包括一个或者多个终端设备，这里将不对终端设备集群中的终端设备的数量进行限定。如图1所示，多个终端设备具体可以包括终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n；终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个终端设备可以通过该网络连接与业务服务器2000之间进行数据交互。

其中，终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能家居、智能电视、可穿戴设备、车载终端等具有数据处理功能的智能终端。应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中，应用客户端可以为独立的客户端，也可以为集成在某客户端中的嵌入式子客户端，本申请对此不做限定。

其中，应用客户端具体可以包括浏览器、车载客户端、智能家居客户端、娱乐客户端、多媒体客户端(例如，视频客户端)、社交客户端以及资讯类客户端等具有数据处理功能的客户端。其中，车载终端可以为智慧交通场景下的智能终端，该车载终端上的应用客户端可以为上述车载客户端。

其中，业务服务器2000可以为应用客户端对应的服务器，该业务服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本申请实施例可以将图1所示的终端设备3000b作为目标终端设备，该目标终端设备中可以安装有具备数据处理功能的应用客户端。此时，该目标终端设备可以通过该应用客户端与业务服务器2000之间进行数据交互。

为便于理解，本申请实施例可以将通过应用客户端制作音频数据的用户统称为目标对象，即目标对象为登录应用客户端的对象。为便于理解，本申请实施例可以将目标对象在应用客户端中所上传的用于制作音频数据的文本信息统称为原始文本信息。其中，目标对象通过应用客户端制作的音频数据可以为原始文本信息对应的原始音频数据，也可以为针对原始文本信息所生成的拼接音频数据，拼接音频数据是基于原始音频数据和目标对象所提供的目标音频数据所生成的。

其中，原始音频数据可以为通过TTS(TextToSpeech，文本转语音、语音合成)算法所生成的音频数据；拼接音频数据可以为通过对原始音频数据中的标准音频数据和融合音频数据进行拼接后所得到的音频数据，融合音频数据可以为对目标音频数据和目标音色信息进行融合后所得到的音频数据，目标音频数据可以为基于目标文本信息所上传的音频数据，目标文本信息可以为在原始文本信息中所选择的文本信息，标准音频数据可以为原始文本信息中除目标文本信息之外的剩余文本信息的音频数据。其中，标准音频数据是基于剩余文本信息所合成的音频数据，因此，本申请实施例也可以将标准音频数据称之为合成音频数据。

应当理解，上述网络框架可以应用于有声内容生产、配音等领域，上述网络框架所适用的业务场景具体可以包括：电影配音场景、游戏配音场景、小说配音场景等，该网络框架可以实现在电影配音、游戏配音、小说配音等业务场景下实现音频数据的制作，这里将不对该网络框架所适用的业务场景进行一一列举。比如，在电影配音场景下，这里的原始文本信息可以为目标对象所上传的电影剧本，通过电影剧本所生成的音频数据可以为电影实现配音。又比如，在游戏配音场景下，这里的原始文本信息可以为目标对象所上传的游戏剧本，通过游戏剧本所生成的音频数据可以为虚拟游戏(例如，叙事游戏(Adventure Game，简称AVG游戏)，叙事游戏是指玩家控制角色进行“虚拟冒险”为主线的游戏，在以完成某个任务或是解开一个谜题的形式上开展的交互性游戏)实现配音。又比如，在小说配音场景下，这里的原始文本信息为可以为目标对象所上传的小说文本，通过小说文本所生成的音频数据可以实现有声小说的制作。

为便于理解，本申请实施例以原始文本信息为电影剧本为例进行说明。因此，本申请实施例可以在针对电影剧本生成原始音频数据的基础上，为电影剧本中的目标文本信息(即电影剧本中的一句或多句电影台词)实现配音，进而将针对一句或多句电影台词所生成的目标音频数据与目标音色信息进行融合，得到同时兼容目标音频数据中的音频信息的目标音频数据以及目标音色信息的融合音频数据，进而根据融合音频数据和原始音频数据，得到电影剧本所属电影的音频数据(即拼接音频数据)。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种进行数据交互的场景示意图。如图2所示的服务器20a可以为上述图1所对应实施例中的业务服务器2000，如图2所示的终端设备20b可以为上述图1所对应实施例中的目标终端设备。其中，终端设备20b上安装有应用客户端，终端设备20b对应的目标对象可以为对象20c，该应用客户端可以用于显示对象20c通过应用客户端所上传的原始文本信息。

如图2所示的终端设备20b可以在应用客户端的应用界面中显示对象20c所上传的原始文本信息，将原始文本信息发送至服务器20a，以使服务器20a通过语音合成算法将原始文本信息转换为原始音频数据。在对象20c需要使用真人音频信息的目标文本信息时，可以在应用界面中针对语音转换功能执行触发操作。这样，终端设备20b可以响应应用界面中针对语音转换功能的触发操作，将基于触发操作在原始文本信息中所选择的文本信息作为目标文本信息，进而将目标文本信息发送至服务器20a。其中，音频信息可以包括但不限于语气信息、情感信息和韵律信息。

如图2所示，服务器20a可以将原始文本信息中除目标文本信息之外的文本信息作为剩余文本信息，根据目标文本信息和剩余文本信息将原始文本信息对应的原始音频数据划分为两个部分，两个部分即为目标文本信息对应的音频数据和剩余文本信息对应的音频数据。为便于理解，本申请实施例可以将剩余文本信息在原始音频数据中对应的音频数据作为标准音频数据。

进一步地，如图2所示，终端设备20b可以获取目标音色信息和目标文本信息对应的目标音频数据，进而在响应针对目标音频数据和目标音色信息的确认操作时，将目标音色信息和目标音频数据发送至服务器20a。其中，目标音频数据可以为对象20c通过应用客户端所上传的音频数据，对象20c可以通过朗读录音或者上传音频文件来上传音频数据，目标音频数据中的音频内容与目标文本信息相匹配。

其中，目标音色信息可以为对象20c在终端设备20b所显示的一个或多个候选音色信息中所选择的音色信息，一个或多个候选音色信息可以为服务器20a所配置的音色信息。其中，音色信息可以表示声音的特征，指的是声音的感觉特性，不同的发声体(例如，乐器)由于其材料、结构不同，发出的声音的音色也不同。换言之，终端设备20b可以在响应应用界面中针对语音转换功能的触发操作时，从服务器20a获取一个或多个候选音色信息之后，显示获取到的一个或多个候选音色信息，以使对象20c在一个或多个候选音色信息中选择目标音色信息。

这样，服务器20a在接收到目标音色信息和目标音频数据之后，可以对目标音色信息和目标音频数据进行融合，得到融合音频数据，进而对融合音频数据和标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据。其中，标准音频数据中的音频内容与剩余文本信息相匹配。换言之，服务器20a可以通过基于目标文本信息所生成的融合音频数据，对目标文本信息在原始音频数据中对应的音频数据进行替换，得到针对原始文本信息的拼接音频数据。

其中，融合音频数据包含真实的音频信息(例如，语气、情感、韵律)，融合音频数据的音色为选中的目标音色信息，融合音频数据可以被拼接至在原始文本信息中所选择的目标文本信息处。其中，拼接音频数据既包含具有纯合成音色的音频数据(即标准音频数据)、也包含具有真实的语气、情感、韵律和目标音色信息的音频数据(即融合音频数据)。

可以理解的是，当对象20c需要获取拼接音频数据时，可以通过终端设备20b向服务器20a发送音频获取请求，这样，服务器20a可以响应该音频获取请求，将拼接音频数据返回至终端设备20b，以使对象20c可以在终端设备20b的应用客户端中试听或下载拼接音频数据。其中，音频获取请求可以为音频试听请求、也可以为音频下载请求，本申请对此不进行限定。

由此可见，本申请实施例可以在原始文本信息中选择需要修改音频信息的目标文本信息，进而获取针对目标文本信息所生成的具有音频信息的目标音频数据，将目标音频数据与所选择的目标音色信息进行结合，得到具有音频信息、且音色标准的融合音频数据。进一步地，将融合音频数据与原始文本信息中除目标文本信息之外的剩余文本信息对应的标准音频数据进行拼接，可以生成同时具有音频信息和标准音色的拼接音频数据，从而可以丰富音频数据中的音频信息，提高音频创作的丰富度，且提高音频数据的质量。

进一步地，请参见图3，图3是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可以由服务器执行，也可以由应用客户端执行，还可以由服务器和应用客户端共同执行，该服务器可以为上述图2所对应实施例中的服务器20a，该应用客户端可以为上述图2所对应实施例中的应用客户端。为便于理解，本申请实施例以该方法由应用客户端执行为例进行说明。其中，该音频数据处理方法可以包括以下步骤S101-步骤S103：

步骤S101，在应用界面中显示原始文本信息；

应当理解，应用客户端可以显示应用界面。其中，应用界面包括文本录入区域。进一步地，应用客户端可以响应针对文本录入区域的输入操作，在文本录入区域中显示所输入的原始文本信息。

为便于理解，请参见图4a，图4a是本申请实施例提供的一种显示原始文本信息的场景示意图。如图4a所示的应用界面40a和应用界面40b可以为应用客户端在不同时刻的应用界面，应用界面40a和应用界面40b中可以包括文本录入区域41a。其中，应用客户端对应的目标对象可以为对象41b。

如图4a所示，对象41b可以针对文本录入区域41a执行输入操作，这样，应用客户端可以响应对象41b针对文本录入区域41a所执行输入操作，将基于输入操作所输入的文本信息作为原始文本信息，这里的原始文本信息可以为原始文本信息41c，这里的原始文本信息41c可以为“锄禾日当午，汗滴禾下土。谁知盘中餐，粒粒皆辛苦。”。

此时，对象41b可以直接在文本录入区域41a中录入原始文本信息41c。如图4a所示，应用客户端可以将应用界面从应用界面40a切换至应用界面40b，在应用界面40b的文本录入区域41a中显示原始文本信息41c。

可选的，应当理解，应用客户端可以显示应用界面。其中，应用界面包括文本上传控件。进一步地，应用客户端可以响应针对文本上传控件的触发操作，显示用于选择文本文件的文本选择界面。进一步地，应用客户端可以响应针对文本选择界面的文本文件选择操作，将基于文本文件选择操作所选择的文本文件作为目标文本文件。进一步地，应用客户端可以响应针对文本选择界面的文本文件确认操作，将目标文本文件中的文本信息作为原始文本信息，在应用界面中显示原始文本信息。

其中，目标文本文件的格式可以为txt(Text，文本格式)、doc(Document，文档)、docx(Office Open Xml Document)、pdf(Portable Document Format，便携式文档格式)等，这里不对目标文本文件的格式进行一一列举。

为便于理解，请参见图4b和图4c，图4b和图4c是本申请实施例提供的一种显示原始文本信息的场景示意图。如图4b和图4c所示的应用界面42a、应用界面42b、应用界面42c和应用界面42d可以为应用客户端在不同时刻的应用界面，应用界面42a可以为图4a所对应实施例中的应用界面40a，应用界面42d可以为图4a所对应实施例中的应用界面40b，应用界面42a和应用界面42d中可以包括文本录入区域43c。其中，应用客户端对应的目标对象可以为对象43b，对象43b可以为图4a所对应实施例中的对象41b。

如图4b所示的应用界面42a中可以包括文本上传控件43a，对象43b可以针对该文本上传控件43a执行触发操作，这样，应用客户端可以响应对象43b针对文本上传控件43a所执行的触发操作，显示用于选择文本文件的文本选择界面44a。

如图4b所示，文本选择界面44a中可以包括文件夹或者文本文件，文件夹的数量可以为一个或多个，文本文件的数量可以为一个或多个，为便于理解，这里以文件夹的数量为1个、文本文件的数量为1个为例进行说明。其中，一个或多个文件夹具体可以包括文件夹J，一个或多个文本文件具体可以包括文件43d。

可以理解的是，对象43b可以针对文本选择界面44a执行文本文件选择操作(例如，对象43b可以针对文本选择界面44a中的文件43d执行文本文件选择操作)，这样，应用客户端可以响应对象43b针对文件43d所执行文本文件选择操作，将基于文本文件选择操作所选择的文件43d作为目标文本文件。

可选的，对象43b还可以针对文件夹J执行文件夹选择操作，这样，应用客户端可以响应对象43b针对文件夹J所执行的文件夹选择操作，在文本选择界面44a中显示文件夹J下的一个或多个文本文件(例如，文件A

如图4b和图4c所示，应用客户端在响应文本文件选择操作时，可以将文本选择界面从图4b所示的文本选择界面44a切换至图4c文本选择界面44b，在文本选择界面44b中对文件43d进行突出显示，即将文件43d的显示状态设置为选中状态。其中，文本选择界面44a和文本选择界面44b可以为应用客户端在不同时刻的文本选择界面。

如图4c所示，文本选择界面44b中可以包括文本确认控件43e，对象43b可以针对文本选择界面44b执行文本文件确认操作(例如，对象43b可以针对文本选择界面44b中的文本确认控件43e执行文本文件确认操作)，这样，应用客户端可以响应对象43b针对文本确认控件43e所执行文本文件确认操作，将目标文本文件中的文本信息作为原始文本信息，这里的原始文本信息可以为原始文本信息43f，这里的原始文本信息43f可以为“锄禾日当午，汗滴禾下土。谁知盘中餐，粒粒皆辛苦。”。

此时，对象43b可以间接在文本录入区域43c中录入原始文本信息43f。如图4b和图4c所示。应用客户端可以将应用界面从应用界面42a切换至应用界面42d，在应用界面42d的文本录入区域43c中显示原始文本信息43f。

步骤S102，获取目标音色信息和目标文本信息对应的目标音频数据；

具体的，应用客户端可以响应针对语音转换功能的触发操作，获取目标音色信息和目标文本信息对应的目标音频数据。应用客户端响应针对语音转换功能的触发操作的具体过程可以描述为：应用客户端可以响应针对原始文本信息的文本选择操作，将基于文本选择操作所选择的文本信息作为目标文本信息。其中，目标文本信息是指在原始文本信息中所选择的文本信息，即目标文本信息为基于文本选择操作在原始文本信息中所选择的文本信息，即目标文本信息为基于针对语音转换功能的触发操作在原始文本信息中所选择的文本信息。进一步地，应用客户端可以响应针对目标文本信息的语音转换操作，显示音频转换界面。进一步地，应用客户端可以在音频转换界面中获取目标音色信息。进一步地，应用客户端可以响应针对音频转换界面的音频上传操作，获取目标文本信息对应的目标音频数据。其中，目标音频数据中的音频内容与目标文本信息相匹配。

为便于理解，请参见图5a，图5a是本申请实施例提供的一种显示音频转换界面的场景示意图。如图5a所示的应用界面50a和应用界面50b可以为应用客户端在不同时刻的应用界面，应用界面50a和应用界面50b中可以包括文本录入区域51a，应用界面50a可以为图4a所对应实施例中的应用界面40b或图4c所对应实施例中的应用界面42d。其中，应用客户端对应的目标对象可以为对象51c。

如图5a所示的文本录入区域51a中可以显示有原始文本信息51b，对象51c可以针对原始文本信息51b执行文本选择操作，这样，应用客户端可以响应对象51c针对原始文本信息51b所执行文本选择操作，将基于文本选择操作所选择的文本信息51d作为目标文本信息，这里的文本信息51d可以为“谁知盘中餐”。

如图5a所示，应用客户端在响应文本选择操作时，可以将应用界面从应用界面50a切换至应用界面50b，在应用界面50b中对目标文本信息进行突出显示，即将目标文本信息的显示状态设置为选中状态。

其中，应用界面包括第一语音转换控件。应当理解，应用客户端可以响应针对第一语音转换控件的触发操作，显示音频转换界面。为便于理解，应用客户端响应针对第一语音转换控件的触发操作的具体过程可以参见图5b，图5b是本申请实施例提供的一种显示音频转换界面的场景示意图。如图5b所示的应用界面52a可以为图5a所对应实施例中的应用界面50b，图5b所示的对象53c可以为图5a所对应实施例中的对象51c。

如图5b所示，应用界面52a中可以包括第一语音转换控件53b，对象53c可以针对第一语音转换控件53b执行触发操作，这样，应用客户端可以响应对象53c针对第一语音转换控件53b所执行的触发操作，显示针对选中状态的目标文本信息53a的音频转换界面52b。

可选的，应当理解，应用客户端可以响应针对目标文本信息的触发操作，显示文本控制列表。其中，文本控制列表包括第二语音转换控件。进一步地，应用客户端可以响应针对第二语音转换控件的触发操作，显示音频转换界面。为便于理解，应用客户端响应针对第二语音转换控件的触发操作的具体过程参见图5c，图5c是本申请实施例提供的一种显示音频转换界面的场景示意图。如图5c所示的应用界面54a可以为图5a所对应实施例中的应用界面50b，应用界面54a和应用界面54b可以为应用客户端在不同时刻的应用界面，图5c所示的对象55c可以为图5a所对应实施例中的对象51c。

如图5c所示，对象55c可以针对选中状态的目标文本信息55a执行触发操作，这样，应用客户端可以响应对象55c针对选中状态的目标文本信息55a所执行的触发操作，将应用界面从应用界面54a切换至应用界面54b，在应用界面54b中显示文本控制列表。其中，文本控制列表中可以包括第二语音转换控件55b。

如图5c所示，对象55c可以针对第二语音转换控件55b执行触发操作，这样，应用客户端可以响应对象55c针对第二语音转换控件55b所执行的触发操作，显示针对选中状态的目标文本信息55a的音频转换界面54c。

其中，音频转换界面包括录音启动控件。应当理解，应用客户端可以响应针对录音启动控件的触发操作，在音频转换界面中显示录音停止控件。进一步地，应用客户端可以响应针对录音停止控件的触发操作，获取目标对象在响应针对录音启动控件的触发操作和响应针对录音停止控件的触发操作的时间间隔内所录入的音频数据，将目标对象所录入音频数据作为目标文本信息对应的目标音频数据。进一步地，应用客户端可以在音频转换界面中显示目标音频数据对应的音频文件标识。

为便于理解，请参见图6a和图6b，图6a和图6b是本申请实施例提供的一种获取目标音频数据的场景示意图。如图6a和图6b所示的音频转换界面60a、音频转换界面60b和音频转换界面60c可以为应用客户端在不同时刻的音频转换界面，音频转换界面60c可以为图5b所对应实施例中的音频转换界面52b或图5c所对应实施例中的音频转换界面54c。其中，应用客户端对应的目标对象可以为对象61a，对象61a可以为图4a所对应实施例中的对象41b。

如图6a所示的音频转换界面60a中可以包括录音启动控件61b，对象61a可以针对录音启动控件61b执行触发操作，这样，应用客户端可以响应对象61a针对录音启动控件61b所执行的触发操作，将音频转换界面从音频转换界面60a切换至音频转换界面60b，在音频转换界面60b中显示录音停止控件61c。

如图6a所示，对象61a可以针对录音停止控件61c执行触发操作，这样，应用客户端可以响应对象61a针对录音停止控件61c所执行的触发操作，获取对象61a在响应针对录音启动控件61b的触发操作和响应针对录音停止控件61c的触发操作的时间间隔(例如，5秒)内所录入的音频数据，将对象61a所录入音频数据作为与目标文本信息(即“谁知盘中餐”)相关联的目标音频数据。

如图6b所示，应用客户端在响应针对录音停止控件61c的触发操作时，可以将音频转换界面从音频转换界面60b切换至音频转换界面60c，在音频转换界面60c中显示目标音频数据对应的音频文件标识61d。其中，音频文件标识61d可以用于对目标音频数据进行试听，且音频文件标识61d中的时间条可以用于调整目标音频数据的播放进度。

可选的，应用客户端在响应针对录音启动控件的触发操作时，还可以在音频转换界面中显示录音暂停控件。进一步地，应用客户端可以响应针对录音暂停控件的触发操作，将目标对象在响应针对录音启动控件的触发操作和响应针对录音暂停控件的触发操作的时间间隔内所录入的音频数据作为第一音频数据，且在音频转换界面中显示录音继续控件。进一步地，应用客户端可以响应针对录音继续控件的触发操作，继续获取目标对象所录入的音频数据。进一步地，应用客户端可以响应针对录音停止控件的触发操作，将目标对象在响应针对录音继续控件的触发操作和响应针对录音停止控件的触发操作的时间间隔内所录入的音频数据作为第二音频数据。进一步地，应用客户端可以对第一音频数据和第二音频数据进行拼接，得到目标文本信息对应的目标音频数据。

可选的，音频转换界面包括音频上传控件。应当理解，应用客户端可以响应针对音频上传控件的触发操作，显示用于选择音频文件的音频选择界面。进一步地，应用客户端可以响应针对音频选择界面的音频文件选择操作，将基于音频文件选择操作所选择的音频文件作为目标音频文件。进一步地，应用客户端可以响应针对音频选择界面的音频文件确认操作，将目标音频文件中的音频数据作为目标文本信息对应的目标音频数据。进一步地，应用客户端可以在音频转换界面中显示目标音频数据对应的音频文件标识。

应当理解，如图6a所示的音频转换界面60a中可以包括音频上传控件62a，应用客户端基于音频上传控件62a获取目标音频数据的具体过程，可以参见上述图4b和图4c所对应实施例中基于文本上传控件43a获取目标文本信息的描述，这里将不再进行赘述。

请再参见图6a和图6b，在应用客户端基于录音启动控件61b或音频上传控件62a的方式得到音频转换界面60c时，音频转换界面60c中可以包括更新录音启动控件62b和更新音频上传控件62c，更新录音启动控件62b可以与录音启动控件61b以相同的方式重新上传更新音频数据，更新音频上传控件62c可以与音频上传控件62a以相同的方式重新上传更新音频数据。其中，更新音频数据可以用于更新目标音频数据。

其中，音频转换界面包括一个或多个候选音色信息。应当理解，应用客户端可以响应针对一个或多个候选音色信息的音色选择操作，将基于音色选择操作所选择的候选音色信息作为目标音色信息。进一步地，应用客户端可以对音频转换界面中的目标音色信息进行突出显示。

为便于理解，请参见图7a，图7a是本申请实施例提供的一种显示音频转换标识的场景示意图。如图7a所示的音频转换界面70a和音频转换界面70b可以为应用客户端在不同时刻的音频转换界面，音频转换界面70a可以为图6b所对应实施例中的音频转换界面60c。其中，应用客户端对应的目标对象可以为对象72a。

如图7a所示，音频转换界面70a中可以包括一个或多个候选音色信息，一个或多个候选音色信息具体可以包括候选音色信息71a、候选音色信息71b、候选音色信息71c和候选音色信息71d。对象72a可以针对一个或多个候选音色信息(例如，候选音色信息71a)执行音色选择操作，这样，应用客户端可以响应对象72a针对候选音色信息71a所执行的音色选择操作，将基于音色选择操作所选择的候选音色信息71a作为目标音色信息。

如图7a所示，应用客户端在响应音色选择操作时，可以将音频转换界面从音频转换界面70a切换至音频转换界面70b，在音频转换界面70b中对目标音色信息71a进行突出显示，即将目标音色信息71a的显示状态设置为选中状态。

步骤S103，获取针对原始文本信息的拼接音频数据。

具体的，应用客户端可以响应针对目标音频数据和目标音色信息的确认操作，获取针对原始文本信息的拼接音频数据。其中，拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；标准音频数据中的音频内容与剩余文本信息相匹配。其中，融合音频数据是由目标音频数据和目标音色信息进行融合得到。

应当理解，在生成拼接音频数据时，应用客户端可以在与目标文本信息相关联的目标区域中显示音频转换标识。其中，音频转换标识用于表征目标文本信息在一个或多个候选音色信息中所对应的目标音色信息。

为便于理解，请参见图7b，图7b是本申请实施例提供的一种显示音频转换标识的场景示意图。如图7b所示的音频转换界面70b即为图7a所对应实施例中的音频转换界面70b，应用界面70c与音频转换界面70b为应用客户端的不同界面。

如图7b所示的音频转换界面70b中可以包括融合确认控件72b，对象72a可以针对目标音频数据和目标音色信息71a执行确认操作(例如，对象72a可以针对融合确认控件72b执行确认操作)，这样，应用客户端可以响应对象72a针对融合确认控件72b所执行的确认操作，可以在与目标文本信息相关联的应用界面70c的目标区域72c中显示音频转换标识72d(即“仿小猪”)。其中，音频转换标识72d用于表征目标文本信息(即“谁知盘中餐”)在一个或多个候选音色信息中所对应的目标音色信息71a。

其中，目标区域72c可以位于应用界面70c中的任意位置，以降低对原始文本信息的展示效果的影响，一般情况下，目标区域72c可以位于目标文本信息的边缘位置，为便于理解，本申请实施例以目标区域72c位于目标文本信息右边位置为例进行说明。

可选的，应用客户端可以响应针对音频转换标识的触发操作，显示音色选择界面。其中，音色选择界面可以包括一个或多个候选音色信息。进一步地，应用客户端可以响应针对一个或多个候选音色信息的触发操作，将基于针对一个或多个候选音色信息的触发操作所选择的候选音色信息作为更新音色信息。进一步地，应用客户端可以响应针对更新音色信息的确认操作，获取针对原始文本信息的更新拼接音频数据。其中，更新拼接音频数据是由更新融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；更新融合音频数据是由目标音频数据和更新音色信息进行融合得到。

可选的，应当理解，在生成更新拼接音频数据时，应用客户端可以在与目标文本信息相关联的目标区域中显示更新音频转换标识。其中，更新音频转换标识用于表征目标文本信息在一个或多个候选音色信息中所对应的更新音色信息。

由此可见，本申请实施例可以通过变声融合技术将目标音频数据和目标音色信息进行融合，得到具有目标音频数据所指示的音频信息和目标音色信息所指示的标准音色发音的融合音频数据，进而将融合音频数据与通过语音合成技术所生成的标准音色发音的标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据。其中，融合音频数据是基于原始文本信息中选择的目标文本信息所生成的，标准音频数据是基于原始文本信息中除目标文本信息之外的剩余文本信息所生成的。因此，本申请实施例可以对具有音频信息和标准音色发音的融合音频数据、以及具有标准音色发音的标准音频数据进行合并，使得生成的拼接音频数据同时满足不具有音频信息的标准音色发音和具有音频信息的标准音色发音相结合的配音诉求，从而可以针对原始文本信息中的不同场景生成具有不同音频信息的音频数据，进而可以在保证配音效率的同时，提高音频创作的丰富度，且提高音频数据的质量。

进一步地，请参见图8，图8是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可以由服务器执行，也可以由应用客户端执行，还可以由服务器和应用客户端共同执行，该服务器可以为上述图2所对应实施例中的服务器20a，该应用客户端可以为上述图2所对应实施例中的应用客户端。为便于理解，本申请实施例以该方法由应用客户端执行为例进行说明。其中，该音频数据处理方法可以包括以下步骤S201-步骤S203：

步骤S201，在与目标文本信息相关联的目标区域中显示音频转换标识；

其中，应用界面包括音频下载控件和音频分享控件。

请再参见图7b，图7b所示的标准音色信息80a可以表示标准音频数据所对应的音色信息，标准音色信息80a可以为“文雅”，且标准音频数据的语速为1.0x(即1倍速)。应用客户端可以响应针对标准音色信息80a的触发操作，获取样本音色信息，通过样本音色信息更新标准音色信息80a。此时，应用客户端可以将标准音频数据所对应的标准音色信息80a更新为样本音色信息。其中，样本音色信息和标准音色信息80a均是从音色库中所获取到的。

可选的，音色库中的同一个音色信息可以对应于不同的方言，例如，音色库中的音色信息“美少女”可以对应于“四川话”，音色信息“美少女”可以对应于“湖南话”。

如图7b所示的音频下载控件80b可以用于下载拼接音频数据，如图7b所示的音频分享控件80c可以用于分享拼接音频数据，应用客户端响应针对音频下载控件80b的触发操作的具体过程可以参见步骤S202，应用客户端响应针对音频分享控件80c的具体过程可以参见步骤S203。此外，应用界面70c中还可以包括音频试听控件80d，音频试听控件80d可以用于试听拼接音频数据，应用客户端在响应针对音频试听控件80d的触发操作时，可以在应用界面70c播放拼接音频数据。

步骤S202，响应针对音频下载控件的触发操作，将拼接音频数据下载至终端磁盘中；

具体的，应用客户端可以响应针对音频下载控件的触发操作，显示音频格式列表。其中，音频格式列表中包括一个或多个音频格式信息。进一步地，应用客户端可以响应针对一个或多个音频格式信息的触发操作，将基于针对一个或多个音频格式信息的触发操作所选择的音频格式作为目标音频格式信息，将具有目标音频格式信息的拼接音频数据下载至终端磁盘中。

其中，音频格式列表可以用于展示拼接音频数据所支持的音频格式信息，例如，MP3(Moving Picture Experts Group Audio Layer III)格式和WAV(Windows MediaAudio)格式。

其中，应用客户端在响应针对音频格式列表的触发操作时，可以将拼接音频数据自动下载到默认目录下，也可以显示目录选择界面，进而在响应针对目标选择界面的目录选择操作时，将拼接音频数据加载至基于目录选择操作所选择的目标目录下。

步骤S203，响应针对音频分享控件的触发操作，对拼接音频数据进行分享。

具体的，应用客户端可以响应针对音频分享控件的触发操作，显示分享平台列表。其中，分享平台列表包括一个或多个分享平台信息。进一步地，应用客户端可以响应针对一个或多个分享平台信息的触发操作，将基于针对一个或多个分享平台信息的触发操作所选择的分享平台信息作为目标分享平台信息，将拼接音频数据分享至目标分享平台信息所属的社交分享平台。

其中，社交分享平台可以为应用客户端内部的分享平台，也可以为应用客户端外部的分享平台(即其他应用客户端中的分享平台)。换言之，应用客户端可以将拼接音频数据分享至应用客户端本身，也可以将拼接音频数据分享至其他应用客户端。

可选的，应用客户端可以响应针对音频分享控件的触发操作，获取拼接音频数据的音频链接。其中，音频链接用于打开拼接音频数据，应用客户端所属终端设备可以在响应针对音频链接的粘贴操作时，显示音频链接，进而在响应针对音频链接的打开操作时，显示音频链接所指向的拼接音频数据。

由此可见，本申请实施例中的目标对象可以通过产品化的平台工具自动制作原始音频数据，通过上传的目标音频数据对原始音频数据进行修正，即调整读音、语气、情感等，使得制作的音频数据更加标准、富有情感、语气丰富。与此同时，目标对象还可以对生成的拼接音频数据进行审核，从而实现大幅降低配音费用成本，提高制作配音音频的用户体验。此外，在生成拼接音频数据之后，目标对象还可以下载、试听或分享拼接音频数据，提高目标对象使用平台工具的用户体验。

进一步地，请参见图9，图9是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可以由服务器执行，也可以由应用客户端执行，还可以由服务器和应用客户端共同执行，该服务器可以为上述图2所对应实施例中的服务器20a，该应用客户端可以为上述图2所对应实施例中的应用客户端。为便于理解，本申请实施例以该方法由应用客户端执行为例进行说明。其中，该音频数据处理方法可以包括以下步骤S301-步骤S307：

步骤S301，在应用界面中显示原始文本信息；

其中，应用客户端在应用界面中显示原始文本信息的具体过程，可以参见上述图4a、图4b和图4c所对应实施例的描述，这里将不再进行赘述。

步骤S302，响应针对原始文本信息的文本选择操作，将基于文本选择操作所选择的文本信息作为目标文本信息；

其中，应用客户端基于文本选择操作确定目标文本信息的具体过程，可以参见上述图5a所对应实施例的描述，这里将不再进行赘述。

步骤S303，响应针对目标文本信息的语音转换操作，显示音频转换界面；

其中，应用客户端基于语音转换操作显示音频转换界面的具体过程，可以参见上述图5b和图5c所对应实施例的描述，这里将不再进行赘述。

步骤S304，在音频转换界面中获取目标音色信息；

其中，应用客户端在音频转换界面中获取目标音色信息的具体过程，可以参见上述图7a所对应实施例的描述，这里将不再进行赘述。

步骤S305，响应针对音频转换界面的音频上传操作，获取目标文本信息对应的目标音频数据；

具体的，应用客户端可以响应针对音频转换界面的音频上传操作，获取与目标文本信息相关联的辅助音频数据。进一步地，应用客户端可以对辅助音频数据进行去噪处理，得到去噪后的辅助音频数据。进一步地，应用客户端可以对去噪后的辅助音频数据进行内容检测，得到去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。进一步地，若内容匹配度大于匹配度阈值，则应用客户端可以将去噪后的辅助音频数据确定为目标文本信息对应的目标音频数据。

其中，辅助音频数据可以为通过录音启动控件和录音停止控件所上传的音频数据，即辅助音频数据可以为目标对象在响应针对录音启动控件的触发操作和响应针对录音停止控件的触发操作的时间间隔内所录入的音频数据。可选的，辅助音频数据可以为通过音频上传控件所上传的音频数据，即辅助音频数据可以为目标对象在音频选择界面所选择目标音频文件中的音频数据。其中，目标音频文件中的音频数据可以为提前录制好的音频数据，也可以为通过模型所生成的具有音频信息的音频数据。

应当理解，应用客户端对辅助音频数据进行去噪处理的具体过程可以描述为：应用客户端可以将辅助音频数据的辅助频率信号输入至去噪网络模型，通过去噪网络模型对辅助频率信号进行去噪处理，得到目标频率信号。进一步地，应用客户端可以获取辅助音频数据的音频属性，通过音频属性对目标频率信号进行还原，得到去噪后的辅助音频数据。

其中，音频属性可以包括但不限于采样率、位深度、时长、通道数信息。通过音频属性对目标频率信息进行还原可以保证在去噪处理后，生成的去噪后的辅助音频数据的采样率、位深度、时长、通道数信息不变。

其中，去噪处理的过程是在频域上进行的，频域信号关心的是频率分布和振幅，因此，去噪的关键是提取出噪声的频谱，然后将含噪语音(即辅助音频数据)根据噪声的频谱做一个反向的补偿运算，从而得到降噪后的语音(即去噪后的辅助音频数据)。在实际应用中，将数字采样信号进行傅里叶变换后，可以得到信号的频谱(即辅助频率信号)，频域上的处理完成后，可以使用傅里叶逆变换将信号由频域转换到时域中。

其中，去噪网络模型可以用于对辅助音频数据进行去噪处理(即降噪)，去噪处理的过程可以对辅助音频数据中频率信号过高或频率信号过低的噪声进行去除，这里的噪声可以有很多种类型，既可以有频谱稳定的白噪声，又可以有不稳定的脉冲噪声和起伏噪声。应当理解，本申请实施例不对去噪网络模型的模型类型进行限定，与此同时，本申请实施例不对去噪处理所使用的具体算法进行限定。

应当理解，应用客户端对去噪后的辅助音频数据进行内容检测的具体过程可以描述为：应用客户端可以确定去噪后的辅助音频数据的音频发音序列和目标文本信息的文本发音序列。进一步地，应用客户端可以将音频发音序列划分为至少两个音频发音子序列，确定每个音频发音子序列相对于文本发音序列的子序列匹配度，将子序列匹配度大于子序列阈值的音频发音子序列，作为匹配发音子序列。进一步地，应用客户端可以确定匹配发音子序列在至少两个音频发音子序列中的比例，将匹配发音子序列在至少两个音频发音子序列中的比例，作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度(即发音完整度)。

其中，音频发音序列和文本发音序列是针对发音音素级别的对比，音频发音序列可以为去噪后的辅助音频数据所对应的音素序列，文本发音序列可以为目标文本信息所对应的音素序列，换言之，去噪后的辅助音频数据所对应的音素序列可以称之为去噪后的辅助音频数据中的音频内容。例如，在目标文本信息为“谁知盘中餐”时，文本发音序列可以为“sheizhipanzhongcan”；在去噪后的辅助音频数据中的音频发音为“谁知盘中餐呀”时，音频发音序列可以为“sheizhipanzhongcanya”。

其中，子序列匹配度可以用于表示每个音频发音子序列的匹配度，内容匹配度可以用于表示音频发音序列的匹配度。若子序列匹配度大于子序列阈值，则可以确定音频发音子序列与文本发音序列匹配；若内容匹配度大于匹配度阈值，则可以确定音频发音序列与文本发音序列匹配。应当理解，本申请实施例不对子序列阈值和匹配度阈值的具体取值进行限定，例如，子序列阈值可以为90％，匹配度阈值可以为60％。

其中，应用客户端可以将每个音频发音子序列与文本发音序列进行比较，确定每个音频发音子序列分别对应的子序列匹配度。可选的，应用客户端也可以将文本发音序列划分为至少两个文本发音子序列，将每个音频发音子序列与每个文本发音子序列进行比较，从而确定每个音频发音子序列分别对应的子序列匹配度。其中，至少两个文本发音子序列的数量与至少两个音频发音子序列的数量可以相同、也可以不同。

其中，应用客户端可以根据音频发音子序列的序列长度，将文本发音序列划分为至少两个文本发音子序列；可选的，应用客户端也可以根据音频发音子序列在去噪后的辅助音频数据中的时长，将文本发音序列划分为至少两个文本发音子序列。其中，每个音频发音子序列的序列长度可以是相同的、也可以是不同的，每个文本发音子序列的序列长度可以是相同的、也可以是不同的。

其中，可以理解的是，应用客户端可以使用N-Gram模型获取与每个音频发音子序列相关联的音频候选序列，获取与每个文本发音子序列相关联的文本候选序列。例如，本申请实施例可以设置保留的最大N-Gram为4-Gram，此时，音频候选序列和文本候选序列中的音素的数量可以为1个、2个、3个或4个。这样，应用客户端可以分别确定1-Gram、2-Gram、3-Gram和4-Gram下的音频候选序列和文本候选序列之间的候选序列相似度，进而对1-Gram、2-Gram、3-Gram和4-Gram下的候选序列相似度进行加权求和，得到音频发音子序列对应的子序列匹配度。

可选的，应用客户端还可以无需对音频发音序列和文本发音序列进行划分，而是直接确定音频发音序列和文本发音序列之间的序列相似度，将序列相似度作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配。应当理解，申请实施例不对确定序列相似度的具体方法进行限定，例如，本申请实施例可以通过余弦相似度(CosineSimilarity)确定音频发音序列和文本发音序列之间的序列相似度。

可选的，应当理解，应用客户端对去噪后的辅助音频数据进行内容检测的具体过程可以描述为：应用客户端可以对去噪后的辅助音频数据进行语音识别，得到去噪后的辅助音频数据的音频文本信息。进一步地，应用客户端可以确定音频文本信息和目标文本信息之间的文本相似度，将文本相似度作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。

其中，应用客户端可以通过ASR(Automatic Speech Recognition，即自动语音识别)识别得到去噪后的辅助音频数据的音频文本信息，换言之，去噪后的辅助音频数据的音频文本信息可以称之为去噪后的辅助音频数据中的音频内容。例如，目标文本信息可以为“谁知盘中餐”，去噪后的辅助音频数据的音频文本信息可以为“谁知盘中餐呀”。应当理解，本申请实施例不对确定文本相似度的具体方法进行限定，例如，本申请实施例可以通过余弦相似度(Cosine Similarity)确定音频文本信息和目标文本信息之间的文本相似度。

可选的，若内容匹配度小于或等于匹配度阈值，则应用客户端可以在音频转换界面中显示错误提示信息。可选的，若内容匹配度小于或等于匹配度阈值，则应用客户端可以显示错误提示界面，在错误提示界面中显示错误提示信息。例如，错误提示信息可以为“上传的音频与文字不匹配，请重新上传音频！”。其中，若内容匹配度小于或等于匹配度阈值，则需要重新上传目标音频数据。

步骤S306，响应针对目标音频数据和目标音色信息的确认操作，对目标音频数据和目标音色信息进行融合，得到融合音频数据；

具体的，应用客户端可以将目标音频数据输入至融合网络模型，通过融合网络模型提取目标音频数据中的音频文本信息和音频特征。其中，音频特征包括情感特征、语气特征或者韵律特征中的至少一个。进一步地，应用客户端可以在融合网络模型中，对音频文本信息、音频特征和目标音色信息进行融合，得到融合音频数据。

其中，在音频特征包括情感特征、语气特征和韵律特征时，应用客户端可以对音频文本信息、情感特征、语气特征、韵律特征和目标音色信息进行融合，得到具有语气信息、情感信息和韵律信息的融合音频数据。可选的，在音频特征包括语气特征和韵律特征时，应用客户端可以对音频文本信息、语气特征、韵律特征和目标音色信息进行融合，得到具有语气信息和韵律信息的融合音频数据。

应当理解，本申请实施例不对融合网络模型的模型类型进行限定，与此同时，本申请实施例不对融合目标音频数据和目标音色信息所使用的具体算法进行限定。

步骤S307，获取剩余文本信息对应的标准音频数据，对融合音频数据和标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据。

具体的，应用客户端可以将原始文本信息输入至语音转换网络模型，通过语音转换网络模型对原始文本信息进行语音转换，得到原始文本信息对应的原始音频数据。进一步地，应用客户端可以根据目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置，将原始音频数据在音频起始位置之前的音频数据以及在音频结尾位置之后的音频数据，作为剩余文本信息对应的标准音频数据。进一步地，应用客户端可以从融合音频数据中提取候选音频数据，将候选音频数据拼接至标准音频数据中的音频起始位置和音频结尾位置，得到针对原始文本信息的拼接音频数据。

应当理解，本申请实施例不对语音转换网络模型的模型类型进行限定。其中，应用客户端可以将原始音频数据在音频起始位置之前的音频数据作为第一标准音频数据，将原始音频数据在音频结尾位置之后的音频数据作为第二标准音频数据。其中，第一标准音频数据和第二标准音频数据可以统称为标准音频数据。这样，应用客户端可以将候选音频数据的首部拼接至第一标准音频数据的尾部(即音频起始位置)，将候选音频数据的尾部拼接至第二标准音频数据的首部(即音频结尾位置)。

可以理解的是，本申请实施例中的原始音频数据可以具有相同的音频信息，这里的音频信息可以包括但不限于语气信息、情感信息和韵律信息。可选的，本申请实施例中的原始音频数据还可以具有不同的音频信息，不同的音频信息是在通过语音转换网络模型将原始文本信息转换为原始音频数据时所生成的，即语音转换网络模型可以将原始文本信息转换为原始音频数据的同时，预测原始文本信息中的不同文本信息所对应的不同音频信息。此时，由于语音转换网络模型所预测的音频信息可能不准确，所以本申请实施例可以用于对原始音频数据中的不同音频信息进行修改。

可选的，若目标文本信息在原始文本信息中的位置信息为首部位置(即目标文本信息位于原始文本信息的首部)，则应用客户端可以在原始音频数据中确定针对目标文本信息的音频结尾位置，将原始音频数据在音频结尾位置之后的音频数据，作为剩余文本信息对应的标准音频数据。进一步地，应用客户端可以从融合音频数据中提取候选音频数据，将候选音频数据拼接至标准音频数据中的音频结尾位置，即将候选音频数据拼接至标准音频数据之前，得到针对原始文本信息的拼接音频数据。

可选的，同理，若目标文本信息在原始文本信息中的位置信息为尾部位置(即目标文本信息位于原始文本信息的尾部)，则应用客户端可以在原始音频数据中确定针对目标文本信息的音频起始位置，将原始音频数据在音频起始位置之前的音频数据，作为剩余文本信息对应的标准音频数据。进一步地，应用客户端可以从融合音频数据中提取候选音频数据，将候选音频数据拼接至标准音频数据中的音频起始位置，即将候选音频数据拼接至标准音频数据之后，得到针对原始文本信息的拼接音频数据。

应当理解，应用客户端可以获取原始音频数据的原始时长，以及原始文本数据中的每个单位文本的单位时长。进一步地，应用客户端可以根据原始时长、单位时长和目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置。

其中，候选音频数据可以为融合音频数据中的有声段(即候选音频数据可以为融合音频数据中的具有声音的音频数据)，根据语音转换网络模型预测出的原始音频数据的原始时长和每个单位文本的单位时长，可以计算候选音频数据在原始音频数据中的对应位置，给出该对应位置的起始时间(即音频起始位置在原始音频数据中的时间)和结束时间(即音频结尾位置在原始音频数据中的时间)，最后通过候选音频数据对该时间段内的音频数据进行替换，完成声音转换流程，输出最终声音转换后的音频数据(即拼接音频数据)。

应当理解，应用客户端获取融合音频数据的融合波形数据，根据融合波形数据确定融合音频数据中的静音时间段。进一步地，应用客户端可以根据静音时间段对融合音频数据进行裁切，将裁切掉静音时间段所对应的音频数据的融合音频数据作为候选音频数据。

可以理解的是，为保证融合音频数据在原始音频数据中的前后音频数据的过渡自然，应用客户端可以对变声后音频数据(即融合音频数据)的前后静音部分进行裁切，只保留有声段部分(即候选音频数据)。可选的，应用客户端还可以在融合音频数据中的静音部分进行裁切，得到候选音频数据。

其中，融合波形数据可以用于生成融合音频数据的音频波形图，在音频波形图中，首尾的静音部分声波的振幅很小，而有效语音部分的振幅比较大。因此，通过融合波形数据可以去除融合音频数据中的静音部分，得到有声的候选音频数据。

可选的，若目标对象在原始文本信息中所选择的目标文本信息为原始文本信息本身，即基于文本选择操作所选择的文本信息为原始文本信息，则应用客户端可以生成针对原始文本信息的融合音频数据，进而直接将融合音频数据作为针对原始文本信息的拼接音频数据。

可选的，应用客户端还可以直接将剩余文本信息输入至语音转换网络模型，通过语音转换网络模型对剩余文本信息进行语音转换，得到剩余文本信息对应的标准音频数据。

为便于理解，请参见图10，图10是本申请实施例提供的一种音频合成方案的流程示意图。如图10所示的流程图主要包括文本导入(即步骤S11)、选择需要变声的文本片段(即步骤S12)、录制/上传音频(即步骤S13和步骤S14)、选择变声音色(即步骤S15)、变声处理并替换音频片段(即步骤S16)、合成全文音频并下载音频(即步骤S17)等主要处理步骤。

如图10所示，应用客户端可以执行步骤S11，在应用界面中显示原始文本信息，进而执行步骤S12，响应针对原始文本信息的文本选择操作，将基于文本选择操作所选择的文本信息作为目标文本信息(即需要变声的文本片段)，进而显示针对目标文本信息的音频转换界面。进一步地，应用客户端可以执行步骤S13或步骤S14，响应针对音频转换界面的音频上传操作，获取目标文本信息对应的目标音频数据，这里的目标音频数据可以为通过步骤S13所录制的音频数据、也可以为通过步骤S14所上传的文件中的音频数据。

如图10所示，应用客户端可以执行步骤S15，在音频转换界面的一个或多个候选音色信息中选择目标音色信息，进而执行步骤S16，响应针对目标音频数据和目标音色信息的确认操作，对目标音频数据和目标音色信息进行融合，得到融合音频数据。其中，融合音频数据可以用于替换目标文本信息在原始音频数据中所对应的音频数据。

如图10所示，应用客户端可以执行步骤S17，获取剩余文本信息对应的标准音频数据，对融合音频数据和标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据(即全文音频)，进而可以下载该全文音频。

为便于理解，请参见图11，图11是本申请实施例提供的一种音频变声方案的流程示意图。如图11所示的流程图主要描述目标对象在上传目标音频数据之后，在完成声音转换功能之前，声音转换模块的具体执行功能和各功能的实现方式。其中，声音转换模块主要由音频去噪模块(即步骤S23)、内容检测模块(即步骤S24)、变声模块(即步骤S26)、音频拼接模块(即步骤S27)四部分组成。

如图11所示，应用客户端可以执行步骤S21，该步骤S21可以表示在终端设备中打开应用客户端。进一步地，应用客户端可以执行步骤S22，通过步骤S22接收目标对象上传的辅助音频数据，这里的辅助音频数据可以为目标对象所录制的音频数据、也可以为所上传的文件中的音频数据。进一步地，应用客户端可以执行步骤S23，通过步骤S23中的去噪模块对辅助音频数据进行去噪处理，该去噪模块可以用于去除辅助音频数据内部的噪声，得到去噪后的辅助音频数据。

进一步地，应用客户端可以执行步骤S24，通过步骤S24中的内容检测模块对去噪后的辅助音频数据进行内容检测，该内容检测模块可以以去噪后的辅助音频数据和目标对象的选中文本(即目标文本信息)作为输入，用于对比去噪后的辅助音频数据的内部文本内容(即去噪后的辅助音频数据中的音频内容，即音频发音序列或音频文本信息)与目标文本信息是否一致，得到内容检测结果。

其中，应用客户端可以执行步骤S25，通过步骤S25对内容检测结果进行判断，若内容检测结果指示去噪后的辅助音频数据中的音频内容与目标文本信息不一致，则应用客户端可以执行步骤S29，通过步骤S29返回错误标记，提示目标对象上传音频内容不一致，且提示目标对象重新上传目标音频数据。进一步地，应用客户端可以执行步骤S30，在步骤S30中确定目标对象是否重新上传目标音频数据，若目标对象重新上传目标音频数据，则执行步骤S22；若目标对象未重新上传目标音频数据，则执行步骤S28，结束流程。

可选的，若内容检测结果指示去噪后的辅助音频数据中的音频内容与目标文本信息一致，则应用客户端可以执行步骤S26，通过步骤S26中的变声模块对去噪后的辅助音频数据(即目标音频数据)和目标音色信息进行融合，即通过目标音色信息对目标音频数据进行变声。该变声模块可以以目标音频数据和目标音色作为输入，负责将上传的带有情感、语气和韵律的目标音频数据中的音色信息，转换成目标对象需要的目标音色信息，同时保留目标音频数据中的情感、语气和韵律信息，完成变声功能，输出变声后的音频(即融合音频数据)。在变声模块的内部流程中，需要从目标音频数据中提取与内容(即音频文本信息)、情感、语气、韵律信息有关的特征，这些信息的提取会受到噪音的干扰，进而影响到声音转换(即变声)效果，所以需要在变声模块之前添加去噪模块。其中，情感相关信息会通过基频特征予以表征。

进一步地，应用客户端可以执行步骤S27，通过步骤S27中的音频拼接模块根据目标对象选中的文本内容(即目标文本信息)的位置，将变声模块输出的融合音频数据，拼接在原始音频数据中，即通过融合音频数据替换原始音频数据的对应部分，最终形成目标对象需要的内容音频(即拼接音频数据)。可以理解的是，在目标对象不需要对拼接音频数据进行修改时，应用客户端执行步骤S28，流程结束。

由此可见，本申请实施例提供了一种将机器配音与人工配音相结合的技术。首先，将原始文本信息导入文本配音工具(即应用客户端)中；其次，基于语音合成算法将原始文本信息合成为标准音色语音音频(即原始音频数据)；再次，选中原始文本信息中需要用丰富情感朗读的文本(即目标文本信息)，针对目标文本信息进行人工有情感有语气的朗读；然后，通过变声技术提取人工朗读片段的情感、语气和韵律，将此部分情感、语气和韵律与标准音色模型(即目标音色信息)进行结合，生成具有人工朗读情感、语气和韵律的合成音色语音音频(即融合音频数据)；最后，将生成的具有人工朗读情感、语气和韵律的合成音色语音音频，与其他未被选中的标准音色语音音频(即标准音频数据)，按照原文文本顺序进行拼接，形成同时具有人工朗读情感、语气和韵律的合成音色音频(融合音频数据)和标准音频数据的音频文件。

进一步地，请参见图12，图12是本申请实施例提供的一种音频数据处理装置的结构示意图，该音频数据处理装置1可以包括：文本显示模块11，音频获取模块12，音频拼接模块13；

文本显示模块11，用于在应用界面中显示原始文本信息；

其中，文本显示模块11，具体用于显示应用界面；应用界面包括文本录入区域；

文本显示模块11，具体用于响应针对文本录入区域的输入操作，在文本录入区域中显示所输入的原始文本信息。

其中，文本显示模块11，具体用于显示应用界面；应用界面包括文本上传控件；

文本显示模块11，具体用于响应针对文本上传控件的触发操作，显示用于选择文本文件的文本选择界面；

文本显示模块11，具体用于响应针对文本选择界面的文本文件选择操作，将基于文本文件选择操作所选择的文本文件作为目标文本文件；

文本显示模块11，具体用于响应针对文本选择界面的文本文件确认操作，将目标文本文件中的文本信息作为原始文本信息，在应用界面中显示原始文本信息。

音频获取模块12，用于获取目标音色信息和目标文本信息对应的目标音频数据；目标文本信息是指在原始文本信息中所选择的文本信息；目标音频数据中的音频内容与目标文本信息相匹配；

其中，音频获取模块12包括：文本选择单元121，语音转换单元122，音色获取单元123，音频获取单元124；

文本选择单元121，用于响应针对原始文本信息的文本选择操作，将基于文本选择操作所选择的文本信息作为目标文本信息；

语音转换单元122，用于响应针对目标文本信息的语音转换操作，显示音频转换界面；

其中，应用界面包括第一语音转换控件；

语音转换单元122，具体用于响应针对第一语音转换控件的触发操作，显示音频转换界面。

其中，语音转换单元122，具体用于响应针对目标文本信息的触发操作，显示文本控制列表；文本控制列表包括第二语音转换控件；

语音转换单元122，具体用于响应针对第二语音转换控件的触发操作，显示音频转换界面。

音色获取单元123，用于在音频转换界面中获取目标音色信息；

其中，音频转换界面包括一个或多个候选音色信息；

音色获取单元123，具体用于响应针对一个或多个候选音色信息的音色选择操作，将基于音色选择操作所选择的候选音色信息作为目标音色信息；

音色获取单元123，还具体用于对音频转换界面中的目标音色信息进行突出显示。

音频获取单元124，用于响应针对音频转换界面的音频上传操作，获取目标文本信息对应的目标音频数据。

其中，音频转换界面包括录音启动控件；

音频获取单元124，具体用于响应针对录音启动控件的触发操作，在音频转换界面中显示录音停止控件；

音频获取单元124，具体用于响应针对录音停止控件的触发操作，获取目标对象在响应针对录音启动控件的触发操作和响应针对录音停止控件的触发操作的时间间隔内所录入的音频数据，将目标对象所录入音频数据作为目标文本信息对应的目标音频数据；

音频获取单元124，还具体用于在音频转换界面中显示目标音频数据对应的音频文件标识。

其中，音频转换界面包括音频上传控件；

音频获取单元124，具体用于响应针对音频上传控件的触发操作，显示用于选择音频文件的音频选择界面；

音频获取单元124，具体用于响应针对音频选择界面的音频文件选择操作，将基于音频文件选择操作所选择的音频文件作为目标音频文件；

音频获取单元124，具体用于响应针对音频选择界面的音频文件确认操作，将目标音频文件中的音频数据作为目标文本信息对应的目标音频数据；

音频获取单元124，还具体用于在音频转换界面中显示目标音频数据对应的音频文件标识。

其中，音频获取单元124包括：音频上传子单元1241，去噪处理子单元1242，内容检测子单元1243，音频确定子单元1244；

音频上传子单元1241，用于响应针对音频转换界面的音频上传操作，获取与目标文本信息相关联的辅助音频数据；

去噪处理子单元1242，用于对辅助音频数据进行去噪处理，得到去噪后的辅助音频数据；

其中，去噪处理子单元1242，具体用于将辅助音频数据的辅助频率信号输入至去噪网络模型，通过去噪网络模型对辅助频率信号进行去噪处理，得到目标频率信号；

去噪处理子单元1242，具体用于获取辅助音频数据的音频属性，通过音频属性对目标频率信号进行还原，得到去噪后的辅助音频数据。

内容检测子单元1243，用于对去噪后的辅助音频数据进行内容检测，得到去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度；

其中，内容检测子单元1243，具体用于确定去噪后的辅助音频数据的音频发音序列和目标文本信息的文本发音序列；

内容检测子单元1243，具体用于将音频发音序列划分为至少两个音频发音子序列，确定每个音频发音子序列相对于文本发音序列的子序列匹配度，将子序列匹配度大于子序列阈值的音频发音子序列，作为匹配发音子序列；

内容检测子单元1243，具体用于确定匹配发音子序列在至少两个音频发音子序列中的比例，将匹配发音子序列在至少两个音频发音子序列中的比例，作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。

其中，内容检测子单元1243，具体用于对去噪后的辅助音频数据进行语音识别，得到去噪后的辅助音频数据的音频文本信息；

内容检测子单元1243，具体用于确定音频文本信息和目标文本信息之间的文本相似度，将文本相似度作为去噪后的辅助音频数据中的音频内容和目标文本信息之间的内容匹配度。

音频确定子单元1244，用于若内容匹配度大于匹配度阈值，则将去噪后的辅助音频数据确定为目标文本信息对应的目标音频数据。

其中，音频上传子单元1241，去噪处理子单元1242，内容检测子单元1243和音频确定子单元1244的具体实现方式，可以参见上述图9所对应实施例中对步骤S305的描述，这里将不再进行赘述。

其中，音频获取单元124，还具体用于若内容匹配度小于或等于匹配度阈值，则在音频转换界面中显示错误提示信息；或者，

音频获取单元124，还具体用于若内容匹配度小于或等于匹配度阈值，则显示错误提示界面，在错误提示界面中显示错误提示信息。

其中，文本选择单元121，语音转换单元122，音色获取单元123和音频获取单元124的具体实现方式，可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再进行赘述。

音频拼接模块13，用于获取针对原始文本信息的拼接音频数据；拼接音频数据是由融合音频数据和剩余文本信息对应的标准音频数据进行拼接得到；剩余文本信息为原始文本信息中除目标文本信息之外的文本信息；融合音频数据是由目标音频数据和目标音色信息进行融合得到；标准音频数据中的音频内容与剩余文本信息相匹配。

其中，音频拼接模块13包括：融合单元131，拼接单元132；

融合单元131，用于响应针对目标音频数据和目标音色信息的确认操作，对目标音频数据和目标音色信息进行融合，得到融合音频数据；

其中，融合单元131，具体用于将目标音频数据输入至融合网络模型，通过融合网络模型提取目标音频数据中的音频文本信息和音频特征；音频特征包括情感特征、语气特征或者韵律特征中的至少一个；

融合单元131，具体用于在融合网络模型中，对音频文本信息、音频特征和目标音色信息进行融合，得到融合音频数据。

拼接单元132，用于获取剩余文本信息对应的标准音频数据，对融合音频数据和标准音频数据进行拼接，得到针对原始文本信息的拼接音频数据；

其中，拼接单元132包括：语音转换子单元1321，位置确定子单元1322，音频拼接子单元1323；

语音转换子单元1321，用于将原始文本信息输入至语音转换网络模型，通过语音转换网络模型对原始文本信息进行语音转换，得到原始文本信息对应的原始音频数据；

位置确定子单元1322，用于根据目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置，将原始音频数据在音频起始位置之前的音频数据以及在音频结尾位置之后的音频数据，作为剩余文本信息对应的标准音频数据；

其中，位置确定子单元1322，具体用于获取原始音频数据的原始时长，以及原始文本数据中的每个单位文本的单位时长；

位置确定子单元1322，具体用于根据原始时长、单位时长和目标文本信息在原始文本信息中的位置信息，在原始音频数据中确定针对目标文本信息的音频起始位置和音频结尾位置。

音频拼接子单元1323，用于从融合音频数据中提取候选音频数据，将候选音频数据拼接至标准音频数据中的音频起始位置和音频结尾位置，得到针对原始文本信息的拼接音频数据。

其中，音频拼接子单元1323，具体用于获取融合音频数据的融合波形数据，根据融合波形数据确定融合音频数据中的静音时间段；

音频拼接子单元1323，具体用于根据静音时间段对融合音频数据进行裁切，将裁切掉静音时间段所对应的音频数据的融合音频数据作为候选音频数据。

其中，语音转换子单元1321，位置确定子单元1322和音频拼接子单元1323的具体实现方式，可以参见上述图9所对应实施例中对步骤S307的描述，这里将不再进行赘述。

音频拼接模块13，还具体用于在生成拼接音频数据时，在与目标文本信息相关联的目标区域中显示音频转换标识；音频转换标识用于表征目标文本信息在一个或多个候选音色信息中所对应的目标音色信息。

其中，融合单元131和拼接单元132的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

其中，应用界面包括音频下载控件和音频分享控件；

音频数据处理装置1，还具体用于响应针对音频下载控件的触发操作，将拼接音频数据下载至终端磁盘中；

音频数据处理装置1，还具体用于响应针对音频分享控件的触发操作，对拼接音频数据进行分享。

其中，文本显示模块11，音频获取模块12和音频拼接模块13的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S103、图8所对应实施例中对步骤S201-步骤S203、以及图9所对应实施例中对步骤S301-步骤S307的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，在一些实施例中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在应用界面中显示原始文本信息；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图8和图9所对应实施例中对音频数据处理方法的描述，也可执行前文图12所对应实施例中对音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3、图8和图9所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3、图8和图9所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张心愿;张晶晶;刘恺;李栋梁;程龙;郎勇;许亚东;刘皓冬;姜鹏;王思远;
专利申请人：腾讯科技(深圳)有限公司;

上一篇：一种具有滤光功能的隔热温差测试装置
下一篇：摄像模组和电子设备