音频的生成方法、装置、可读存储介质和电子设备

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及AI音频生成领域，具体而言，涉及一种音频的生成方法、音频的生成装置、计算机可读存储介质和电子设备。

背景技术

现有的AI音频生成技术依托当前较为成熟的生成式人工智能(AIGC)技术来实现，但是目前手机系统音频的播放缺乏情感化交互，只是机械地播放预设音频，即同一段音频在不同天气情况下、不同的情绪表达下用户也会有不一样的感受，因此传统的播放方式不能满足用户丰富的情感诉求，交互方式过于生硬。

发明内容

本申请的主要目的在于提供一种音频的生成方法、音频的生成装置、计算机可读存储介质和电子设备，以至少解决现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

为了实现所述目的，根据本申请的一个方面，提供了一种音频的生成方法，包括：获取音频标签集，所述音频标签集包括至少一个音频标签，所述音频标签用于表征以下之一：日期、节日、天气情况、情绪；根据所述音频标签集生成初始音频集，所述初始音频集包括至少一个初始音频；根据音频类型对所述初始音频集中的至少一个所述初始音频进行调参处理，得到目标音频集，所述目标音频集包括多种所述音频类型的所述目标音频，且各种所述音频类型的所述目标音频至少有一个，所述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。

可选地，获取音频标签集，包括：设置最大选择次数，所述最大选择次数为预先可选择所述音频标签的最大次数，其中，一次可选择多个所述音频标签；随机选取预设个所述音频标签作为第一次选择的预备标签集；根据当前次选择的所述音频标签，确定下一次选择的所述预备标签集，其中，下一次选择的所述预备标签集与当前次选择的所述音频标签存在映射关系；将每一次选择的全部所述音频标签确定为所述音频标签集，其中，选择所述音频标签的次数小于或者等于所述最大选择次数，当前次选择的任意一个所述音频为从当前次选择的所述预备标签集中选择得到的。

可选地，根据当前次选择的所述音频标签，确定下一次选择的预备标签集，包括：获取当前次选择的所述音频标签的标签类型和所述音频标签的类型指数，所述音频标签的类型指数表征所述音频标签在对应的所述标签类型的预设方向上的程度指数；根据所述音频标签的标签类型和所述音频标签的类型指数，确定下一次选择的所述预备标签集，其中，第一类型匹配度小于或者等于预设类型匹配度，第一指数匹配度小于或者等于预设指数匹配度，所述第一类型匹配度为下一次选择的所述预备标签集中的各所述音频标签的标签类型与当前次选择的所述音频标签的标签类型的匹配度，所述第一指数匹配度为下一次选择的所述预备标签集中的各所述音频标签的类型指数与当前次选择的所述音频标签的类型指数的匹配度。

可选地，所述初始音频集仅包括一个所述初始音频，根据音频类型对所述初始音频集中的至少一个所述初始音频进行调参处理，得到目标音频集，包括：获取各所述音频类型对应的音频参数，所述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；根据多种音频类型，对所述初始音频的音频参数进行处理，得到多个不同音频类型的所述目标音频，以使得各所述目标音频的音频参数与所述音频类型对应的所述音频参数的匹配度大于或者等于预设音频匹配度；将音频类型不同的各所述目标音频的集合，确定为所述目标音频集。

可选地，所述初始音频集包括多个所述初始音频，根据音频类型对所述初始音频集中的至少一个所述初始音频进行调参处理，得到目标音频集，包括：获取各所述音频类型对应的音频参数，所述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；根据多种音频类型，分别对各所述初始音频的音频参数进行处理，得到多个不同音频类型的所述目标音频，以使得各所述目标音频的音频参数与所述音频类型对应的所述音频参数的匹配度大于或者等于预设音频匹配度，其中，所述初始音频和所述目标音频一一对应；将音频类型不同的各所述目标音频的集合，确定为所述目标音频集。

可选地，在根据音频类型对所述初始音频集中的至少一个所述初始音频进行调参处理，得到目标音频集之后，所述方法还包括：获取各所述目标音频的满意度评分，所述满意度评分为用户对一个所述目标音频的满意度的评分，所述满意度评分与所述目标音频一一对应；在所述目标音频的满意度评分大于或者等于预设评分的情况下，保存对应的所述目标音频；在所述目标音频的满意度评分小于所述预设评分，且所述初始音频集中仅包括一个所述初始音频的情况下，重新对所述初始音频进行处理，得到新的所述目标音频；在所述目标音频的满意度评分小于所述预设评分，且所述初始音频集中包括多个所述初始音频的情况下，对任意一个非目标初始音频进行处理，得到新的所述目标音频，其中，所述非目标初始音频为生成所述目标音频时无需进行处理的所述初始音频。

可选地，根据所述音频标签集生成初始音频集，包括：构建开源模型，其中，所述开源模型是使用多组训练数据训练得到的，所述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频标签以及与所述历史音频标签对应的历史初始音频集；根据所述开源模型和所述音频标签集，确定所述初始音频集。

根据本申请的另一方面，提供了一种音频的生成装置，包括：获取单元，用于获取音频标签集，所述音频标签集包括至少一个音频标签，所述音频标签用于表征以下之一：日期、节日、天气情况、情绪；生成单元，用于根据所述音频标签集生成初始音频集，所述初始音频集包括至少一个初始音频；处理单元，用于根据音频类型对所述初始音频集中的至少一个所述初始音频进行调参处理，得到目标音频集，所述目标音频集包括多种所述音频类型的所述目标音频，且各种所述音频类型的所述目标音频至少有一个，所述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的音频的生成方法。

根据本申请的另一方面，提供了一种电子设备，包括：一个或多个处理器，存储器，以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的音频的生成方法。

应用本申请的技术方案，上述音频的生成方法，首先获取音频标签集，音频标签集包括至少一个音频标签，音频标签为预先选择得到的，音频标签用于表征以下之一：日期、节日、天气情况、情绪；之后根据音频标签集生成初始音频集，初始音频集包括至少一个初始音频，一个初始音频为根据音频标签集中所有的音频标签得到的初始AI音频；最后根据音频类型对初始音频集中的至少一个初始音频进行调参处理，得到目标音频集，目标音频集包括多种音频类型的目标音频，且各种音频类型的目标音频至少有一个，音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。该方法结合天气预报和用户预先选择的音频标签，生成匹配于这些特征的音频，包含手机消息提示音、系统提示音、闹铃、手机铃声等，增强与现实的关联度，提升用户体验，解决了现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例中提供的一种执行音频的生成方法的移动终端的硬件结构框图；

图2示出了根据本申请的实施例提供的一种音频的生成方法的流程示意图；

图3示出了根据本申请的实施例提供的一种音频的生成装置的结构框图。

其中，上述附图包括以下附图标记：

102、处理器；104、存储器；106、传输设备；108、输入输出设备。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

人工智能：Artificial Intelligence，简称AI。

正如背景技术中所介绍的，现有的AI音频生成缺乏情感化交互，只是机械地播放预设音频，为解决现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题，本申请的实施例提供了一种音频的生成方法、音频的生成装置、计算机可读存储介质和电子设备。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种音频的生成方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中音频的生成方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的音频的生成方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本申请实施例的音频的生成方法的流程图。如图2所示，该方法包括以下步骤：

步骤S201，获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；

具体地，终端设备(例如：手机)会占空少量网络资源，并在每日早间开机时自动播报天气等讯息，并弹出今日心情的卡片标签，用户可以随意选择标签，卡片内容可以是心情、干劲、网络流行语等等，用户选择当日的标签后系统根据天气和标签提炼出匹配用户心情的关键词，并根据关键词生成成套的AI音频。

其中，音频标签可以为用户根据自身喜好或者习惯预先选择得到的，也可以为控制器根据历史数据计算得到的，历史数据包括用户历史时间段内选择的历史音频标签(可以表征用户的喜好或者习惯)。控制器根据计算得到的当前的音频标签与用户历史时间段内选择的历史音频标签具有一定关联性，这样可以更符合用户的喜好和习惯，提高用户满意度。

在执行本实施例的步骤之前，需要先架设硬件设备(即服务器，例如：高性能主机、音频素材库，数据标注信息等等)，并在硬件设备上部署AI音频生成工具的运行环境；装载各类匹配天气、心情的素材等，完成后利用服务器分发至手机终端。

其中，上述步骤S201的具体实施步骤如下：

步骤S301，设置最大选择次数，上述最大选择次数为预先可选择上述音频标签的最大次数，其中，一次可选择多个上述音频标签；

步骤S302，随机选取预设个上述音频标签作为第一次选择的预备标签集；

其中，第一次选择的上述预备标签集至少包括第一次选择的所有上述音频标签，在首次使用AI音频生成功能的过程中，用户第一次选择时采用的预备标签集中的音频标签为控制器随机选取得到的，而在后续再使用AI音频生成功能的过程中，用户第一次选择时采用的预备标签集中的音频标签为控制器根据历史数据计算选取得到的可以一定程度上表征用户喜好与习惯的音频标签，历史数据包括用户历史时间段内选择的历史音频标签(可以表征用户的喜好或者习惯)。

步骤S303，根据当前次选择的上述音频标签，确定下一次选择的上述预备标签集，其中，下一次选择的上述预备标签集与当前次选择的上述音频标签存在映射关系；

其中，用户在使用AI音频生成功能的过程中，可以多次选择音频标签，每一次提供给用户选择的预备标签集均与上一次用户选择得到的音频标签具有一定的关联性，即根据用户上一次选择得到的音频标签，得到当前次提供给用户选择的预备标签集。这样可以使用户快速高效的选择到满意的音频标签，提高生成音频的效率，且能提升用户体验。例如：用户第一次选择了“心情”标签，则第二次提供给用户选择的预备标签集可以包括：“开心”、“难过”等。

步骤S304，将每一次选择的全部上述音频标签确定为上述音频标签集，其中，选择上述音频标签的次数小于或者等于上述最大选择次数，当前次选择的任意一个上述音频为从当前次选择的上述预备标签集中选择得到的。

具体地，设置最大选择次数可以减少系统的冗余，简单高效的提取匹配度最高的标签，避免选择次数过高导致流程过于繁琐导致用户体验感较差的问题。通过用户缓则音频标签的形式生成音频文件可以满足用户的情感需求，基于情感化指向性及时生成，可以根据用户当天的行为输入针对性地生成音频，以满足用户的交互体验需求。

其中，最大选择次数一般为7次，每次可选择的标签项一般为5个，用户选择完当日的标签后，系统根据当日天气、时令或节日结合标签反映出的用户心情状态，提炼出用于音乐生成的关键词，并根据关键词生成成套的AI音频；

其中，上述步骤S303的具体实施步骤如下：

步骤S3031，获取当前次选择的上述音频标签的标签类型和上述音频标签的类型指数，上述音频标签的类型指数表征上述音频标签在对应的上述标签类型的预设方向上的程度指数；

步骤S3032，根据上述音频标签的标签类型和上述音频标签的类型指数，确定下一次选择的上述预备标签集，其中，第一类型匹配度小于或者等于预设类型匹配度，第一指数匹配度小于或者等于预设指数匹配度，上述第一类型匹配度为下一次选择的上述预备标签集中的各上述音频标签的标签类型与当前次选择的上述音频标签的标签类型的匹配度，上述第一指数匹配度为下一次选择的上述预备标签集中的各上述音频标签的类型指数与当前次选择的上述音频标签的类型指数的匹配度。

具体地，通过每次选择的音频标签之间的关联性，可以使用户快速高效的选择到满意的音频标签，提高生成音频的效率，且能提升用户体验。由于同一段音频在不同情绪下用户也会有不一样的感受，因此传统的播放方式不能满足用户丰富的情感诉求，交互方式过于生硬，上述步骤更好的避免了目前手机系统音频的播放缺乏情感化交互，只是机械地播放预设音频的问题。

其中，标签(有限数量，可穷举)会根据标签的内容和情感倾向划分为不同维度，每个维度会存储一个值，系统通过比较这些值进行标签语义上的关联，标签的具体词语构成应由专业的语言专家辅助完成。例如：标签“小确幸”、标签“马力全开”；“小确幸”标签假定其有如下几个变量衡量其含义和倾向：标签类型0、情绪倾向6、年代感5，代表这个标签是心情类标签(将所有心情类标签的标签类型赋值为0，即一个数值代表一种类型的标签)，情绪倾向为稍积极(0-9代表从消极到积极)，年代感为近现代(0-9代表标签内容的年代感由古代到现代)这样就完成了使用变量简单描述一个标签的情绪内含，只需要将所有标签的变量值进行比较，自然可以关联出情绪倾向相似的标签，完成对下一次选择标签的关联。其中，标签主要依照其自身含义和倾向进行关联，上述步骤可由程序自动完成。

步骤S202，根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；

具体地，利用AI音频生成技术，快速生成大量可用音频，能够丰富手机系统的音频库，给用户提供更多选择，且利用AI音频生成的速度快的特性，使其以较高的产出速度适应快速更新的季节、时令主题等，智能推荐系统音频，增强与现实的关联度，提升用户体验。其中，一个上述初始音频为根据上述音频标签集中所有的上述音频标签得到的初始AI音频。

其中，基于变量关联原则，首先系统判断当日是否为节日、纪念日等，此时关联到变量类型(是否为节日、纪念日等)，如为节日则生成节日相关的音乐描述词和引申含义(如传统节日关联到传统文化相关，进而联想到古典乐器、古典音律等)；此外还有天气，晴朗、阴雨等，可以关联至音乐描述的情绪描述词(如阳光对应着积极、轻快、热情等音乐描述词，同时也可提炼出对音乐类型的描述，如阴雨天对应抒情音乐和相应的乐器类型，如小提琴、钢琴等)；情绪卡片同理(如激昂的情绪可以对应节奏鲜明的打击乐，忧虑的情绪可以对应抒情或放松的轻音乐)。

其中，上述步骤S202的具体实施步骤如下：

步骤S2021，构建开源模型，其中，上述开源模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频标签以及与上述历史音频标签对应的历史初始音频集；

步骤S2022，根据上述开源模型和上述音频标签集，确定上述初始音频集。

具体地，利用AI音频生成技术，快速生成大量可用音频，能够丰富手机系统的音频库，给用户提供更多选择，且利用AI音频生成的速度快的特性，使其以较高的产出速度适应快速更新的季节、时令主题等，智能推荐系统音频，增强与现实的关联度，丰富交互体验的维度，提升用户体验。

其中，AI音频生成技术依托生成式人工智能(AIGC)技术，开始应用在相关产业中；目前这一领域主流的模型是“SO-VITS-SVC”，“VITS”是一种语音合成模型，可以实现“文生音”的效果。但“VITS”模型需要海量的训练数据(数千至上万条5-10秒左右的音频)，并高度依赖于人们对语料数据的文本标记，应用门槛很高，后续经过各位开发人员对开源文件的迭代，开发出了目前的SO-VITS-SVC，“SO-VITS-SVC”可以理解是一个音色转换的AI模型，仅需十几分钟的音频数据，便可以拟合成具备特定主体音色的工具。

一些方案中，利用“SO-VITS-SVC”模型制作AI音频，主要有如下三个步骤：第一，获取包含发音者的语音文件，通过UVR5等音频工具将干声(纯人声)和伴奏、合音等进行分离，并通过Audio Slicer等音频工具将干声切分为多个不超过30秒的文件，形成发音者的音频数据集；第二，利用上述音频数据集对“SO-VITS-SVC”模型进行训练，获得具备发音者的音色的应用模型；第三，选择目标歌曲，制作目标歌曲的干声文件，利用训练好的发音者的音色模型，对干声文件进行推理预测和音色转换，得到AI音频。

步骤S203，根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，上述目标音频集包括多种上述音频类型的上述目标音频，且各种上述音频类型的上述目标音频至少有一个，上述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。

具体地，将AI音频生成工具的终端版本以实验性功能的方式置于手机系统中，仅需要占用少量网络资源即可完成功能，避免将高性能负荷的运算部署在手机终端上；该工具内置于系统实验性功能中，可根据用户需求来选择是否开启。

其中，上述初始音频集仅包括一个上述初始音频，上述步骤S203的具体实施步骤如下：

步骤S401，获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；

步骤S402，根据多种音频类型，对上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度；

步骤S403，将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。

具体地，这样可以根据音频类型的不同，生成匹配于这些特征的音频主题，包含手机消息提示音、系统提示音、闹铃、手机铃声等，提升用户体验。

其中，系统根据音频类型对生成的AI音频进行美化处理，将其制作为匹配手机各处通知提示音特点的音频资源，并根据不同的音频类型进行配置，例如手机铃声和短信通知通常具有不同的消息重要程度，他们对用户的通知层级不同，所以其提示音也需要有所差别，铃声可以是节奏明显、时长较长的一段音乐，而微信消息提示则适用于铃声较短的。

其中，上述初始音频集包括多个上述初始音频，上述步骤S203的具体实施步骤如下：

步骤S501，获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；

步骤S502，根据多种音频类型，分别对各上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度，其中，上述初始音频和上述目标音频一一对应；

步骤S503，将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。

具体地，这样可以更准确的得到用户满意度较高的目标音频，提升用户体验。解决传统手机的系统音频主要依赖用户主动选择，操作成本较多且音乐无法可视化，需要花费大量时间选择自己喜爱的音频，导致时间成本高的问题。

其中，生成的音乐有不同的平均响度、平均音阶、长度、节奏；因此生成音乐的适用场合也是特定的，例如舒缓安静的音乐并不适合作为起床铃声；因此这一步的具体实施需要先对音频进行分类，并根据音频内容自动生成不同长度的剪辑版本(根据音轨快速剪切出旋律集中部分，并自动补齐前后过渡)；例如一段根据晴天、好心情生成的欢快摇滚乐旋律适合处理为手机闹钟铃声；而抒情、轻柔舒缓的弦乐适合作为工作、学习使用的背景乐或晚间安睡的催眠曲等。

其中，在执行完上述步骤S203之后，上述方法还包括如下步骤：

步骤S601，获取各上述目标音频的满意度评分，上述满意度评分为用户对一个上述目标音频的满意度的评分，上述满意度评分与上述目标音频一一对应；

步骤S602，在上述目标音频的满意度评分大于或者等于预设评分的情况下，保存对应的上述目标音频；

步骤S603，在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中仅包括一个上述初始音频的情况下，重新对上述初始音频进行处理，得到新的上述目标音频；

步骤S604，在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中包括多个上述初始音频的情况下，对任意一个非目标初始音频进行处理，得到新的上述目标音频，其中，上述非目标初始音频为生成上述目标音频时无需进行处理的上述初始音频。

具体地，根据满意度评分判断用户对生成的目标音频是否满意，在满意度评分大于或者等于预设评分的情况下将目标音频匹配至终端的各处提示音，并同时留出给用户切换回原铃声或再次重新生成音频的快捷选项，提升用户体验感。

其中，用户试听生成的音频，选择是否需要将系统音更换为该音频；此外，由于AI生成的特点这些音频自然带有关键词信息，在手机存储中可以根据关键词信息进行标注和分类，当用户在管理时可以大幅节省试听的时间成本。可以解决目前手机系统音频主要依赖厂商音频库资源和用户自传资源，音频的数量和版权问题难以保证，更新速度难以适应快节奏的体验期望的问题。

本申请的上述音频的生成方法，首先获取音频标签集，音频标签集包括至少一个音频标签，音频标签为预先选择得到的，音频标签用于表征以下之一：日期、节日、天气情况、情绪；之后根据音频标签集生成初始音频集，初始音频集包括至少一个初始音频，一个初始音频为根据音频标签集中所有的音频标签得到的初始AI音频；最后根据音频类型对初始音频集中的至少一个初始音频进行调参处理，得到目标音频集，目标音频集包括多种音频类型的目标音频，且各种音频类型的目标音频至少有一个，音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。该方法结合天气预报和用户预先选择的音频标签，生成匹配于这些特征的音频，包含手机消息提示音、系统提示音、闹铃、手机铃声等，增强与现实的关联度，提升用户体验，解决了现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种音频的生成装置，需要说明的是，本申请实施例的音频的生成装置可以用于执行本申请实施例所提供的用于音频的生成方法。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

以下对本申请实施例提供的音频的生成装置进行介绍。

图3是根据本申请实施例的音频的生成装置的示意图。如图3所示，该装置包括获取单元10、生成单元20和处理单元30，获取单元10用于获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；生成单元20用于根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；处理单元30用于根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，上述目标音频集包括多种上述音频类型的上述目标音频，且各种上述音频类型的上述目标音频至少有一个，上述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。

本申请的上述音频的生成装置，包括获取单元、生成单元和处理单元，获取单元用于获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；生成单元用于根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；处理单元用于根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，上述目标音频集包括多种上述音频类型的上述目标音频，且各种上述音频类型的上述目标音频至少有一个，上述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。该装置结合天气预报和用户预先选择的音频标签，生成匹配于这些特征的音频，包含手机消息提示音、系统提示音、闹铃、手机铃声等，增强与现实的关联度，提升用户体验，解决了现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

在一种可选的实例中，获取单元包括设置模块、选择模块、第一确定模块和第二确定模块，设置模块用于设置最大选择次数，上述最大选择次数为预先可选择上述音频标签的最大次数，其中，一次可选择多个上述音频标签；选择模块用于随机选取预设个上述音频标签作为第一次选择的预备标签集；第一确定模块用于根据当前次选择的上述音频标签，确定下一次选择的上述预备标签集，其中，下一次选择的上述预备标签集与当前次选择的上述音频标签存在映射关系；第二确定模块用于将每一次选择的全部上述音频标签确定为上述音频标签集，其中，选择上述音频标签的次数小于或者等于上述最大选择次数，当前次选择的任意一个上述音频为从当前次选择的上述预备标签集中选择得到的。设置最大选择次数可以减少系统的冗余，简单高效的提取匹配度最高的标签，避免选择次数过高导致流程过于繁琐导致用户体验感较差的问题。通过用户缓则音频标签的形式生成音频文件可以满足用户的情感需求，基于情感化指向性及时生成，可以根据用户当天的行为输入针对性地生成音频，以满足用户的交互体验需求。

一种可选的实施例中，第一确定模块包括获取子模块和确定子模块，获取子模块用于获取当前次选择的上述音频标签的标签类型和上述音频标签的类型指数，上述音频标签的类型指数表征上述音频标签在对应的上述标签类型的预设方向上的程度指数；确定子模块用于根据上述音频标签的标签类型和上述音频标签的类型指数，确定下一次选择的上述预备标签集，其中，第一类型匹配度小于或者等于预设类型匹配度，第一指数匹配度小于或者等于预设指数匹配度，上述第一类型匹配度为下一次选择的上述预备标签集中的各上述音频标签的标签类型与当前次选择的上述音频标签的标签类型的匹配度，上述第一指数匹配度为下一次选择的上述预备标签集中的各上述音频标签的类型指数与当前次选择的上述音频标签的类型指数的匹配度。可以使用户快速高效的选择到满意的音频标签，提高生成音频的效率，且能提升用户体验。

示例性地，上述初始音频集仅包括一个上述初始音频，处理单元包括第一获取模块、第一处理模块和第三确定模块，第一获取模块用于获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；第一处理模块用于根据多种音频类型，对上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度；第三确定模块用于将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。可以根据音频类型的不同，生成匹配于这些特征的音频主题，包含手机消息提示音、系统提示音、闹铃、手机铃声等，提升用户体验。

本实施例中，上述初始音频集包括多个上述初始音频，处理单元包括第二获取模块、第二处理模块和第四确定模块，第二获取模块用于获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；第二处理模块用于根据多种音频类型，分别对各上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度，其中，上述初始音频和上述目标音频一一对应；第四确定模块用于将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。可以更准确的得到用户满意度较高的目标音频，提升用户体验。

一种可选的方案，上述装置还包括第三获取模块、存储模块、第三处理模块和第四处理模块，第三获取模块用于在根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集之后，获取各上述目标音频的满意度评分，上述满意度评分为用户对一个上述目标音频的满意度的评分，上述满意度评分与上述目标音频一一对应；存储模块用于在上述目标音频的满意度评分大于或者等于预设评分的情况下，保存对应的上述目标音频；第三处理模块用于在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中仅包括一个上述初始音频的情况下，重新对上述初始音频进行处理，得到新的上述目标音频；第四处理模块用于在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中包括多个上述初始音频的情况下，对任意一个非目标初始音频进行处理，得到新的上述目标音频，其中，上述非目标初始音频为生成上述目标音频时无需进行处理的上述初始音频。根据满意度评分判断用户对生成的目标音频是否满意，在满意度评分大于或者等于预设评分的情况下将目标音频匹配至终端的各处提示音，并同时留出给用户切换回原铃声或再次重新生成音频的快捷选项，提升用户体验感。

作为一种可选的方案，生成单元包括构建模块和第五确定模块，构建模块用于构建开源模型，其中，上述开源模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频标签以及与上述历史音频标签对应的历史初始音频集；第五确定模块用于根据上述开源模型和上述音频标签集，确定上述初始音频集。利用AI音频生成技术，快速生成大量可用音频，能够丰富手机系统的音频库，给用户提供更多选择，且利用AI音频生成的速度快的特性，使其以较高的产出速度适应快速更新的季节、时令主题等，智能推荐系统音频，增强与现实的关联度，丰富交互体验的维度，提升用户体验。

上述音频的生成装置包括处理器和存储器，上述获取单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在上述程序运行时控制上述计算机可读存储介质所在设备执行上述音频的生成方法。

具体地，音频的生成方法包括：

步骤S201，获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；

步骤S202，根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；

具体地，利用AI音频生成技术，快速生成大量可用音频，能够丰富手机系统的音频库，给用户提供更多选择，且利用AI音频生成的速度快的特性，使其以较高的产出速度适应快速更新的季节、时令主题等，智能推荐系统音频，增强与现实的关联度，提升用户体验。

可选地，获取音频标签集，包括：设置最大选择次数，上述最大选择次数为预先可选择上述音频标签的最大次数，其中，一次可选择多个上述音频标签；随机选取预设个上述音频标签作为第一次选择的预备标签集；根据当前次选择的上述音频标签，确定下一次选择的上述预备标签集，其中，下一次选择的上述预备标签集与当前次选择的上述音频标签存在映射关系；将每一次选择的全部上述音频标签确定为上述音频标签集，其中，选择上述音频标签的次数小于或者等于上述最大选择次数，当前次选择的任意一个上述音频为从当前次选择的上述预备标签集中选择得到的。

可选地，根据当前次选择的上述音频标签，确定下一次选择的预备标签集，包括：获取当前次选择的上述音频标签的标签类型和上述音频标签的类型指数，上述音频标签的类型指数表征上述音频标签在对应的上述标签类型的预设方向上的程度指数；根据上述音频标签的标签类型和上述音频标签的类型指数，确定下一次选择的上述预备标签集，其中，第一类型匹配度小于或者等于预设类型匹配度，第一指数匹配度小于或者等于预设指数匹配度，上述第一类型匹配度为下一次选择的上述预备标签集中的各上述音频标签的标签类型与当前次选择的上述音频标签的标签类型的匹配度，上述第一指数匹配度为下一次选择的上述预备标签集中的各上述音频标签的类型指数与当前次选择的上述音频标签的类型指数的匹配度。

可选地，上述初始音频集仅包括一个上述初始音频，根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，包括：获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；根据多种音频类型，对上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度；将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。

可选地，上述初始音频集包括多个上述初始音频，根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，包括：获取各上述音频类型对应的音频参数，上述音频参数至少包括：音频长度、音频音色、音频的平均响度、音频的平均音阶和音频节奏；根据多种音频类型，分别对各上述初始音频的音频参数进行处理，得到多个不同音频类型的上述目标音频，以使得各上述目标音频的音频参数与上述音频类型对应的上述音频参数的匹配度大于或者等于预设音频匹配度，其中，上述初始音频和上述目标音频一一对应；将音频类型不同的各上述目标音频的集合，确定为上述目标音频集。

可选地，在根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集之后，上述方法还包括：获取各上述目标音频的满意度评分，上述满意度评分为用户对一个上述目标音频的满意度的评分，上述满意度评分与上述目标音频一一对应；在上述目标音频的满意度评分大于或者等于预设评分的情况下，保存对应的上述目标音频；在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中仅包括一个上述初始音频的情况下，重新对上述初始音频进行处理，得到新的上述目标音频；在上述目标音频的满意度评分小于上述预设评分，且上述初始音频集中包括多个上述初始音频的情况下，对任意一个非目标初始音频进行处理，得到新的上述目标音频，其中，上述非目标初始音频为生成上述目标音频时无需进行处理的上述初始音频。

可选地，根据上述音频标签集生成初始音频集，包括：构建开源模型，其中，上述开源模型是使用多组训练数据训练得到的，上述多组训练数据中的每一组训练数据均包括历史时间段内获取的：历史音频标签以及与上述历史音频标签对应的历史初始音频集；根据上述开源模型和上述音频标签集，确定上述初始音频集。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述音频的生成方法。

具体地，音频的生成方法包括：

步骤S201，获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；

步骤S202，根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S201，获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；

步骤S202，根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S201，获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；

步骤S202，根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的上述音频的生成方法，首先获取音频标签集，音频标签集包括至少一个音频标签，音频标签为预先选择得到的，音频标签用于表征以下之一：日期、节日、天气情况、情绪；之后根据音频标签集生成初始音频集，初始音频集包括至少一个初始音频，一个初始音频为根据音频标签集中所有的音频标签得到的初始AI音频；最后根据音频类型对初始音频集中的至少一个初始音频进行调参处理，得到目标音频集，目标音频集包括多种音频类型的目标音频，且各种音频类型的目标音频至少有一个，音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。该方法结合天气预报和用户预先选择的音频标签，生成匹配于这些特征的音频，包含手机消息提示音、系统提示音、闹铃、手机铃声等，增强与现实的关联度，提升用户体验，解决了现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

2)、本申请的上述音频的生成装置，包括获取单元、生成单元和处理单元，获取单元用于获取音频标签集，上述音频标签集包括至少一个音频标签，上述音频标签用于表征以下之一：日期、节日、天气情况、情绪；生成单元用于根据上述音频标签集生成初始音频集，上述初始音频集包括至少一个初始音频；处理单元用于根据音频类型对上述初始音频集中的至少一个上述初始音频进行调参处理，得到目标音频集，上述目标音频集包括多种上述音频类型的上述目标音频，且各种上述音频类型的上述目标音频至少有一个，上述音频类型至少为以下之一：短信提示音、app信息提示音、来电铃声、闹钟。该装置结合天气预报和用户预先选择的音频标签，生成匹配于这些特征的音频，包含手机消息提示音、系统提示音、闹铃、手机铃声等，增强与现实的关联度，提升用户体验，解决了现有的AI音频生成技术缺乏与用户的情感化交互，导致用户体验较差的问题。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：珠海格力电器股份有限公司;