掌桥专利:专业的专利平台
掌桥专利
首页

音频生成方法、装置、电子设备及存储介质

文献发布时间:2024-01-17 01:24:51


音频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机应用技术领域,尤其涉及一种音频生成方法、装置、电子设备及存储介质。

背景技术

用户在驾驶汽车的过程中,通常会遇到各种各样的问题,因此,需要查找车辆操作说明书,得到所需的车辆操作方案,但随着汽车技术的快速发展,汽车的功能越来越丰富,相伴随的,车辆操作说明书也越来越复杂。传统的纸质说明书和电子说明书通过分类和检索来查找用户的所需信息,但搜索效率较低,且存在无法定位所需信息的情况。

现有技术中,通常通过智能手机或平板电脑等移动设备扫描车辆部件,以使系统实时检索并通过图像信息展示相关操作说明,但操作方式较为繁琐,以至于检索效率较低,并且所展示的图像内容较为单一,以至于信息展示的准确性和通用性较差。

发明内容

本发明提供了一种音频生成方法、装置、电子设备及存储介质,以解决检索效率较低,以及信息展示的准确性和通用性较差的技术问题。

根据本发明的一方面,提供了一种音频生成方法,其中,该方法包括:

获取第一输入语音,确定所述第一输入语音对应的第一文本信息;

获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息;

通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。

根据本发明的另一方面,提供了一种音频生成装置,其中,该装置包括:

语音处理模块,用于获取第一输入语音,确定所述第一输入语音对应的第一文本信息;

特征确定模块,用于获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息;

音频生成模块,用于通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。

根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的音频生成方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的音频生成方法。

本发明实施例的技术方案,通过获取第一输入语音,确定所述第一输入语音对应的第一文本信息;获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息,将文本信息转换为文本特征,可以提高车辆操作方案检索的效率;通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。实现了无需用户使用特定的设备扫描车辆部件,只需语音输入即可获取与车辆操作方案对应的目标音频的效果,提高了车辆操作方案检索的便捷性;实现了根据用户的不同描述,针对性生成的目标音频的效果,提高了音频生成方法的通用性;实现了同时基于视频和解说展示车辆操作方案的效果,提高了目标音频的丰富性,保证了用户体验感。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种音频生成方法的流程图;

图2是根据本发明实施例二提供的一种音频生成方法的流程图;

图3是根据本发明实施例提供的一种音频生成方法的整体流程图;

图4是根据本发明实施例三提供的一种音频生成装置的结构示意图;

图5是实现本发明实施例的音频生成方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种音频生成方法的流程图,本实施例可适用于人工智能生成内容的情况,该方法可以由音频生成装置来执行,该音频生成装置可以采用硬件和/或软件的形式实现,该音频生成装置可配置于计算机软件中。如图1所示,该方法包括:

S110、获取第一输入语音,确定所述第一输入语音对应的第一文本信息。

其中,所述第一输入语音可以理解为用户的语音。可选的,所述第一输入语音可以是表征用户用意的语音。在本发明实施例中,所述第一输入语音与应用场景相关,在此不做具体限定。示例性的,所述第一输入语音可以是用户输入的“如何去除车雾”、“车胎损坏”或“油箱漏油”等语音。

所述第一文本信息可以理解为对所述第一输入语音进行语音识别,得到的文本信息。在本发明实施例中,所述第一文本信息与所述第一输入语音相关,在此不做具体限定。示例性的,所述第一文本信息可以是“如何去除车雾”、“车胎损坏”或“油箱漏油”等文本信息。

S120、获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征。

其中,所述目标传感数据可以理解为通过安装于所述目标车辆上的传感器,获取的数据。其中,安装于所述目标车辆上的传感器可以根据场景需求预设,在此不做具体限定。示例性的,所述传感器可以是温度传感器压力传感器、转速传感器、速度传感器和/或加速度传感器等。

可选的,所述目标传感数据可以是表征所述目标文本特征中所述场景的数据。在本发明实施例中,所述目标传感数据与所述传感器以及应用场景相关,在此不做具体限定。示例性的,所述目标传感数据可以是温度数据、压力数据、转速数据、速度数据和/或加速度数据等。

其中,所述目标文本特征可以以理解为生成所述目标音频的所需特征。可选的,所述目标文本特征包括需求、场景以及故障信息。具体的,在所述第一输入语音为“如何去除车雾”时,基于所述第一输入语音确定的所述第一文本信息为“如何去除车雾”,进一步的,对所述第一文本信息进行自然语言处理,确定所述第一文本信息对应的所述需求为去除车雾,所述场景为基于温度传感器确定的温度特征(春、夏、秋或冬),所述故障信息为车雾。

S130、通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频。

其中,所述音频生成大模型可以理解为可以基于目标文本特征智能生成目标音频的大模型。具体的,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。

需要理解的是,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。在本发明实施例中,所述音频生成大模型可以根据所述车辆操作说明书以及所述车辆操作图像智能生成与所述目标文本特征对应的所述目标音频。

可选的,所述目标音频包括目标视频以及所述目标视频对应的目标解说,在通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频之后,还包括:

通过目标车辆的目标显示器显示所述目标视频,通过所述目标车辆的目标播放器播放所述目标解说。

其中,所述目标车辆可以理解为音频生成所针对的车辆。所述目标显示器可以理解为安装于所述目标车辆上的,具有显示视频功能的装置。示例性的,所述目标显示器可以是液晶显示屏。所述目标播放器可以理解为安装于所述目标车辆上的,具有播放语音功能的装置。示例性的,所述目标播放器可以扬声器。在本发明实施例中,所述目标显示器和所述目标播放器可以根据场景需求预设,在此不做具体限定。

所述目标视频可以理解为针对所述目标文本特征,通过所述音频生成大模型生成的视频。所述目标解说可以理解为针对所述目标文本特征,通过所述音频生成大模型生成的与所述目标视频相对应的解说。示例性的,所述目标视频可以是去除车雾的操作视频,所述目标解说可以是对去除车雾的操作视频的解说。在本发明实施例中,所述目标视频的显示,与所述目标解说的播放同步。

可选的,所述人工智能生成内容大模型包括深度变分自编码、生成对抗神经网络、扩散模型、语言模型以及视觉模型至少其中一种。

其中,所述深度变分自编码(Variational Autoencoder,VAE)包括编码器与解码器。其中,编码器将原始高维输入数据转换为潜在空间的概率分布描述,所述解码器从采样的数据进行重建生成新数据。

所述生成对抗神经网络(Generative Adversarial Networks,GAN)包括生成器和辨别器。其中,生成器学习生成合理的数据并将生成的数据作为判别器的负样本,辨别器判别输入是生成数据还是真实数据。

所述扩散模型包括前向过程与反向过程。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。

所述语言模型可以理解为具有语音识别和机器翻译的性能的模型。

所述视觉模型(Vision Transformer,ViT)具有人工智能(ArtificialIntelligence,AI)感知、理解视觉数据以及助力人工智能内容生成(ArtificialIntelligence Generative Conversations,AIGC)技术发展的能力的模型。

本发明实施例的技术方案,通过获取第一输入语音,确定所述第一输入语音对应的第一文本信息;获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息,将文本信息转换为文本特征,可以提高车辆操作方案检索的效率;通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。实现了无需用户使用特定的设备扫描车辆部件,只需语音输入即可获取与车辆操作方案对应的目标音频的效果,提高了车辆操作方案检索的便捷性;实现了根据用户的不同描述,针对性生成的目标音频的效果,提高了音频生成方法的通用性;实现了同时基于视频和解说展示车辆操作方案的效果,提高了目标音频的丰富性,保证了用户体验感。

实施例二

图2为本发明实施例二提供的一种音频生成方法的流程图,本实施例是针对上述实施例中所述根据所述第一文本信息和所述目标传感数据确定目标文本特征进行细化。如图2所示,该方法包括:

S210、获取第一输入语音,确定所述第一输入语音对应的第一文本信息。

S220、获取目标传感数据,对所述第一文本信息进行自然语言处理,得到所述第一文本信息对应的第一文本特征,并根据所述目标传感数据确定目标传感特征。

其中,所述第一文本特征可以理解为对所述第一文本信息进行自然语言处理,得到所述第一文本信息对应的特征。可选的,所述第一文本特征可以包括需求、场景、故障信息和/或其它信息等。具体的,可选的,通过训练完成的自然语言处理模型对输入的所述第一文本信息进行自然语言处理,得到所述第一文本信息对应的第一文本特征。

所述目标传感特征可以理解为所述目标传感数据对应的特征。可选的,所述目标传感特征可以包括场景和/或其它信息等。具体的,对所述目标传感数据进行特征提取,得到所述目标传感数据对应的目标传感特征。示例性的,所述目标传感数据为通过温度传感器获取的车外温度为零下1°,则所确定目标传感特征可以是所述场景为冬,则所生成的所述目标音频可以是开冷风以去除车雾的车辆操作方案对应的音频。

S230、在第一文本特征和所述目标传感特征满足第一特征条件的情况下,将所述第一文本特征和所述目标传感特征作为目标文本特征。

其中,所述第一特征条件可以理解为确定目标文本特征的所需条件。可选的,所述第一特征条件可以为所述第一文本特征和所述目标传感特征包括需求、场景以及故障信息。

S240、在第一文本特征和所述目标传感特征不满足第一特征条件的情况下,基于所述第一文本特征和所述目标传感特征生成目标输出语音,并基于所述目标输出语音确定目标文本特征。

可选的,所述基于所述第一文本特征和所述目标传感特征生成目标输出语音,包括:

确定所述第一文本特征和目标传感特征对应的缺少特征,基于所述缺少特征生成目标输出语音,其中,所述缺少特征包括需求、场景和/或故障信息至少其中一项。

其中,所述目标输出语音可以理解为在所述第一文本特征和所述目标传感特征不满足第一特征条件的情况下,所生成的语音。可选的,所述目标输出语音可以是意于获取所述缺少特征的输出语音。其中,所述缺少特征可以理解为所述第一文本特征和所述目标传感特征中,缺少的特征。具体的,示例性的,所述第一输入语音为“车胎损坏”,所确定的所述第一文本信息为“车胎损坏”,通过所述转速传感器确定的所述目标传感特征为转速为0,则可以确定所述第一文本特征和所述目标传感特征包括场景和故障信息,即车辆停止行驶和车胎损坏;并且缺少需求,即所述需求为所述缺少特征,进一步,基于所述需求生成目标输出语音,所述目标输出语音可以为“请问搜索救助电话还是更换车胎”。

可选的,所述基于所述目标输出语音确定目标文本特征,包括:

输出所述目标输出语音,以获取第二输入语音,确定所述第二输入语音对应的第二文本信息,并确定所述第二文本信息对应的第二文本特征;

在第二文本特征满足第二特征条件的情况下,将所述第一文本特征、所述目标传感特征以及所述第二文本特征作为目标文本特征;

在第二文本特征不满足第二特征条件的情况下,返回执行输出所述目标输出语音,以获取第二输入语音,确定所述第二输入语音对应的第二文本信息,并确定所述第二文本信息对应的第二文本特征的操作,直至所述第二文本特征满足第二特征条件时,得到目标文本特征。

可选的,所述第二特征条件为所述第二文本特征包括所述缺少特征。

所述第二输入语音可以理解为针对所述目标输出语音,通过用户输入的语音。可选的,所述第二输入语音可以是包括所述缺少特征的语音。在本发明实施例中,所述第二输入语音与应用场景相关,在此不做具体限定。示例性的,在所述目标输出语音可以为“请问搜索救助电话还是更换车胎”的情况下,所述第二输入语音可以是“更换车胎”或“请重复”等。

所述第二文本信息对所述第二输入语音进行语音识别,得到的文本信息。在本发明实施例中,所述第二文本信息与所述第二输入语音相关,在此不做具体限定。示例性的,所述第二文本信息可以是“更换车胎”或“请重复”等文本信息。

所述第二文本特征对所述第二文本信息进行自然语言处理,得到所述第二文本信息对应的特征。可选的,所述第二文本特征可以包括需求、场景、故障信息和/或其它信息等。具体的,可选的,通过训练完成的自然语言处理模型对输入的所述第二文本信息进行自然语言处理,得到所述第二文本信息对应的第二文本特征。

具体的,在所述目标输出语音为“请问搜索救助电话还是更换车胎?”的情况下,所述第二输入语音为“更换车胎”时,所述第二文本信息为“更换车胎”,则确定所述第二文本特征,即所述需求为更换车胎;则将所述需求,即更换车胎,所述场景,即车辆停止行驶,所述故障信息,即车胎损坏,作为所述目标文本特征,以生成所述目标音频。

或者,在所述目标输出语音为“请问搜索救助电话还是更换车胎?”的情况下,所述第二输入语音是“请重复”时,所述第二文本信息为“请重复”,则确定所述第二文本特为所述其它信息,即所述第二文本特征不包括所述缺少特征,换言之,所述第二文本特征不满足所述第二特征条件,进一步的,继续输出所述目标输出语音,即“请问搜索救助电话还是更换车胎?”,直至所述第二文本特征包括所述缺少特征时,得到目标文本特征,以生成所述目标音频。

S250、通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。

本发明实施例的技术方案,通过对所述第一文本信息进行自然语言处理,得到所述第一文本信息对应的第一文本特征,并根据所述目标传感数据确定目标传感特征;在第一文本特征和所述目标传感特征满足第一特征条件的情况下,将所述第一文本特征和所述目标传感特征作为目标文本特征;在第一文本特征和所述目标传感特征不满足第一特征条件的情况下,基于所述第一文本特征和所述目标传感特征生成目标输出语音,并基于所述目标输出语音确定目标文本特征。保证了所确定的所述目标文本特征的全面性,以提高基于目标文本特征生成的所述目标音频的准确性。

图3是根据本发明实施例提供的一种音频生成方法的整体流程图,如图3所示,音频生成方法的整体流程,可以是:

1、语音识别。将用户的输入语音转换为文本信息。

2、自然语言处理。分析文本信息,识别目标文本特征,即需求、场景和故障信息。

3、AIGC技术引擎。根据目标文本特征,利用AIGC技术生成与用户需求相关的车辆操作方案对应的视频。

4、视频展示。将生成的视频呈现给用户,以直观地展示车辆操作方法。

5、语音合成。为视频添加解说,以提供更丰富的信息。

基于本发明实施例的技术方案,可以无需特定设备,即无需用户使用特定的设备扫描车辆部件,只需语音输入即可获取与车辆操作方案对应的目标音频,提高了车辆操作方案检索的便捷性。可以提高检索效率,即通过语音输入和自然语言处理技术,能够更快地为用户检索到与目标文本特征对应的车辆操作方案。通用性更强,即基于AIGC技术的视频生成,能够根据用户描述生成针对性的动画,适应各种用户需求。直观性更强,即通过视频形式展示车辆操作方案,能够使用户更直观地理解如何操作车辆,同时还通过语音合成技术为视频添加解说,可以使所提供的信息更加丰富。

实施例三

图4为本发明实施例三提供的一种音频生成装置的结构示意图。如图4所示,该装置包括:语音处理模块310、特征确定模块320以及音频生成模块330;其中,

语音处理模块310,用于获取第一输入语音,确定所述第一输入语音对应的第一文本信息;特征确定模块320,用于获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息;音频生成模块330,用于通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。

本发明实施例的技术方案,通过获取第一输入语音,确定所述第一输入语音对应的第一文本信息;获取目标传感数据,根据所述第一文本信息和所述目标传感数据确定目标文本特征,其中,所述目标文本特征包括需求、场景以及故障信息,将文本信息转换为文本特征,可以提高车辆操作方案检索的效率;通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频,其中,所述音频生成大模型基于车辆操作说明书和车辆操作图像对人工智能生成内容大模型训练得到,所述车辆操作说明书包括多种需求、场景以及故障信息情况下的车辆操作方案。实现了无需用户使用特定的设备扫描车辆部件,只需语音输入即可获取与车辆操作方案对应的目标音频的效果,提高了车辆操作方案检索的便捷性;实现了根据用户的不同描述,针对性生成的目标音频的效果,提高了音频生成方法的通用性;实现了同时基于视频和解说展示车辆操作方案的效果,提高了目标音频的丰富性,保证了用户体验感。

可选的,所述目标音频包括目标视频以及所述目标视频对应的目标解说,所述音频生成装置还包括显示播放模块,用于:

在通过音频生成大模型对输入的目标文本特征进行音频生成,得到目标文本特征对应的目标音频之后,通过目标车辆的目标显示器显示所述目标视频,通过所述目标车辆的目标播放器播放所述目标解说。

可选的,特征确定模块320,包括:第一特征处理单元、第一特征确定单元以及第二特征确定单元;其中,

所述第一特征处理单元,用于对所述第一文本信息进行自然语言处理,得到所述第一文本信息对应的第一文本特征,并根据所述目标传感数据确定目标传感特征;

所述第一特征确定单元,用于在第一文本特征和所述目标传感特征满足第一特征条件的情况下,将所述第一文本特征和所述目标传感特征作为目标文本特征;

所述第二特征确定单元,用于在第一文本特征和所述目标传感特征不满足第一特征条件的情况下,基于所述第一文本特征和所述目标传感特征生成目标输出语音,并基于所述目标输出语音确定目标文本特征。

可选的,所述第二特征确定单元,用于:

输出所述目标输出语音,以获取第二输入语音,确定所述第二输入语音对应的第二文本信息,并确定所述第二文本信息对应的第二文本特征;

在第二文本特征满足第二特征条件的情况下,将所述第一文本特征、所述目标传感特征以及所述第二文本特征作为目标文本特征;

在第二文本特征不满足第二特征条件的情况下,返回执行输出所述目标输出语音,以获取第二输入语音,确定所述第二输入语音对应的第二文本信息,并确定所述第二文本信息对应的第二文本特征的操作,直至所述第二文本特征满足第二特征条件时,得到目标文本特征。

可选的,所述第一特征条件为所述第一文本特征和所述目标传感特征包括需求、场景以及故障信息,所述第二特征确定单元,用于:

确定所述第一文本特征和目标传感特征对应的缺少特征,基于所述缺少特征生成目标输出语音,其中,所述缺少特征包括需求、场景和/或故障信息至少其中一项。

可选的,所述第二特征条件为所述第二文本特征包括所述缺少特征。

可选的,所述人工智能生成内容大模型包括深度变分自编码、生成对抗神经网络、扩散模型、语言模型以及视觉模型至少其中一种。

本发明实施例所提供的音频生成装置可执行本发明任意实施例所提供的音频生成方法,具备执行方法相应的功能模块和有益效果。

实施例四

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如音频生成方法。

在一些实施例中,音频生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的音频生成方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 音频信号的评分方法、装置、电子设备及计算机存储介质
  • 音频传输方法、装置、电子设备及存储介质
  • 音频传输方法、装置、电子设备及存储介质
  • 音频播放方法、装置、电子设备及存储介质
  • 音频数据处理方法、装置、电子设备和存储介质
  • 音频生成方法、装置、电子设备以及存储介质
  • 空间音频信号的生成方法及装置、存储介质、电子设备
技术分类

06120116195764