掌桥专利:专业的专利平台
掌桥专利
首页

语音交互方法、智能语音装置以及存储介质

文献发布时间:2023-06-29 06:30:04


语音交互方法、智能语音装置以及存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种语音交互方法、智能语音装置以及存储介质。

背景技术

语音合成是通过机器将文字转换为声音的技术,又被称为文语转换(Test-To-Speech,TTS),目前,语音合成技术在国际上已经取得了普遍发展,各种语言都有各自的语音合成系统,为了让系统具有更好的重用性、通用性和扩展性,多语种的语音合成便成为了国内外研究的热点,多语种的语音合成是指能够用一个语音合成系统取得不同说话人、不同语种的合成语音。目前,智能终端的语音交互系统应用了语音合成技术,以实现与用户的沟通交流。

然而,在现有的语音交互系统中,输出的语音的音色一般为默认音色,即面对不同的用户,均使用相同的声音与用户进行对话,导致与用户的亲和力不足,降低用户体验。

发明内容

为了克服现有技术的不足,本发明提出一种语音交互方法、智能语音装置以及存储介质,录制本地语音,提取本地语音的语音特征参数,上传语音特征参数,下载并存储语音特征参数处理后生成的关键语音特征参数,并在接收到本地语音后,根据该本地语音的语音特征参数以及存储的关键语音特征参数进行语音的合成,从而能够针对不同的用户使用相应的声音进行对话,提高了亲和力和合成语音的仿真度,提升了用户体验。

为解决上述问题,本发明采用的一个技术方案为:一种语音交互方法,所述语音交互方法包括:S101:录制本地语音,获取本地语音的语音特征参数,上传所述语音特征参数,其中,接收所述语音特征参数的对象根据所述语音特征参数生成关键语音特征参数;S102:下载所述关键语音特征参数,接收输入的本地语音,根据本地语音对应的关键语音特征参数以及存储的关键语音特征参数生成合成语音以进行语音对话。

进一步地,所述录制本地语音,获取本地语音的语音特征参数的步骤具体包括:通过送话器采集并录制本地语音,利用自动语音识别技术提取所述本地语音的语音特征参数。

进一步地,所述上传所述语音特征参数的步骤具体包括:将所述语音特征参数上传至服务器,所述服务器分析计算所述语音特征参数,提取合成语音对应的关键语音特征参数。

进一步地,所述下载所述语音特征参数对应的关键语音特征参数的步骤之后还包括:将所述关键语音特征参数存入合成语音库,压缩所述合成语音库中的信息。

进一步地,所述根据本地语音对应的关键语音特征参数以及存储的关键语音特征参数生成合成语音的步骤具体包括:获取所述本地语音对应的关键语音特征参数,判断是否存储有所述关键语音特征参数;若是,则利用所述关键语音特征参数生成合成语音;若否,则使用预设模式生成合成语音,并执行S101,下载本地语音对应的关键语音特征参数。

进一步地,所述利用所述语音特征参数生成合成语音的步骤具体包括:根据所述语音特征参数启动应用,并根据所述语音特征参数对应的用户的语音交互对象生成合成语音。

进一步地,所述根据本地语音对应的语音特征参数以及存储的关键语音特征参数生成合成语音的步骤之后还包括:采集输出的合成语音,将合成语音的参数与标准合成语音的参数进行对比,获取对比结果。

进一步地,所述将合成语音的参数与标准合成语音的参数进行对比,获取对比结果的步骤具体包括:根据可懂度、自然度、情绪饱满度将所述合成语音与标准合成语音进行对比获取所述合成语音的量化数据,基于所述量化数据生成评估结果。

基于相同的发明构思,本发明还提出一种智能语音装置,所述智能语音装置包括语音输入模块、主控模块以及存储模块,主控模块分别与所述语音输入模块、存储模块连接,所述语音输入模块录制本地语音,将录制的本地语音传输给主控模块,所述存储模块存储有下载的关键语音特征参数,所述主控模块通过所述存储模块、语音输入模块执行如上所述的语音交互方法。

基于相同的发明构思,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有程序数据,所述程序数据被用于执行如上所述的语音交互方法。

相比现有技术,本发明的有益效果在于:录制本地语音,提取本地语音的语音特征参数,上传语音特征参数,下载并存储语音特征参数处理后生成的关键语音特征参数,并在接收到本地语音后,根据该本地语音的语音特征参数以及存储的关键语音特征参数进行语音的合成,从而能够针对不同的用户使用相应的声音进行对话,提高了亲和力和合成语音的仿真度,提升了用户体验。

附图说明

图1为本发明语音交互方法一实施例的流程图;

图2为本发明智能语音装置一实施例的结构图;

图3为本发明计算机可读存储介质一实施例的结构图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,通常在此处附图中描述和示出的各本公开实施例在不冲突的前提下,可相互组合,其中的结构部件或功能模块可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

在本申请公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

请参阅图1,其中,图1为本发明语音交互方法一实施例的流程图。结合图1对本发明语音交互方法作详细说明。

在本实施例中,执行语音交互方法的设备可以为智能音箱、智能手机、平板电脑、笔记本电脑以及其他能够录制本地语音,并能够提取该本地语音的语音特征参数的智能语音装置,智能语音装置执行的语音交互方法包括:

S101:录制本地语音,获取本地语音的语音特征参数,上传语音特征参数,其中,接收语音特征参数的对象根据语音特征参数生成关键语音特征参数。

在本实施例中,录制本地语音,获取本地语音的语音特征参数的步骤具体包括:通过送话器采集并录制本地语音,利用自动语音识别技术提取本地语音的语音特征参数。

具体的,通过智能语音装置可以通过自身的送话器(如麦克风)或连接的外部设备采集并录制本地语音,并对录制的本地语音进行特征提取得到本地语音的语音特征参数。其中,在录制本地语音前,智能语音装置还可以判断是否接收到语音录制指令、语音特征提取指令以及其他预设种类的指令,并在确定接收到该指令后,执行录制本地语音的操作。

在本实施例中,本地语音为用户的语音,在其他实施例中,也可以为手机、音响等设备播放的合成语音。

在本实施例中,智能语音装置在提取本地语音的语音特征参数后,还可以判断该语音特征参数对应的本地语音是否符合可懂度、自然度、情绪饱满度要求,若是,则上传该语音特征参数,若否,则不上传。

具体的,智能语音装置上传语音特征参数的对象为智能语音装置连接的服务器,上传语音特征参数的步骤具体包括:将语音特征参数上传至服务器,服务器分析计算语音特征参数,提取合成语音对应的关键语音特征参数。其中,可以通过线路传输或网络传输的方式进行语音特征参数的上传。

在本实施例中,语音特征参数包括基音频谱、共振峰值、短时过零率、平均能量、平价跨零数或跨零率、LPC参数、倒谱参数、临界带倒谱等表征语音特征的参数,服务器对该语音特征参数进一步分析处理,从语音特征参数中得到更准确和关键的关键语音特征参数,利用该关键语音特征参数合成与本地语音对应的合成语音。

在本实施例中,智能语音装置在提取语音特征参数后,存储该语音特征参数,其中,该语音特征参数可以存储在合成语音库中,也可以单独存储,且智能语音装置还存储有该语音特征参数的应用范围、使用方式、关联应用、对应的用户关系等信息,基于该信息进行语音合成。

S102:下载关键语音特征参数,接收输入的本地语音,根据本地语音对应的关键语音特征参数以及存储的关键语音特征参数生成合成语音以进行语音对话。

在本实施例中,被上传语音特征参数的对象在提取合成语音所需要的关键语音特征参数后,向智能语音装置发送下载关键语音特征参数的通知或直接将关键语音特征参数发送给智能语音装置。也可以不通知智能语音装置,智能语音装置在上传语音特征参数后,定时执行下载关键语音特征参数的操作以得到提取的关键语音特征参数。

下载语音特征参数对应的关键语音特征参数的步骤之后还包括:将所述关键语音特征参数存入合成语音库,压缩合成语音库中的信息。其中,合成语音库还可以存储标准语音信息。该标准语音信息包括录制的本地语音以及本地语音的基础语音信息。

其中,智能语音装置在接收输入的本地语音后,还可以对该本地语音的内容进行识别,根据识别结果判断是否满足合成语音条件,若满足,则生成合成语音;若不满足,则不生成合成语音,仅执行本地语音对应的操作或不执行相关操作。

根据本地语音对应的关键语音特征参数以及存储的关键语音特征参数生成合成语音的步骤具体包括:获取本地语音对应的关键语音特征参数,判断是否存储有关键语音特征参数;若是,则利用关键语音特征参数生成合成语音;若否,则使用预设模式生成合成语音,并执行S101,下载本地语音对应的关键语音特征参数。

其中,利用语音特征参数生成合成语音的步骤具体包括:根据关键语音特征参数启动应用,并根据关键语音特征参数对应的用户的语音交互对象生成合成语音。其中,智能语音装置可以在通过本地语音识别发声对象后,根据预存的语音交互对象信息或本地语音的内容选择用于合成语音的关键语音特征参数。在生成合成语音时,获取本地语音对应的交互内容,利用合成语音库中的基础语音以及关键语音特征参数生成包括交互内容的合成语音。

在一个具体的实施例中,智能语音装置为智能音箱,用户通过语音呼叫智能音箱时,智能音箱首先会尝试将用户的本地语音与原存储在智能音箱的语音信息以及关键语音特征参数进行比对,如果发现智能音箱有本地语音对应的关键语音特征参数,将立即尝试本地语音对应的应用,比如合成母亲或伴侣的声音进行对话;若之前未存储,则换另一种模式与用户对话,并在对话过程中,录取用户的语音,并提取语音的语音特征参数,将该语音特征参数上传给服务器,服务器分析该语音特征参数得到关键语音特征参数,下载并存储该关键语音特征参数。

在本实施例中,根据本地语音对应的语音特征参数以及存储的关键语音特征参数生成合成语音的步骤之后还包括:采集输出的合成语音,将合成语音的参数与标准合成语音的参数进行对比,获取对比结果。该标准合成语音可以为录制合成语音的关键语音特征参数对应的用户的语音得到的标准合成语音,也可以为预先设置的符合可懂度、自然度和情绪饱满度要求且与输出的合成语音内容相同的标准合成语音。

其中,将合成语音的参数与标准合成语音的参数进行对比,获取对比结果的步骤具体包括:根据可懂度、自然度、情绪饱满度将合成语音与标准合成语音进行对比获取合成语音的量化数据,基于量化数据生成评估结果。通过这种方式实现对输出的合成语音音质的自我评估。在获取评估结果后,智能语音装置可以播放该评估结果,也可以上传该评估结果,便于后续根据评估结果修改关键语音特征参数或生成合成语音的方式。

有益效果:本发明提出一种语音交互方法,录制本地语音,提取本地语音的语音特征参数,上传语音特征参数,下载并存储语音特征参数处理后生成的关键语音特征参数,并在接收到本地语音后,根据该本地语音的语音特征参数以及存储的关键语音特征参数进行语音的合成,从而能够针对不同的用户使用相应的声音进行对话,提高了亲和力和合成语音的仿真度,提升了用户体验。

基于相同的发明构思,本发明还提出一种智能语音装置,请参阅图2,图2为本发明智能语音装置一实施例的结构图,结合图2对本发明的智能语音装置进行说明。

在本实施例中,智能语音装置包括语音输入模块、主控模块以及存储模块,主控模块分别与语音输入模块、存储模块连接,语音输入模块录制本地语音,将录制的本地语音传输给主控模块,存储模块存储有下载的关键语音特征参数,主控模块通过存储模块、语音输入模块执行如上述实施例所述的语音交互方法。其中,存储模块中设置有合成语音库,利用合成语音库存储关键语音特征参数。

在一个实施例中,智能语音装置还包括声音输出模块,控制模块通过声音输出模块输出最终的合成语音以及进行声音播放相关的操作,该声音输出模块可以为扬声器或用于与外部发生装置连接的声音输出电路和声音输出端口。

在上述实施例中,主控模块负责整机控制;语音输入模块负责获取用户的自然语音输入,包括麦克风和相关的语音信号处理电路;存储模块用来存储标准合成语音库以及其它运行代码和程序;声音输出模块负责输出最终的声音(含语音)。这里的核心就是合成语音库的引入,合成语音库通过预先录入各种标准和基础语音信息,通过AI技术进行合成,合成之后通过工程化技术进行压缩与存储,使之适应小型化语音装置的需求。

还需要说明的是,主控模块可以是中央处理单元(Central ProceSsing Unit,CPU),还可以是其他通用主控模块、数字信号主控模块(Digital Signal ProceSsor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用主控模块可以是微主控模块或者该主控模块也可以是任何常规的主控模块等,主控模块是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

存储模块可用于存储计算机程序和/或模块,主控模块通过运行或执行存储在存储模块内的计算机程序和/或模块,以及调用存储在存储模块内的数据,实现计算机装置的各种功能。存储模块可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、存储实现上述实施例中方法的程序指令等。存储数据区可以存储上述实施例中方法的程序指令所处理的数据。

基于相同的发明构思,本发明还提出一种计算机可读存储介质,请参阅图3,图3为本发明计算机可读存储介质一实施例的结构图,结合图3对本发明的计算机可读存储介质进行说明。

在本实施例中,计算机可读存储介质存储有程序数据,该程序数据被用于执行如上述实施例所述的语音交互方法。

其中,计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(紧致盘-只读存储模块)、磁光盘、ROM(只读存储模块)、RAM(随机存取存储模块)、EPROM(可擦除可编程只读存储模块)、EEPROM(电可擦除可编程只读存储模块)、磁卡或光卡、闪存或适于存储机器可执行指令的其他类型的介质/机器可读介质。该计算机可读存储介质可以是未接入智能终端的产品,也可以是已接入智能终端使用的部件。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种智能语音交互方法及装置、相关设备及存储介质
  • 智能语音设备间的交互方法、装置、设备及存储介质
  • 语音交互的方法、装置、设备和计算机可读存储介质
  • 一种语音交互设备唤醒方法、装置、设备及存储介质
  • 语音交互方法、装置、设备和存储介质
  • 车辆智能语音交互方法、装置、设备及存储介质
  • 交互控制方法、装置、智能语音设备及存储介质
技术分类

06120116019152