掌桥专利:专业的专利平台
掌桥专利
首页

语音合成方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 15:47:50



技术领域

本申请涉及语音处理技术领域,更具体地,涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

目前,语音人机交互被广泛地应用在人们地日常生活中,比如智能语音助手、有声书、语音导航等等。

以智能语音助手为例,用户在唤醒智能语音助手后,发出提问信息,智能语音信息采集提问信息并对其进行语义分析,以获取与提问信息相匹配的回答信息,最后将文字形式的回答信息转换为语音形式的回答信息,并播放语音形式的回答信息。例如,用户发出提问“明天星期几”,智能语音助手回答“星期四”。

相关技术中,由电子设备(包括智能音箱、智能手机、平板电脑等等)输出的语音信息不够自然。

发明内容

本申请实施例提供一种语音合成方法、装置、电子设备及存储介质。

第一方面,本申请提供一种语音合成方法,该方法包括:确定目标情绪,所述目标情绪表征期望合成语音具有的情绪;获取所述目标情绪的声纹特征,所述目标情绪的声纹特征表征用户处于所述目标情绪的情况下发出的语音信号的声纹特征;基于所述目标情绪的声纹特征对待合成信息进行合成处理,得到所述合成语音。

第二方面,本申请提供一种语音合成装置,该装置包括:情绪确定模块、特征获取模块和合成处理模块。情绪确定模块,用于确定目标情绪,所述目标情绪表征期望合成语音具有的情绪。特征获取模块,用于获取所述目标情绪的声纹特征,所述目标情绪的声纹特征表征用户处于所述目标情绪的情况下发出的语音信号的声纹特征。合成处理模块,用于基于所述目标情绪的声纹特征对待合成信息进行合成处理,得到所述合成语音。

第三方面,本申请还提供一种电子设备,该电子设备包括处理器以及存储器,存储器存储有计算机程序指令,计算机程序指令被处理器调用时执行上述方法。

第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有程序代码,其中,在程序代码被处理器运行时执行上述方法。

第五方面,本申请还提供一种计算机程序产品,该计算机产品被执行时实现上述方法。

本申请实施例提供一种语音合成方法,通过确定期望合成语音具有的情绪,之后获取用户在处于上述情绪时发出的语音信号的声纹特征,最后基于上述声纹特征对待处理的待合成信息进行合成处理,得到能够表现情绪的合成语音,后续电子设备在播放合成语音时也能模拟出人类的情绪,使得电子设备输出的合成语音更加自然,更富有表现力。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的一个实施环境的示意图。

图2是本申请一个实施例提供的语音合成方法的流程图。

图3是本申请另一个实施例提供的语音合成方法的流程图。

图4是本申请另一个实施例提供的语音合成方法的流程图。

图5是本申请另一个实施例提供的语音合成方法的流程图。

图6是本申请另一个实施例提供的语音合成方法的流程图。

图7是本申请一个实施例提供的语音合成装置的框图。

图8是本申请一个实施例提供的电子设备的结构图。

图9是本申请一个实施例提供的计算机可读存储介质的框图。

具体实施方式

下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1是本申请实施例提供的实施环境的示意图。该实施环境包括电子设备110。电子设备110可以是智能手机、平板电脑、智能手表、智能音箱等终端设备。电子设备110还可以是服务器。在本申请实施例中,仅以电子设备110为终端设备为例进行说明。

电子设备110具有情绪识别功能以及语音处理功能。情绪识别功能包括从说话人的音视频信息确定说话人当前的情绪,以及从文字中确定文字所包含的情绪,上述情绪包括且不限于:高兴、沮丧、生气、平静、惧怕、轻蔑、困惑、惊讶、厌恶等等。语音处理功能包括文字转语音、情绪添加、响度补偿以及去噪等等。文字转语音是指将信息由文字形式转换为语音形式。情绪添加是指对语音信号进行情绪化处理,情绪化处理后的语音信号能够模拟人类的情绪。响度补偿是指增大语音信号的响度。去噪是指去除语音信号中的噪声分量。

在一些实施例中,在电子设备110为终端设备的情况下,电子设备110安装有指定应用程序,通过指定应用程序实现上述情绪识别功能以及语音处理功能。指定应用程序可以是智能语音助手、导航类应用程序、有声书类应用程序等等。

可选地,电子设备110还具有音视频采集功能。例如,电子设备110设有音频采集装置(比如麦克风)以及视频采集装置(比如摄像头),通过音频采集装置采集说话人的音频信息,通过视频采集装置采集说话人说话时的图像信息。

在一些实施例中,该实施环境还包括情绪数据库(图1未示出),该情绪数据库用于存储不同情绪与不同声纹特征之间的映射关系。在一些实施例中,情绪数据库还用于存储不同情绪与不同脸部特征之间的映射关系。情绪数据库可以设在电子设备110本地,也可以独立在电子设备110之外,比如设在云端服务器中,本申请实施例对此不作限定。

本申请实施例提供一种语音合成方法,通过确定期望合成语音具有的情绪,之后获取用户在处于上述情绪时发出的语音信号的声纹特征,最后基于上述声纹特征对待处理的待合成信息进行合成处理,得到能够表现情绪的合成语音,后续电子设备在播放合成语音时也能模拟出人类的情绪,使得电子设备输出的合成语音更加自然,更富有表现力。

本申请实施例提供的技术方案,可以应用在语音人机交互场景,比如智能语音助手、有声书等等产品中。下面分别对本申请实施例提供的方案应用在上述产品中进行阐述。

(1)智能语音助手

用户以非常焦急的情绪对智能语音助手提问“现在几点,有没有到日程上设定的时间”,智能语音助手确定基于用户在发出提问时的音视频信息,确定用户当前的情绪为“焦急”,基于用户当前的情绪确定播放合成语音时自身需要表现的情绪为“抚慰”,则获取回答信息“不要着急,现在8点30分,距离日程上设定的时间还有三个小时”,先将上述回答信息由文本形式转换成语音形式,得到待合成信息,之后基于“抚慰”的声纹特征对待合成信息进行合成处理,以使得最终播放的合成语音表现出“抚慰”这一情绪。

(2)有声书

有声书中待播放的待合成信息为“他看着她的背影,有点难过”,有声书确定播放该待合成信息时需要表现的情绪为“难过”,则基于“难过”的声纹特征对待合成信息进行合成处理,以使得最终播放的合成语音表现出“难过”这一情绪。

图2是本申请实施例提供的语音合成方法的流程图。该方法包括如下步骤:

步骤201,确定目标情绪。

目标情绪表征期望合成语音具有的情绪。在一些实施例中,目标情绪是由电子设备默认设定的,也可以是由用户自定义设定的。

在另一些实施例中,目标用户发出提问,电子设备采集目标用户发出提问时的音视频信息,基于上述音视频信息确定目标用户发出提问的过程中表现出的情绪(也即目标用户的情绪),最终基于目标用户的情绪来确定回答语音信息(也即合成语音)具有的情绪。基于音视频信息确定目标情绪的过程,以及基于目标用户的情绪确定目标情绪的过程将在下文实施例进行讲解。

在又一些实施例中,电子设备基于待转换为语音形式的文本信息中的关键词来确定目标情绪。可选地,电子设备对文本信息进行语义分析,以获取文本信息中的关键词,之后基于关键词与情绪之间的映射关系获取文本信息包括的情绪,最终基于文本信息包括的情绪确定目标情绪。可选地,电子设备将文本信息包括的情绪直接确定为目标情绪。

在电子设备为终端设备的情况下,电子设备获取用户在不同场景下触发的人机交互指令,并基于上述人机交互指令来开启本申请实施例提供的技术方案。在有声书场景下,电子设备在接收到朗读指令后,基于朗读指令从确定目标情绪的步骤开始执行。在智能语音助手场景下,电子设备在接收到针对智能语音助手的唤醒指令,且监测到用户发出提问信息后,从确定目标情绪的步骤开始执行。

在电子设备为服务器的情况下,电子设备接收终端基于人机交互指令发送的语音合成请求,语音合成请求中携带待合成信息,以及用于确定目标情绪的相关信息(比如用户发出提问时的音视频信息、待朗读的文字等等),服务器基于语音合成请求从确定目标情绪的步骤开始执行。

进一步地,在电子设备为终端设备的情况下,电子设备提供有情绪语音输出功能,在该功能被用户触发至开启状态后,获取用户在不同场景下触发的人机交互指令,并基于上述人机交互指令来开启本申请实施例提供的技术方案,或者,基于人机交互指令向服务器发送语音合成请求。在电子设备为配置有显示屏幕的终端设备,比如智能手机、平板电脑等,电子设备显示情绪语音输出功能的控件,并基于作用在该控件上的指定操作信号开启情绪语音输出功能。在电子设备为未配置有显示屏幕的终端设备,比如智能音箱等,与智能音箱存在通信连接的智能手机(其安装有智能音箱的控制情绪)显示情绪语音输出功能的控件,上述智能手机基于作用在该控件上的指定操作信号开启情绪语音输出功能。通过上述方式,可以根据用户的实际需求来选择是否开启情绪语音输出功能,满足用户的个性化需求。

步骤202,获取目标情绪的声纹特征。

目标情绪的声纹特征表征用户处于目标情绪的情况下发出的语音信号的声纹特征。目标情绪的声纹特征包括且不限于:基频、响度、音色、发声时长、韵律、节奏、音质、能量等等。

在一种可能的实现方式中,电子设备与外部情绪库建立有通信连接,其向外部通信库发送特征获取请求,特征获取请求携带目标情绪的情绪标识,外部情绪库基于该特征获取请求向电子设备返回目标情绪的声纹特征。在另一种可能的实现方式中,电子设备以目标情绪的情绪标识为索引从本地情绪库读取目标情绪的声纹特征。外部情绪库或本地情绪库存储有不同情绪与不同声纹特征之间的第一映射关系。在一些实施例中,外部情绪库或本地情绪库存储有不同情绪与不同脸部特征之间的第一映射关系。下面对第一映射关系以及第二映射关系的构建过程进行讲解。

在一些实施例中,电子设备包括情绪语音输出功能,在用户第一次触发该功能开启的情况下,电子设备引导用户输出不同情绪的语音信号并对上述不同情绪的语音信号进行采集,对采集到的语音信号进行特征提取,得到该用户的情绪与声纹特征之间的映射关系,电子设备将用户的情绪与声纹特征之间的映射关系发送至云端,之后对多个用户的情绪与声纹特征之间的映射关系进行统计分析,最终得到第一映射关系,并将其存储在情绪库中。以声纹特征为响度为例,通常情况下,用户在愤怒情绪下发出语音信号的响度较高,云端对各个用户在愤怒情绪下的响度进行统计分析,将各个用户在愤怒情绪下的响度的均值或者中间值,确定为用户在愤怒情绪下的响度。

可选地,电子设备还可以采集用户在不同情绪下的人脸图像,对人脸图像进行特征提取,得到该用户的情绪与人脸特征之间的映射关系,电子设备将用户的情绪与声纹特征之间的映射关系发送至云端,之后对多个用户的情绪与人脸特征之间的映射关系进行统计分析,最终得到第二映射关系,并将其存储在情绪库中。在一个例子,用户在处于“难过”情绪时,通常表现为眉头蹙起、嘴角下垂,电子设备可以从用户在处于“难过”情绪下的人脸图像采集到上述人脸特征。

在另一些实施例中,云端获取现有的视频或音频资料,技术人员可以对上述视频或音频资料进行情绪标注,得到每个情绪下的音频或视频资料,之后对每个情绪下的音频或视频资料进行声纹特征提取,对提取出的声纹特征进行统计分析,得到每个情绪的声纹特征,并将其存储在情绪库中。可选地,电子设备还可以对每个情绪下的音频或视频资料进行人脸特征提取,对提取出的人脸特征进行统计分析,得到每个情绪的人脸特征,并将其存储在情绪库中。

步骤203,基于目标情绪的声纹特征对待合成信息进行合成处理,得到合成语音。

待合成信息可以是语音形式,也可以是文本形式,本申请实施例对此不作限定。待合成信息可以根据实际场景确定。在有声书场景下,若待合成信息为语音形式,则待合成信息是按照第一默认声纹特征对待朗读的文本信息进行语音转换处理得到的;若待合信息音为文字形式,则待合成信息是上述待朗读的文本信息。在智能语音场景下,若待合成信息为语音形式,待合成信息是按照第二默认声纹特征对针对提问信息的回答信息进行语音转换处理得到的;若待合信息音为文字形式,则待合成信息是文本形式的回答信息。第一默认声纹特征和第二默认声纹特征可以由电子设备默认设定,也可以由用户自定义设定,本申请实施例对此不作限定。

可选地,电子设备在得到合成语音之后,输出合成语音。比如通过扬声器播放合成语音。在本申请实施例中,电子设备基于用户处于目标情绪的情况下发出的语音信号对待合成信息进行合成处理,得到合成语音,以使得电子设备在输出合成语音时,用户能感受到合成语音具有目标情绪,使得用户与电子设备之间的人机交互更加自然,更富表现力。

综上所述,本申请实施例提供的技术方案,通过确定期望合成语音具有的情绪,之后获取用户在处于上述情绪时发出的语音信号的声纹特征,最后基于上述声纹特征对待处理的待合成信息进行合成处理,得到能够表现情绪的合成语音,后续电子设备在播放合成语音时也能模拟出人类的情绪,使得电子设备输出的合成语音更加自然,更富有表现力。

电子设备在对待合成信息进行合成处理时,需要完成声纹特征的调整、响度补偿以及去噪等步骤,可以保证最终输出的合成语音能够模拟出目标情绪,并且响度适中,也足够清晰,可以提高语音人机交互的体验感。

图3是本申请实施例提供的一种语音合成方法的流程图。该方法包括:

步骤301,确定目标情绪。

目标情绪表征期望合成语音具有的情绪。

步骤302,获取所述目标情绪的声纹特征。

目标情绪的声纹特征表征用户处于目标情绪的情况下发出的语音信号的声纹特征。

步骤303,按照目标情绪的声纹特征对待合成信息的声纹特征进行调整,得到第一中间语音。

在本申请实施例中,待合成信息为语音形式。电子设备将待合成信息的声纹特征调整为目标情绪的声纹特征,得到第一中间语音,第一中间语音在播放时可以模拟出目标情绪。在一些实施例中,电子设备调整待合成信息的声谱图,调整后的声谱图包括的声纹特征也即是目标情绪的声纹特征。在另一些实施例中,电子设备包括用于指示各项声纹特征的字段,电子设备通过将上述字段的取值修改为目标情绪的声纹特征的取值,以实现按照目标情绪的声纹特征对待合成信息的声纹特征进行调整。

步骤304,对第一中间语音进行响度补偿处理,得到第二中间语音。

第二中间语音的响度参数大于第一中间语音的响度参数。响度补偿是指增大第一中间语音的响度参数,由于在步骤303中的声纹特征调整过程中有可能造成响度损失,后续播放时导致用户无法听清的情况发生,因此需要进行响度补偿。

在一些实施例中,电子设备中包含用于表示第一中间语音的响度参数的字段,电子设备通过增大该字段的取值,以实现对第一中间语音的响度补偿处理。

在一些实施例中,电子设备在检测出第一中间语音的响度参数小于第一预设值的情况下,对第一中间语音进行响度补偿处理。第一预设值根据实验或经验设定,本申请实施例对此不作限定。通过上述方式,可以避免进行不必要的响度补偿处理,节省电子设备的处理资源,还可以避免需要播放的语音信息的响度过大的情况发生,提高语音人机交互的体验感。

步骤305,对第二中间语音进行去噪处理,得到合成语音。

去噪处理是指去除第二中间语音的噪声分量。在前述的声纹特征调整过程以及响度补偿过程有可能引入新的噪声分量,并且待合成信息中也包含噪声分类,因此需要进行去噪处理,以保证合成语音的情绪度。对第二中间语音进行去噪处理采用的算法包括:高斯滤波算法、基于LMS框架的去噪算法、深度学习去噪算法等等,本申请实施例对此不作限定。

在一些实施例中,电子设备在检测出第二中间语音的噪声分量的占比小于大于第二预设值的情况下,对第二中间语音进行去噪处理。第二预设值根据实验或经验设定,本申请实施例对此不作限定,比如,第二预设值为30%。通过上述方式,可以避免进行不必要的去噪处理,节省电子设备的处理资源,还可以避免需要播放的语音信息的噪声过大的情况发生,保证待播放的语音信息(也即合成语音)的清晰度,提高语音人机交互的体验感。

综上所述,本申请实施例提供的技术方案,通过对待合成信息依次进行声纹特征调整、响度补偿处理以及去噪处理,可以保证最终输出的合成语音能够模拟出目标情绪,并且响度适中,也足够清晰,可以提高语音人机交互的体验感。

在智能语音助手场景下,用户对智能语音助手发出提问后,智能语音助手可以确定用户在发出提问时的情绪,并基于用户的情绪来确定播放回答信息时需要表现的情绪,使得用户与智能语音助手的人机交互过程更加自然,更富表现力。

图4是本申请实施例涉及的一种语音合成方法的流程图。该方法包括:

步骤401,获取目标用户发出提问语音信息的过程中的音视频信息。

待合成信息为针对提问语音信息的回答语音信息。目标用户发出提问语音信息的过程中的音视频信息包括目标用户发出提问语音信息的过程中的音频信息或/及视频信息。在一些实施例中,电子设备在监测到用户发出提问语音信息后,开启图像采集装置采集包含用户的人脸图像的视频信息,开启声音采集装置采集用户发出的提问语音信息。可选地,电子设备持续对声音信号进行监测,若监测到声音信号中包含指定关键词后,确定用户发出提问语音信息,上述指定关键词可以是智能语音助手的名称。

步骤402,基于音视频信息,确定目标用户的情绪。

目标用户的情绪表征目标用户在发出提问语音信息的过程中表现的情绪。

在一些实施例中,在该音视频信息包括音频信息的情况下,电子设备从音频信息中提取声纹特征,之后依次计算提取出的声纹特征与至少一个情绪的声纹特征之间的相似度,将与提取出的声纹特征之间的相似度满足第一预设条件的情绪,确定为目标用户的情绪。

声纹特征提取算法可以是基于小波变换的声纹特征提取算法等等,基于线性预测系数的声纹特征提取算法、基于感知线性预测的声纹特征提取算法等等,本申请实施例对此不作限定。

至少一个情绪的声纹特征可以从外部情绪数据库获取,或者,从本地情绪数据库获取,获取过程参见步骤202的解释说明,此处不作赘述。

在一些实施例中,提取出的声纹特征与至少一个情绪的声纹特征为相同维度的特征向量,电子设备计算上述两个特征向量之间的距离,以确定提取出的声纹特征与至少一个情绪的声纹特征之间的相似度。上述距离包括余弦距离、欧式距离等等,本申请实施例对此不作限定。

第一预设条件可以是将与提取出的声纹特征之间的相似度最大的情绪确定为目标用户的情绪,还可以是将与提取出的声纹特征之间的相似度最大,并且大于第一预设相似度的情绪确定为目标用户的情绪。第一预设相似度根据实验或经验设定,本申请实施例对此不作限定。

在一些实施例中,在指定音视频信息包括视频信息的情况下,电子设备从视频信息中提取人脸特征;获取提取出的人脸特征和至少一个情绪的人脸特征之间的相似度;将与提取出的人脸特征之间的相似度满足第二预设条件的情绪,确定为目标用户的情绪。

脸部特征提取算法包括基于统计分析的脸部特征提取算法、基于深度学习的脸部特征提取算法等等。至少一个情绪的脸部特征可以从外部情绪数据库获取,或者,从本地情绪数据库获取,获取过程参见步骤202的解释说明,此处不作赘述。

在一些实施例中,提取出的脸部特征与至少一个情绪的脸部特征为相同维度的特征向量,电子设备计算上述两个特征向量之间的距离,以确定提取出的脸部特征与至少一个情绪的脸部特征之间的相似度。上述距离包括余弦距离、欧式距离等等,本申请实施例对此不作限定。

第二预设条件可以是将与提取出的脸部特征之间的相似度最大的情绪确定为目标用户的情绪,还可以是将与提取出的脸部特征之间的相似度最大,并且大于第二预设相似度的情绪确定为目标用户的情绪。第二预设相似度根据实验或经验设定,本申请实施例对此不作限定。

在又一些实施例中,在指定音视频信息包括视频信息的情况下,电子设备通过情绪识别模型对视频图像包括的至少一张人脸图像进行识别处理,得到目标用户的情绪。在一些实施例中,电子设备将视频信息包含的人脸图像输入情绪识别模型,由情绪识别模型输出目标用户的情绪属于各个情绪标签的概率,将概率最大的情绪标签确定为目标用户的情绪。

情绪识别模型是通过标注有情绪标签的训练样本图像对深度学习网络进行训练得到的模型。情绪识别模型的训练过程如下:电子设备获取预设数量的训练样本图像,上述训练样本图像均标注有情绪标签,将训练样本图像输入初始模型,由初始模型输出预测情绪标签,基于预测情绪标签和标注情绪标签之间的误差以及预设损失函数对初始模型的各项参数进行调整,并从将训练样本图像输入初始模型的步骤重新开始执行,直至满足停止迭代条件。

预设数量根据情绪识别模型的精度要求实际设定,情绪识别模型的精度要求越高,则预设数量越大。停止迭代条件可以是迭代次数大于预设次数,也可以是预测情绪标签和标注情绪标签之间的误差小于预设误差。预设次数也根据情绪识别模型的精度要求实际设定,情绪识别模型的精度要求越高,则预设次数越大。预设误差也根据情绪识别模型的精度要求实际设定,情绪识别模型的精度要求越高,则预设误差越小。

在其他可能的实施例中,电子设备基于视频信息和音频信息来综合确定目标用户的情绪。具体地,电子设备获取提取出的声纹特征与至少一个情绪的声纹特征之间的相似度,基于上述相似度来确定目标用户的情绪属于各个情绪标签的第一概率,之后通过情绪识别模型输出目标用户的情绪属于各个情绪标签的第二概率,将目标用户的情绪属于各个情绪标签的第一概率和第二概率进行加权求和,得到目标用户的情绪属于各个情绪标签的第三概率,将第三概率最大的情绪标签确定为目标用户的情绪。

参考图5,其示出本申请一个实施例提供的确定目标用户情绪的示意图。在用户发声时,电子设备实时采集语音信号和表情信号,之后通过语音数据分析模块对语音信号进行分析,得到语音数据分析报告,通过面部表情分析模块对表情信号进行分析,得到表情分析报告,最终通过语音数据分析报告和表情分析报告确定综合分析报告,综合分析报告包括确定出的目标用户的情绪。

步骤403,基于目标用户的情绪确定目标情绪。

在一些实施例中,电子设备将目标用户的情绪确定为目标情绪。可选地,电子设备在处于有声书场景下,将目标用户的情绪确定为目标情绪。比如,针对待朗读文本“他看着她的背影,难过地哭出来”,电子设备确定出的情绪为“难过”,则将目标情绪确定为“难过”。

在另一些实施例中,电子设备基于目标用户的情绪与目标情绪之间的映射关系来确定。目标用户的情绪与目标情绪之间的映射关系可以由相关专业人员(比如心理学家)设定。以下表-1示例性示出目标用户的情绪与目标情绪之间的映射关系。

可选地,电子设备在处于智能语音助手场景下,基于上述映射关系以及目标用户的情绪确定目标情绪。比如,电子设备确定目标用户的情绪为“愤怒”,查找上述映射关系,确定目标情绪为“平和”。

步骤404,获取目标情绪的声纹特征。

目标情绪的声纹特征表征用户处于目标情绪的情况下发出的语音信号的声纹特征。

步骤405,基于目标情绪的声纹特征对待合成信息进行合成处理,得到合成语音。

参考图6,其示出本申请一个实施例提供的语音合成方法的流程图。电子设备在用户发出提问信息的情况下,采集源语音数据以及人脸图像,之后通过语音识别算法对源语音数据进行语音处理,通过图像识别算法对人脸图像进行处理,最终基于二者的识别结果确定说话人的情绪,之后从情绪库中获取说话人的情绪的声纹特征,语音转换模块基于上述声纹特征对待合成信息进行语音合成处理,最终输出可以表现情绪的语音。

综上所述,本申请实施例提供的技术方案,在智能语音助手场景下,用户对智能语音助手发出提问后,智能语音助手可以确定用户在发出提问时的情绪,并基于用户的情绪来确定播放回答信息时需要表现的情绪,使得用户与智能语音助手的人机交互过程更加自然,更富表现力。

图7是本申请实施例提供的语音合成装置的框图。该语音合成装置包括:情绪确定模块710、特征获取模块720和合成处理模块730。

情绪确定模块710,用于确定目标情绪,目标情绪表征期望合成语音具有的情绪。特征获取模块720,用于获取目标情绪的声纹特征,目标情绪的声纹特征表征用户处于目标情绪的情况下发出的语音信号的声纹特征。合成处理模块730,用于基于目标情绪的声纹特征对待合成信息进行合成处理,得到合成语音。

综上所述,本申请实施例提供的技术方案,通过确定期望合成语音具有的情绪,之后获取用户在处于上述情绪时发出的语音信号的声纹特征,最后基于上述声纹特征对待处理的待合成信息进行合成处理,得到能够表现情绪的合成语音,后续电子设备在播放合成语音时也能模拟出人类的情绪,使得电子设备输出的合成语音更加自然,更富有表现力。

在一些实施例中,合成处理模块730,用于:按照目标情绪的声纹特征对待合成信息的声纹特征进行调整,得到第一中间语音;对第一中间语音进行响度补偿处理,得到第二中间语音,第二中间语音的响度参数大于第一中间语音的响度参数;对第二中间语音进行去噪处理,得到合成语音。

在一些实施例中,合成处理模块730,用于:在第一中间语音的响度参数小于第一预设值的情况下,对第一中间语音进行响度补偿处理,得到第二中间语音;在第二中间语音中的噪声分量的占比大于第二预设值的情况下,对第二中间语音进行去噪处理,得到合成语音。

在一些实施例中,情绪确定模块710,用于:获取目标用户发出提问语音信息的过程中的音视频信息,待合成信息为针对提问语音信息的回答语音信息;基于音视频信息,确定目标用户的情绪,目标用户的情绪表征目标用户在发出提问语音信息的过程中表现的情绪;基于目标用户的情绪确定目标情绪。

在一些实施例中,情绪确定模块710,用于:从音频信息中提取声纹特征;获取提取出的声纹特征和至少一个情绪的声纹特征之间的相似度;将与提取出的声纹特征之间的相似度满足第一预设条件的情绪,确定为目标用户的情绪。

在一些实施例中,情绪确定模块710,用于:从视频信息中提取人脸特征;获取提取出的人脸特征和至少一个情绪的人脸特征之间的相似度;将与提取出的人脸特征之间的相似度满足第二设条件的情绪,确定为目标用户的情绪。

在一些实施例中,情绪确定模块710,用于:通过情绪识别模型对视频图像包括的至少一张人脸图像进行识别处理,得到目标用户的情绪;其中,情绪识别模型是通过标注有情绪标签的训练样本图像对深度学习网络进行训练得到的模型。

如图8所示,本申请示例还提供一种电子设备800,该电子设备800可以是服务器,该电子设备800包括处理器810、存储器820。其中,存储器820存储有计算机程序指令。

处理器810可以包括一个或者多个处理核。处理器810利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器820内的指令、程序、代码集或指令集,以及调用存储在存储器820内的数据,执行电池管理系统的各种功能和处理数据。可选地,处理器810可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器810可集成中央处理器810(Central Processing Unit,CPU)、图像处理器810(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器810中,单独通过一块通信芯片进行实现。

存储器820可以包括随机存储器820(Random Access Memory,RAM),也可以包括只读存储器820(Read-Only Memory)。存储器820可用于存储指令、程序、代码、代码集或指令集。存储器820可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法示例的指令等。存储数据区还可以存储电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图9,其示出了本申请实施例还提供一种计算机可读存储介质900,该计算机可读存储介质900中存储有计算机程序指令910,计算机程序指令910可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质900包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的计算机程序指令910的存储空间。这些计算机程序指令910可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序指令910可以以适当形式进行压缩。

以上,仅是本申请的较佳示例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳示例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效示例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上示例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。

技术分类

06120114581842