掌桥专利:专业的专利平台
掌桥专利
首页

一种语音交互方法、系统、计算机设备和存储介质

文献发布时间:2024-04-18 20:00:50


一种语音交互方法、系统、计算机设备和存储介质

技术领域

本申请涉及语音交互技术领域,特别是涉及一种语音交互方法、系统、计算机设备和存储介质。

背景技术

在现代驾驶员座舱内,飞行员和飞行器之间的交互通过多种人机界面发生,主要是通过多种人机界面与仪表板显示装置的交互而发生。这些显示装置显示了平稳执行飞行计划或执行任务所需要的主要飞行和航行参数。这种交互方法存在以下缺陷:

1.飞行员和飞行器的交互操作不够简化,不够自然和便捷;

2.对于不同飞行员采用同一个语音识别模块进行语音识别,没有考虑到各个飞行员的语音特征不相同,因此对于不同飞行员来说该语音识别模块的准确度很难兼顾;

3.缺少对飞行员的情绪检测,在愤怒、高兴、害怕以及悲伤等情绪下可能出现危险驾驶行为。

因此,亟需提出一种能够实现个性化语音交互,并保证语音交互的安全性的语音交互方法、系统、计算机设备和存储介质。

发明内容

基于此,有必要针对上述技术问题,提供一种能够实现个性化语音交互,并保证语音交互的安全性的语音交互方法、系统、计算机设备和存储介质。

第一方面,提供一种语音交互方法,应用于飞行器,所述方法包括:

获取用户识别码,并根据所述用户识别码查找对应的用户语音识别模块,其中,所述用户识别码与用户一一对应,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型;

获取用户语音信号和状态变量,并根据所述状态变量判断当前语音识别功能是否处于唤醒状态;

响应于所述状态变量表示为当前语音识别功能处于唤醒状态,获取状态持续时间变量,并根据所述状态持续时间变量判断当前唤醒状态是否超时;

响应于所述状态持续时间变量表示为当前唤醒状态未超时,将所述用户语音信号输入所述用户语音识别模块,获得对应的用户语音识别结果和用户情绪识别结果,其中,所述用户语音识别结果包含语音控制指令;

根据所述用户情绪识别结果,确定是否执行所述语音控制指令;

响应于所述用户情绪识别结果为中性情绪,执行所述语音控制指令。

在其中一个实施例中,获得所述用户语音识别模型的方法,包括以下步骤:

步骤1:建立数据库和待训练模型:获取用户识别码,并根据所述用户识别码建立对应的特征数据库和待训练语音识别模型,其中,所述用户识别码与用户一一对应;

步骤2:语音数字化处理:获取标准语音样本,并将所述标准语音样本转化为对应的标准数字样本;

步骤3:特征提取与存储:按照多个维度对所述标准数字样本进行特征提取,获得特征值a,对所述特征值a进行分类、标记,并将所述特征值a存储于所述特征数据库中,其中,所述多个维度包括发音特点、语速及语调中的至少两种;

步骤4:训练语音识别模型:获取用户语音样本,所述用户语音样本经过数字化和特征提取获得特征值b,将所述特征值b和所述特征数据库中的特征值a作为样本对输入所述待训练语音识别模型中进行训练,获得用户语音识别模型。

在其中一个实施例中,获得所述用户情绪识别模型的方法,包括以下步骤:

步骤1:建立待训练模型:获取用户识别码,并根据所述用户识别码建立对应的待训练情绪识别模型,其中,所述待训练情绪识别模型是基于语音情感数据库,采用卷积神经网络搭建而成;

步骤2:语音数字化处理:获取用户语音样本,并将所述用户语音样本转化为对应的用户数字样本,其中,所述用户语音样本标注有对应的情绪标签;

步骤3:训练情绪识别模型:将所述用户数字样本输入所述待训练情绪识别模型,获得情绪识别结果,将所述情绪识别结果和所述情绪标签作为样本对输入所述待训练情绪识别模型进行训练,获得用户情绪识别模型。

在其中一个实施例中,所述用户语音识别模块设置有唤醒词,判断当前语音识别功能是否处于唤醒状态,包括:

响应于当前语音识别功能处于未唤醒状态,判断所述用户数字信号中是否包含唤醒词;

响应于所述用户数字信号中不包含唤醒词,结束语音交互;

响应于所述用户数字信号中包含唤醒词,将所述语音识别功能设置为唤醒状态,并将唤醒成功的提示对用户进行播放。

在其中一个实施例中,所述用户情绪识别结果包括生气、惊讶、害怕、悲伤、高兴以及其他中性情绪。

在其中一个实施例中,所述方法还包括:

根据所述语音控制指令的执行结果生成对应的反馈语音信号,并对用户进行播放;

所述反馈语音信号包括该语音控制指令无法执行的提示,所述方法还包括:

判断所述语音控制指令是否满足安全要求;

响应于所述语音控制指令满足安全要求,执行所述语音控制指令;

响应于所述语音控制指令不满足安全要求,生成该语音控制指令无法执行的提示,并对用户进行播放;

所述反馈语音信号还包括该语音控制指令错误的提示,所述方法还包括:

判断所述语音控制指令是否超出用户语音识别模块的功能范围;

响应于所述语音控制指令未超出用户语音识别模块的功能范围,执行所述语音控制指令;

响应于所述语音控制指令超出用户语音识别模块的功能范围,生成该语音控制指令错误的提示,并对用户进行播放;

其中,所述用户语音识别模块的功能范围包括切换指定显示界面、设置飞机航向、设置飞机高度、设置飞机速度以及播报飞机状态数据。

在其中一个实施例中,所述状态变量为逻辑型变量,所述状态持续时间变量为唤醒状态持续的时间参数。

第二方面,提供了一种语音交互系统,应用于飞行器,包括音频设备、通讯电台以及综合航电系统,所述综合航电系统设置有如第一方面任一项所述的用户语音识别模块,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型,

所述通讯电台一端与所述音频设备连接,另一端与所述综合航电系统连接;

其中,所述音频设备用于获取用户语音信号,并将所述用户语音信号通过所述通讯电台传输至所述综合航电系统进行语音识别;

所述综合航电系统根据用户语音识别结果和用户情绪识别结果生成对应的反馈数字信号,并将所述反馈数字信号通过所述通讯电台传输至音频设备进行播放;

所述通讯电台用于将所述用户语音信号转化为对应的用户数字信号,以及将所述反馈数字信号转化为对应的反馈语音信号。

第三方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上述第一方面任意一项所述语音交互方法的步骤。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如上述第一方面任意一项所述语音交互方法的步骤。

上述语音交互方法、系统、计算机设备和存储介质,通过用户识别码查找对应的用户语音识别模块,一个用户识别码对应一个用户语音识别模块,实现个性化语音交互;根据用户语音识别结果和用户情绪识别结果,判断是否执行语音控制指令,保证语音交互的安全性。

附图说明

图1为一个实施例中语音交互方法的流程示意图;

图2为一个实施例中进行用户语音识别的具体步骤示意图;

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

实施例一

在一个实施例中,如图1、图2所示,提供了一种语音交互方法,应用于飞行器,所述方法包括:

获取用户识别码,并根据所述用户识别码查找对应的用户语音识别模块,其中,所述用户识别码与用户一一对应,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型;

获取用户语音信号和状态变量,并根据所述状态变量判断当前语音识别功能是否处于唤醒状态;

响应于所述状态变量表示为当前语音识别功能处于唤醒状态,获取状态持续时间变量,并根据所述状态持续时间变量判断当前唤醒状态是否超时;

响应于所述状态持续时间变量表示为当前唤醒状态未超时,将所述用户语音信号输入所述用户语音识别模块,获得对应的用户语音识别结果和用户情绪识别结果,其中,所述用户语音识别结果包含语音控制指令;

根据所述用户情绪识别结果,确定是否执行所述语音控制指令;

响应于所述用户情绪识别结果为中性情绪,执行所述语音控制指令。

进一步地,获得所述用户语音识别模型的方法,包括以下步骤:

步骤1:建立数据库和待训练模型:获取用户识别码,并根据所述用户识别码建立对应的特征数据库和待训练语音识别模型,其中,所述用户识别码与用户一一对应;

步骤2:语音数字化处理:获取标准语音样本,并将所述标准语音样本转化为对应的标准数字样本;

步骤3:特征提取与存储:按照多个维度对所述标准数字样本进行特征提取,获得特征值a,对所述特征值a进行分类、标记,并将所述特征值a存储于所述特征数据库中,其中,所述多个维度包括发音特点、语速及语调中的至少两种;

步骤4:训练语音识别模型:获取用户语音样本,所述用户语音样本经过数字化和特征提取获得特征值b,将所述特征值b和所述特征数据库中的特征值a作为样本对输入所述待训练语音识别模型中进行训练,获得用户语音识别模型。

具体地,用户语音识别模型在飞行员的使用过程中,根据当前登录的飞行员识别码而从对应的特征数据库中提取特征值来进行识别、分析和机器学习训练,使得用户语音识别模型能够逐渐提高对不同飞行员语音识别的准确度。

进一步地,获得所述用户情绪识别模型的方法,包括以下步骤:

步骤1:建立待训练模型:获取用户识别码,并根据所述用户识别码建立对应的待训练情绪识别模型,其中,所述待训练情绪识别模型是基于语音情感数据库,采用卷积神经网络搭建而成;

步骤2:语音数字化处理:获取用户语音样本,并将所述用户语音样本转化为对应的用户数字样本,其中,所述用户语音样本标注有对应的情绪标签;

步骤3:训练情绪识别模型:将所述用户数字样本输入所述待训练情绪识别模型,获得情绪识别结果,将所述情绪识别结果和所述情绪标签作为样本对输入所述待训练情绪识别模型进行训练,获得用户情绪识别模型。

具体地,本实施例采用的语音情感数据库是CASIA汉语情感语料库,也可以采用其他情感预料数据库。

具体地,所述待训练情绪识别模型包括数据处理层、卷积池化层以及多个残差网络层,所述数据处理层用于对用户语音样本进行分帧加窗处理和短时傅里叶变换:

对所述用户语音样本中的音频数据进行分帧加窗处理,获得用户语音分析帧,所述用户语音样本标注有对应的情绪标签;

对所述语音分析帧进行短时傅里叶变换,获得语音声谱图;

对所述语音声谱图输入进行卷积操作,获得对应的声谱特征图;

对所述声谱特征图进行池化操作,提取主要的语音情感特征;

基于语音情感数据库,对所述语音情感特征进行分类识别,获得情绪识别结果;

根据所述情绪识别结果和所述情绪标签,通过多个残差网络层对所述待训练情绪识别模型进行收敛,直至所述情绪识别结果与所述情绪标签保持一致,获得用户情绪识别模型。

进一步地,如图2所示,所述用户语音识别模块设置有唤醒词,判断当前语音识别功能是否处于唤醒状态,包括:

响应于当前语音识别功能处于未唤醒状态,判断所述用户数字信号中是否包含唤醒词;

响应于所述用户数字信号中不包含唤醒词,结束语音交互;

响应于所述用户数字信号中包含唤醒词,将所述语音识别功能设置为唤醒状态,并将唤醒成功的提示对用户进行播放。

进一步地,所述用户情绪识别结果包括生气、惊讶、害怕、悲伤、高兴以及其他中性情绪。

具体地,通过识别飞行员的情绪,当出现强烈的情感波动时给与驾驶提醒和地面监控系统的警示提醒,增加驾驶安全性。例如:当系统识别出飞行员长时间或高频率处于愤怒、高兴、害怕、悲伤情绪中,系统自动在航电屏幕中显示“注意调整情绪,安全驾驶”等安全提示信息,同时向地面站发出相关情绪的提醒,以便于空管或者其他地面监控人员提高对飞行员的关注,减少可能发生的危险驾驶行为。

在一个实施例中,所述方法还包括:

根据所述语音控制指令的执行结果生成对应的反馈语音信号,并对用户进行播放;

所述反馈语音信号包括该语音控制指令无法执行的提示,所述方法还包括:

判断所述语音控制指令是否满足安全要求;

响应于所述语音控制指令满足安全要求,执行所述语音控制指令;

响应于所述语音控制指令不满足安全要求,生成该语音控制指令无法执行的提示,并对用户进行播放;

所述反馈语音信号还包括该语音控制指令错误的提示,所述方法还包括:

判断所述语音控制指令是否超出用户语音识别模块的功能范围;

响应于所述语音控制指令未超出用户语音识别模块的功能范围,执行所述语音控制指令;

响应于所述语音控制指令超出用户语音识别模块的功能范围,生成该语音控制指令错误的提示,并对用户进行播放;

其中,所述用户语音识别模块的功能范围包括切换指定显示界面、设置飞机航向、设置飞机高度、设置飞机速度以及播报飞机状态数据。

具体地,根据飞行安全要求,判断是否能执行该控制指令,无法执行时进行该控制指令无法执行的播报,以避免因为飞行员口误或综合航电系统语音识别错误等原因,对飞行安全产生不好的影响。

例如飞行员要求“设置高度10米”,则反馈该控制指令无法执行的音频“对不起,无法设置高度为10米,因为该高度不足以保证安全飞行”。

具体地,例如飞行员说给我定个明天的闹钟,这种就属于超出综合航电系统的功能范围的指令,该控制指令错误。也就是说飞行员的控制指令必须在飞行器原有的综合航电系统的功能范围之内。

具体地,执行结果有成功和失败两种可能性,如果语音控制指令顺利执行则反馈执行结果,例如飞行员语音命令“播报高度”,生成相应的反馈数字信号为“当前飞机高度为3000米”。

进一步地,所述状态变量为逻辑型变量,所述状态持续时间变量为唤醒状态持续的时间参数。

具体地,用户语音识别模块设置“唤醒”状态是在软件中实现,可以通过设置一个逻辑型变量。例如设置一个布尔型变量,如果处于“唤醒”状态将该变量的值设置为true,否则设置为false,软件运行时可以先读取该变量的值,据此判断语音识别功能的状态。

应该理解的是,虽然图1、图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

在一个实施例中,提供了一种语音交互系统,应用于飞行器,包括音频设备、通讯电台以及综合航电系统,所述综合航电系统设置有如实施例一所述的用户语音识别模块,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型,

所述通讯电台一端与所述音频设备连接,另一端与所述综合航电系统连接;

其中,所述音频设备用于获取用户语音信号,并将所述用户语音信号通过所述通讯电台传输至所述综合航电系统进行语音识别;

所述综合航电系统根据用户语音识别结果和用户情绪识别结果生成对应的反馈数字信号,并将所述反馈数字信号通过所述通讯电台传输至音频设备进行播放;

所述通讯电台用于将所述用户语音信号转化为对应的用户数字信号,以及将所述反馈数字信号转化为对应的反馈语音信号。

具体地,所述音频设备包括头戴式麦克风以及及其他任何可以稳定、准确采集飞行员语音模拟信号的设备,通过所述音频设备可以将外界干扰将至最低,极大的提高语音模拟信号的质量。

具体地,所述通讯电台的主要功能之一就是音频信号的处理,因此由通讯电台进行音频信号的数模转换功能,既专业又节约成本,处理音频后的质量高。

具体地,所述综合航电系统自带功能较为强大的运算处理主机,其运算处理能力完全可以支持语音识别算法的运行,通过软件升级的方式在综合航电系统中增加用户语音识别模块,对飞行员的语音信号进行用户语音识别和用户情绪识别,充分利用了原有的飞行器系统资源,节约了升级的硬件成本。

关于语音交互系统的具体限定可以参见上文中对于语音交互方法的限定,在此不再赘述。上述语音交互系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

实施例三

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取用户识别码,并根据所述用户识别码查找对应的用户语音识别模块,其中,所述用户识别码与用户一一对应,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型;

获取用户语音信号和状态变量,并根据所述状态变量判断当前语音识别功能是否处于唤醒状态;

响应于所述状态变量表示为当前语音识别功能处于唤醒状态,获取状态持续时间变量,并根据所述状态持续时间变量判断当前唤醒状态是否超时;

响应于所述状态持续时间变量表示为当前唤醒状态未超时,将所述用户语音信号输入所述用户语音识别模块,获得对应的用户语音识别结果和用户情绪识别结果,其中,所述用户语音识别结果包含语音控制指令;

根据所述用户情绪识别结果,确定是否执行所述语音控制指令;

响应于所述用户情绪识别结果为中性情绪,执行所述语音控制指令。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

步骤1:建立数据库和待训练模型:获取用户识别码,并根据所述用户识别码建立对应的特征数据库和待训练语音识别模型,其中,所述用户识别码与用户一一对应;

步骤2:语音数字化处理:获取标准语音样本,并将所述标准语音样本转化为对应的标准数字样本;

步骤3:特征提取与存储:按照多个维度对所述标准数字样本进行特征提取,获得特征值a,对所述特征值a进行分类、标记,并将所述特征值a存储于所述特征数据库中,其中,所述多个维度包括发音特点、语速及语调中的至少两种;

步骤4:训练语音识别模型:获取用户语音样本,所述用户语音样本经过数字化和特征提取获得特征值b,将所述特征值b和所述特征数据库中的特征值a作为样本对输入所述待训练语音识别模型中进行训练,获得用户语音识别模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

步骤1:建立待训练模型:获取用户识别码,并根据所述用户识别码建立对应的待训练情绪识别模型,其中,所述待训练情绪识别模型是基于语音情感数据库,采用卷积神经网络搭建而成;

步骤2:语音数字化处理:获取用户语音样本,并将所述用户语音样本转化为对应的用户数字样本,其中,所述用户语音样本标注有对应的情绪标签;

步骤3:训练情绪识别模型:将所述用户数字样本输入所述待训练情绪识别模型,获得情绪识别结果,将所述情绪识别结果和所述情绪标签作为样本对输入所述待训练情绪识别模型进行训练,获得用户情绪识别模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

响应于当前语音识别功能处于未唤醒状态,判断所述用户数字信号中是否包含唤醒词;

响应于所述用户数字信号中不包含唤醒词,结束语音交互;

响应于所述用户数字信号中包含唤醒词,将所述语音识别功能设置为唤醒状态,并将唤醒成功的提示对用户进行播放。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

所述用户情绪识别结果包括生气、惊讶、害怕、悲伤、高兴以及其他中性情绪。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据所述语音控制指令的执行结果生成对应的反馈语音信号,并对用户进行播放;

判断所述语音控制指令是否满足安全要求;

响应于所述语音控制指令满足安全要求,执行所述语音控制指令;

响应于所述语音控制指令不满足安全要求,生成该语音控制指令无法执行的提示,并对用户进行播放;

判断所述语音控制指令是否超出用户语音识别模块的功能范围;

响应于所述语音控制指令未超出用户语音识别模块的功能范围,执行所述语音控制指令;

响应于所述语音控制指令超出用户语音识别模块的功能范围,生成该语音控制指令错误的提示,并对用户进行播放;

其中,所述用户语音识别模块的功能范围包括切换指定显示界面、设置飞机航向、设置飞机高度、设置飞机速度以及播报飞机状态数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

所述状态变量为逻辑型变量,所述状态持续时间变量为唤醒状态持续的时间参数。

所述程序指令在被所述一个或多个处理器读取执行时,还可以执行与上述方法实施例中的各个步骤对应的操作,可以参考上文中的描述,此处不再赘述。参考图3,其示例性的展示出了计算机设备的架构,具体可以包括处理器310,视频显示适配器311,磁盘驱动器312,输入/输出接口313,网络接口314,以及存储器320。上述处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320之间可以通过通信总线330进行通信连接。

其中,处理器310可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。

存储器320可以采用只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、静态存储设备,动态存储设备等形式实现。存储器320可以存储用于控制计算机设备300运行的操作系统321,用于控制计算机设备300的低级别操作的基本输入输出系统(BIOS)322。另外,还可以存储网页浏览器323,数据存储管理324,以及图标字体处理系统325等等。上述图标字体处理系统325就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。

输入/输出接口313用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、音频设备、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口314用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线330包括一通路,在设备的各个组件(例如处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,与存储器320)之间传输信息。

另外,该计算机设备300还可以从虚拟资源对象领取条件信息数据库341中获得具体领取条件的信息,以用于进行条件判断,等等。

需要说明的是,尽管上述计算机设备300仅示出了处理器310、视频显示适配器311、磁盘驱动器312、输入/输出接口313、网络接口314,存储器320,总线330等,但是在具体实施过程中,该计算机设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

实施例四

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取用户识别码,并根据所述用户识别码查找对应的用户语音识别模块,其中,所述用户识别码与用户一一对应,所述用户语音识别模块包括用户语音识别模型和用户情绪识别模型;

获取用户语音信号和状态变量,并根据所述状态变量判断当前语音识别功能是否处于唤醒状态;

响应于所述状态变量表示为当前语音识别功能处于唤醒状态,获取状态持续时间变量,并根据所述状态持续时间变量判断当前唤醒状态是否超时;

响应于所述状态持续时间变量表示为当前唤醒状态未超时,将所述用户语音信号输入所述用户语音识别模块,获得对应的用户语音识别结果和用户情绪识别结果,其中,所述用户语音识别结果包含语音控制指令;

根据所述用户情绪识别结果,确定是否执行所述语音控制指令;

响应于所述用户情绪识别结果为中性情绪,执行所述语音控制指令。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

步骤1:建立数据库和待训练模型:获取用户识别码,并根据所述用户识别码建立对应的特征数据库和待训练语音识别模型,其中,所述用户识别码与用户一一对应;

步骤2:语音数字化处理:获取标准语音样本,并将所述标准语音样本转化为对应的标准数字样本;

步骤3:特征提取与存储:按照多个维度对所述标准数字样本进行特征提取,获得特征值a,对所述特征值a进行分类、标记,并将所述特征值a存储于所述特征数据库中,其中,所述多个维度包括发音特点、语速及语调中的至少两种;

步骤4:训练语音识别模型:获取用户语音样本,所述用户语音样本经过数字化和特征提取获得特征值b,将所述特征值b和所述特征数据库中的特征值a作为样本对输入所述待训练语音识别模型中进行训练,获得用户语音识别模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

步骤1:建立待训练模型:获取用户识别码,并根据所述用户识别码建立对应的待训练情绪识别模型,其中,所述待训练情绪识别模型是基于语音情感数据库,采用卷积神经网络搭建而成;

步骤2:语音数字化处理:获取用户语音样本,并将所述用户语音样本转化为对应的用户数字样本,其中,所述用户语音样本标注有对应的情绪标签;

步骤3:训练情绪识别模型:将所述用户数字样本输入所述待训练情绪识别模型,获得情绪识别结果,将所述情绪识别结果和所述情绪标签作为样本对输入所述待训练情绪识别模型进行训练,获得用户情绪识别模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

响应于当前语音识别功能处于未唤醒状态,判断所述用户数字信号中是否包含唤醒词;

响应于所述用户数字信号中不包含唤醒词,结束语音交互;

响应于所述用户数字信号中包含唤醒词,将所述语音识别功能设置为唤醒状态,并将唤醒成功的提示对用户进行播放。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

所述用户情绪识别结果包括生气、惊讶、害怕、悲伤、高兴以及其他中性情绪。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据所述语音控制指令的执行结果生成对应的反馈语音信号,并对用户进行播放;

判断所述语音控制指令是否满足安全要求;

响应于所述语音控制指令满足安全要求,执行所述语音控制指令;

响应于所述语音控制指令不满足安全要求,生成该语音控制指令无法执行的提示,并对用户进行播放;

所述反馈数字信号还包括该语音控制指令错误的提示,所述方法还包括:

判断所述语音控制指令是否超出用户语音识别模块的功能范围;

响应于所述语音控制指令未超出用户语音识别模块的功能范围,执行所述语音控制指令;

响应于所述语音控制指令超出用户语音识别模块的功能范围,生成该语音控制指令错误的提示,并对用户进行播放;

其中,所述用户语音识别模块的功能范围包括切换指定显示界面、设置飞机航向、设置飞机高度、设置飞机速度以及播报飞机状态数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

所述状态变量为逻辑型变量,所述状态持续时间变量为唤醒状态持续的时间参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 一种基于物联网的变电运维智能化移动作业平台
  • 一种物联网智能化宠物别墅
  • 一种别墅电梯用宠物防护设备
技术分类

06120116544411