掌桥专利:专业的专利平台
掌桥专利
首页

基于TTS的健康管理机器人语音交互模块

文献发布时间:2023-06-19 18:32:25


基于TTS的健康管理机器人语音交互模块

技术领域

本发明涉及健康管理机器人语音交互技术领域,尤其是涉及基于TTS的健康管理机器人语音交互模块。

背景技术

健康管理机器人一般是指具有语音交流功能、在线管家功能、视频询问功能、健康指标测量记录功能、提醒功能、互联网音影功能、自动规划路径移动功能等多合一的智能机器人。

健康管理机器人越来越多地应用到护理行业,全天候健康管理机器人概念的提出,主要是针对需要24小时不间断护理的应用场景,比如瘫痪患者、大型术后患者等完全没有自理能力的陪护场景。

由于健康管理机器人的服务对象一般为病患者,在这种应用场景下,需要更多地采用语音交互的模式来实现命令的获取和动作的执行。

现有技术的语音交互模块,一般是采用麦克风等实现人声的获取,再通过语音识别模块来实现语音信息的解析,并根据语音库内预设的语音信息进行回答,或者执行相关命令。

然而这种语音交互的模式,跟指令发出者的体验较差,指令发出者无法体验到的仅仅是一台机器来执行他的命令而已,面对需要24小时不间断护理对象,指令发出者体会不到交互感,也体会不到与“人”交互的关怀感。

发明内容

为了解决健康管理机器人语音交互体验的技术问题,本发明提供基于TTS的健康管理机器人语音交互模块。采用如下的技术方案:

基于TTS的健康管理机器人语音交互模块,包括语音识别单元、前置语音交互单元、TTS语音引擎单元和基于微处理器的电路板;

所述语音识别单元设置在健康管理机器人本体的四周,用于接收外界的语音信息,去除背景语音,保留人声语音数据,对语音信息进行定位,并将人声语音数据发送给前置语音交互单元和TTS语音引擎单元,将定位数据发送给基于微处理器的电路板;

所述前置语音交互单元接收语音识别单元发送的人声语音数据,识别是否匹配语音唤醒指令,若匹配成功,则向基于微处理器的电路板发送匹配成功指令;

所述基于微处理器的电路板与健康管理机器人本体主控电路板通信电连接,主控电路板执行回应动作,所述回应动作包括:

根据定位数据控制健康管理机器人本体的正面朝向人声语音数据发出方位,并行驶到距离人声语音数据发出点1-2米位置,通过主控电路板控制健康管理机器人本体正面面对着语音数据发出点位置,并控制TTS语音引擎单元对应人声语音数据做出语音交互。

通过上述技术方案,采用健康管理机器人本体处于待机状态时,语音识别单元实时接收四周发出的语音信息,当接收的语音信息里存在人声,在除杂后将人声语音数据传输给前置语音交互单元和TTS语音引擎单元,前置语音交互单元需要将其与预设的唤醒指令进行比对,若比对成功,则可以认为是服务目标需要健康管理机器人本体进行服务,则TTS语音引擎单元通常可以设置一些常用的回应指令,例如“听到了,我在这里”,“您好,主人,请问有什么可以帮您”等;

语音识别单元同时还需要对人声语音数据发出点的方向进行定位,这个定位信息发送到基于微处理器的电路板,基于微处理器的电路板通过与主控电路板进行交互,主控电路板需要控制健康管理机器人本体行驶到距离语音数据发出点1-2米位置,并面朝人声语音数据发出点,通过TTS语音引擎单元对应人声语音数据做出语音交互,这种交互模式大大提升了服务对象的体验感觉,采用TTS语音引擎单元与服务对象进行人声模拟对话,体验感更好。

可选的,所述语音识别单元包括阵列式麦克风组、人声降噪芯片和声音定位芯片,所述阵列式麦克风组环绕式设置在健康管理机器人本体的四周,用于接收外界的语音信息,并分别传输给人声降噪芯片和声音定位芯片,所述人声降噪芯片用于剔除语音信息中的背景杂音,并将人声语音数据发送给前置语音交互单元和TTS语音引擎单元,所述声音定位芯片对语音信息的声音源进行定位,得到定位数据,并将定位数据传输给基于微处理器的电路板。

通过上述技术方案,阵列式麦克风组可以实现不同方位的语音信息采集,采集的语音信息传输给人声降噪芯片后,人声降噪芯片通过AI降噪算法将背景杂音进行消除,留下的人声语音数据发送给前置语音交互单元和TTS语音引擎单元,声音定位芯片可以根据阵列式麦克风组采集的语音信息进行声源定位,为后续健康管理机器人本体的回应动作进行指引。

可选的,所述阵列式麦克风组包括四对麦克风、四个电控开关和麦克风选择芯片,所述麦克风成对的设置在健康管理机器人本体头部的前后左右四个面处,且成对的两个麦克风之间的距离为80-150mm,四路电控开关分别控制四对麦克风与人声降噪芯片和声音定位芯片通信电连接的通断,所述麦克风选择芯片通过控制四路电控开关的开和关控制接收到语音信息时间最早的一对麦克风收集语音信息。

可选的,所述麦克风选择芯片将四对麦克风标号为M1、M2、M3和M4,将四个电控开关标号为E1、E2、E3和E4;

健康管理机器人本体处于待机状态时,E1、E2、E3和E4均为接通状态,当M1、M2、M3和M4接收到一段完整的语音信息时,麦克风选择芯片选择接收到语音信息时间最早的一对麦克风收集语音信息,保持对应的电控开关继续处于接通状态,其它三路电控开关处于断开状态。

通过上述技术方案,采用四对麦克风的设置,可以对四个方向的声音来源做出精准的定位,定位原理采用双耳效应的时间差、相位差与声级差、音色差实现声音源的精准定位。设置的四对麦克风在完成了声音源的定位后,麦克风选择芯片可以选择将其他三对麦克风关闭,只采用面对声音源的一对麦克风开启采集声音信息。

可选的,所述前置语音交互单元包括语音识别芯片和预设唤醒指令数据库,所述语音识别芯片识别人声语音数据,并与预设唤醒指令数据库的唤醒指令数据进行逐一比对,若存在对比成功,则向基于微处理器的电路板发送匹配成功指令。

通过上述技术方案,预设唤醒指令数据库里存储多条唤醒指令,并采用基于深度学习的语音比对算法,每次进行比对后将比对成功的语音指令存储到预设唤醒指令数据库中,大大提高语音唤醒的成功率和响应速度。

可选的,若预设唤醒指令数据库存在对比成功,基于微处理器的电路板通过TTS语音引擎单元发出应答声音。

通过上述技术方案,若预设唤醒指令数据库存在对比成功,,则可以认为是服务目标需要健康管理机器人本体进行服务,则TTS语音引擎单元通常可以设置一些常用的回应指令,例如“听到了,我在这里”,“您好,主人,请问有什么可以帮您”,“主人,我在这里,需要我干啥”等,提升服务对象的交互体验。

可选的,所述TTS语音引擎单元包括TTS语音芯片、TTS语音数据库和语音指令数据库,所述TTS语音芯片接收人声语音数据并进行判断,若是对话信息,则通过TTS语音数据库调取语音信息进行应答,若是指令信息,则通过语音指令数据库进行匹配,并将匹配成功的指令数据通过基于微处理器的电路板发送给主控电路板,主控电路板执行指令。

通过上述技术方案,TTS语音引擎单元需要完成两个动作,一是对人声数据判断是对话信息还是指令信息;

具体判断的方法可以是先对语音指令数据库进行比对,若无比对成功,则认为属于对话信息,可以在TTS语音数据库中进行匹配应答,若语音指令数据库比对成功,则认为属于指令信息,通过基于微处理器的电路板发送给主控电路板,主控电路板执行指令,完成比如在线管家功能、视频询问功能、健康指标测量记录功能、提醒功能、互联网音影功能。

可选的,所述TTS语音芯片是科大讯飞LQFP-64芯片。

通过上述技术方案,科大讯飞LQFP-64芯片可以高效地实现语音识别和人声模拟应答,大大提升语音交互体验。

可选的,人声语音数据的语速越快,健康管理机器人本体行驶到距离人声语音数据发出点的速度越快。

通过上述技术方案,理论上声语音数据的语速越快,表面服务对象越急切,在设定安全速度范围内,健康管理机器人本体行驶到距离人声语音数据发出点的速度越快,给服务对象到感觉是自己越受到重视。

可选的,所述回应动作还包括健康管理机器人本体头部的晃动和模拟眨眼;

当健康管理机器人本体正面面对着语音数据发出点位置时,若TTS语音引擎单元检测到持续的人声数据,则健康管理机器人本体的头部随机做出歪头、摇晃动作,同时控制健康管理机器人本体的摄像头镜头的打开和关闭模拟眨眼。

通过上述技术方案,机器人与人之间到语音交互体验差的根源在于:人总是感觉到面对的是冰冷的机器,在说话或者倾听的时候机器人毫无动作和表情,且回答的语音也很死板。

在健康管理机器人本体与服务对象进行语音交互时,配上适时的歪头、摇晃动作,同时增加摄像头镜头的打开和关闭模拟眨眼的动作,匹配TTS语音引擎单元的拟人化的语音交互,让服务对象感受到被尊重,被关怀,大大提升服务对象的语音交互体验。

综上所述,本发明包括以下至少一种有益技术效果:

本发明能提供基于TTS的健康管理机器人语音交互模块,采用语音识别单元实现语音信息的采集和定位,健康管理机器人尽快来到服务对象的身边,并在交互的过程中,通过TTS语音引擎单元与服务对象进行人声模拟对话,适时做出回应动作,回应动作包括晃动和模拟眨眼,让服务对象感受到被尊重,被关怀,大大提升服务对象的语音交互体验。

附图说明

图1是本发明电器件连接原理示意图;

图2是本发明语音识别单元电器件连接原理示意图;

图3是本发明TTS语音引擎单元电器件连接原理示意图。

附图标记说明:1、语音识别单元;11、阵列式麦克风组;111、麦克风;112、电控开关;113、麦克风选择芯片;12、人声降噪芯片;13、声音定位芯片;2、前置语音交互单元;21、语音识别芯片;22、预设唤醒指令数据库;3、TTS语音引擎单元;31、TTS语音芯片;32、TTS语音数据库;33、语音指令数据库;4、基于微处理器的电路板;100、健康管理机器人本体;101、主控电路板。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明实施例公开基于TTS的健康管理机器人语音交互模块。

参照图1-图3,基于TTS的健康管理机器人语音交互模块,包括语音识别单元1、前置语音交互单元2、TTS语音引擎单元3和基于微处理器的电路板4;

语音识别单元1设置在健康管理机器人本体100的四周,用于接收外界的语音信息,去除背景语音,保留人声语音数据,对语音信息进行定位,并将人声语音数据发送给前置语音交互单元2和TTS语音引擎单元3,将定位数据发送给基于微处理器的电路板4;

前置语音交互单元2接收语音识别单元1发送的人声语音数据,识别是否匹配语音唤醒指令,若匹配成功,则向基于微处理器的电路板4发送匹配成功指令;

基于微处理器的电路板4与健康管理机器人本体100主控电路板101通信电连接,主控电路板101执行回应动作,回应动作包括:

根据定位数据控制健康管理机器人本体100的正面朝向人声语音数据发出方位,并行驶到距离语音数据发出点1-2米位置,通过主控电路板101控制健康管理机器人本体100正面面对着语音数据发出点位置,并控制TTS语音引擎单元3对应人声语音数据做出语音交互。

采用健康管理机器人本体100处于待机状态时,语音识别单元1实时接收四周发出的语音信息,当接收的语音信息里存在人声,在除杂后将人声语音数据传输给前置语音交互单元2和TTS语音引擎单元3,前置语音交互单元2需要将其与预设的唤醒指令进行比对,若比对成功,则可以认为是服务目标需要健康管理机器人本体100进行服务,则TTS语音引擎单元3通常可以设置一些常用的回应指令,例如“听到了,我在这里”,“您好,主人,请问有什么可以帮您”等;

语音识别单元1同时还需要对语音数据发出点的方向进行定位,这个定位信息发送到基于微处理器的电路板4,基于微处理器的电路板4通过与主控电路板101进行交互,主控电路板101需要控制健康管理机器人本体100行驶到距离语音数据发出点1-2米的位置,并面朝语音数据发出点,通过TTS语音引擎单元3对应人声语音数据做出语音交互,这种交互模式大大提升了服务对象的体验感觉,采用TTS语音引擎单元3与服务对象进行人声模拟对话,体验感更好。

语音识别单元1包括阵列式麦克风组11、人声降噪芯片12和声音定位芯片13,阵列式麦克风组11环绕式设置在健康管理机器人本体100的四周,用于接收外界的语音信息,并分别传输给人声降噪芯片12和声音定位芯片13,人声降噪芯片12用于剔除语音信息中的背景杂音,并将人声语音数据发送给前置语音交互单元2和TTS语音引擎单元3,声音定位芯片13对语音信息的声音源进行定位,得到定位数据,并将定位数据传输给基于微处理器的电路板4。

阵列式麦克风组11可以实现不同方位的语音信息采集,采集的语音信息传输给人声降噪芯片12后,人声降噪芯片12通过AI降噪算法将背景杂音进行消除,留下的人声语音数据发送给前置语音交互单元2和TTS语音引擎单元3,声音定位芯片13可以根据阵列式麦克风组11采集的语音信息进行声源定位,为后续健康管理机器人本体100的回应动作进行指引。

阵列式麦克风组11包括四对麦克风111、四个电控开关112和麦克风选择芯片113,麦克风111成对的设置在健康管理机器人本体100头部的前后左右四个面处,且成对的两个麦克风111之间的距离为80-150mm,四路电控开关112分别控制四对麦克风111与人声降噪芯片12和声音定位芯片13通信电连接的通断,麦克风选择芯片113通过控制四路电控开关112的开和关控制接收到语音信息时间最早的一对麦克风111收集语音信息。

麦克风选择芯片113将四对麦克风111标号为M1、M2、M3和M4,将四个电控开关112标号为E1、E2、E3和E4;

健康管理机器人本体100处于待机状态时,E1、E2、E3和E4均为接通状态,当M1、M2、M3和M4接收到一段完整的语音信息时,麦克风选择芯片113选择接收到语音信息时间最早的一对麦克风111收集语音信息,保持对应的电控开关112继续处于接通状态,其它三路电控开关112处于断开状态。

采用四对麦克风111的设置,可以对四个方向的声音来源做出精准的定位,定位原理采用双耳效应的时间差、相位差与声级差、音色差实现声音源的精准定位。设置的四对麦克风111在完成了声音源的定位后,麦克风选择芯片113可以选择将其他三对麦克风111关闭,只采用面对声音源的一对麦克风111开启采集声音信息。

前置语音交互单元2包括语音识别芯片21和预设唤醒指令数据库22,语音识别芯片21识别人声语音数据,并与预设唤醒指令数据库22的唤醒指令数据进行逐一比对,若存在对比成功,则向基于微处理器的电路板4发送匹配成功指令。

预设唤醒指令数据库22里存储多条唤醒指令,并采用基于深度学习的语音比对算法,每次进行比对后将比对成功的语音指令存储到预设唤醒指令数据库22中,大大提高语音唤醒的成功率和响应速度。

若预设唤醒指令数据库22存在对比成功,基于微处理器的电路板4通过TTS语音引擎单元3发出应答声音。

若预设唤醒指令数据库22存在对比成功,,则可以认为是服务目标需要健康管理机器人本体100进行服务,则TTS语音引擎单元3通常可以设置一些常用的回应指令,例如“听到了,我在这里”,“您好,主人,请问有什么可以帮您”,“主人,我在这里,需要我干啥”等,提升服务对象的交互体验。

TTS语音引擎单元3包括TTS语音芯片31、TTS语音数据库32和语音指令数据库33,TTS语音芯片31接收人声语音数据并进行判断,若是对话信息,则通过TTS语音数据库32调取语音信息进行应答,若是指令信息,则通过语音指令数据库33进行匹配,并将匹配成功的指令数据通过基于微处理器的电路板4发送给主控电路板101,主控电路板101执行指令。

TTS语音引擎单元3需要完成两个动作,一是对人声数据判断是对话信息还是指令信息;

具体判断的方法可以是先对语音指令数据库33进行比对,若无比对成功,则认为属于对话信息,可以在TTS语音数据库32中进行匹配应答,若语音指令数据库33比对成功,则认为属于指令信息,通过基于微处理器的电路板4发送给主控电路板101,主控电路板101执行指令,完成比如在线管家功能、视频询问功能、健康指标测量记录功能、提醒功能、互联网音影功能。

TTS语音芯片31是科大讯飞LQFP-64芯片。

科大讯飞LQFP-64芯片可以高效地实现语音识别和人声模拟应答,大大提升语音交互体验。

人声语音数据的语速越快,健康管理机器人本体100行驶到距离语音数据发出点的速度越快。

理论上声语音数据的语速越快,表面服务对象越急切,在设定安全速度范围内,健康管理机器人本体100行驶到距离语音数据发出点的速度越快,给服务对象到感觉是自己越受到重视。

回应动作还包括健康管理机器人本体100头部的晃动和模拟眨眼;

当健康管理机器人本体100正面面对着语音数据发出点位置时,若TTS语音引擎单元3检测到持续的人声数据,则健康管理机器人本体100的头部随机做出歪头、摇晃动作,同时控制健康管理机器人本体100的摄像头镜头的打开和关闭模拟眨眼。

机器人与人之间到语音交互体验差的根源在于:人总是感觉到面对的是冰冷的机器,在说话或者倾听的时候机器人毫无动作和表情,且回答的语音也很死板。

在健康管理机器人本体100与服务对象进行语音交互时,配上适时的歪头、摇晃动作,同时增加摄像头镜头的打开和关闭模拟眨眼的动作,匹配TTS语音引擎单元3的拟人化的语音交互,让服务对象感受到被尊重,被关怀,大大提升服务对象的语音交互体验。

本发明实施例基于TTS的健康管理机器人语音交互模块的实施原理为:

在具体的健康管理机器人本体100应用场景下,卧床的小李,在某时间段需要与远程的医生进行在线问诊,小李于是按照预设的语音唤醒指令召唤健康管理机器人本体100,小李喊出“你好,可乐”,

此前健康管理机器人本体100处于待机状态时,E1、E2、E3和E4均为接通状态,当M1、M2、M3和M4接收到“你好,可乐”时,麦克风选择芯片113选择接收到语音信息时间最早的M1收集语音信息,M1此时正对小李,此时控制E1处于接通状态,E2、E3和E4断开,M1的一对麦克风111持续采集声音信息;

TTS语音引擎单元3发出“听到了,我在这里”,同时主控电路板101控制健康管理机器人本体100执行回应动作,健康管理机器人本体100行驶到语音数据发出点1米位置,正面朝向语音数据发出点。

小李继续说“可乐,我需要使用在线问诊服务,与张医生在线交流”,M1的一对麦克风111采集到这段语音信息,人声降噪芯片12通过AI降噪算法将背景杂音进行消除,留下的人声语音数据发送给前置语音交互单元2和TTS语音引擎单元3,在小李说话的过程中,健康管理机器人本体100的头部做出歪头动作,同时摄像头镜头的打开和关闭模拟眨眼的动作,TTS语音引擎单元3判断其中包括指令“在线问诊”,TTS语音引擎单元3发出“主人,您是否需要打开在线问诊呢”,此时小李回答“是的”,TTS语音引擎单元3发出“好的”,同时健康管理机器人本体100打开在线问诊服务,显示屏显示远程的在线视频信号,小李通过在线问诊服务与医生进行在线交流。

以上均为本发明的较佳实施例,并非以此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

相关技术
  • 基于语音识别模块的语音交互方法及智能锁管理系统
  • 基于语音识别模块的语音交互方法及智能锁管理系统
技术分类

06120115600927