掌桥专利:专业的专利平台
掌桥专利
首页

基于语音的智能唤醒方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 10:00:31


基于语音的智能唤醒方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域,更具体地,涉及一种基于语音的智能唤醒方法、装置、电子设备及存储介质。

背景技术

随着科技的进步,智能家居也在人们的日常生活中普及,越来越多的用户都会选择使用智能家居来提升自己的生活质量。用户可以通过智能语音设备以语音交互的方式实现对智能家居设备的控制,但当用户所处的环境中存在多个智能语音设备时,可能存在两个以上的智能语音设备同时被用户输入的语音唤醒,造成用户不知道与哪个智能语音设备进行语音交互的困惑,降低了用户的交互体验。因此,如何对智能语音设备的语音交互过程进行优化,避免多个智能语音设备同时被唤醒是当前亟待解决的问题。

发明内容

鉴于上述问题,本申请提供了一种基于语音的智能唤醒方法、装置、电子设备及存储介质。

第一方面,本申请实施例提供了一种基于语音的智能唤醒方法,应用于局域网内的第一智能语音设备,所述方法包括:接收用户输入的语音信息;获取所述语音信息的语音参数;当所述语音参数符合预设条件时,响应所述语音信息,并向所述局域网内的第二智能语音设备发送停止响应指令,其中,所述停止响应指令用于控制所述第二智能语音设备在接收到所述语音信息时,不对所述语音信息做出响应。

进一步地,所述向所述局域网内的第二智能语音设备发送停止响应指令,包括:向所述局域网内的服务器发送停止响应指令,以使所述服务器在接收到所述停止响应指令后,向所述第二智能语音设备发送带有所述停止响应指令的信号。

进一步地,所述响应所述语音信息,并向所述局域网内的第二智能语音设备发送停止响应指令,包括:识别所述语音信息以获取所述语音信息对应的控制命令;向所述局域网内的所述第二智能语音设备发送所述停止响应指令;监测预设时间内是否获取所述第二智能语音设备发送的反馈信息,所述反馈信息为所述第二智能语音设备接收到所述停止响应指令后发送的信息;若获取所述反馈信息,则执行所述控制命令。

进一步地,在所述向所述第二智能语音设备发送所述停止响应指令之前,所述方法还包括:获取执行所述控制命令所需要的资源;判断所述第一智能语音设备的所述资源的状态是否为空闲状态;若是,则向所述第二智能语音设备发送所述停止响应指令;若否,则将所述控制命令发送至所述第二智能语音设备,以使所述第二智能语音设备执行所述控制命令。

第二方面,本申请实施例提供了一种基于语音的智能唤醒方法,应用于服务器,所述方法包括:接收第一智能语音设备发送的所述第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令;当接收到第二智能语音设备发送的所述第二智能语音设备对所述语音信息进行响应的请求信息时,依据所述停止响应指令,向所述第二智能语音设备发送带有所述停止响应指令的信号,以使所述第二智能语音设备在接收到所述信号后,不对所述语音信息进行响应。

进一步地,在所述接收第一智能语音设备发送的所述第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令之后,所述方法还包括:获取所述用户由所述局域网内的多个智能语音设备中选择的意图唤醒的智能语音设备;若所述第一智能语音设备不是所述用户意图唤醒的智能语音设备,则将所述语音信息标记为误唤醒数据;根据所述误唤醒数据更新所述第一智能语音设备的预设条件,其中,所述预设条件用于当所述语音信息的语音参数符合所述预设条件时,所述第一智能语音设备对所述语音信息进行响应。

第三方面,本申请实施例提供了一种基于语音的智能唤醒装置,应用于局域网内的第一智能语音设备,所述装置包括:语音接收模块,用于接收用户输入的语音信息;参数获取模块,用于获取所述语音信息的语音参数;第一处理模块,用于当所述语音参数符合预设条件时,响应所述语音信息,并向所述局域网内的第二智能语音设备发送停止响应指令,其中,所述停止响应指令用于控制所述第二智能语音设备在接收到所述语音信息时,不对所述语音信息做出响应。

第四方面,本申请实施例提供了一种基于语音的智能唤醒装置,应用于服务器,所述装置包括:指令接收模块,用于接收第一智能语音设备发送的所述第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令;第二处理模块,用于当接收到第二智能语音设备发送的所述第二智能语音设备对所述语音信息进行响应的请求信息时,依据所述停止响应指令,向所述第二智能语音设备发送带有所述停止响应指令的信号,以使所述第二智能语音设备在接收到所述信号后,不对所述语音信息进行响应。

第五方面,本申请提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中一个或多个应用程序被存储在存储器中被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面所述的方法。

第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面所述的方法。

本申请实施例公开了一种基于语音的智能唤醒方法、装置、电子设备以及存储介质,涉及语音识别领域,该方法包括:接收用户输入的语音信息;获取所述语音信息的语音参数;当所述语音参数符合预设条件时,响应所述语音信息,并向所述局域网内的第二智能语音设备发送停止响应指令,其中,所述停止响应指令用于控制所述第二智能语音设备在接收到所述语音信息时,不对所述语音信息做出响应。本申请实施例通过当语音信息的语音参数符合预设条件时,由第一智能语音设备响应语音信息,并向局域网内的第二智能语音设备发送停止响应指令,可以避免局域网内多个设备同时对用户的语音信息进行响应。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的一种基于语音的智能唤醒方法的方法流程图。

图3示出了本申请另一个实施例提供的一种基于语音的智能唤醒方法的方法流程图。

图4示出了本申请又一个实施例提供的一种基于语音的智能唤醒方法的方法流程图。

图5示出了本申请实施例提供的一种基于语音的智能唤醒装置的结构框图。

图6示出了本申请实施例提供的另一种基于语音的智能唤醒装置的结构框图。

图7示出了本申请实施例提供的用于执行根据本申请实施例的基于语音的智能唤醒方法的电子设备的结构框图。

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的基于语音的智能唤醒方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

智能家居是以住宅为平台,利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、多媒体信息技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理系统,提升家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。随着智能家居的普及和语音识别技术的发展,很多智能家居设备都具有语音交互功能,用户可以使用智能语音设备来实现对智能家居设备的控制,当用户说出预设的唤醒词时,可以唤醒智能语音设备,进而通过语音指令控制智能家居设备。但目前同一厂商的智能语音设备往往具有相同的唤醒词,当用户所处的环境中存在同一个厂商的多个智能语音设备时,当用户说出预设唤醒词的声音可能被多个智能语音设备检测到,可能导致两个以上智能语音设备可能都被唤醒,造成用户不知道与哪个智能语音设备进行语音交互的困惑,影响了用户的使用体验。

为了解决上述问题,发明人经过长期的研究,提出了本申请实施例中基于语音的智能唤醒方法、装置、电子设备及存储介质。本申请实施例中,局域网内的第一智能语音设备接收用户输入的语音信息;获取语音信息的语音参数;当语音参数符合预设条件时,响应语音信息,并向局域网内的第二智能语音设备发送停止响应指令,其中,停止响应指令用于控制第二智能语音设备在接收到语音信息时,不对语音信息做出响应。通过这种方式,解决了多个智能语音设备被用户的语音信息同时唤醒并进行响应的问题,避免了重复执行用户输入的语音指令,提升了用户的使用体验。

为了更好理解本申请实施例提供的一种基于语音的智能唤醒方法、装置、电子设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。

本申请实施例提供的基于语音的智能唤醒方法可以应用于如图1所示的多设备场景,该多设备场景包括第一智能语音设备101、第二智能语音设备102以及服务器103,第一智能语音设备101和第二智能语音设备102位于同一个局域网内,分别与服务器103通信连接,其中,服务器103可以是单独的服务器,也可以是服务器集群,可以是本地服务器,也可以是云端服务器,在此不作具体限定。

其中,第一智能语音设备101和第二智能语音设备102可通过多种方式进行组网,例如,无线保真(Wireless-Fidelity,WIFI)、ZigBee、蓝牙、热点等,可以根据不同智能语音设备的应用场景采用不同的方式进行组网。可选地,第一智能语音设备101和第二智能语音设备102可以直接通信,也可以通过服务器进行通信。

第一智能语音设备101和第二智能语音设备102可以是具有语音交互装置的各种电子设备,包括但不限于智能家居设备、智能网关、智能音响、智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体地,第一智能语音设备101和第二智能语音设备102可以包括麦克风等语音输入模块、扬声器等语音输出模块以及处理器。语音交互装置可以内置在该设备中,也可以作为一个独立的模块,通过API或者其它方式与该设备进行通信。

其中,第一智能语音设备101和第二智能语音设备102是具有相同唤醒词的电子设备。可选地,第一智能语音设备101和第二智能语音设备102可以是相同的电子设备,也可以是不同的电子设备。例如,第一智能语音设备101和第二智能语音设备102可以是唤醒词相同的智能家居控制面板,也可以是唤醒词相同的智能家居控制面板和智能电视。

作为一种方式,第一智能语音设备101和第二智能语音设备102可以分别与至少一个受控设备连接,例如,第一智能语音设备101和第二智能语音设备102可以是智能音响、智能网关、智能家居控制面板等控制设备,受控设备可以但不仅限于包括空调、地暖、新风、窗帘、灯、电视、冰箱、电扇等智能家居设备,智能语音设备和智能家居设备可以通过蓝牙、WIFI或者ZigBee等方式进行连接。在此不对智能语音设备的类型进行具体限定。

在一些实施例中,第一智能语音设备可以是局域网内响应语音信息的优先级最高的设备。可选地,第一智能语音设备可以是通过用户自定义设置的局域网内的任意一个智能语音设备,第一智能语音设备也可以是在该局域网内通过预设规则设置的智能语音设备。

作为一种方式,预设规则可以是根据信息参数在多个智能语音设备中确定的处理能力较好的设备作为第一智能语音设备,其中,信息参数可包括:智能语音设备型号、智能语音设备软件版本、智能语音设备所连接的网络质量中的至少一个。可以理解的是,智能语音设备的型号或软件版本越新、所连接的网络质量越好,该智能语音设备的处理性能越好。例如,可以将所连接的网络质量最好的智能设备设置为第一智能语音设备,将其他智能语音设备设置为第二智能语音设备。

作为另一种方式,预设规则可以是根据用户的多模态信息在多个智能语音设备中确定的意图交互设备作为第一智能语音设备。例如,智能语音设备上可以配置有图像采集装置,该图像采集装置可以采集用户输入的动作或者手势等图像,可以判断智能语音设备是否被人眼关注或是否被手势指向,当智能语音设备被人眼注视或被手势指向时,将该设备作为第一智能语音设备。

作为又一种方式,预设规则可以是将处于活跃状态的设备作为第一智能语音设备。其中,活跃状态用于表征该智能语音设备正在处于播放视频、播放音乐等状态。

在一些实施例中,第一智能语音设备和第二智能语音设备响应语音信息的优先级是相同的,第二智能语音设备可以是局域网内除第一智能语音设备以外的智能语音设备,即本申请实施例中应用于第一智能语音设备的方法也可用于第二智能语音设备。在另一些实施例中,第二智能语音设备响应语音信息的优先级可以低于第一智能语音设备。

在一些实施方式中,服务器103可以利用自动语音识别(automatic speechrecognition,ASR)技术对第一智能语音设备101和第二智能语音设备102上接收的语音信息进行分析,以确定该语音信息对应的控制命令,将控制命令返回至发送该设备,以执行控制命令,为用户提供服务。

在另一些实施方式中,第一智能语音设备101和第二智能语音设备102上可以分别设置有对用户输入的信息进行处理的装置,使得第一智能语音设备101和第二智能语音设备102无需依赖与服务器103建立通信即可实现与用户的交互,此时多设备场景可以只包括第一智能语音设备101和第二智能语音设备102。

可以理解的是,图1仅为一种多设备场景的示例,本申请实施例对多设备场景中智能语音设备的个数不作限定,对智能语音设备中预先设置的唤醒词不做限定。上述应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。

下面将结合附图具体描述本申请的各实施例。

请参阅图2,为本申请一实施例提供的一种基于语音的智能唤醒方法的方法流程图,该方法应用于局域网内的第一智能语音设备,该方法包括步骤S210至步骤S240。

S210:接收用户输入的语音信息。

当第一智能语音设备启动语音唤醒功能时,第一智能语音设备可以通过麦克风等声音采集模块实时采集周围环境的声音。当用户在第一智能语音设备的拾音距离内发声,则第一智能语音设备可以接收用户输入的语音信息。

在一些实施方式中,接收用户输入的语音信息的第一智能语音设备的状态可以是离线状态,其中,离线状态是指第一智能语音设备处于可以通过后台进行离线语音识别的半休眠状态。

在另一些实施方式中,接收用户输入的语音信息的第一智能语音设备的状态可以是唤醒状态,其中,唤醒状态是指第一智能语音设备处于预备工作状态,可以随时根据用户的语音信息执行该语音信息对应的控制命令。

S220:获取语音信息的语音参数。

可选地,在获取语音信息后,可以对语音信息进行一定的预处理操作,然后再获取该预处理后的语音信息的语音参数。其中,预处理操作可以包括噪声抑制处理、回声消除处理、信号增强处理等,通过预处理操作可以获取更为准确的语音参数。

作为一种方式,语音参数可以是语音信息与预设唤醒词的声学特征相似度。具体地,可以通过唤醒词检测模型计算语音信息与预设唤醒词的相似度,其中,唤醒词检测模型是经过大量音频数据预先训练得到的,唤醒词检测模型的输入可以是语音信息,输出可以是语音信息与预设唤醒词的声学特征相似度。其中,声学特征相似度可用于表征唤醒的置信度。可选地,唤醒词检测模型的输出也可以是唤醒标识,即可以将唤醒标识作为该语音的语音参数,该唤醒标识包括允许或者禁止第一智能语音设备被唤醒的标识。

作为另一种方式,语音参数可以是语音信息的能量值,该能量值可用于表征第一智能语音设备接收的语音信息中的信噪比。具体地,当语音信息与预设唤醒词的声学相似度大于预设相似度阈值时,可以认为语音信息中包含预设唤醒词,可以将语音信息的能量值作为语音参数。可选地,可以获取语音信息中唤醒词的能量值作为语音参数,其中,唤醒词的能量值可用于表征语音信息中唤醒词所在时间段内语音接收能量的大小。其中,能量值可以是音频信号接受比、声强、麦克风直达面的音频信号强度中的至少一种。示例地,直达面的音频信号强度和整体的语音信息的音频信号强度是不同的,可以更为准确地表征语音信息的信噪比。

S230:当语音参数符合预设条件时,响应语音信息,并向局域网内的第二智能语音设备发送停止响应指令。

其中,预设条件是与语音参数相对应的条件,可用于表征唤醒置信度,即第一智能语音设备有多大可能对语音信息进行响应,根据步骤S220中不同的语音参数,预设条件可以是不同的条件。

在一些实施方式中,当语音参数为语音信息与预设唤醒词的声学特征相似度时,预设条件可以是预设相似度阈值。具体地,当语音信息与预设唤醒词的声学相似度大于预设相似度阈值时,可以认为语音信息中包含该预设唤醒词,可以判定语音参数符合预设条件。可选地,当语音参数为唤醒标识时,可以将允许第一智能语音设备被唤醒的标识作为预设条件。

在另一些实施方式中,当语音参数为语音信息的能量值时,预设条件可以包括预设相似度阈值和预设能量阈值。当语音信息与预设唤醒词的声学相似度大于预设相似度阈值时,可以判断语音信息的能量值是否大于预设能量阈值,当语音信息的能量值大于预设能量阈值时,判定语音参数符合预设条件。在对声学特征相似度进行判断后,进一步判断语音参数是否符合预设条件,可以更为准确地判断是否进行响应。可以理解的是,通常第一智能语音设备与发出语音信息的用户之间的距离越小,该语音信息的能量值越大,将预设能量阈值作为预设条件可以实现第一智能语音设备的就近唤醒功能,即当第一智能语音设备与用户距离最近时,判定语音参数符合预设条件。

可选地,局域网内的不同的智能语音设备的预设条件可以是相同的,也可以是不同的。

在一些实施方式中,局域网内的不同的智能语音设备的可以具有相同的预设条件。作为一种方式,预设条件可以是每个智能语音设备在出厂时预先设定的条件。作为另一种方式,预设条件可以是根据默认唤醒数据确定的条件。具体地,默认唤醒数据可以是局域网内每个智能语音设备在单独使用时进行响应的语音信息,可以根据默认唤醒数据的语音参数确定各个智能语音设备的预设条件。例如,可以取默认唤醒数据的平均值或者临近边界的值作为预设条件。

在另一些实施方式中,局域网内的不同的智能语音设备可以具有不同的预设条件,每个智能语音设备具有该设备对应的预设条件。具体地,智能语音设备具有服务器判断模式,局域网内的多个智能语音设备可以将获取的语音信息上报服务器,由服务器根据获取到的多个语音信息的语音参数,判定由目标智能语音设备进行响应,其中,目标智能语音设备为距离发出该语音信息的用户最近的设备,从而实现就近唤醒。通过服务器判断模式,可以获取预设时间内每个智能语音设备获取的历史语音信息中,由服务器确定该设备为目标智能语音设备时的历史语音信息作为样本语音,从而根据样本语音的语音参数确定每个智能语音设备的预设条件。

作为一种方式,可以根据样本语音的语音参数训练唤醒预测模型,基于该唤醒预测模型,获取预设置信度对应的语音参数的取值范围,将该取值范围作为预设条件。可以理解的是,语音参数的取值范围越小,唤醒预测模型的准确度越高。通过这种方式,每个智能语音设备可以根据该设备在实际应用场景中进行响应的历史语音信息的语音参数确定预设条件,从而可以更准确地确定是否对语音信息进行响应。

例如,可以将麦克风直达面的音频信号比作为语音参数,将30天内该设备的样本语音的麦克风直达面的音频信号比作为训练样本数据,通过如泊松分布等聚类算法得到预设置信度对应的音频信号接受比范围,将该音频信号接受比范围作为该智能语音设备的预设条件。当获取到语音信息的语音参数时,判断该语音参数是否属于音频信号接受比范围,若属于,则判定语音参数符合预设条件。

当语音参数符合预设条件时,响应语音信息,并向局域网内的第二智能语音设备发送停止响应指令。可选地,当语音参数不符合预设条件时,作为一种方式,第一智能语音设备不进行任何响应,但此时如果第二智能语音设备判定接收的语音信息符合该第二智能语音设备的预设条件时,则第二智能语音设备可以响应该语音信息;作为另一种方式,可以将语音参数发送至服务器,通过服务器判断模式确定是否响应该语音信息。

其中,根据第一智能语音设备的状态,响应语音信息可以是不同的操作方式。

在一些实施方式中,当接收用户输入的语音信息的第一智能语音设备的状态是离线状态,响应语音信息可以是将第一智能语音设备切换为唤醒状态。可选地,将第一智能语音设备由离线状态切换为唤醒状态后,响应语音信息还可以识别语音信息中的控制命令,或者识别语音信息中的控制命令并执行控制命令。

在另一些实施方式中,当接收用户输入的语音信息的第一智能语音设备的状态是唤醒状态,响应语音信息可以是识别语音信息以获取该语音信息对应的控制命令;响应语音信息也可以是在识别语音信息以获取该语音信息对应的控制命令,并且执行该控制命令。

其中,停止响应指令用于控制第二智能语音设备在接收到语音信息时,不对语音信息做出响应。和第一智能语音设备类似,根据第二智能语音设备的状态,响应语音信息可以是不同的操作,在此不再赘述。

在一些实施方式中,第一智能语音设备可以直接向第二智能语音设备发送停止响应指令。作为一种方式,智能语音设备在组网时,可以记录每一个智能语音设备的地址,并将具有路由功能的设备的地址设置为组播地址,从而获取组播地址与各个智能语音设备的地址之间的对应关系,可以通过具有路由功能的设备转发停止响应指令,以使具有路由功能的设备将该停止响应指令发送至第二智能语音设备。可选地,第一智能语音设备可以是具有路由功能的设备,直接将停止响应指令发送至第二智能语音设备;第一智能语音设备也可以将停止响应指令发送至具有路由功能的设备,以使该设备转发停止响应指令到第二智能语音设备。

在另一些实施方式中,第一智能语音设备可以向局域网内的服务器发送停止响应指令,以使服务器在接收到停止响应指令后,向第二智能语音设备发送带有停止响应指令的信号。具体地,请详见后续实施例。

在一些实施例中,第二智能语音设备响应语音信息的优先级可以低于第一智能语音设备。

作为一种方式,若第二智能语音设备获取的语音信息的语音参数满足该设备的预设条件时,第二智能语音设备可以向服务器发送请求对语音信息进行响应的请求信息,并监测是否获取服务器发送的包含停止响应的指令,若否,则响应该语音信息。

作为另一种方式,若第二智能语音设备获取的语音信息的语音参数满足该设备的预设条件时,第二智能语音设备可以监测预设时长内是否获取第一智能语音设备发送的停止响应指令,若否,则响应该语音信息。

在另一些实施例中,第二智能语音设备响应语音信息的优先级与第一智能语音设备相同。但由于不同的智能语音设备与语音信息的声源的距离不同,所以距离最近的第一智能语音设备可以最先获取到语音信息,并最早进行预设条件的判断以得到判定结果,从而实现第一智能语音设备的就近唤醒。

本申请实施例提供的基于语音的智能唤醒方法,通过接收用户输入的语音信息,获取该语音信息的语音参数,当语音参数符合预设条件时,响应语音信息,并向局域网内的第二智能语音设备发送停止响应指令,其中,停止响应指令用于控制第二智能语音设备在接收到语音信息时,不对语音信息做出响应。通过响应语音信息并向其他设备发送停止响应指令,可以实现仅由第一智能语音设备进行响应,从而可以避免局域网内多个智能语音设备同时对用户的语音信息进行响应。

请参阅图3,为本申请一实施例提供的一种基于语音的智能唤醒方法的方法流程图,该方法应用于局域网内的第一智能语音设备,该方法包括步骤S310至步骤S360。

S310:接收用户输入的语音信息。

S320:获取语音信息的语音参数。

S330:当语音参数符合预设条件时,识别语音信息以获取语音信息对应的控制命令。

其中,预设条件是与语音参数相对应的条件,请参见上述实施例中步骤S230的内容,在此不再赘述。

当语音参数符合预设条件时,可以将第一智能语音设备的状态切换为唤醒状态,并识别语音信息以获取语音信息对应的控制命令。

在一些实施方式中,第一智能语音设备可以通过声学模型识别语音信息以获取控制命令。具体地,第一智能语音设备中可以设置有预设关键词和控制命令的对应关系,可以基于声学模型,提取语音信息中的声学特征,计算语音信息的声学特征和预设关键词的声学特征之间的相似度,当相似度大于预设声学特征相似度阈值时,将该预设关键词对应的控制命令作为语音信息对应的控制命令。

例如,可以将语音信号中提取得到的梅尔频率倒谱系数作为声学特征,将语音信息与预设关键词之间的声学特征的最大似然比作为声学特征相似度。具体地,可以获取语音信息中的声学特征的每一个特征点,与预设关键词对应的声学特征的每个特征点进行相似度比较,然后综合所有特征点的相似度得到一个极大似然值作为声学特征相似度。

在另一些实施方式中,第一智能语音设备可以通过自动语音识别技术(ASR,Automatic Speech Recognition)将语音信息转换为文本后,对该文本执行自然语音理解操作((Natural Language Understanding,NLU),以实现对语音信息的解析,根据解析的结果确定控制命令。作为一种方式,第一智能语音设备也可以获取语音信息的文本与预设控制命令文本之间的匹配度,而后确定所述匹配度是否大于匹配阈值,如果大于匹配阈值,则确定该预设控制命令为语音信息所对应的控制命令。

S340:向局域网内的第二智能语音设备发送停止响应指令。

其中,停止响应指令用于控制第二智能语音设备在接收到语音信息时,不对语音信息做出响应。

在一些实施方式中,第一智能语音设备可以直接向第二智能语音设备发送停止响应指令。在另一些实施方式中,第一智能语音设备可以向局域网内的服务器发送停止响应指令,以使服务器在接收到停止响应指令后,向第二智能语音设备发送带有停止响应指令的信号。具体地,请参见前述实施例中步骤S230的内容,在此不再赘述。

在一些实施例中,步骤S340之前,还可以对获取执行控制命令所需要的资源,并判断第一智能语音设备的资源的状态是否为空闲状态。具体地,可以获取执行控制命令所需要的资源;判断第一智能语音设备的资源的状态是否为空闲状态;若是,则向第二智能语音设备发送停止响应指令;若否,则将控制命令发送至第二智能语音设备,以使第二智能语音设备执行控制命令。

其中,执行控制命令所需占用的资为终端设备的交互接口,包括摄像头、麦克风、指示灯、扬声器等多种装置,具体地,摄像头、麦克风可作为输入装置,指示灯、扬声器可作为输出装置。其中,资源的状态包括被占用状态和空闲状态。例如,当第一智能语音设备播放音乐时,扬声器的资源被占用。

通过监测第一智能语音设备的资源的状态,当执行控制命令所需的资源为空闲状态时,第一智能语音设备可以向第二智能语音设备发送停止响应指令,即执行步骤S340;当第一智能语音设备的资源状态为占用状态,或者第一智能语音设备不具备该资源时,作为一种方式,第一智能语音设备可以不发送任何指令,第一智能语音设备也可以允许第二智能语音设备进行响应的指令,以使第二智能语音设备响应该语音信息;作为另一种方式,第一智能语音设备也可以将控制命令发送至第二智能语音设备,以使第二智能语音设备执行控制命令。例如,当第一智能语音设备的语音处理能力优于第二智能语音设备时,直接发送语音信息的控制命令至第二智能语音设备,可以节省第二智能语音设备进行语音解析的时间和资源,从而可以提高资源利用率,更为灵活地响应用户输入的语音信息。

S350:监测预设时间内是否获取第二智能语音设备发送的反馈信息。

其中,反馈信息为第二智能语音设备接收到停止响应指令后发送的信息,可以用于表征第二智能语音设备在接收到停止响应指令后,不对该语音信息做出响应。

在一些实施方式中,第二智能语音设备与第一智能语音设备响应语音信息的优先级相同,若第二智能语音设备在接收到停止响应指令时未对语音信息进行识别,或者第二智能语音设备已经识别语音信息中的控制命令但未执行该控制命令,则在接收到停止响应指令时,第二智能语音设备停止当前对语音信息的处理进程,并发送反馈信息。若第二智能语音设备在接收到停止响应指令时已经识别语音信息中的控制命令并执行控制命令,则向第一智能设备发送第二智能语音设备已经响应的信息。

在一些实施方式中,第二智能语音设备响应语音信息的优先级可以低于第一智能语音设备。作为一种方式,若第二智能语音设备获取的语音信息的语音参数满足该设备的预设条件时,第二智能语音设备可以监测预设时长内是否获取第一智能语音设备发送的停止响应指令;若是,则第二智能语音设备可以不对该语音信息进行响应,并向第一智能语音设备发送反馈信息;若否,则第二智能语音设备响应该语音信息。

在一些实施方式中,第二智能语音设备发送的反馈信息,还可以包括第二智能语音设备获取的语音信息的语音参数。具体地,第一智能语音设备的预设条件可以包括第一预设条件和第二预设条件,其中第一预设条件所表征的唤醒置信度大于第二预设条件所表征的唤醒置信度;当满足第一预设条件时,第一智能语音设备执行第一操作;当满足第二预设条件时,第一智能语音设备执行第二操作。

其中,第一操作可以是响应语音信息并向第二智能语音设备发送停止响应指令,其中响应语音信息可以是识别语音信息对应的控制指令并执行该控制指令;第二操作可以是识别语音信息对应的控制指令,并发送停止响应指令,根据第二智能语音设备发送的反馈信息确定是否执行控制命令。具体地,可以通过比较第二智能语音设备和第一智能语音设备的语音信息的语音参数,确定是否由第一智能语音设备来执行该控制命令。通过在唤醒置信度较低的情况下,结合第二智能语音设备的语音参数来判断是否响应语音信息,可以进一步提升第一智能语音设备唤醒的准确性。

S360:若获取反馈信息,则执行控制命令。

在一些实施方式中,若第一智能语音设备获取反馈信息,则执行控制命令;若未获取反馈信息或接收到第二智能语音设备发送的已经响应的信息,则第一智能语音设备不执行控制命令。

作为一种方式,当控制命令是对获取到第一语音信息的第一智能语音设备进行控制的指令时,第一智能语音设备可以直接执行该控制命令。例如,第一智能语音设备为智能音响,控制命令为播放音乐,则第一智能语音设备直接执行控制命令播放音乐。

作为另一种方式,当控制命令是对与第一智能语音设备连接的受控设备进行控制的指令时,第一智能语音设备可以将控制命令发送至控制命令对应的受控设备,并指示该受控设备执行控制命令。其中,受控设备可以是与第一智能语音设备通过蓝牙、WIFI或者ZigBee等方式进行本地连接的设备,也可以是与第一智能语音设备连接在同一WIFI下的WIFI设备。例如,当第一智能语音设备为智能家居控制面板时,该控制命令可以由智能家居控制面板所控制的智能家居设备可执行的命令。

在本申请实施例中,步骤S310至步骤S320可以参阅上述实施例的内容,在此不再赘述。

本申请实施例提供的基于语音的智能唤醒方法,通过接收用户输入的语音信息;获取该语音信息的语音参数;当语音参数符合预设条件时,识别语音信息以获取语音信息对应的控制命令;向局域网内的第二智能语音设备发送停止响应指令;监测预设时间内是否获取第二智能语音设备发送的反馈信息,反馈信息为第二智能语音设备接收到停止响应指令后发送的信息;若获取反馈信息,则执行控制命令。通过在发送停止响应指令后监测反馈信息,当获取反馈信息时执行控制命令,可以实现其他设备不响应该语音信息的情况下,执行控制命令,以避免控制命令被多个设备执行的情况,从而提高第一智能设备响应语音信息的准确性。

请参阅图4,为本申请一实施例提供的一种基于语音的智能唤醒方法的方法流程图,该方法应用于服务器,该方法包括步骤S410至步骤S420。

S410:接收第一智能语音设备发送的第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令。

第一智能语音设备在接收用户输入的语音信息后,可以获取语音信息的语音参数,当语音参数符合预设条件时,第一智能语音设备可以响应语音信息,并向服务器发送响应信息和停止响应指令,其中,响应信息为第一智能语音设备对用户输入的语音信息进行响应的信息,停止响应指令用于控制第二智能语音设备在接收到语音信息时,不对该语音信息做出响应。具体地,请参见上述实施例的内容,在此不再赘述。

在一些实施方式中,在接收第一智能语音设备发送的响应信息和停止响应指令之前,服务器还可以接收第一智能语音设备发送的请求信息,其中,请求信息为第一智能语音设备判定语音参数符合预设条件后,向服务器发送的请求由第一智能语音设备对语音信息进行响应的信息。若第一智能语音设备为第一个请求对该语音信息进行响应的设备,则向第一智能语音设备发送允许响应指令。其中,允许响应指令用于允许接收到该指令的智能语音设备对该语音信息进行响应。

S420:当接收到第二智能语音设备发送的第二智能语音设备对语音信息进行响应的请求信息时,依据停止响应指令,向第二智能语音设备发送带有停止响应指令的信号,以使第二智能语音设备在接收到信号后,不对语音信息进行响应。

作为一种方式,在服务器接收到第一智能语音设备发送的响应信息和停止响应指令之后,若服务器接收到第二智能语音设备发送的第二智能语音设备对语音信息进行响应的请求信息时,则依据停止响应指令,向第二智能语音设备发送带有停止响应指令的信号,以使第二智能语音设备在接收到信号后,不对语音信息进行响应。

作为另一种方式,服务器可以向局域网内所有的第二智能语音设备发送带有停止响应指令的信号,其中,第二智能语音设备为局域网内除第一智能语音设备之外的设备。

在一些实施方式中,若服务器接收到第二智能语音设备发送的第二智能语音设备对语音信息进行响应的请求信息之前,未接收到第一智能语音设备发送的响应信息和停止响应指令,则服务器可以向第二智能语音设备发送允许响应指令,其中,允许响应指令用于允许接收到该指令的智能语音设备对该语音信息进行响应。

在一些实施方式中,在步骤S410之后,服务器还可以获取用户由局域网内的多个智能语音设备中选择的意图唤醒的智能语音设备;若第一智能语音设备不是用户意图唤醒的智能语音设备,则将语音信息标记为误唤醒数据;根据误唤醒数据更新第一智能语音设备的预设条件。

其中,预设条件用于当第一智能语音设备获取的语音信息的语音参数符合预设条件时,第一智能语音设备可以对语音信息进行响应,并且可以向服务器发送停止响应指令。具体地,请参见上述实施例的内容,在此不再赘述。

可以理解的是,当局域网内两个智能语音设备的位置临近,或者两个智能语音设备的麦克风开孔朝向不同,都可能导致两个智能语音设备获取的语音信息的语音参数可能较为接近,可能出现第一智能语音设备的语音参数满足预设条件,但实际上用户意图唤醒另一个智能语音设备的情况。通过标记误唤醒数据以更新预设条件,使预设条件更适用于局域网内多个智能语音设备的实际情况,第一智能语音设备基于更新后的预设条件判断是否进行响应,可以实现更为准确的唤醒。

在一些实施例中,在获取用户由局域网内的多个智能语音设备中选择的意图唤醒的智能语音设备之后,服务器还可以计算第一智能语音设备的语音参数与指定语音参数之间的第一差值,若第一差值小于第一预设阈值,则可以将该语音信息标记为误唤醒数据。其中,该指定语音参数为意图唤醒的智能语音设备根据该设备获取的语音信息生成的语音参数,可选地,语音参数可以是语音信息的能量值。例如,用户家庭所安装的两台智能语音设备的信噪比差异一般会高于5%,当第一智能语音设备与意图唤醒的智能语音设备的信噪比差值小于5%时,可能是两台智能语音设备的麦克风开孔朝向导致的误唤醒,可以将该语音信息标记为误唤醒数据。

可以理解的是,若第一差值较大,则可以认为第一智能语音设备是正常地对语音信息进行响应,而只有第一差值较小时,才可能是由于不同设备麦克风开孔方向或者设备的位置导致的误唤醒。通过这种方式,可以保证用户意图唤醒的智能语音设备与第一智能语音设备的语音参数差异小于预设数值,防止用户胡乱标注以影响单个智能语音设备进行预设条件的判断的准确率。

进一步地,服务器还可以计算第一智能语音设备所对应的语音参数,与该设备历史数据之间的第二差值,若第二差值大于第二预设阈值,则可以将该语音信息标记为误唤醒数据,其中,历史数据为过去一段时间内,由第一智能语音设备对语音信息进行响应时,该设备获取的语音信息的语音参数。通过这种方式,只有当第一智能语音设备本次获取的语音信息的语音参数与该设备历史数据差异较大时,才标记误唤醒数据,也可以起到防止用户胡乱标注以影响单个智能语音设备进行预设条件的判断的准确率的作用。

本申请实施例提供的基于语音的智能唤醒方法,服务器接收第一智能语音设备发送的第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令;当接收到第二智能语音设备发送的第二智能语音设备对语音信息进行响应的请求信息时,依据停止响应指令,向第二智能语音设备发送带有停止响应指令的信号,以使第二智能语音设备在接收到信号后,不对语音信息进行响应。通过在接收到停止响应指令后,将带有停止响应指令的信息发送至第二智能设备,避免了局域网内多个智能语音设备同时对语音信息进行响应。

请参阅图5,为本申请实施例提供的一种基于语音的智能唤醒装置500的结构框图,该装置500应用于局域网内的第一智能语音设备,该装置500可以包括:语音接收模块510、参数获取模块520和第一处理模块530。其中,语音接收模块510,用于接收用户输入的语音信息;参数获取模块520,用于获取所述语音信息的语音参数;第一处理模块530,用于当所述语音参数符合预设条件时,响应所述语音信息,并向所述局域网内的第二智能语音设备发送停止响应指令,其中,所述停止响应指令用于控制所述第二智能语音设备在接收到所述语音信息时,不对所述语音信息做出响应。

进一步地,第一处理模块530还可以包括服务器通信子模块,服务器通信子模块用于当所述语音参数符合预设条件时,向所述局域网内的服务器发送停止响应指令,以使所述服务器在接收到所述停止响应指令后,向所述第二智能语音设备发送带有所述停止响应指令的信号。

进一步地,第一处理模块530还可以包括语音识别子模块、指令发送子模块、信息监测子模块以及命令执行子模块。其中,语音识别子模块,用于识别所述语音信息以获取所述语音信息对应的控制命令;指令发送子模块,用于向所述局域网内的所述第二智能语音设备发送所述停止响应指令;信息监测模块,用于监测预设时间内是否获取所述第二智能语音设备发送的反馈信息,所述反馈信息为所述第二智能语音设备接收到所述停止响应指令后发送的信息;命令执行模块,用于若获取所述反馈信息,则执行所述控制命令。

进一步地,在通过指令发送子模块向所述局域网内的所述第二智能语音设备发送所述停止响应指令之前,第一处理模块530还可以包括资源获取子模块,状态判断子模块,第一执行子模块以及第二执行子模块。其中,资源获取子模块,用于获取执行所述控制命令所需要的资源;状态判断子模块,用于判断所述第一智能语音设备的所述资源的状态是否为空闲状态;第一执行子模块,用于若是,则向所述第二智能语音设备发送所述停止响应指令;第二执行子模块,用于若否,则将所述控制命令发送至所述第二智能语音设备,以使所述第二智能语音设备执行所述控制命令。

请参阅图6,为本申请实施例提供的一种基于语音的智能唤醒装置600的结构框图,该装置600应用于服务器,该装置600包括指令接收模块610和第二处理模块620。其中,指令接收模块610,用于接收第一智能语音设备发送的所述第一智能语音设备对用户输入的语音信息进行响应的信息以及停止响应指令;第二处理模块620,用于当接收到第二智能语音设备发送的所述第二智能语音设备对所述语音信息进行响应的请求信息时,依据所述停止响应指令,向所述第二智能语音设备发送带有所述停止响应指令的信号,以使所述第二智能语音设备在接收到所述信号后,不对所述语音信息进行响应。

进一步地,该装置600还可以包括意图获取模块、数据标记模块以及条件更新模块,其中意图获取模块,用于获取所述用户由所述局域网内的多个智能语音设备中选择的意图唤醒的智能语音设备;数据标记模块,用于若所述第一智能语音设备不是所述用户意图唤醒的智能语音设备,则将所述语音信息标记为误唤醒数据;条件更新模块,用于根据所述误唤醒数据更新所述第一智能语音设备的预设条件,其中,所述预设条件用于当所述语音信息的语音参数符合所述预设条件时,所述第一智能语音设备对所述语音信息进行响应。

需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参阅图7,基于上述的基于语音的智能唤醒方法、装置、电子设备及存储介质,本申请实施例还提供了一种可以执行前述基于语音的智能唤醒方法的电子设备700。本申请中的电子设备700可以包括一个或多个如下部件:处理器710、存储器720、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器720中并被配置为由一个或多个处理器710执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器710可以包括一个或者多个处理核。处理器710利用各种接口和线路连接整个电子设备700内的各个部分,通过运行或执行存储在存储器720内的指令、程序、代码集或指令集,以及调用存储在存储器720内的数据,执行电子设备700的各种功能和处理数据。可选地,处理器710可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器710中,单独通过一块通信芯片进行实现。

存储器720可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备700在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。

请参考图8,图8示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 基于语音的智能唤醒方法、装置、电子设备及存储介质
  • 语音唤醒智能控制方法、装置、电子设备及存储介质
技术分类

06120112386403