掌桥专利:专业的专利平台
掌桥专利
首页

语音唤醒方法、装置、设备以及存储介质

文献发布时间:2023-06-19 19:30:30


语音唤醒方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域,尤其涉及语音语义技术领域,具体涉及一种语音唤醒方法、装置、设备以及存储介质。

背景技术

随着智能设备以及语音交互的不断普及,在越来越多的场景中需要通过唤醒词对智能设备中的语音助手进行唤醒,然后通过语音控制语音助手进入等待语音指令的状态或者使语音助手直接执行预定的语音指令。

发明内容

本公开提供了一种语音唤醒方法、装置、设备以及存储介质。

根据本公开的一方面,提供了一种语音唤醒方法,该方法包括:

采集音频数据,对该音频数据进行降噪处理,该音频数据中包括第一唤醒词;

根据降噪后的该音频数据的信噪比,确定唤醒参考信息,该唤醒参考信息用于指示唤醒语音助手的难易程度;

在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

根据本公开的另一方面,提供了一种语音唤醒装置,该装置包括:

处理模块,用于采集音频数据,对该音频数据进行降噪处理,该音频数据中包括第一唤醒词;

确定模块,用于根据降噪后的该音频数据的信噪比,确定唤醒参考信息,该唤醒参考信息用于指示唤醒语音助手的难易程度;

唤醒模块,用于在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

根据本公开的另一方面,提供了一种电子设备,包括:

至少一个处理器;以及

与该至少一个处理器通信连接的存储器;其中,

该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开所提供的语音唤醒方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行本公开所提供的语音唤醒方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开所提供的语音唤醒方法。

本公开所提供的技术方案,通过在音频数据的降噪处理阶段之后,采用该音频数据的信噪比,来确定本次唤醒事件的唤醒参考信息,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开实施例示出的一种语音唤醒方法的实施环境示意图;

图2是本公开实施例示出的一种语音唤醒方法的流程示意图;

图3是本公开实施例示出的一种语音唤醒方法的流程示意图;

图4是本公开实施例示出的一种语音唤醒的流程示意图;

图5是本公开实施例示出的一种语音唤醒装置的结构框图;

图6是用来实现本公开实施例的语音唤醒方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

首先,针对本公开实施例涉及的应用场景进行描述,本公开实施例提供的语音唤醒方法可应用于车辆场景、家居场景或公共场景等场景中,具体应用于前述场景中支持语音唤醒的智能设备。

相关技术中,通常需要利用预设的降噪算法,对所采集的唤醒音频数据进行降噪处理,但是,在一些场景下尽管使用了降噪算法却仍然无法完全消除噪声,这样,很容易造成误唤醒的问题发生。在一些实施例中,为了避免上述误唤醒的问题发生,可采用能够导致误唤醒的音频(后续简称为误唤醒音频)进行模型训练,以训练得到具备误唤醒音频的识别能力的语音识别模型,进而后续利用该语音识别模型识别出误唤醒音频,从而不对该误唤醒音频作出响应,也即是在识别出误唤醒音频之后,不会使语音助手进入唤醒状态。然而,模型训练所需消耗的时间成本太高,语音唤醒的效率较低,且,模型训练所参考的误唤醒音频有限,其可能解决某些个例问题,而无法适应于任意唤醒场景或任意唤醒音频的场景,语音唤醒的效果不好。

基于此,本公开实施例提供了一种语音唤醒方法,通过在音频数据的降噪处理阶段之后,采用该音频数据的信噪比,来确定本次唤醒事件的唤醒参考信息,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

图1是本公开实施例示出的一种语音唤醒方法的实施环境示意图,参见图1,该实施环境包括电子设备101和音频采集设备102。

其中,电子设备101运行有语音助手,该语音助手提供有语音唤醒的功能。在一些实施例中,电子设备101可以是安装在车辆内的车载设备;或者,电子设备101可以是安装在房屋内的智能家居设备;或者,电子设备还可以是其他支持语音唤醒的智能设备。

本公开实施例中,电子设备101用于对所采集的音频数据进行降噪处理,根据降噪后的该音频数据的信噪比,确定唤醒参考信息,在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

在一些实施例中,音频采集设备102可以是安装在车辆或房屋内的麦克风装置(Microphone,Mic);或者,音频采集设备102可以是电子设备101内置的声音采集装置。

本公开实施例中,音频采集设备102用于采集音频数据,进而将所采集的音频数据发送至电子设备101。

在一些实施例中,该实施环境还包括服务器103。服务器103是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式文件系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据或者人工智能平台等基本云计算服务的云服务器中的至少一种,本公开实施例对此不加以限定。在一些实施例中,上述服务器103的数量能够更多或更少,本公开实施例对此不加以限定。当然,服务器103还能够包括其他功能,以便提供更全面多样化的服务。

本公开实施例中,服务器103用于为上述电子设备101提供后台服务。

下面基于图1所示实施环境,对本公开实施例提供的方法进行介绍。

图2是本公开实施例示出的一种语音唤醒方法的流程示意图,该语音唤醒方法由电子设备执行。在一种可能的实现方式中,该电子设备可以为上述图1所示的车载设备、智能家居设备或其他支持语音唤醒的智能设备。如图2所示,该方法包括以下步骤。

S201、采集音频数据,对该音频数据进行降噪处理,该音频数据中包括第一唤醒词。

在一些实施例中,音频采集设备在采集到音频数据之后,将所采集的音频数据发送至电子设备,以触发电子设备执行后续的降噪处理过程。

S202、根据降噪后的该音频数据的信噪比,确定唤醒参考信息,该唤醒参考信息用于指示唤醒语音助手的难易程度。

其中,信噪比是指一个电子设备或者电子系统中正常声音信号与噪声信号的比例。本公开实施例中,信噪比用于表征当前环境中人声数据与噪声数据之间的比例。

S203、在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

本公开实施例提供的技术方案,通过在音频数据的降噪处理阶段之后,采用该音频数据的信噪比,来确定本次唤醒事件的唤醒参考信息,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

上述图2为本公开示出的一种简单实施例,下面基于一种具体实施例对本公开提供的语音唤醒方法进行说明。图3是本公开实施例示出的一种语音唤醒方法的流程示意图,该语音唤醒方法由电子设备执行。在一种可能的实现方式中,该电子设备可以为上述图1所示的车载设备、智能家居设备或其他支持语音唤醒的智能设备。如图3所示,以电子设备为执行主体,该方法包括以下步骤。

S301、电子设备获取音频采集设备采集的音频数据,该音频数据中包括第一唤醒词。

其中,第一唤醒词是指用户所说的唤醒词。应理解地,音频数据包括当前环境下各种声源所发出的声音,如汽车声、音乐声、唤醒词、聊天声音以及其他声音。

在一些实施例中,音频采集设备在采集到音频数据之后,将所采集的音频数据发送至电子设备,以触发电子设备执行后续的降噪处理过程。

S302、电子设备对该音频数据进行降噪处理。

其中,降噪处理用于消除该音频数据中的噪声数据。应理解地,如果降噪处理能够完全消除音频数据中的噪声数据,则降噪处理后的音频数据包括人声数据,如果降噪处理无法完全消除音频数据中的噪声数据,则降噪处理后的音频数据包括人声数据及噪声数据。本公开实施例以降噪处理无法完全消除音频数据中的噪声数据为例,对方案进行说明。

在一些实施例中,电子设备内置有降噪算法,利用该降噪算法对所采集的音频数据进行降噪处理,得到降噪处理后的音频数据。

在一些实施例中,电子设备在获取采集的音频数据之后,还按照降噪算法所支持的数据格式,对该音频数据进行格式转换,以得到与降噪算法相同数据格式的音频数据,再将格式转换后的音频数据输送至降噪算法,以便利用该降噪算法对音频数据进行降噪处理。

S303、电子设备根据降噪后的该音频数据的信噪比,确定唤醒参考信息,该唤醒参考信息用于指示唤醒语音助手的难易程度。

其中,信噪比是指一个电子设备或者电子系统中正常声音信号与噪声信号的比例。本公开实施例中,信噪比用于表征当前环境中人声数据与噪声数据之间的比例。

在一些实施例中,上述信噪比基于人声数据与噪声数据的信号能量来确定,相应过程可以是:电子设备获取降噪处理后的音频数据中人声数据的信号能量与噪声数据的信号能量,确定人声数据与噪声数据之间的信号能量之比,将所确定的信号能量之比确定为该降噪处理后的音频数据的信噪比。

在另一些实施例中,上述信噪比基于人声数据与噪声数据的信号强度来确定,相应过程可以是:电子设备获取降噪处理后的音频数据中人声数据的信号强度与噪声数据的信号强度,确定人声数据与噪声数据之间的信号强度之比,将所确定的信号强度之比确定为该降噪处理后的音频数据的信噪比。

在一些实施例中,通过S302中的降噪处理之后,能够确定出该降噪处理后的音频数据中的人声数据和噪声数据,进而基于人声数据和噪声数据来确定降噪处理后的音频数据的信噪比。示例地,通过S302中的降噪处理之后,能够确定出该降噪处理后的音频数据中的人声数据所在的时间区间,该时间区间包括人声数据的起点时刻和终点时刻。需要说明的是,本公开实施例中的人声数据来自于公开数据集。

本公开实施例中,不同数值的信噪比对应不同的唤醒参考信息。应理解地,信噪比的数值越大,则本次唤醒事件越容易被唤醒,信噪比的数值越小,则本次唤醒事件越不容易被唤醒。在一些实施例中,唤醒参考信息可以是唤醒精度,具体可以是取值范围0-1之间的一个数值。当唤醒精度为0时,说明误唤醒的概率较高,也即本次唤醒事件不容易被唤醒,当唤醒精度为1时,说明误唤醒的概率较低,也即本次唤醒事件容易被唤醒。

在一些实施例中,电子设备根据降噪后的该音频数据的信噪比以及目标对应关系,确定与该信噪比对应的唤醒参考信息,该目标对应关系用于指示该信噪比与该唤醒参考信息之间的对应关系。在该实施例中,通过预先设置目标对应关系,能够快速地确定出降噪处理后的音频数据的信噪比对应的唤醒参考信息,提高了确定唤醒参考信息的效率。

在一些实施例中,以唤醒精度为例,在实施本方案之前,根据不同数值的信噪比,预先设置不同数值的唤醒精度,以生成目标对应关系。示例地,若信噪比在25db(分贝)以上,表示降噪算法的效果比较好,可设置该信噪比对应的唤醒精度为1,若信噪比在25db以下,可按照不同的梯度设置不同数值的唤醒精度。

在一些实施例中,目标对应关系是与该音频数据的设备类型对应的目标对应关系,不同的设备类型对应不同的目标对应关系;其中,该设备类型为音频采集设备或降噪处理设备。其中,降噪处理设备可以是电子设备内置的硬件设备。

在一些实施例中,电子设备根据该音频数据的音频采集设备的设备类型,确定该音频采集设备的设备类型对应的目标对应关系,进而在该音频采集设备的设备类型对应的目标对应关系中,确定与该信噪比对应的唤醒参考信息。或者,在另一些实施例中,电子设备根据该音频数据的降噪处理设备的设备类型,确定该降噪处理设备的设备类型对应的目标对应关系,进而在该降噪处理设备的设备类型对应的目标对应关系中,确定与该信噪比对应的唤醒参考信息。

其中,该设备类型对应的目标对应关系包括该设备类型下的多个信噪比以及该多个信噪比对应的唤醒参考信息。示例地,以三个设备类型为例,该三个设备类型对应的目标对应关系可以如表1所示,针对每一个设备类型,均维护有该设备类型下的多个信噪比以及该多个信噪比对应的唤醒参考信息。

表1

在上述实施例中,按照不同类型的音频采集设备或降噪处理设备,来设置不同的目标对应关系,不仅能够快速地确定出信噪比对应的唤醒参考信息,还考虑到了不同语音唤醒场景下音频采集设备或降噪处理设备的不同,能够更加贴合当前的语音唤醒场景,在提高确定唤醒参考信息的效率的同时,还提高了确定唤醒参考信息的准确率。应理解地,由于音频采集设备的类型不同,可能会影响麦克风的间距或功率放大器的类型等,对所采集的音频数据会造成影响,因此可能会造成后续信噪比的不同,因此,按照音频采集设备的类型来设置目标对应关系,能够更加贴合当前的语音唤醒场景。同时,由于降噪处理设备的类型不同,可能采用的降噪算法不同,因此可能会造成后续信噪比的不同,因此,按照降噪处理设备的类型来设置目标对应关系,同样能够更加贴合当前的语音唤醒场景。

在上述实施例中,通过预先设置目标对应关系,针对不同数值大小的信噪比,预先设置有不同难易程度的唤醒参考信息,确保对于不同数值大小的信噪比,其所设置的唤醒参考信息都是不一样的,如此,随着降噪处理后的音频数据的信噪比改变唤醒参考信息也在动态改变,进而后续利用该唤醒参考信息来确定是否唤醒语音助手,能够降低误唤醒的风险。

在一些实施例中,电子设备还统计多次历史唤醒事件的唤醒效果参数,该唤醒效果参数用于指示对应唤醒事件的唤醒率或误唤率中至少一项,根据该多次历史唤醒事件的唤醒效果参数,对该目标对应关系中的唤醒参考信息进行更新。

在一些实施例中,以唤醒率为例,对于目标对应关系中的任一信噪比,在相同信噪比的历史唤醒事件中,获取唤醒率大于预设唤醒率的至少一个历史唤醒事件,根据该至少一个历史唤醒事件的唤醒参考信息,对该目标对应关系中的唤醒参考信息进行更新。示例地,可选取唤醒率最大的历史唤醒事件的唤醒参考信息,作为目标对应关系中该信噪比对应的唤醒参考信息,或者,可选取该至少一个历史唤醒事件的唤醒参考信息的平均值,作为目标对应关系中该信噪比对应的唤醒参考信息。

在另一些实施例中,以误唤率为例,对于目标对应关系中的任一信噪比,在相同信噪比的历史唤醒事件中,获取误唤率小于或等于预设误唤率的至少一个历史唤醒事件,根据该至少一个历史唤醒事件的唤醒参考信息,对该目标对应关系中的唤醒参考信息进行更新。示例地,可选取误唤率最小的历史唤醒事件的唤醒参考信息,作为目标对应关系中该信噪比对应的唤醒参考信息,或者,可选取该至少一个历史唤醒事件的唤醒参考信息的平均值,作为目标对应关系中该信噪比对应的唤醒参考信息。

在一些实施例中,上述对目标对应关系中的唤醒参考信息进行实时更新的过程可以由服务器执行。示例地,服务器可以维护有唤醒记录,该唤醒记录用于维护多次历史唤醒事件的唤醒参考信息和唤醒效果参数,进而,服务器可根据唤醒率或误唤率等指标进行综合评估,以选取最合适的唤醒参考信息。

在上述实施例中,还能够根据多次历史唤醒事件的唤醒效果参数,来对目标对应关系中的唤醒参考信息进行实时更新,如此,能够确定出唤醒效果最佳的唤醒参考信息,进而后续利用更新后的唤醒参考信息来判断是否唤醒语音助手,能够提升语音唤醒的唤醒效果。

S304、电子设备在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

其中,唤醒条件为预先设定的条件,用于判断是否唤醒语音助手。

在一些实施例中,唤醒条件可以是根据该第一唤醒词和该唤醒参考信息所确定的唤醒指数大于阈值。相应过程可以是:电子设备根据该第一唤醒词和该唤醒参考信息确定唤醒指数,该唤醒指数用于指示是否唤醒该语音助手,在该唤醒指数大于阈值的情况下,唤醒该语音助手。在另一些实施例中,电子设备在该唤醒指数不大于阈值的情况下,不唤醒语音助手。

在一些实施例中,电子设备确定唤醒指数的过程可以是:获取该第一唤醒词和预设唤醒词之间的音频相似度,根据该音频相似度和该唤醒参考信息,确定该唤醒指数。

在一些实施例中,电子设备获取音频相似度的过程可以是:电子设备将降噪处理后的音频数据输入预先训练的语音唤醒模型,通过该语音唤醒模型对目标唤醒音频以及预设唤醒音频进行相似度判断,输出该降噪处理后的音频数据与该预设唤醒音频的音频相似度,进而在该音频相似度的基础上结合所确定的唤醒参考信息,来综合判断是否唤醒语音助手。

需要说明的是,本公开实施例中的语音唤醒模型并不是针对某一特定用户的语音唤醒模型,并不能反映出某一特定用户的个人信息。

在一些实施例中,上述语音唤醒模型基于样本音频以及该样本音频与预设唤醒音频的音频相似度,对初始模型进行模型训练得到。相应过程为:电子设备获取多个样本音频以及该样本音频与预设唤醒音频的音频相似度,根据该多个样本音频以及该样本音频与预设唤醒音频的音频相似度进行模型训练,得到语音唤醒模型。

具体地,模型训练的过程可以包括:在第一次迭代训练的过程中,将多个样本音频输入初始模型中,获得第一次迭代训练的相似度结果;基于该第一次迭代训练的相似度结果与该音频相似度,调整该初始模型的模型参数,基于调整后的模型参数,执行下一次迭代训练;进而,在任一次迭代训练的过程中,将多个样本音频输入上一次迭代训练后得到的模型中,以获得本次迭代训练的相似度结果,基于本次迭代训练的相似度结果与音频相似度,调整模型参数,基于调整后的模型参数,执行下一次迭代训练,直至模型训练满足目标条件,获取满足目标条件的模型作为语音唤醒模型。

应理解地,在每一次迭代训练结束后,均需要判断模型训练是否达到目标条件,如果模型训练达到目标条件,则停止模型训练并获取本次迭代训练得到的模型作为语音唤醒模型,如果模型训练未达到目标条件,则继续执行下一次迭代训练。在一些实施例中,该目标条件满足下述条件中的至少一项:模型训练的迭代次数达到目标次数;或者,模型损失值小于或等于目标阈值。其中,目标次数为预先设定的训练迭代次数,如迭代次数达到100。本公开实施例对目标次数的设定不作限定。目标阈值为预先设定的固定阈值,如模型损失值小于0.0001。本公开实施例对目标阈值的设定不作限定。

在一些实施例中,电子设备确定唤醒指数的过程可以是:电子设备以唤醒参考信息作为该音频相似度的权重,对该唤醒参考信息和该音频相似度进行相乘处理,将相乘处理得到的结果作为唤醒指数。或者,在另一些实施例中,电子设备确定唤醒指数的过程可以是:电子设备对该唤醒参考信息和该音频相似度进行加权求和处理,将加权求和处理得到的结果作为唤醒指数。

在上述实施例中,利用该降噪处理后的音频数据与预设唤醒音频之间的音频相似度,以及本次唤醒事件的唤醒参考信息,来确定唤醒指数,进而利用唤醒指数来判断是否唤醒语音助手,如此,增加了语音唤醒所参考的信息量,提升了语音唤醒的准确率。

示例地,图4是本公开实施例示出的一种语音唤醒的流程示意图。参见图4,首先将麦克风采集的音频输送至降噪算法,以利用降噪算法对该音频进行降噪处理,进而将降噪处理后的音频输送至信噪比计算算法,以利用信噪比计算算法计算该音频的信噪比,进而利用所计算的信噪比动态设置唤醒精度,再将该唤醒精度输送至唤醒引擎,以便该唤醒引擎结合该唤醒精度来综合判断是否唤醒语音助手,进而在语音助手的交互界面中显示本次唤醒事件的唤醒结果。本公开实施例中,考虑到降噪算法在不同场景下降噪性能不一样,因此,通过计算不同场景下的信噪比,进而通过信噪比来动态设置唤醒精度,能够降低误唤醒的风险。

本公开实施例提供的技术方案,通过在音频数据的降噪处理阶段之后,采用该音频数据的信噪比,来确定本次唤醒事件的唤醒参考信息,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

图5是本公开实施例示出的一种语音唤醒装置的结构框图,参见图5,该装置包括处理模块501、确定模块502和唤醒模块503。其中:

处理模块501,用于采集音频数据,对该音频数据进行降噪处理,该音频数据中包括第一唤醒词;

确定模块502,用于根据降噪后的该音频数据的信噪比,确定唤醒参考信息,该唤醒参考信息用于指示唤醒语音助手的难易程度;

唤醒模块503,用于在根据该第一唤醒词和该唤醒参考信息确定满足唤醒条件的情况下,唤醒该语音助手。

本公开实施例提供的技术方案,通过在音频数据的降噪处理阶段之后,采用该音频数据的信噪比,来确定本次唤醒事件的唤醒参考信息,由于信噪比能够表征当前环境中人声数据与噪声数据之间的比例,因此,根据信噪比所确定的唤醒参考信息,能够更加贴合当前环境中的实际音频情况,进而利用该第一唤醒词与唤醒参考信息来唤醒语音助手,能够有效避免误唤醒的风险,提高了语音唤醒的准确性。

在一些实施例中,该确定模块502,用于:

根据降噪后的该音频数据的信噪比以及目标对应关系,确定与该信噪比对应的唤醒参考信息,该目标对应关系用于指示该信噪比与该唤醒参考信息之间的对应关系。

在一些实施例中,该目标对应关系是与该音频数据的设备类型对应的目标对应关系,不同的设备类型对应不同的目标对应关系;其中,该设备类型为音频采集设备或降噪处理设备。

在一些实施例中,还包括:

统计模块,用于统计多次历史唤醒事件的唤醒效果参数,该唤醒效果参数用于指示对应唤醒事件的唤醒率或误唤率中至少一项;

更新模块,用于根据该多次历史唤醒事件的唤醒效果参数,对该目标对应关系中的唤醒参考信息进行更新。

在一些实施例中,该唤醒模块503,包括:

确定子模块,用于根据该第一唤醒词和该唤醒参考信息确定唤醒指数,该唤醒指数用于指示是否唤醒该语音助手;

唤醒子模块,用于在该唤醒指数大于阈值的情况下,唤醒该语音助手。

在一些实施例中,该确定子模块,用于:

获取该第一唤醒词和预设唤醒词之间的音频相似度;

根据该音频相似度和该唤醒参考信息,确定该唤醒指数。

根据本公开的实施例,本公开还提供了一种电子设备,包括至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开所提供的语音唤醒方法。

根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使电子设备执行本公开所提供的语音唤醒方法。

根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开所提供的语音唤醒方法。

在一些实施例中,电子设备可以为上述图1中所示出的电子设备。图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备600旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备600还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ReadOnly Memory,ROM)602中的计算机程序或者从存储单元606加载到随机访问存储器(RandomAccess Memory,RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(In put/Out put,I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processing,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如语音唤醒方法。例如,在一些实施例中,语音唤醒方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的语音唤醒方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音唤醒方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(ApplicationSpecific Standard Parts,ASSP)、芯片上系统的系统(System On Chip,SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置,例如,阴极射线管(Cathode Ray Tube,CRT)或者液晶显示器(Liquid Crystal Display,LCD)监视器;以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120115935684