掌桥专利:专业的专利平台
掌桥专利
首页

唤醒处理阈值调整方法、语音家电、存储介质

文献发布时间:2023-06-19 10:11:51


唤醒处理阈值调整方法、语音家电、存储介质

技术领域

本发明涉及但不限于数据处理领域,尤其涉及一种唤醒处理阈值调整方法、语音家电、存储介质。

背景技术

随着语音识别技术的发展,语音家电逐渐进入到人们的生活,语音家电能够获取用户的语音信息,从语音信息中识别出控制指令,并根据该控制指令执行对应的操作,极大地提高了使用的便利性。在对语音家电进行语音控制之前,需要先对语音家电进行唤醒。为了降低语音家电的误唤醒率,常见的做法是通过唤醒模型对语音信息中的唤醒词进行识别。当识别成功并且满足预设的唤醒阈值,则语音家电唤醒成功。但是在实际使用场景中,语音信息中的唤醒词很可能是环境声的一部分,例如用户在闲聊的时候提及唤醒词,在这种情况下,语音家电所获取的语音信息并非用户的语音指令,从而导致对语音家电的误唤醒。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种唤醒处理阈值调整方法、语音家电、存储介质,能够提高语音家电唤醒的准确率。

第一方面,本发明实施例提供了一种唤醒处理阈值调整方法,应用于语音家电,包括:

获取声音信息,所述声音信息包括关键词信息和音频信息;

获取当前的唤醒处理阈值和与所述唤醒处理阈值相对应的唤醒处理模型;

当根据所述唤醒处理模型和所述唤醒处理阈值确定所述关键词信息为唤醒词,确定所述音频信息的指令识别结果;

根据所述关键词信息和所述指令识别结果调整所述唤醒处理阈值。

本发明实施例的唤醒处理阈值调整方法,应用于语音家电,至少具有以下有益效果:获取声音信息,所述声音信息包括关键词信息和音频信息;获取当前的唤醒处理阈值和与所述唤醒处理阈值相对应的唤醒处理模型;当根据所述唤醒处理模型和所述唤醒处理阈值确定所述关键词信息为唤醒词,确定所述音频信息的指令识别结果;根据所述关键词信息和所述指令识别结果调整所述唤醒处理阈值。根据本发明实施例提供的方案,能够实现唤醒处理阈值的动态调整,提高语音家电唤醒的准确率。

在上述的唤醒处理阈值调整方法中,所述根据所述唤醒处理模型和所述唤醒处理阈值确定所述关键词信息为唤醒词,包括:根据所述唤醒处理模型确定所述关键词信息与预先设定的唤醒词的相似度;当所述相似度大于所述当前的所述唤醒处理阈值,确定所述关键词信息为唤醒词。能够先确定该声音信息中包含唤醒词,从而采用语音家电唤醒后的音频信息进行唤醒处理阈值的调整,

在上述的唤醒处理阈值调整方法中,所述确定所述音频信息的指令识别结果,包括:对所述音频信息进行语音识别;当从所述音频信息中识别出可应用于所述语音家电的操作指令,确定所述指令识别结果为正常识别结果;当未能从所述音频信息中识别出可应用于所述语音家电的操作指令,确定所述指令识别结果为异常识别结果。能够通过对音频信息的语音识别得出指令识别结果。

在上述的唤醒处理阈值调整方法中,所述唤醒处理模型包括唤醒模型和误唤醒模型,所述唤醒处理阈值包括唤醒阈值和误唤醒阈值,所述唤醒模型与所述唤醒阈值相对应,所述误唤醒模型和所述误唤醒阈值相对应。能够采用唤醒模型提高语音家电的唤醒成功率,通过误唤醒模型减少语音家电的误唤醒率。

在上述的唤醒处理阈值调整方法中,所述根据所述关键词信息和所述指令识别结果调整所述唤醒处理阈值,包括:当所述指令识别结果为正常识别结果,根据所述关键词信息和所述正常识别结果调整唤醒阈值;或者,当所述指令识别结果为异常识别结果,根据所述关键词信息、所述异常识别结果和调整误唤醒阈值。能够根据表征正确指令的音频信息调整唤醒阈值,提高唤醒阈值的准确性,从而提高唤醒准确率;根据表征错误指令的音频信息调整误唤醒阈值,提高误唤醒阈值的准确性。

在上述的唤醒处理阈值调整方法中,所述唤醒处理模型包括唤醒模型和误唤醒模型,在所述根据所述关键词信息和所述指令识别结果调整唤醒处理阈值之后,还包括:当所述指令识别结果为正常识别结果,将所述声音信息确定为唤醒训练样本集的训练样本,所述唤醒训练样本集为所述唤醒模型的训练样本集;或者,当所述指令识别结果为异常识别结果,将所述声音信息确定为误唤醒训练样本集的训练样本,所述误唤醒训练样本集为所述误唤醒模型的训练样本集。能够将每次获取的声音信息保存为训练样本集,为唤醒处理模型的训练提供数据基础。能够根据指令识别结果分类为不同的训练样本集,以确保唤醒处理模型的训练样本的准确性。

在上述的唤醒处理阈值调整方法中,所述语音家电与服务器通信连接,所述唤醒处理模型包括唤醒模型和误唤醒模型,所述在所述根据所述关键词信息和所述指令识别结果调整唤醒处理阈值之后,还包括:

将所述关键词信息、所述音频信息和所述指令识别结果上传至所述服务器,以使所述服务器根据所述指令识别结果将所述关键词信息和所述音频信息分配至对应的训练样本集,其中,当所述指令识别结果为正常识别结果,将所述声音信息确定为唤醒训练样本集的训练样本,所述唤醒训练样本集为所述唤醒模型的训练样本集,或者,当所述指令识别结果为异常识别结果,将所述声音信息确定为误唤醒训练样本集的训练样本,所述误唤醒训练样本集为所述误唤醒模型的训练样本集。能够根据声音信息的指令识别结果在服务器中保存唤醒训练样本集和误唤醒训练样本集,为唤醒模型和误唤醒模型的训练提供数据基础。

在上述的唤醒处理阈值调整方法中,所述唤醒处理阈值包括唤醒阈值和误唤醒阈值,还包括:获取预先设定的训练周期;根据所述训练周期获取最新的所述唤醒训练样本集和最新的所述误唤醒训练样本集;根据所述唤醒训练样本集更新所述唤醒模型和所述唤醒阈值,根据所述误唤醒训练样本集训练所述误唤醒模型和误唤醒阈值。能够实现周期性自动训练唤醒处理模型,确保唤醒处理模型能够进一步符合用户的使用场景。

第二方面,本发明实施例提供了一种语音家电,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的唤醒处理阈值调整方法。

本发明实施例提供了一种语音家电,该语音家电应用第一方面所述的唤醒处理阈值调整方法,至少具有以下有益效果:获取声音信息,所述声音信息包括关键词信息和音频信息;获取当前的唤醒处理阈值和与所述唤醒处理阈值相对应的唤醒处理模型;当根据所述唤醒处理模型和所述唤醒处理阈值确定所述关键词信息为唤醒词,确定所述音频信息的指令识别结果;根据所述关键词信息和所述指令识别结果调整所述唤醒处理阈值。根据本发明实施例提供的方案,能够实现唤醒处理阈值的动态调整,提高语音家电唤醒的准确率。

第三方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的唤醒处理阈值调整方法。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的唤醒处理阈值调整方法的流程图,

图2是本发明另一个实施例提供的应用唤醒处理阈值调整方法的语音家电的结构示意图;

图3是本发明另一个实施例提供的确定唤醒词的流程图;

图4是本发明另一个实施例提供的确定指令识别结果的流程图;

图5是本发明另一个实施例提供的根据指令识别结果调整唤醒处理阈值的流程图;

图6是本发明另一个实施例提供的根据指令识别结果确定训练样本集的流程图;

图7是本发明另一个实施例提供的在服务器确定训练样本集的流程图;

图8是本发明另一个实施例提供的周期性训练唤醒处理模型的流程图;

图9是本发明另一个实施例提供的唤醒处理阈值调整方法的流程图;

图10是本发明另一个实施例提供的语音家电的装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

本发明提供了一种唤醒处理阈值调整方法、语音家电、存储介质,该唤醒处理阈值调整方法应用于语音家电,包括:获取声音信息,所述声音信息包括关键词信息和音频信息;获取当前的唤醒处理阈值和与所述唤醒处理阈值相对应的唤醒处理模型;当根据所述唤醒处理模型和所述唤醒处理阈值确定所述关键词信息为唤醒词,确定所述音频信息的指令识别结果;根据所述关键词信息和所述指令识别结果调整所述唤醒处理阈值。根据本发明实施例提供的方案,能够实现唤醒处理阈值的动态调整,提高语音家电唤醒的准确率。

需要说明的是,语音家电可以是任意常见家电设备,例如语音空调器、语音电饭煲、语音微波炉等,本发明实施例并不对语音家电的具体类型多作限制。

需要说明的是,为了获取声音信息,实现语音控制,语音家电的结构可以采用图2所示的结构,在语音家电中设置拾音装置,例如常见的麦克风,根据实际需求选取具体的装置即可。同时,语音家电还可以设置有处理器,例如常见的单片机或者现场可编程逻辑门阵列(Field Programmable Gate Array,PFGA)芯片。本领域技术人员可以理解的是,拾音装置与处理器之间通信连接,拾音装置可以将采集到的声音信息发送至处理器,由处理器得出响应,例如本实施例中所实现的语音唤醒。同时,为了获取训练样本,语音家电还可以设置有通信模块,通过通信模块与服务器通信连接,通信模块可以采用常见的无线模块,本实施例对具体的模块结构不多作限定。

下面结合附图,对本发明实施例作进一步阐述。

如图1所示,图1是本发明提供的一种唤醒处理阈值调整方法的流程图,该唤醒处理阈值调整方法应用于语音家电,包括但不限于有步骤S110、步骤S120、步骤S130和步骤S140。

步骤S110,获取声音信息,声音信息包括关键词信息和音频信息。

需要说明的是,本发明实施例中的声音信息为包括人的声音的声音信息,对于仅有环境声的情况,由于不涉及唤醒识别,因此并不在本实施例讨论范围内,后续不再赘述。可以理解的是,语音家电获取到声音信息后,可以从声音信息中截取连续的若干帧声音片段,并按照声音片段的排序,排列在前的若干帧设置为关键词信息,剩余的声音片段设置为音频信息,具体的设置为关键词信息的帧数可以根据设定的唤醒词的长度确定,例如根据唤醒词的文字数量预先设定好具体的时长,将该时长内的声音片段确定为关键词信息,具体的时长可以根据实际情况调整,本实施例不多作限定;当然,也可以根据检测两段连续的声音片段之间的空数据的长度确定,例如实际使用过程中,用户可能会先喊出唤醒词,停顿若干秒之后喊出语音指令,则可以在语音家电获取到第一段声音片段后开始计时,若计时的时长小于预先设置的阈值,则继续获取第二段声音片段,并且将第一段声音片段确定为关键词信息,将第二段声音片段确定为音频信息;也可以采用其他方式判断获取的声音信息包括关键词信息和音频信息的,在此不再赘述。

需要说明的是,当获取到声音信息后,还包括采用音频识别的方式从声音信息中提取出环境声信息、关键词信息和音频信息,提取出环境声信息能够用于在语音家电完成唤醒识别之后,发送至服务器中用作训练数据,在对唤醒处理模型的进一步训练中能够将环境声信息的声压级作为一个特征参数,对唤醒处理模型采用带噪声训练的方式,使得唤醒处理模型的识别过程能够根据不同的环境声信息的大小调整对应的参数,例如调整对应的相似度阈值,使得唤醒处理模型能够适用于不同的使用场景。

步骤S120,获取当前的唤醒处理阈值和与唤醒处理阈值相对应的唤醒处理模型。

需要说明的是,为了实现不同的识别效果,可以设定若干个唤醒处理模型,例如设置唤醒模型和误唤醒模型,对于不同的唤醒处理模型,其识别的目的并不相同,因此需要设置于唤醒处理模型相对应的唤醒处理阈值,例如,唤醒模型与唤醒阈值相对应,以确保唤醒成功率,误唤醒模型与误唤醒阈值相对应,以降低误唤醒率。

需要说明的是,唤醒处理模型和唤醒处理阈值可以是以出厂设置的方式预先设置于语音家电中,从而使语音家电初次上电使用时能够有初始的唤醒处理模型和唤醒处理阈值,并在后续使用过程中进行训练更新,从而更加符合用户使用场景的,唤醒处理模型和唤醒处理阈值的设置方法并不在本实施例讨论的范围内,能够使得语音家电中具备唤醒处理模型即可,在此不再赘述。

需要说明的是,利用唤醒处理模型进行识别处理,可以是输入若干个输入信息以得出一个输出信息,在本实施例中,输入信息可以是关键词信息和音频信息,也可以是关键词信息和音频信息的指令识别结果,输入信息为是关键词信息和音频信息,可以在唤醒处理模型中内置语音识别模块,对音频信息进行识别以得出指令识别结果,再根据指令识别结果和关键词信息得出用于确定是否唤醒语音家电的识别结果;当输入信息为关键词信息和音频信息的指令识别结果,可以是在语音家电中设置语音识别模块,从声音信息中获取音频信息,并对音频信息进行语音识别,得出指令识别结果,并将指令识别结果和关键词信息输入至唤醒处理模型中进行识别处理;输入信息的具体方式根据实际需求选取即可,在此不再赘述。

步骤S130,当根据唤醒处理模型和唤醒处理阈值确定关键词信息为唤醒词,确定音频信息的指令识别结果。

值得注意的是,上述所述的指令识别结果,可以是能否从音频信息中识别出语音指令的结果,例如当从音频信息中识别出语音指令,则认定指令识别结果为正常识别结果,例如语音家电可响应执行的任意控制操作;否则认定指令识别结果为异常识别结果,当指令识别结果为异常识别结果,则音频信息并非用户的语音指令,或者语音家电无法执行的语音指令。可以理解的是,从音频信息中识别出语音指令,可以采用指令对照表的方式,在语音家电中预先设置好指令对照表,将从音频信息中识别出的文字与指令对照表中的指令进行语义识别,当匹配成功则判定为从音频信息中识别出语音指令,当然可以采用其他方式确定,在此不再赘述。

值得注意的是,与现有技术中仅比对关键词信息不同,本发明实施例可以结合关键词信息和音频信息进行识别处理,使得识别结果能够反映出音频信息是否属于语音指令,当音频信息并非语音指令,可以判定为误唤醒的场景,在这种情况下不对语音家电进行唤醒,能够有效减少语音家电的误唤醒率。

可以理解的是,为了提高唤醒识别的准确率,需要同时满足关键词信息识别为唤醒词和并将音频信息识别为正常识别结果,在这种情况下,可以确定语音家电所获取的声音信息为用户的语音指令,因此可以确保唤醒是正确的操作;相反,当音频信息的指令识别结果为异常识别结果,则音频信息不属于语音指令,则可以判定声音信息中的唤醒词为环境声中的一部分,并非用户进行的唤醒操作,基于此,结合关键词信息和指令识别结果进行唤醒处理阈值的调整,能够提高唤醒的准确性。

可以理解的是,唤醒模型中可以内置语音识别模块,以对音频信息进行指令识别结果的识别,当然,也可以通过语音家电与服务器通信连接的方式,通过服务器进行语音识别,再反馈具体的结果至唤醒模型中用作输入,具体方式根据实际情况调整即可。可以理解的是,唤醒词可以是预先设置的任意文字,本实施例不多作限定。可以理解的是,语音指令的识别可以采用上述实施例所述的指令对照表的方式,通过文字匹配或者语义匹配的方式确定音频信息是否为语音指令,在此不多作赘述。

步骤S140,根据关键词信息和指令识别结果调整唤醒处理阈值。

需要说明的是,采用本实施例的技术方案,可以实现动态调整唤醒处理阈值,例如对于唤醒模型和唤醒阈值,当通过唤醒模型识别出关键词信息与唤醒词的相似度小于唤醒阈值,但音频信息为语音指令,则该唤醒阈值设置过高,可以根据识别出的关键词信息与唤醒词的相似度降低唤醒阈值,以使得在相同的情况下唤醒阈值能够满足唤醒的需求,当然,也可以通过从服务器获取唤醒训练样本集,根据唤醒训练样本集中的若干个关键词信息与唤醒词的相似度进行唤醒阈值的调整,例如采用平均值或者数学统计值的方式进行调整,在此不多作限定。可以理解的是,对于误唤醒阈值和误唤醒模型,当通过误唤醒模型识别出关键词信息与唤醒词的相似度大于误唤醒阈值,但音频信息并非语音指令,则该误唤醒阈值设置过低,可以采用上述关于唤醒阈值的类似调整方式进行调整,在此不再赘述。

值得注意的是,在调整唤醒处理阈值之后,可以应用该唤醒处理阈值进行语音家电的唤醒识别,本实施例并不对唤醒处理的具体过程作过多的限定。在唤醒语音家电之后,可以直接根据音频信息中已被识别出的语音指令执行对应的操作,从而提高语音家电的响应速度;当然,也可以将声音信息仅用于唤醒识别,在唤醒语音家电之后进行提示,并根据唤醒后获取的声音信息进行语音识别的操作,在此不再赘述。

在上述的唤醒处理阈值调整方法中,参照图3,图1所示实施例中的步骤S130还包括但不限于有以下步骤:

步骤S310,根据唤醒处理模型确定关键词信息与预先设定的唤醒词的相似度;

步骤S320,当相似度大于当前的唤醒处理阈值,确定关键词信息为唤醒词。

需要说明的是,从关键词信息中识别出关键词可以采用常见的语音识别方法,例如自动语音识别技术(Automatic Speech Recognition,ASR),本实施例不涉及具体的语音识别方法的改进,能够实现关键词的识别即可,在此不再赘述。

需要说明的是,基于上述实施例,关键词信息可以是所获取的声音信息中的若干帧,考虑到实际使用情况,获取的声音片段可能存在一定的误差,例如所识别出的关键词相对于唤醒词有若干个文字的差异,此时可以采用唤醒处理阈值作为参考,对关键词和唤醒词的相似度进行判定,从而提高唤醒词确定的准确性。

需要说明的是,相似度可以是关键词和唤醒词的文字匹配数量,例如关键词与唤醒词为相同的文字,则相似度为100%;当然,也可以采用语音的相似度,例如关键词信息所对应的语音与预先录制的唤醒语音进行比对,以确定出相似度的具体数值,具体方式根据实际需求选取即可,在此不多作限定。可以理解的是,唤醒处理阈值可以是百分比,也可以是具体的数值,具体方式根据实际需求选取即可,本实施例不多作限定。

可以理解的是,唤醒处理阈值可以是固定值,也可以是根据唤醒模型动态调整,由于唤醒模型在训练的过程中会不断改变识别的标准,因此唤醒处理阈值随着唤醒模型动态调整,能够使得唤醒处理阈值和唤醒模型的配合度更高,从而提高唤醒识别的准确性。

在上述的唤醒处理阈值调整方法中,参照图4,图1所示实施例中的步骤S130还包括但不限于有以下步骤:

步骤S410,对音频信息进行语音识别;

步骤S420,当从音频信息中识别出可应用于语音家电的操作指令,确定指令识别结果为正常识别结果;

步骤S430,当未能从音频信息中识别出可应用于语音家电的操作指令,确定指令识别结果为异常识别结果。

需要说明的是,对音频信息的语音识别可以采用常见的方式,本实施例不涉及具体的识别算法改进,在此不多作限定。可以理解的是,确定音频信息的指令识别结果,可以采用上述所述的指令对照表的方式,从音频信息中识别出对应的文字信息,根据与指令对照表中的文字信息进行匹配,当匹配成功,确定指令识别结果为正常识别结果,否则为异常识别结果。同时,本领域技术人员可以理解的是,用户的语音指令并不一定完全与指令对照表的文字相同,因此,对于指令识别结果的确定也可以采用语义匹配,例如语音家电为语音空调的情况下,对于音频信息中包含“太冷”和“升高温度”均可以理解为调高语音空调器温度的指令,即指令识别结果为正常识别结果,具体的操作指令识别方式根据语音家电的实际情况调整即可,在此不多作限定。

在上述的唤醒处理阈值调整方法中,唤醒处理模型包括唤醒模型和误唤醒模型,唤醒处理阈值包括唤醒阈值和误唤醒阈值,唤醒模型与唤醒阈值相对应,误唤醒模型和误唤醒阈值相对应。

值得注意的是,设置误唤醒模型,能够对包括唤醒词的声音信息进行识别,若采用现有技术仅对唤醒词进行识别以确定是否唤醒,很容易出现用户闲聊时提及唤醒词时语音家电被唤醒的情况,即出现误唤醒。采用误唤醒模型进行识别,能够在识别出唤醒词的情况下,进一步结合音频信息进行唤醒的判断,有效降低误唤醒率。例如,语音家电为语音空调器,语音信息为“打开灯光”,而语音空调器中的指令对照表并没有相应的操作,此时声音信息并非语音指令,因此可以得知此时语音家电若被唤醒,则属于误唤醒,因此,通过误唤醒模型,在这种情况下不对语音家电进行唤醒,能够有效降低语音家电的误唤醒率。

值得注意的是,对于误唤醒模型而言,其识别结果为声音信息为误唤醒,以使语音家电不进行唤醒,采用误唤醒模型,能够在检测到唤醒词的情况下减少误唤醒的情况,因此,可以采用较低的数值作为误唤醒阈值,使得误唤醒模型的识别更加准确,降低误唤醒率。

可以理解的是,唤醒模型和误唤醒模型既可以单独设置在语音家电中,也可以同时设置于语音家电中,在检测到声音信息的情况下分别进行识别,有利于将每次获取的声音信息进行分类,从而为样本训练集的数据收集提供基础。当然,为了节约资源,也可以仅在语音家电中设置其中一种模型和对应的阈值,具体采用的方式根据实际需求选取即可。

在上述的唤醒处理阈值调整方法中,参照图5,图1所示实施例中的步骤S140还包括但不限于有以下步骤:

步骤S510,当指令识别结果为正常识别结果,根据关键词信息和正常识别结果调整唤醒阈值;

或者,

步骤S520,当指令识别结果为异常识别结果,根据关键词信息、异常识别结果和调整误唤醒阈值。

需要说明的是,对唤醒处理阈值的调整可以采用数学统计的方式,例如确定每个关键词训练信息与唤醒词的相似度,取其数学统计值,上述数学统计值可以是平均值或者中位数等;当然,也可以采用预先设定的相似度和唤醒处理阈值的映射关系确定具体阈值,具体方式根据实际需求选取即可,本实施例不多作限定。可以理解的是,对唤醒处理阈值的调整也可以结合关键词训练信息的背景声信息,例如获取到背景声信息的声压级信息后,结合声压级信息和所得出的相似度进行唤醒阈值的调整,本实施例不对调整方式作出过多的限定。

在上述的唤醒处理阈值调整方法中,唤醒处理模型包括唤醒模型和误唤醒模型,参照图6,在执行完图1所示实施例中的步骤S140之后,还包括但不限于有以下步骤:

步骤S610,当指令识别结果为正常识别结果,将声音信息确定为唤醒训练样本集的训练样本,唤醒训练样本集为唤醒模型的训练样本集;

或者,

步骤S620,当指令识别结果为异常识别结果,将声音信息确定为误唤醒训练样本集的训练样本,误唤醒训练样本集为误唤醒模型的训练样本集。

可以理解的是,唤醒训练样本集和误唤醒训练样本集可以是一个样本训练集合,也可以是包括若干个样本训练子集合所构成的总集合,例如可以针对不同的时间段,设置不同的样本训练子集合进行对应,根据设定好的时间信息从服务器中下拉对应的唤醒训练样本集进行唤醒模型的训练,从而提高唤醒模型的定制化程度。

可以理解的是,语音家电所获取到声音信息后,可以保存于语音家电本地的存储器,在执行完语音家电的唤醒和上传至服务器后,从语音家电本地的存储器中删除,从而节约存储资源。

需要说明的是,关键词信息和音频信息还可以包括背景声信息的声压级信息,从而实现唤醒处理模型的带噪声训练。

可以理解的是,在音频信息被识别为正常识别结果的情况下,该声音信息为正确的唤醒语音,则以此声音信息作为训练样本,所训练出的唤醒处理模型可用于进行正确唤醒的识别。本领域技术人员可以理解的是,唤醒处理模型通过关键词训练信息和音频训练信息训练得出,则输入至唤醒处理模型进行识别处理的声音信息也可以包括关键词信息和音频信息,从而实现根据关键词信息和音频信息进行唤醒的判定,有效降低误唤醒率。

需要说明的是,当识别到音频信息不属于语音指令,则可以判定此时执行的唤醒为误唤醒,在这种情况下,可以是将该语音信息采集作为误唤醒模型的训练样本,从而使得配置误唤醒模型的语音家电能够对用户的误唤醒进行判断,从而降低语音家电的误唤醒率。

可以理解的是,语音信息可以通过语音文字识别或者语义识别之后,结合指令对照表的方式确定,例如根据语音信息识别出的文字与指令对照表中与控制操作相对应的文字不匹配,则可以判定语音信息不属于语音指令。

需要说明的是,若仅根据关键词信息进行误唤醒模型的训练,则只能通过调整误唤醒阈值的方式降低误唤醒率,但是在实际使用过程中,很可能出现环境声包含唤醒词的情况,若根据误唤醒阈值仍然识别出唤醒词,则语音家电会被误唤醒,因此,本实施例结合关键词信息和音频信息,可以根据音频信息的指令识别结果对误唤醒进行判断,有效降低误唤醒率。

在上述的唤醒处理阈值调整方法中,语音家电与服务器通信连接,唤醒处理模型包括唤醒模型和误唤醒模型,参照图7,在执行完图1所示实施例中的步骤S140之后,还包括但不限于有以下步骤:

步骤S700,将关键词信息、音频信息和指令识别结果上传至服务器,以使服务器根据指令识别结果将关键词信息和音频信息分配至对应的训练样本集,其中,当指令识别结果为正常识别结果,将声音信息确定为唤醒训练样本集的训练样本,唤醒训练样本集为唤醒模型的训练样本集,或者,当指令识别结果为异常识别结果,将声音信息确定为误唤醒训练样本集的训练样本,误唤醒训练样本集为误唤醒模型的训练样本集。

可以理解的是,语音样本训练集可以是保存在语音家电的存储器中,也可以是保存在与语音家电通信连接的服务器中,具体方式根据实际需求选取即可。当语音样本训练集保存在服务器中,也可以为每个用户账号设定所对应的数据库,使得与该用户账号所绑定的语音家电能够获取对应的语音样本训练集进行训练,以使唤醒处理模型更加符合实际使用场景,提高用户体验。当前,一个用户账号也可以与多个语音家电相对应,从而使得部署于同一使用场景的多个语音家电中的唤醒处理模型能够以相同的语音样本训练集训练得出,使得同一使用场景下的多个语音家电的唤醒准确度相同,有利于提高用户体验。

需要说明的是,语音家电和服务器的连接方式可以是任意,例如常见的无线方式,也可以是语音家电通过蓝牙连接的方式与用户终端进行连接,通过用户终端的网络与服务器进行连接,具体的连接方式可以根据实际需求确定,本实施例不多作限定。需要说明的是,上述用户终端可以是常见的手机、平板电脑等,在此不多作限定。

需要说明的是,当语音家电和服务器建立连接,为了使唤醒处理模型符合不同的使用场景,可以是在服务器中根据用户账号进行数据库的匹配,将关键词信息和音频信息上传到对应的数据库中的唤醒训练样本集,从而使该用户账号所对应的所有语音家电能够采用相同的唤醒训练样本集,当然,也可以为每个语音家电设置单独的数据库,根据服务器的实际情况选取具体方式即可,在此不再赘述。

值得注意的是,本发明实施例所述的服务器,可以是实体的服务器主机,也可以采用云服务器的方式,本实施例并不涉及服务器的改进,对此不多作限定。

需要说明的是,唤醒训练样本集和误唤醒训练样本集可以是由任意数量的语音家电上报的声音信息生成,例如可以在服务器中设置与用户账号相对应的数据库,在语音家电上报声音信息的同时获取语音家电所登录的用户账号,从而将该声音信息保存至与用户账号相对应的数据库中,本实施例对语音家电的数量并不多作限定。

需要说明的是,在获取到语音家电上报的声音信息后,可以将声音信息分为关键词信息和音频信息,例如图1所示实施例描述的将声音信息分为若干帧声音片段的方式,或者是获取两段间隔时间小于预设阈值的声音信息,将第一段声音信息设置为关键词信息,第二段声音信息设置为音频信息,在此不多作重复赘述。

值得注意的是,语音家电可以直接向服务器上报所获取的声音信息,服务器在获取到该声音信息后,通过语音识别确定声音信息包括关键词信息和音频信息,由于服务器的存储能力较强,能够配备更加完善的语音识别数据库,因此服务器的语音识别的准确度较高,有利于提高训练样本的准确性。当然,若出于实际硬件的情况,也可以在语音家电中完成语音指令的识别,在此不多作限定。

在上述的唤醒处理阈值调整方法中,唤醒处理阈值包括唤醒阈值和误唤醒阈值,参考图8,还包括但不限于有以下步骤:

步骤S810,获取预先设定的训练周期;

步骤S820,根据训练周期获取最新的唤醒训练样本集和最新的误唤醒训练样本集;

步骤S830,根据唤醒训练样本集更新唤醒模型和唤醒阈值,根据误唤醒训练样本集训练误唤醒模型和误唤醒阈值。

需要说明的是,唤醒处理模型可以通过调整语音样本训练集的方式重复训练,以确保唤醒处理模型能够通过训练提高识别的准确度,从而实现更加符合用户的实际使用场景。例如,在每次完成唤醒识别后,将声音信息保存至语音样本训练集,根据关键词信息和音频信息的识别结果进行唤醒处理模型的训练,也可以设置训练周期的方式,每隔一段时间获取一次语音样本训练集进行训练,例如设定每天的12点训练一次,则服务器在每天的12点向语音家电下发一次最新的语音样本训练集,使语音家电对的唤醒处理模型进行训练,当然,也可以采用终端向服务器发送训练指令的方式触发下发语音样本训练集的操作,例如通过手机APP实现,具体的方式根据实际需求选取即可,在此不多作赘述。

另外,参考图9,图9是本发明提供的一种应用于语音家电的唤醒处理阈值调整方法的流程图,该语音家电与服务器通信连接,该唤醒处理阈值调整方法包括但不限于有以下步骤:

步骤S910,语音家电根据设定的初始训练样本数据,训练得出唤醒模型和唤醒阈值、误唤醒模型和误唤醒阈值;

步骤S920,语音家电获取声音信息,进行唤醒识别后,并得出声音信息的指令识别结果;

步骤S930,语音家电上传声音信息至服务器,当声音信息的识别结果为唤醒词和正常识别结果,执行步骤S941,当声音信息的识别结果为唤醒词和异常识别结果,执行步骤S951;

步骤S941,服务器将声音信息保存至唤醒训练样本集,执行步骤S942;

步骤S942,语音家电根据唤醒训练样本集更新唤醒模型和唤醒阈值;

步骤S951,服务器将声音信息保存至误唤醒训练样本集,执行步骤S952;

步骤S952,语音家电根据误唤醒训练样本集更新误唤醒模型和误唤醒阈值。

另外,参照图10,本发明的一个实施例还提供了一种语音家电1000,该语音家电1000包括:存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。

处理器1020和存储器1010可以通过总线或者其他方式连接。

实现上述实施例的唤醒处理阈值调整方法所需的非暂态软件程序以及指令存储在存储器1010中,当被处理器1020执行时,执行上述实施例中的应用于语音家电1000的唤醒处理阈值调整方法,例如,执行以上描述的图1中的方法步骤S110至步骤S140,图3中的方法步骤S310至步骤S320,图4中的方法步骤S410至步骤S430,图5中的方法步骤S510或步骤S520,图6中的方法步骤S610或步骤S620,图7中的方法步骤S700,图8中的方法步骤S810至步骤S830,图9中的方法步骤S910至步骤S952。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述语音家电实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的应用于语音家电的唤醒处理阈值调整方法,例如,执行以上描述的图1中的方法步骤S110至步骤S140,图3中的方法步骤S310至步骤S320,图4中的方法步骤S410至步骤S430,图5中的方法步骤S510或步骤S520,图6中的方法步骤S610或步骤S620,图7中的方法步骤S700,图8中的方法步骤S810至步骤S830,图9中的方法步骤S910至步骤S952。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

相关技术
  • 唤醒处理阈值调整方法、语音家电、存储介质
  • 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电
技术分类

06120112454601