掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及语音控制技术领域,尤其涉及一种语音命令词构建方法、系统、终端及存储介质。

背景技术

声控技术是指利用语音识别技术来达到控制或者操作电子设备的技术,语音识别技术是声控技术的核心技术之一,虽然语音识别技术在近几年有了较大的进步,但用户使用过程中,仍然需要基于预设的语音命令词进行电子设备的控制。语音命令词是针对电子设备而言的命令词形式,是使电子设备能够明白使用者意图的特定指令,当电子设备识别到用户说出的预设语音命令词时,执行预设语音命令词对应的命令操作。

现有的语音命令词构建过程中,一般是让用户对自己喜欢的命令词进行录音,以达到根据用户习惯进行自定义的语音命令词的构建效果,得到预设命令词,但由于语音命令词的录音过程需要用户耗费大量时间进行配合,进而降低了用户的使用体验。

发明内容

本发明实施例的目的在于提供一种语音命令词构建方法、系统、终端及存储介质,旨在解决现有的语音命令词构建过程中,用户使用体验低下的问题。

本发明实施例是这样实现的,一种语音命令词构建方法,所述方法包括:

获取语音交互数据,并查询所述语音交互数据中的预设命令词;

根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,并对所述预设命令词和所述关联语音中的未识别命令词进行关联性检测;

若任一所述未识别命令词与所述预设命令词之间的关联性检测合格,则将所述未识别命令词设置为所述预设命令词的同义命令词;

若接收到包含所述同义命令词的语音指令,则执行所述预设命令词的命令操作。

优选的,所述对所述预设命令词和所述关联语音中的未识别命令词进行关联性检测,包括:

对所述关联语音进行语音分段,得到分段语音,并分别计算各分段语音之间的语音相似度;

根据所述语音相似度确定所述关联语音中的重复语音,并判断所述重复语音在所述关联语音中的重复次数是否大于次数阈值;

若所述重复语音在所述关联语音中的重复次数大于所述次数阈值,则判定所述重复语音中的未识别命令词与所述预设命令词之间的关联性检测合格。

优选的,所述若所述重复语音在所述关联语音中的重复次数大于所述次数阈值之后,还包括:

将所述重复语音中的未识别命令词与所述预设命令词进行语义匹配;

若所述未识别命令词与所述预设命令词之间的语义相似度小于相似度阈值,则判定所述未识别命令词与所述预设命令词之间的关联性检测不合格。

优选的,所述根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,包括:

在所述语音交互数据中以所述预设命令词的命令时间为时间终点,获取第一预设时长内的语音数据,得到所述关联语音。

优选的,所述获取第一预设时长内的语音数据,得到所述关联语音之后,还包括:

判断不同预设命令词之间的关联语音是否存在语音重叠;

若所述不同预设命令词之间的关联语音存在语音重叠,则获取重叠语音的语音时长;

若所述重叠语音的语音时长大于时长阈值,则删除所述不同预设命令词中先执行的所述预设命令词与对应所述关联语音之间的关系;

将所述不同预设命令词之间的关联语音进行语音组合,得到关联组合语音,并将所述关联组合语音设置为所述不同预设命令词中后执行的所述预设命令词的关联语音。

优选的,所述获取重叠语音的语音时长之后,还包括:

若所述重叠语音的语音时长小于或等于所述时长阈值,则将先执行的所述预设命令词的命令终止时间确定为时间起点,并根据所述时间起点对后执行的所述预设命令词的关联语音进行语音分割。

优选的,所述将所述未识别命令词设置为所述预设命令词的同义命令词之后,还包括:

获取所述预设命令词对应所述同义命令词的数量,得到同义命令数量;

若所述同义命令数量大于数量阈值,则分别获取所述预设命令词对应所述同义命令词的命令设置时间;

根据所述命令设置时间对所述同义命令词进行命令词筛选处理。

本发明实施例的另一目的在于提供一种语音命令词构建系统,所述系统包括:

命令查询模块,用于获取语音交互数据,并查询所述语音交互数据中的预设命令词;

关联性检测模块,用于根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,并对所述预设命令词和所述关联语音中的未识别命令词进行关联性检测;

命令词设置模块,用于若任一所述未识别命令词与所述预设命令词之间的关联性检测合格,则将所述未识别命令词设置为所述预设命令词的同义命令词;

命令执行模块,用于若接收到包含所述同义命令词的语音指令,则执行所述预设命令词的命令操作。

本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例,通过查询语音交互数据中的预设命令词,基于预设命令词的命令时间能有效地确定到语音交互数据中的关联语音,通过对预设命令词和关联语音中的未识别命令词进行关联性检测,以判定未识别命令词与预设命令词之间是否存在同义关系,若未识别命令词与预设命令词之间的关联性检测合格,能自动将未识别命令词设置为预设命令词的同义命令词,使得能基于用户习惯自动进行语音命令词的设置,无需用户单独进行语音命令词的录音和设置,方便了用户的操作,提高了用户的使用体验。

附图说明

图1是本发明第一实施例提供的语音命令词构建方法的流程图;

图2是本发明第二实施例提供的语音命令词构建方法的流程图;

图3是本发明第二实施例提供的语音命令词构建方法的实施流程图;

图4是本发明第三实施例提供的语音命令词构建系统的结构示意图;

图5是本发明第四实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一

请参阅图1至图2,是本发明第一实施例提供的语音命令词构建方法的流程图,该语音命令词构建方法可以应用于任一终端设备或系统,本实施例中该语音命令词构建方法应用于语音识别设备中,该语音命令词构建方法包括步骤:

步骤S10,获取语音交互数据,并查询所述语音交互数据中的预设命令词;

其中,通过获取用户在预设时长间隔内的语音指令数据,得到该语音交互数据,该预设时长间隔可以根据需求进行设置,例如,该预设时长间隔可以设置为1小时、1天、1周或1个月,该步骤中,预设时长间隔设置为1天,即,在第二天中,获取用户在前一天的语音指令数据,得到该语音交互数据;

本实施例中,针对语音识别设备预设置有语音词令控制表,该语音词令控制表中包括语音识别设备出厂时设置的预设命令词,该预设命令词用于用户对语音识别设备进行语音控制,用户还可以对语音词令控制表中的预设命令词进行添加和删除;

该步骤中,通过将语音词令控制表中的各预设语音词令与语音交互数据进行语音匹配,并根据语音匹配结果确定语音交互数据中出现的预设命令词。

步骤S20,根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,并对所述预设命令词和所述关联语音中的未识别命令词进行关联性检测;

其中,根据各预设语音词令与语音交互数据之间的语音匹配结果,分别确定各预设命令词的命令时间,并根据各预设命令词的命令时间,能自动确定到语音交互数据中的关联语音;

该步骤中,通过对预设命令词和关联语音中的未识别命令词进行关联性检测,以判定在用户的使用习惯中,未识别命令词与预设命令词之间是否存在同义关系。

可选的,所述根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,包括:

在所述语音交互数据中以所述预设命令词的命令时间为时间终点,获取第一预设时长内的语音数据,得到所述关联语音;

其中,该第一预设时长可以根据需求进行设置,例如,该第一预设时长可以设置为1分钟、2分钟或5分钟等,该步骤中,以各预设命令词的命令时间中的语音接收点为时间终点,获取前1分钟内的语音数据,得到该关联数据;

例如,当第一预设时长为1分钟,预设命令词a1在语音交互数据对应的时间点为03分05秒至03分08秒,则将语音交互数据中的02分05秒至03分05秒的数据,确定为该预设命令词a1的关联数据;

进一步地,所述获取第一预设时长内的语音数据,得到所述关联语音之后,还包括:

判断不同预设命令词之间的关联语音是否存在语音重叠;

其中,分别获取各关联语音对应的时长范围,并将各关联语音的时长范围进行比对,以判定不同预设命令词之间的关联语音是否存在语音重叠;

例如,在语音交互数据中包括预设命令词a1和预设命令词a2,对应确定到的关联语音包括关联语音b1(02分05秒至03分05秒)、关联语音b2(03分00秒至04分00秒)和关联语音b3(05分00秒至06分00秒),则分别将关联语音b1与关联语音b2、关联语音b1与关联语音b3、关联语音b2与关联语音b3进行时长比对;

若所述不同预设命令词之间的关联语音存在语音重叠,则获取重叠语音的语音时长;

例如,关联语音b1与关联语音b2之间在03分00秒至03分05秒发生了重叠,则确定到的语音重叠c1为03分00秒至03分05秒的语音数据,该重叠语音c1的语音时长为5秒;

若所述重叠语音的语音时长大于时长阈值,则删除所述不同预设命令词中先执行的所述预设命令词与对应所述关联语音之间的关系;

将所述不同预设命令词之间的关联语音进行语音组合,得到关联组合语音,并将所述关联组合语音设置为所述不同预设命令词中后执行的所述预设命令词的关联语音;

其中,该时长阈值可以根据需求进行设置,例如,该时长阈值可以设置为1秒、2秒或3秒等,该步骤中,时长阈值设置为3秒,针对叠语音c1,则删除关联语音b1和关联语音b2中,先执行的预设命令词与对应关联语音之间的关系,即,删除预设命令词a1与关联语音b1之间的关联关系,将关联语音b1与关联语音b2进行语音组合,得到关联组合语音d1(02分05秒至04分00秒),并将关联组合语音d1设置为关联语音b2的关联语音;

该步骤中,若重叠语音的语音时长大于时长阈值,通过删除不同预设命令词中先执行的预设命令词与对应关联语音之间的关系,有效地提高了关联语音确定的准确性,即,当用户多次执行预设命令词,且不同预设命令词之间的时间间隔小于预设间隔时,则判定先执行的预设命令词并不是用户所需要的,因此,删除不同预设命令词中先执行的预设命令词与对应关联语音之间的关系,通过将不同预设命令词之间的关联语音进行语音组合,得到关联组合语音,并将关联组合语音设置为不同预设命令词中后执行的预设命令词的关联语音,有效地提高了预设命令词与关联语音之间对应关系的准确性。

更进一步地,所述获取重叠语音的语音时长之后,还包括:

若所述重叠语音的语音时长小于或等于所述时长阈值,则将先执行的所述预设命令词的命令终止时间确定为时间起点,并根据所述时间起点对后执行的所述预设命令词的关联语音进行语音分割;

其中,若不同关联语音之间发生短时间重叠时,为提高关联语音的准确性,将先执行的预设命令词的命令终止时间确定为时间起点,并根据时间起点对后执行的预设命令词的关联语音进行语音分割;

例如,若关联语音b1为02分05秒至03分05秒,关联语音b2为03分04秒至04分09秒,则重叠语音为03分04秒至03分05秒,重叠语音的时长为1秒,则将03分05秒确定为时间起点对关联语音b2进行语音分割,使得分别后的关联语音b2为03分05秒至04分09秒。

步骤S30,若任一所述未识别命令词与所述预设命令词之间的关联性检测合格,则将所述未识别命令词设置为所述预设命令词的同义命令词;

其中,若未识别命令词与预设命令词之间的关联性检测合格,能自动将未识别命令词设置为预设命令词的同义命令词,使得能基于用户习惯自动进行语音命令词的设置;

可选的,该步骤中,若任一未识别命令词与预设命令词之间的关联性检测合格,则针对该未识别命令词与预设命令词进行同义设置提示,以提示用户将该未识别命令词设置为预设命令词的同义命令词,若接收到用户针对该同义设置提示的确认指令,则将未识别命令词设置为预设命令词的同义命令词。

步骤S40,若接收到包含所述同义命令词的语音指令,则执行所述预设命令词的命令操作;

其中,若接收到包含同义命令词的语音指令,则查询该同义命令词对应的预设命令词,并基于查询到的预设命令词进行命令操作的执行。

可选的,本实施例中,所述将所述未识别命令词设置为所述预设命令词的同义命令词之后,还包括:

获取所述预设命令词对应所述同义命令词的数量,得到同义命令数量;

若所述同义命令数量大于数量阈值,则分别获取所述预设命令词对应所述同义命令词的命令设置时间;

根据所述命令设置时间对所述同义命令词进行命令词筛选处理;

其中,该数量阈值可以根据需求进行设置,例如,该数量阈值可以设置为5个、10个或15个等,该步骤中,若同义命令数量大于数量阈值,则分别获取预设命令词对应同义命令词的命令设置时间,根据命令设置时间确定对应同义命令词的优先级,当命令设置时间越晚,则对应同义命令词的优先级越高,通过将优先级最低的同义命令词进行删除,以达到命令词筛选的效果。

本实施例中,通过查询语音交互数据中的预设命令词,基于预设命令词的命令时间能有效地确定到语音交互数据中的关联语音,通过对预设命令词和关联语音中的未识别命令词进行关联性检测,以判定未识别命令词与预设命令词之间是否存在同义关系,若未识别命令词与预设命令词之间的关联性检测合格,能自动将未识别命令词设置为预设命令词的同义命令词,使得能基于用户习惯自动进行语音命令词的设置,无需用户单独进行语音命令词的录音和设置,方便了用户的操作,提高了用户的使用体验。

实施例二

请参阅图2,是本发明第二实施例提供的语音命令词构建方法的流程图,该实施例用于对第一实施例中的步骤S20作进一步细化,包括步骤:

步骤S21,对所述关联语音进行语音分段,得到分段语音,并分别计算各分段语音之间的语音相似度;

其中,根据第二预设时长对关联语音进行语音分段,得到分段语音,该第二预设时长可以根据需求进行设置,分别对各分段语音进行相似度匹配;

步骤S22,根据所述语音相似度确定所述关联语音中的重复语音,并判断所述重复语音在所述关联语音中的重复次数是否大于次数阈值;

其中,基于语音相似度,分别计算各分段语音对应的语音总相似度,并将最大语音总相似度对应的分段语音确定为重复语音;

该步骤中,任一分段语音与重复语音之间的语音相似度大于预设相似度,则对该重复语音的重复次数进行累加计算,该累加计算的累加值为1,初始阶段重复语音的重复次数为0,该次数阈值可以根据需求进行设置,例如,该次数阈值可以设置为2、3、4或8等。

步骤S23,若所述重复语音在所述关联语音中的重复次数大于所述次数阈值,则判定所述重复语音中的未识别命令词与所述预设命令词之间的关联性检测合格;

其中,若重复语音在关联语音中的重复次数大于次数阈值,则判定该重复语音中的未识别命令词是用户当前的使用习惯,且该重复语音中的未识别命令词在用户的使用习惯中与预设命令词是同义关系;

例如,请参阅3,语音识别设备为风扇,预设语音命令词为“左右摆风”,在语音交互数据中,确定到的重复语音中的未识别命令词为“左右摇头”,“左右摇头”的重复次数为3次,本实施例中的次数阈值设置为2,因此,将未识别命令词“左右摇头”设置为预设语音命令词“左右摆风”的同义命令词,当再次接收到“左右摇头”的语音指令时,则执行“左右摆风”对应的指令操作。

可选的,该步骤中,所述若所述重复语音在所述关联语音中的重复次数大于所述次数阈值之后,还包括:

将所述重复语音中的未识别命令词与所述预设命令词进行语义匹配;

若所述未识别命令词与所述预设命令词之间的语义相似度小于相似度阈值,则判定所述未识别命令词与所述预设命令词之间的关联性检测不合格。

本实施例中,基于用户的使用习惯,能自动进行同义命令词的设置,无需用户单独进行语音命令词的录音设置,方便了用户对语音命令词设置的操作,提高了用户的使用体验,通过采用用户无感觉的方法,对用户习惯说的命令词进行主动的发现和挖掘,以达到个性化的泛化语音命令词的目的。

实施例三

请参阅图4,是本发明第三实施例提供的语音命令词构建系统100的结构示意图,包括:命令查询模块10、关联性检测模块11、命令词设置模块12和命令执行模块13,其中:

命令查询模块10,用于获取语音交互数据,并查询所述语音交互数据中的预设命令词。

关联性检测模块11,用于根据所述预设命令词的命令时间,确定所述语音交互数据中的关联语音,并对所述预设命令词和所述关联语音中的未识别命令词进行关联性检测。

可选的,关联性检测模块11还用于:对所述关联语音进行语音分段,得到分段语音,并分别计算各分段语音之间的语音相似度;

根据所述语音相似度确定所述关联语音中的重复语音,并判断所述重复语音在所述关联语音中的重复次数是否大于次数阈值;

若所述重复语音在所述关联语音中的重复次数大于所述次数阈值,则判定所述重复语音中的未识别命令词与所述预设命令词之间的关联性检测合格。

进一步地,关联性检测模块11还用于:将所述重复语音中的未识别命令词与所述预设命令词进行语义匹配;

若所述未识别命令词与所述预设命令词之间的语义相似度小于相似度阈值,则判定所述未识别命令词与所述预设命令词之间的关联性检测不合格。

优选的,关联性检测模块11还用于:在所述语音交互数据中以所述预设命令词的命令时间为时间终点,获取第一预设时长内的语音数据,得到所述关联语音。

更进一步地,关联性检测模块11还用于:判断不同预设命令词之间的关联语音是否存在语音重叠;

若所述不同预设命令词之间的关联语音存在语音重叠,则获取重叠语音的语音时长;

若所述重叠语音的语音时长大于时长阈值,则删除所述不同预设命令词中先执行的所述预设命令词与对应所述关联语音之间的关系;

将所述不同预设命令词之间的关联语音进行语音组合,得到关联组合语音,并将所述关联组合语音设置为所述不同预设命令词中后执行的所述预设命令词的关联语音。

更进一步地,关联性检测模块11还用于:若所述重叠语音的语音时长小于或等于所述时长阈值,则将先执行的所述预设命令词的命令终止时间确定为时间起点,并根据所述时间起点对后执行的所述预设命令词的关联语音进行语音分割。

命令词设置模块12,用于若任一所述未识别命令词与所述预设命令词之间的关联性检测合格,则将所述未识别命令词设置为所述预设命令词的同义命令词。

可选的,命令词设置模块12还用于:获取所述预设命令词对应所述同义命令词的数量,得到同义命令数量;

若所述同义命令数量大于数量阈值,则分别获取所述预设命令词对应所述同义命令词的命令设置时间;

根据所述命令设置时间对所述同义命令词进行命令词筛选处理。

命令执行模块13,用于若接收到包含所述同义命令词的语音指令,则执行所述预设命令词的命令操作。

本实施例,通过查询语音交互数据中的预设命令词,基于预设命令词的命令时间能有效地确定到语音交互数据中的关联语音,通过对预设命令词和关联语音中的未识别命令词进行关联性检测,以判定未识别命令词与预设命令词之间是否存在同义关系,若未识别命令词与预设命令词之间的关联性检测合格,能自动将未识别命令词设置为预设命令词的同义命令词,使得能基于用户习惯自动进行语音命令词的设置,无需用户单独进行语音命令词的录音和设置,方便了用户的操作,提高了用户的使用体验。

实施例四

图5是本申请第四实施例提供的一种终端设备2的结构框图。如图5所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如语音命令词构建方法的程序。处理器20执行所述计算机程序22时实现上述各个语音命令词构建方法各实施例中的步骤。

示例性的,所述计算机程序22可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括,但不仅限于,处理器20、存储器21。

所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

技术分类

06120115928601