掌桥专利:专业的专利平台
掌桥专利
首页

语音识别方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语义识别技术领域,特别是涉及一种语音识别方法、一种语音识别装置、一种电子设备以及一种计算机可读存储介质。

背景技术

随着语音识别技术的发展及成熟,当前语音识别的应用场景已经越来越丰富,例如智能音响、语音机器人、车载语音等,已经深入到人们生活的很多方面,为人们提供了很多便利。然而,尽管语音识别技术发展很快,但仍然存在用户意图识别不准确的问题。

发明内容

本发明实施例是提供一种语音识别方法、装置、电子设备以及计算机可读存储介质,以解决或部分解决语音识别存在用户意图识别不准确的问题。

本发明实施例公开了一种语音识别方法,应用于语音识别终端,所述语音识别终端包括若干个语音引擎,所述方法包括:

响应于针对所述语音识别终端的语音指令,将所述语音指令分别输入各个所述语音引擎,获得各个所述语音引擎输出的语音识别意图;

获取各个所述语音识别意图的历史使用信息以及当前权重值;

根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图;

执行与所述目标语音识别意图对应的应用功能。

可选地,所述历史使用信息包括历史使用次数,所述根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图,包括:

将当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图;

在当前权重值最高的语音识别意图的数量大于或等于2个的情况下,将当前权重值最高且历史使用次数最多的语音识别意图作为与所述语音指令对应的目标语音识别意图。

可选地,所述历史使用信息包括历史使用次数,所述根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图,包括:

将历史使用次数最多的语音识别意图作为与所述语音指令对应的目标识别意图;

在历史使用次数最多的语音识别意图的数量大于或等于2个的情况下,将历史使用次数且当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图。

可选地,还包括:

响应于针对任一所述语音识别意图的使用指令,确定被使用的第一语音识别意图,并采用预设的权重增量值对所述第一语音识别意图的当前权重值进行更新,生成所述第一语音识别意图的目标权重值。

可选地,还包括:

响应于任一所述语音识别意图未被使用,确定未被使用的第二语音识别意图,并获取所述第二语音识别意图未被使用的累计时长;

在所述累计时长大于或等于预设时长的情况下,根据所述累计时长、所述预设时长以及预设减量值对所述第二语音识别意图的当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

可选地,所述根据所述累计时长、所述预设时长以及预设减量值对所述第二语音识别意图的当前权重值进行更新,生成所述第二语音识别意图的目标权重值,包括:

采用所述累计时长与所述预设时长计算针对所述预设减量值的倍数;

采用所述倍数与所述预设时长计算针对所述当前权重值的减量值,并基于所述减量值对所述当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

可选地,所述语音识别终端为车载终端,所述语音识别意图为车辆提供的车载功能。

本发明实施例还公开了一种语音识别装置,应用于语音识别终端,所述语音识别终端包括若干个语音引擎,所述装置包括:

意图输出模块,用于响应于针对所述语音识别终端的语音指令,将所述语音指令分别输入各个所述语音引擎,获得各个所述语音引擎输出的语音识别意图;

意图属性获取模块,用于获取各个所述语音识别意图的历史使用信息以及当前权重值;

意图筛选模块,用于根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图;

功能执行模块,用于执行与所述目标语音识别意图对应的应用功能。

可选地,所述历史使用信息包括历史使用次数,所述意图筛选模块具体用于:

将当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图;

在当前权重值最高的语音识别意图的数量大于或等于2个的情况下,将当前权重值最高且历史使用次数最多的语音识别意图作为与所述语音指令对应的目标语音识别意图。

可选地,所述历史使用信息包括历史使用次数,所述意图筛选模块具体用于:

将历史使用次数最多的语音识别意图作为与所述语音指令对应的目标识别意图;

在历史使用次数最多的语音识别意图的数量大于或等于2个的情况下,将历史使用次数且当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图。

可选地,还包括:

权重值调节模块,用于响应于针对任一所述语音识别意图的使用指令,确定被使用的第一语音识别意图,并采用预设的权重增量值对所述第一语音识别意图的当前权重值进行更新,生成所述第一语音识别意图的目标权重值。

可选地,还包括:

累计时长获取模块,用于响应于任一所述语音识别意图未被使用,确定未被使用的第二语音识别意图,并获取所述第二语音识别意图未被使用的累计时长;

减量调整模块,用于在所述累计时长大于或等于预设时长的情况下,根据所述累计时长、所述预设时长以及预设减量值对所述第二语音识别意图的当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

可选地,所述减量调整模块具体用于:

采用所述累计时长与所述预设时长计算针对所述预设减量值的倍数;

采用所述倍数与所述预设时长计算针对所述当前权重值的减量值,并基于所述减量值对所述当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

可选地,所述语音识别终端为车载终端,所述语音识别意图为车辆提供的车载功能。

本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;

所述存储器,用于存放计算机程序;

所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。

本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述100002

2010.2的方法。

本发明实施例包括以下优点:

在本发明实施例中,对于包含若干个语音引擎的语音识别终端,在相关的语音应用场景中,其可以响应于针对语音识别终端的语音指令,将语音指令分别输入各个语音引擎,获得各个语音引擎输出的语音识别意图,接着可以获取各个语音识别意图的历史使用信息以及当前权重值,并根据历史使用信息与当前权重值中的至少一种从各个语音引擎输出的语音识别意图中筛选出目标语音识别意图,然后执行与目标语音识别意图对应的应用功能,从而一方面基于多个语音引擎进行语音识别,有效保证语音识别的效率,另一方面针对各个语音引擎输出的语音识别意图,通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,不仅可以扩展语音引擎的功能性,而且可以提高用户意图识别的准确度,提高了用户体验。

附图说明

图1是本发明实施例中提供的一种语音识别方法的步骤流程图;

图2是本发明实施例中提供的车载语音处理的系统结构图;

图3是本发明实施例中提供的系统架构示意图;

图4是本发明实施例中提供的意图处理的流程示意图;

图5是本发明实施例中提供的意图处理的流程示意图;

图6是本发明实施例中提供的语音识别的流程示意图;

图7是本发明实施例中提供的用户场景的示意图;

图8是本发明实施例中提供的一种语音识别装置的结构框图;

图9是本发明实施例中提供的一种电子设备的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

作为一种示例,随着语音识别技术以及车载终端的发展,车载语音已经广泛地应用于车辆中,驾驶员可以通过输入相应的语音指令,以便控制车载终端执行相应的车载功能。其中,对于车载终端的语音识别,尽管语音识别技术发展很快,但仍存在识别错误、识别慢等问题,例如,车载终端可以同时集成了多个语音识别系统,包括第一语音助手、第二语音助手等,当通过语音控制该车机系统时,有些语音技能只有第一语音助手支持,有些只有第二语音助手支持,在这种情况下,由于存在不同的语音助手,且不同的语音助手可能由于擅长领域的差异,容易导致在对车内用户输入的语音指令进行识别时,发生用户意图识别错误、识别不准确等问题。

对此,本发明的核心发明点之一在于对于包含若干个语音引擎的语音识别终端,在相关的语音应用场景中,其可以响应于针对语音识别终端的语音指令,将语音指令分别输入各个语音引擎,获得各个语音引擎输出的语音识别意图,接着可以获取各个语音识别意图的历史使用信息以及当前权重值,并根据历史使用信息与当前权重值中的至少一种从各个语音引擎输出的语音识别意图中筛选出目标语音识别意图,然后执行与目标语音识别意图对应的应用功能,从而一方面基于多个语音引擎进行语音识别,有效保证语音识别的效率,另一方面针对各个语音引擎输出的语音识别意图,通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,不仅可以扩展语音引擎的功能性,而且可以提高用户意图识别的准确度,提高了用户体验。

参照图1,示出了本发明实施例中提供的一种语音识别方法的步骤流程图,应用于语音识别终端,所述语音识别终端包括若干个语音引擎,具体可以包括如下步骤:

步骤101,响应于针对所述语音识别终端的语音指令,将所述语音指令分别输入各个所述语音引擎,获得各个所述语音引擎输出的语音识别意图;

可选地,本发明实施例中可以应用于语音识别终端,在该语音识别终端上可以配置若干个不同的语音引擎,不同的语音引擎可以对应擅长不同内容的识别,例如,假设语音识别终端为车辆的车载终端,在该车载终端中可以配置有语音引擎①、语音引擎②以及语音引擎③等,其中,语音引擎①可以擅长对导航指令进行识别,语音引擎②可以擅长对车辆的硬件设备进行控制的指令进行识别,语音引擎③可以擅长对车辆的娱乐功能进行控制的指令进行识别等。

需要说明的是,对于不同的语音引擎,其并不是不能对其他领域的内容进行识别,只是相对于某些领域的内容所对应的语音识别意图,其能够更快、更准确地进行识别,对此,基于车载终端所配置的多个不同的语音引擎,当车内用户输入了对应的语音指令后,可以将语音指令分别输入各个语音引擎中,对语音指令进行语音识别、语义分析、意图生成以及对话管理等,并通过各个语音引擎输出对应的语音识别意图。

其中,语音识别意图可以为表征与语音指令对应且表征用户当前想要执行的意图,例如,用户通过语音指令控制车载终端进行导航的意图(下述为导航)、用户通过语音指令控制车载终端进行音乐播放的意图(下述为音乐)、用户通过语音指令控制车载终端进行电台播放的意图(下述为电台)、用户通过语音指令控制车载终端进行语音通话的意图(下述语音通话)、用户通过语音指令控制车载终端进行唱歌的意图(下述为唱歌)、用户通过语音指令控制车载终端进行订票的意图(下述为订票)、用户通过语音指令控制车载终端进行购物的意图(下述为购物)、用户通过语音指令控制车载终端进行语音对话的意图(下述为语音对话)、用户通过语音指令控制车载终端进行天气预报(下述为天气预报)等。

在一种示例中,参照图2,示出了本发明实施例中提供的车载语音处理的系统结构图,最上层是应用层,需要支持语音控制的应用可以注册对应的意图到意图处理模块,比如导航应用要支持语音控制,就需要注册导航的意图到意图处理模块,意图处理模块在获得语音解析出的意图之后,会通知注册了该意图的应用,然后应用再执行该意图对应的动作;第二层是音频获取模块,主要作用是通过系统的录音机录音,并对录音得到的音频数据进行降噪,消除回声等信号处理,处理后的音频数据送到下面的语音引擎层,

该层包含多个语音引擎,每个引擎获取到语音信号后,由各自内部的模块进行语音识别、语义理解、对话管理和意图生成进行处理,最终产生一个意图,然后把该意图向下传给意图处理模块,该模块针对不同语音引擎生成的意图,根据意图的权重和返回时间进行取舍,选择最合适的意图返回给应用,由应用执行对应的操作,如输出导航路线等。

其中,上述过程所涉及数据流向可以如图3所示,录音模块S1获取对应的语音信号,并将其传输至各个语音引擎模块S2,各个语音音频分别识别出对应的语音识别意图之后,将语音识别意图传输至意图处理模块S3,由意图处理模块针对不同语音引擎生成的意图,根据意图的权重和返回时间进行取舍,选择最合适的意图返回给应用的意图接收处理模块S4,以执行对应的应用操作,从而基于多个语音引擎进行语音识别,有效保证语音识别的效率。

步骤102,获取各个所述语音识别意图的历史使用信息以及当前权重值;

当各个语音引擎对用户输入的语音指令进行识别,得到对应的语音识别意图之后,车载终端可以进一步获取各个语音识别意图对应的历史使用信息以及当前权重值。其中,历史使用信息可以为表征在车辆的历史使用过程中相应语音识别意图被使用的频率;当前权重值可以为表征相应语音识别意图在当前时刻的使用优先级,通过获取语音识别意图所对应的历史使用信息以及当前权重值,以实现对语音识别意图进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,保证语音识别的准确性。

可选地,对于不同语音识别意图,其所对应的权重值可以随着用户对车载语音的使用而发生动态调整,具体的,在车辆出厂时,各个语音识别意图所对应的权重值可以相同(也可以不同),随着用户对车辆的使用,可以基于用户的使用行为动态地调整各个语音识别意图所对应的权重值,例如,对于车载终端,其使用场景也相对比较固定,常用意图涉及到导航、音乐、电台、车辆控制、电话等,而视频播放、日程查看、k歌等使用场景相对较少,订票、购物、闲聊等就更少,所以可以按照使用场景来定义初始权重,而当云端收集到一定数量的用户数据后,就可以根据用户使用情况来调整初始权重,可选地,假设初始权重w(导航)=w(音乐)=w(电台)=w(车辆控制)=w(电话)>w(视频)=w(日程)=w(k歌)>w(订票)=w(购物)=w(闲聊),当云端收集到一定量的用户数据后,根据用户使用频率来调整初始权重,可能为:w(导航)>w(音乐)>w(车辆控制)>w(电台)>w(电话)>w(视频)>w(日程)>w(k歌)>w(订票)>w(闲聊)>w(购物),从而随着用户对车辆的车载语音功能的使用,通过动态调整相关语音识别意图所对应的权重值,能够保证用户在使用车载语音时,车载终端能够准确、快速地进行反馈。

在具体实现中,语音识别终端(如车载终端)可以响应于针对任一语音识别意图的使用指令,确定被使用的第一语音识别意图,并采用预设的权重增量值对第一语音识别意图的当前权重值进行更新,生成第一语音识别意图的目标权重值;以及,还可以响应于任一语音识别意图未被使用,确定未被使用的第二语音识别意图,并获取第二语音识别意图未被使用的累计时长,并在累计时长大于或等于预设时长的情况下,根据累计时长、预设时长以及预设减量值对第二语音识别意图的当前权重值进行更新,生成第二语音识别意图的目标权重值,从而针对用户频繁使用的语音识别意图,车载终端可以增加该语音识别意图对应的权重值,而对于用户不怎么使用的语音识别意图,车载终端则可以降低该语音识别意图对应的权重值,进而通过动态调整相关语音识别意图所对应的权重值,能够保证用户在使用车载语音时,车载终端能够准确、快速地进行反馈。

其中,对于使用频率较低的语音识别意图,车载终端可以采用累计时长与预设时长计算针对预设减量值的倍数,接着采用倍数与预设时长计算针对当前权重值的减量值,并基于减量值对当前权重值进行更新,生成第二语音识别意图的目标权重值。可选地,预设时长可以为判定语音识别意图未被使用的时长阈值,当累计时长大于或等于预设时长时,即可将对应的语音识别意图判定为未使用的语音识别意图,并执行针对其的权重值减量操作。

在一种示例中,假设用户没操作一次某个语音识别意图,包括语音控制或通过手动控制等,车载终端可以对该语音识别意图的当前权重值进行增量操作,例如,假设用户操作了5次导航,则经过导航经过调整后的权重值可以为w+5a,其中,w可以为调整之前的权重值,a可以为单次操作增加的权重值,可以理解的是,对于权重值的调整,其可以为周期性调整,如每天、每周、每月等对语音识别意图的权重值进行一次性累计调整,也可以为实时调整,对于实时调整,其可以为用户每使用一次相应的语音识别意图,即调整一次,如w+a等。相应地,对于减量调整,若某个意图在一定时间T内没有进行过任何操作,则获取对应的减量值Δ,例如,天气预报在n倍的T时间内没有进行过操作,则可以将天气预报所对应的权重值调整为w-nΔ,从而针对用户频繁使用的语音识别意图,车载终端可以增加该语音识别意图对应的权重值,而对于用户不怎么使用的语音识别意图,车载终端则可以降低该语音识别意图对应的权重值,进而通过动态调整相关语音识别意图所对应的权重值,能够保证用户在使用车载语音时,车载终端能够准确、快速地进行反馈。

步骤103,根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图;

在本发明实施例中,语音识别终端可以根据各个语音识别意图所对应的历史使用信息与当前权重值中的至少一种,从各个语音引擎输出的语音识别意图中筛选出与语音指令最为匹配的目标语音识别意图,从而通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,有效地扩展了语音引擎的功能性,降低了语音识别错误率,提高了用户体验。

在一种可选实施例中,历史使用信息可以为语音识别意图的历史使用次数,则语音识别终端在得到各个语音识别意图对应的当前权重值后,可以将当前权重值最高的语音识别意图作为与语音指令对应的目标语音识别意图,若在当前权重值最高的语音识别意图的数量大于或等于2个的情况下,则车载终端可以进一步结合各个语音识别意图所对应的历史使用次数,将当前权重值最高且历史使用次数最多的语音识别意图作为与语音指令对应的目标语音识别意图。例如,参照图4,示出了本发明实施例中提供的意图处理的流程示意图,不同的语音识别意图分别输出对应的语音识别意图之后,车载终端可以先获取各个语音识别意图所对应的权重值,并进行权重值的比对,筛选出权重值最大的语音识别意图,若权重值最大的语音识别意图仅有1个,则直接将该语音识别意图作为目标语音识别意图,并进行返回;若权重值最大的语音识别意图大于或等于2个,则车载终端可以获取权重值最大的语音识别意图所对应的历史使用次数,并将历史使用次数高的语音识别意图作为目标语音识别意图,若历史使用次数也相同,则返回被唤醒的语音引擎所对应的语音识别意图,从而通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,有效地扩展了语音引擎的功能性,降低了语音识别错误率,提高了用户体验。

在另一种可选实施例中,语音识别终端可以将历史使用次数最多的语音识别意图作为与语音指令对应的目标识别意图,若在历史使用次数最多的语音识别意图的数量大于或等于2个的情况下,则车载终端可以进一步结合各个语音识别意图所对应的当前权重值,将历史使用次数且当前权重值最高的语音识别意图作为与语音指令对应的目标语音识别意图。例如,参照图5,示出了本发明实施例中提供的意图处理的流程示意图,不同的语音识别意图分别输出对应的语音识别意图之后,车载终端可以先获取各个语音识别意图所对应的历史使用次数,并进行历史使用次数的比对,筛选出历史使用次数最大的语音识别意图,若历史使用次数最大的语音识别意图仅有1个,则直接将该语音识别意图作为目标语音识别意图,并进行返回;若历史使用次数最大的语音识别意图大于或等于2个,则车载终端可以获取历史使用次数最大的语音识别意图所对应的权重值,并将权重值高的语音识别意图作为目标语音识别意图,若权重值也相同,则返回被唤醒的语音引擎所对应的语音识别意图,从而通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,有效地扩展了语音引擎的功能性,降低了语音识别错误率,提高了用户体验。

需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,本领域技术人员在本发明实施例的思想指导下,还可以根据实际需求进行设置,本发明对此不作限制。

步骤104,执行与所述目标语音识别意图对应的应用功能。

当从不同的语音识别意图中筛选出目标语音识别意图之后,语音识别终端可以执行与该目标语音识别意图对应的应用功能,如导航、音乐、电台、语音通话、唱歌、订票、购物、语音对话、天气预报等,从而一方面基于多个语音引擎进行语音识别,有效保证语音识别的效率,另一方面针对各个语音引擎输出的语音识别意图,通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,有效地扩展了语音引擎的功能性,降低了语音识别错误率,提高了用户体验。

在一种示例中,参照图6,示出了本发明实施例中提供的语音识别的流程示意图,当用户输入语音指令时,车载终端可以通过麦克风获取对应的语音数据,并将语音数据分别发送至各个语音引擎(1、2、…、n等),接着各个语音引擎可以进行意图解析并输出相应的语音识别意图,然后车载终端可以对各个语音识别意图进行意图处理,筛选出目标语音识别意图后,执行该目标语音识别意图。此外,参照图7,示出了本发明实施例中提供的用户场景的示意图,基于上述语音识别意图的处理过程,假设用户发出语音指令:古诗词,语音引擎A不支持诗词播报,返回对古诗词的百科,解释什么是古诗词;而语音引擎B返回古诗词的内容,朗诵古诗词,本案根据对不同意图设置的权重,选择语音引擎B的结果进行处理。用户发出语音指令:今天,语音引擎A返回了歌曲“今天”,而语音引擎B返回了对话意图“今天是2022年4月2号星期三”,本案选择A的结果进行处理。用户发出语音指令:“导航到新街口,途经玄武门,红灯最少”,语音引擎A在1S内返回了搜索结果,而语音引擎B在1S内未返回结果,选择语音引擎A的结果进行处理。用户发出语音指令:我想听评书,语音引擎A和语音引擎B都在规定时间内返回了播放歌曲的意图,根据唤醒词或者用户历史使用频率选择使用哪个。用户发出语音指令:温度太低了,语音引擎A识别为:温度太低了,而语音引擎B识别为:都太低了,由于识别错误,导致返回了闲聊,本案优先选择有具体意图的结果进行处理。

在本发明实施例中,对于包含若干个语音引擎的语音识别终端,在相关的语音应用场景中,其可以响应于针对语音识别终端的语音指令,将语音指令分别输入各个语音引擎,获得各个语音引擎输出的语音识别意图,接着可以获取各个语音识别意图的历史使用信息以及当前权重值,并根据历史使用信息与当前权重值中的至少一种从各个语音引擎输出的语音识别意图中筛选出目标语音识别意图,然后执行与目标语音识别意图对应的应用功能,从而一方面基于多个语音引擎进行语音识别,有效保证语音识别的效率,另一方面针对各个语音引擎输出的语音识别意图,通过每个语音识别意图的历史使用信息以及当前权重值进行筛选,获得与用户输入的语音指令最为匹配的目标语音识别意图,然后执行与其对应的应用功能,不仅可以扩展语音引擎的功能性,而且可以提高用户意图识别的准确度,提高了用户体验。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图8,示出了本发明实施例中提供的一种语音识别装置的结构框图,应用于语音识别终端,所述语音识别终端包括若干个语音引擎,具体可以包括如下模块:

意图输出模块801,用于响应于针对所述语音识别终端的语音指令,将所述语音指令分别输入各个所述语音引擎,获得各个所述语音引擎输出的语音识别意图;

意图属性获取模块802,用于获取各个所述语音识别意图的历史使用信息以及当前权重值;

意图筛选模块803,用于根据所述历史使用信息与所述当前权重值中的至少一种从各个所述语音引擎输出的语音识别意图中筛选出目标语音识别意图;

功能执行模块804,用于执行与所述目标语音识别意图对应的应用功能。

在一种可选实施例中,所述历史使用信息包括历史使用次数,所述意图筛选模块803具体用于:

将当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图;

在当前权重值最高的语音识别意图的数量大于或等于2个的情况下,将当前权重值最高且历史使用次数最多的语音识别意图作为与所述语音指令对应的目标语音识别意图。

在一种可选实施例中,所述历史使用信息包括历史使用次数,所述意图筛选模块803具体用于:

将历史使用次数最多的语音识别意图作为与所述语音指令对应的目标识别意图;

在历史使用次数最多的语音识别意图的数量大于或等于2个的情况下,将历史使用次数且当前权重值最高的语音识别意图作为与所述语音指令对应的目标语音识别意图。

在一种可选实施例中,还包括:

权重值调节模块,用于响应于针对任一所述语音识别意图的使用指令,确定被使用的第一语音识别意图,并采用预设的权重增量值对所述第一语音识别意图的当前权重值进行更新,生成所述第一语音识别意图的目标权重值。

在一种可选实施例中,还包括:

累计时长获取模块,用于响应于任一所述语音识别意图未被使用,确定未被使用的第二语音识别意图,并获取所述第二语音识别意图未被使用的累计时长;

减量调整模块,用于在所述累计时长大于或等于预设时长的情况下,根据所述累计时长、所述预设时长以及预设减量值对所述第二语音识别意图的当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

在一种可选实施例中,所述减量调整模块具体用于:

采用所述累计时长与所述预设时长计算针对所述预设减量值的倍数;

采用所述倍数与所述预设时长计算针对所述当前权重值的减量值,并基于所述减量值对所述当前权重值进行更新,生成所述第二语音识别意图的目标权重值。

在一种可选实施例中,所述语音识别终端为车载终端,所述语音识别意图为车辆提供的车载功能。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

另外,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

图9为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解,本发明实施例中所涉及的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是,本发明实施例中,射频单元901可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器910处理;另外,将上行的数据发送给基站。通常,射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

电子设备900还包括至少一种传感器905,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度,接近传感器可在电子设备900移动到耳边时,关闭显示面板9061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元907包括触控面板9091以及其他输入设备9072。触控面板9091,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9091上或在触控面板9091附近的操作)。触控面板9091可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器910,接收处理器910发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9091。除了触控面板9091,用户输入单元907还可以包括其他输入设备9072。具体地,其他输入设备9072可以包括但不限于物理键盘、功能键

(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

进一步的,触控面板9091可覆盖在显示面板9061上,当触控面板9091检测到在其上或附近的触摸操作后,传送给处理器910以确定触摸事件的类型,随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。可以理解的是,在一种实施例中,触控面板9091与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板9091与显示面板9061集成而实现电子设备的输入和输出功能,具体此处不做限定。

接口单元908为外部装置与电子设备900连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器909可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器909内的软件程序和/或模块,以及调用存储在存储器909内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元;优选的,处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。

电子设备900还可以包括给各个部件供电的电源911(比如电池),优选的,电源911可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外,电子设备900包括一些未示出的功能模块,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 欺诈行为识别方法、装置、电子设备及可读存储介质
  • 命名实体识别方法、装置、电子设备、机器可读存储介质
  • 一种虚假主叫识别方法、装置、电子设备及存储介质
  • 一种语音识别方法、语音识别装置、电子设备及存储介质
  • 语音识别方法、语音识别装置、电子设备及存储介质
技术分类

06120115932255