掌桥专利:专业的专利平台
掌桥专利
首页

一种语音识别输入的方法及相关装置

文献发布时间:2023-06-19 09:35:27


一种语音识别输入的方法及相关装置

技术领域

本申请涉及数据处理技术领域,尤其涉及一种语音识别输入的方法及相关装置。

背景技术

随着语音技术的发展和进步,语音识别技术应用于越来越多的领域,例如,输入法领域。现阶段,语音识别输入逐渐成为输入法领域中一种重要的输入方式。语音识别输入具体方式是在用户进行语音输入后,利用语音识别技术对用户的输入语音数据进行识别获得语音识别结果,将语音识别结果作为输入内容进行展现。

但是,发明人经过研究发现,不同用户的输入习惯和用户信息存在差异,针对不同用户而言,采用上述语音识别输入获得的语音识别结果并不能满足不同用户的输入习惯和用户信息的差异,导致在语音识别输入获得语音识别结果后仍然需要基于不同用户的输入习惯和用户信息进行修改,增加语音识别输入的代价,从而使得语音识别输入的效果不够理想,降低语音识别输入的用户体验。

发明内容

本申请所要解决的技术问题是,提供一种语音识别输入的方法及相关装置,以符合目标用户的输入习惯和用户信息,从而减少语音识别输入的修改代价,提升语音识别输入的效果和用户体验。

第一方面,本申请实施例提供了一种语音识别输入的方法,该方法包括:

获得目标用户的输入语音数据和用户标识;

根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的;

结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

可选的,所述输入习惯包括输入行为和/或历史输入,所述用户信息包括用户画像信息。

可选的,所述结合所述个性化数据识别所述输入语音数据获得目标语音识别结果,包括:

识别所述输入语音数据获得语音识别结果;

基于所述语音识别结果结合所述个性化数据获得所述目标语音识别结果。

可选的,若所述识别所述输入语音数据获得语音识别结果,具体为:识别所述输入语音数据获得多个所述语音识别结果;

对应地,所述基于所述语音识别结果结合所述个性化数据获得所述目标语音识别结果,包括:

获得每个所述语音识别结果的声学模型得分和语言模型得分;

基于多个所述语音识别结果,结合所述个性化数据、所述声学模型得分、所述语言模型得分获得所述目标语音识别结果。

可选的,所述基于多个所述语音识别结果,结合所述个性化数据、所述声学模型得分、所述语言模型得分获得所述目标语音识别结果,包括:

基于多个所述语音识别结果结合所述个性化数据获得多个更新语音识别结果;

获得每个所述更新语音识别结果的语言模型得分作为目标语言模型得分;

基于多个所述更新语音识别结果,结合所述声学模型得分、所述目标语言模型得分获得所述目标语音识别结果。

可选的,所述结合所述个性化数据识别所述输入语音数据获得目标语音识别结果,具体为:

结合所述个性化数据识别所述输入语音数据直接获得所述目标语音识别结果。

可选的,在所述获得目标语音识别结果之后,还包括:

向所述目标用户显示所述目标语音识别结果。

第二方面,本申请实施例提供了一种语音识别输入的装置,该装置包括:

第一获得单元,用于获得目标用户的输入语音数据和用户标识;

第二获得单元,用于根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的;

第三获得单元,用于结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

可选的,所述输入习惯包括输入行为和/或历史输入,所述用户信息包括用户画像信息。

可选的,所述第三获得单元包括:

识别子单元,用于识别所述输入语音数据获得语音识别结果;

第一获得子单元,用于基于所述语音识别结果结合所述个性化数据获得所述目标语音识别结果。

可选的,若所述识别子单元具体用于:识别所述输入语音数据获得多个所述语音识别结果;

对应地,所述基于所述第一获得子单元包括:

第一获得模块,用于获得每个所述语音识别结果的声学模型得分和语言模型得分;

第二获得模块,用于基于多个所述语音识别结果,结合所述个性化数据、所述声学模型得分、所述语言模型得分获得所述目标语音识别结果。

可选的,所述第二获得模块包括:

第一获得子模块,用于基于多个所述语音识别结果结合所述个性化数据获得多个更新语音识别结果;

第二获得子模块,用于获得每个所述更新语音识别结果的语言模型得分作为目标语言模型得分;

第三获得子模块,用于基于多个所述更新语音识别结果,结合所述声学模型得分、所述目标语言模型得分获得所述目标语音识别结果。

可选的,所述第三获得单元具体用于:

结合所述个性化数据识别所述输入语音数据直接获得所述目标语音识别结果。

可选的,在所述第三获得单元还包括:

显示单元,用于向所述目标用户显示所述目标语音识别结果。

第三方面,本申请实施例提供了一种用于语音识别输入的装置,该装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取目标用户的输入语音数据和用户标识;

根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的;

结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如上述第一方面中一个或多个所述的语音识别输入的方法。

与现有技术相比,本申请至少具有以下优点:

采用本申请实施例的技术方案,学习目标用户的输入习惯和/或用户信息得到目标用户的个性化数据;在目标用户进行语音输入后获得输入语音数据和用户标识;根据用户标识查找获得目标用户的个性化数据;结合个性化数据识别输入语音数据获得目标语音识别结果。由此可见,通过学习目标用户的个性化输入习惯和/或用户信息,得到目标用户的个性化数据辅助语音识别输入,获得的目标语音识别结果符合目标用户的输入习惯和用户信息,从而减少语音识别输入的修改代价,提升语音识别输入的效果和用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图;

图2为本申请实施例提供的一种语音识别输入的方法的流程示意图;

图3为本申请实施例提供的一种语音识别输入的装置的结构示意图;

图4为本申请实施例提供的一种用于语音识别输入的装置的结构示意图;

图5为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

不同用户的输入习惯和用户信息等存在差异,即,每个用户均具有个性化的输入习惯和用户信息。目前语音识别输入具体方式是直接利用语音识别技术识别用户的输入语音数据获得语音识别结果展现给用户,采用目前语音识别输入方式获得的语音识别结果并不符合用户个性化的输入习惯和用户信息,即,目前语音识别输入方式不支持不同用户的输入习惯和用户信息的差异。因此,在语音识别输入获得语音识别结果后仍然需要基于不同用户的输入习惯和用户信息等进行修改,增加语音识别输入的代价,从而使得语音识别输入的效果不够理想,降低语音识别输入的用户体验。

为了解决这一问题,在本申请实施例中,学习目标用户的输入习惯和/或用户信息得到的目标用户的个性化数据;在目标用户进行语音输入后获得输入语音数据和用户标识;根据用户标识查找获得目标用户的个性化数据;结合个性化数据识别输入语音数据获得目标语音识别结果。由此可见,通过学习目标用户的个性化输入习惯和/或用户信息,得到目标用户的个性化数据辅助语音识别输入,获得的目标语音识别结果符合目标用户的输入习惯和用户信息,从而减少语音识别输入的修改代价,提升语音识别输入的效果和用户体验。

举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括客户端101和处理器102,客户端101和处理器102装载于用户终端100中。目标用户可通过客户端101进行语音输入,客户端101将目标用户的输入语音数据和用户标识发送至处理器102,处理器102采用本申请实施例的方式进行语音识别输入获得目标语音识别结果,并通过客户端101向目标用户显示目标语音识别结果。

可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器102执行,但是这些动作也可以由客户端101执行,或者还可以部分由客户端101执行、部分由处理器102执行。本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。

可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。

下面结合附图,通过实施例来详细说明本申请实施例中语音识别输入的方法及相关装置的具体实现方式。

参见图2,示出了本申请实施例中一种语音识别输入的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:

步骤201:获得目标用户的输入语音数据和用户标识。

可以理解的是,任一用户均可作为目标用户,语音识别输入的前提是目标用户通过客户端进行语音输入以便处理器获得输入语音数据。由于目标用户具有个性化的输入习惯和用户信息,为了使得语音识别输入获得的语音识别结果符合用户个性化的输入习惯和用户信息,还需要获得唯一标识目标用户身份的用户标识,以便基于用户标识后续明确用户个性化的输入习惯和用户信息。

步骤202:根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的。

需要说明的是,由于目标用户具有个性化的输入习惯和用户信息,不同目标用户的输入习惯和用户信息等存在差异,现有语音识别输入方式并不支持不同目标用户的输入习惯和用户信息的差异,获得的语音识别结果并不符合目标用户个性化的输入习惯和用户信息。因此,考虑学习目标用户的输入习惯和/或用户信息以便得到能够辅助语音识别输入的目标用户的个性化数据。其中,输入习惯可以是目标用户的输入行为,也可以是目标用户的历史输入,还可以目标用户的输入行为和历史输入的结合;用户信息可以是目标用户的用户画像信息。因此,在本申请实施例的一些实施方式中,所述输入习惯包括输入行为和/或历史输入,所述用户信息包括用户画像信息。例如,输入行为可以是现有语音识别输入方式获得语音识别结果后目标用户对其修改行为等等;历史输入可以是历史用户词、通讯录词等等;用户画像信息可以是用户的年龄、性别、语言和位置等等。本申请实施例中并不限定输入行为以及获得历史输入和用户画像信息过程中输入方式,既可以键盘输入也可以是语音输入等。

作为一种示例,目标用户通过客户端进行语音输入“wochuqule”的发音,采用现有语音识别输入方式获得的语音识别结果“我出去了。”,目标用户将语音识别结果“我出去了。”修改为“我出去了”;目标用户再次通过客户端进行语音输入“haoea”的发音,采用现有语音识别输入方式获得的语音识别结果“好饿啊。”,目标用户将语音识别结果“好饿啊。”修改为“好饿啊”,学习目标用户对现有语音识别输入方式获得的语音识别结果修改行为,得到目标用户的个性化数据为:“删除语音识别结果末尾标点符号”。作为另一种示例,目标用户通过客户端输入“和阳路”,学习目标用户的历史用户词“和阳路”,得到目标用户的个性化数据为:“和阳路”。作为又一种示例,目标用户通过客户端在通讯录中输入“何华馨”,学习目标用户的通讯录词“何华馨”,得到目标用户的个性化数据为:“何华馨”。

可以理解的是,学习得到的目标用户的个性化数据与目标用户的用户标识对应存储,因此,在步骤201获得目标用户的用户标识后,需要根据目标用户的用户标识查找获得目标用户的个性化数据,即,执行步骤202。

步骤203:结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

可以理解的是,为了避免现有语音识别输入存在的问题,在步骤202获得目标用户的个性化数据后,在识别目标用户的输入语音数据时需要结合目标用户的个性化数据加以辅助识别,才能获得符合目标用户个性化的输入习惯和用户信息的语音识别结果记为目标语音识别结果。

需要说明的是,本申请实施例中,步骤203至少可以采用以下两种实施方式:

第一种可选的步骤203的实施方式中,对于目标用户的输入语音数据数据而言,在进行语音识别时直接结合目标用户的个性化数据,从而直接获得符合目标用户个性化的输入习惯和用户信息的目标语音识别结果。因此,在本申请实施例的一种可选的实施方式中,所述步骤203例如具体可以为:结合所述个性化数据识别所述输入语音数据直接获得所述目标语音识别结果。

作为一种示例,目标用户通过客户端语音输入“jintianzaodianxiaban”的发音,则目标用户的语音输入数据为“jintianzaodianxiaban”的发音,假设目标用户的个性化数据为“删除语音识别结果末尾标点符号”;则结合目标用户的个性化数据“删除语音识别结果末尾标点符号”识别语音输入数据“jintianzaodianxiaban”的发音直接获得目标语音识别结果为“今天早点下班”。

作为另一种示例,目标用户通过客户端语音输入“heyanglu”的发音,则目标用户的语音输入数据为“heyanglu”的发音,假设目标用户的个性化数据为历史用户词“和阳路”,则结合目标用户的个性化数据历史用户词“和阳路”识别语音输入数据“heyanglu”的发音直接获得目标语音识别结果为“和阳路”。

第二种可选的步骤203的实施方式中,对于目标用户的输入语音数据数据而言,在进行语音识别时,首先基于现有语音识别方式获得并不符合符合目标用户个性化的输入习惯和用户信息的语音识别结果,然后在该语音识别结果的基础上再结合目标用户的个性化数据,以获得符合目标用户个性化的输入习惯和用户信息的目标语音识别结果。因此,在本申请实施例的另一种可选的实施方式中,所述步骤203例如可以包括以下步骤:

步骤A:识别所述输入语音数据获得语音识别结果;

步骤B:基于所述语音识别结果结合所述个性化数据获得所述目标语音识别结果。

作为一种示例,目标用户通过客户端语音输入“jintianzaodianxiaban”的发音,则目标用户的语音输入数据为“jintianzaodianxiaban”的发音,假设目标用户的个性化数据为“删除语音识别结果末尾标点符号”。首先,识别输入语音数据“jintianzaodianxiaban”的发音获得语音识别结果为“今天早点下班。”;然后,基于语音识别结果“今天早点下班。”结合目标用户的个性化数据“删除语音识别结果末尾标点符号”,获得目标语音识别结果为“今天早点下班”。

作为另一种示例,目标用户通过客户端语音输入“heyanglu”的发音,则目标用户的语音输入数据为“heyanglu”的发音,假设目标用户的个性化数据为历史用户词“和阳路”。首先,识别输入语音数据“heyanglu”的发音获得语音识别结果为“河阳路”;然后,基于语音识别结果“河阳路”结合目标用户的个性化数据历史用户词“和阳路”,获得目标语音识别结果为“和阳路”。

需要说明的是,对目标用户的输入语音数据进行现有语音识别可能获得多个不同的语音识别结果,此时,基于多个不同的语音识别结果结合目标用户的个性化数据,既可以直接获得目标语音识别结果;也可以针对多个不同的语音识别结果引入打分机制加以辅助确定语音识别结果的语音识别准确性,对于语音识别结果而言,主要关注声学模型得分和语言模型得分。则首先需要明确每个语音识别结果的声学模型得分和语言模型得分,然后在多个语音识别结果基础上,结合目标用户的个性化数据、声学模型得分和语言模型得分获得目标语音识别结果。因此,在本申请实施例的一些实施方式中,若所述步骤A具体为:识别所述输入语音数据获得多个所述语音识别结果;对应地,所述步骤B例如可以包括以下步骤:

步骤B1:获得每个所述语音识别结果的声学模型得分和语言模型得分;

步骤B2:基于多个所述语音识别结果,结合所述个性化数据、所述声学模型得分、所述语言模型得分获得所述目标语音识别结果。

步骤B2具体实施时,首先,在多个语音识别结果基础上,结合目标用户的个性化数据获得多个更新语音识别结果,语音识别结果发生更新导致更新语音识别结果的语言模型得分与原有的语音识别结果的语言模型得分不同,则需要获得每个更新语音识别结果的语言模型得分作为目标语言模型得分,最后,在多个更新语音识别结果基础上,结合声学模型得分和语言模型得分即可获得目标语音识别结果。因此,在本申请实施例的一些实施方式中,所述步骤B2例如可以包括以下步骤:

步骤B21:基于多个所述语音识别结果结合所述个性化数据获得多个更新语音识别结果;

步骤B22:获得每个所述更新语音识别结果的语言模型得分作为目标语言模型得分;

步骤B23:基于多个所述更新语音识别结果,结合所述声学模型得分、所述目标语言模型得分获得所述目标语音识别结果。

作为一种示例,目标通过客户端进行语音输入“woshuohehuaxin”的发音,目标用户的语音输入数据为“woshuohehuaxin”的发音,假设目标用户的个性化数据为“何华馨”和“删除语音识别结果末尾标点符号”,识别输入语音数据“woshuohehuaxin”的发音获得多个语音识别结果如下表格1所示,其中,表格1中每一行表示一个语音识别结果;获得每个语音识别结果的声学模型得分(AM)和语言模型得分(LM)参见表格1中AM和LM数据。基于多个语音识别结果结合目标用户的个性化数据“何华馨”和“删除语音识别结果末尾标点符号”获得多个更新语音识别结果如下表格2所示,其中,表格2中每一行表示一个更新语音识别结果;获得每个更新语音识别结果的目标语言模型得分(LM_c)参见表格2中LM_c数据。由于表格2中声学模型得分(AM)和目标语言模型得分(LM_c)采用的计算方式,表示声学模型得分(AM)和目标语言模型得分(LM_c)综合越小更新语音识别结果语音识别率越准确,则基于多个更新语音识别结果,结合声学模型得分(AM)和目标语言模型得分(LM_c)获得目标语音识别结果为“我说何华馨”。

表格1

表格2

还需要说明的是,为了目标用户直观了当地明确语音识别输入获得的目标语音识别结果,在步骤203之后还需要向目标用户显示目标语音识别结果。因此,在本申请实施例的一些实施方式中,在所述步骤203之后,例如还可以包括步骤:向所述目标用户显示所述目标语音识别结果。

在具体实施时,对于第一种可选的步骤203的实施方式而言,由于目标语音识别结果是直接获得的,可以直接向目标用户显示目标语音识别结果。对于第二种可选的步骤203的实施方式而言,由于首先获得语音识别结果然后获得目标语音识别结果,则既可以直接向目标用户显示目标语音识别结果;也可以先向目标用户显示语音识别结果,再向目标用户显示目标语音识别结果,具体实施方式由显示策略确定。

通过本实施例提供的各种实施方式,学习目标用户的输入习惯和/或用户信息得到目标用户的个性化数据;在目标用户进行语音输入后获得输入语音数据和用户标识;根据用户标识查找获得目标用户的个性化数据;结合个性化数据识别输入语音数据获得目标语音识别结果。由此可见,通过学习目标用户的个性化输入习惯和/或用户信息,得到目标用户的个性化数据辅助语音识别输入,获得的目标语音识别结果符合目标用户的输入习惯和用户信息,从而减少语音识别输入的修改代价,提升语音识别输入的效果和用户体验。

参见图3,示出了本申请实施例中一种语音识别输入的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:

第一获得单元301,用于获得目标用户的输入语音数据和用户标识;

第二获得单元302,用于根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的;

第三获得单元303,用于结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

在本申请实施例一种可选的实施方式中,所述输入习惯包括输入行为和/或历史输入,所述用户信息包括用户画像信息。

在本申请实施例一种可选的实施方式中,所述第三获得单元303包括:

识别子单元,用于识别所述输入语音数据获得语音识别结果;

第一获得子单元,用于基于所述语音识别结果结合所述个性化数据获得所述目标语音识别结果。

在本申请实施例一种可选的实施方式中,若所述识别子单元具体用于:识别所述输入语音数据获得多个所述语音识别结果;

对应地,所述基于所述第一获得子单元包括:

第一获得模块,用于获得每个所述语音识别结果的声学模型得分和语言模型得分;

第二获得模块,用于基于多个所述语音识别结果,结合所述个性化数据、所述声学模型得分、所述语言模型得分获得所述目标语音识别结果。

在本申请实施例一种可选的实施方式中,所述第二获得模块包括:

第一获得子模块,用于基于多个所述语音识别结果结合所述个性化数据获得多个更新语音识别结果;

第二获得子模块,用于获得每个所述更新语音识别结果的语言模型得分作为目标语言模型得分;

第三获得子模块,用于基于多个所述更新语音识别结果,结合所述声学模型得分、所述目标语言模型得分获得所述目标语音识别结果。

在本申请实施例一种可选的实施方式中,所述第三获得单元303具体用于:

结合所述个性化数据识别所述输入语音数据直接获得所述目标语音识别结果。

在本申请实施例一种可选的实施方式中,在所述第三获得单元303还包括:

显示单元,用于向所述目标用户显示所述目标语音识别结果。

通过本实施例提供的各种实施方式,学习目标用户的输入习惯和/或用户信息得到目标用户的个性化数据;第一获得单元在目标用户进行语音输入后获得输入语音数据和用户标识;第二获得单元根据用户标识查找获得目标用户的个性化数据;第三获得单元结合个性化数据识别输入语音数据获得目标语音识别结果。由此可见,通过学习目标用户的个性化输入习惯和/或用户信息,得到目标用户的个性化数据辅助语音识别输入,获得的目标语音识别结果符合目标用户的输入习惯和用户信息,从而减少语音识别输入的修改代价,提升语音识别输入的效果和用户体验。

图4是根据一示例性实施例示出的一种用于语音识别的装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。

处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理部件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相互关联的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种语音识别输入的方法,所述方法包括:

获取目标用户的输入语音数据和用户标识;

根据所述用户标识获得所述目标用户的个性化数据,所述个性化数据是学习所述目标用户的输入习惯和/或用户信息得到的;

结合所述个性化数据识别所述输入语音数据获得目标语音识别结果。

图5是本申请实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘556,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

相关技术
  • 一种语音识别输入的方法及相关装置
  • 语音处理装置、语音识别输入系统及语音识别输入方法
技术分类

06120112228883