掌桥专利:专业的专利平台
掌桥专利
首页

语音识别的方法、装置、电子设备和可读存储介质

文献发布时间:2023-06-19 12:19:35


语音识别的方法、装置、电子设备和可读存储介质

技术领域

本申请属于通信技术领域,具体涉及一种语音识别的方法、装置、电子设备和可读存储介质。

背景技术

随着电子技术的发展,语音聊天逐渐成为远程聊天的主要方式之一。其中,语音聊天主要包括打电话、语音通话和语音短消息。在上述语音聊天的过程中,通常需要通过纸笔手动记录,或通过文本编辑软件手动输入,如姓名、手机号码、地址信息、会议时间和会议地点等关键信息。

在相关技术中,可以采用在语音聊天结束后,通过文本编辑软件对保存的语音信息进行语音识别,生成文本信息,用户再通过手动筛选方式,保存文本信息中的关键信息。

然而,与语音聊天对应的语音信息中关键信息所占的比例较小,导致上述文本信息中包含很多冗余信息,降低获取关键信息的效率。

发明内容

本申请实施例的目的是提供一种语音识别的方法、装置、电子设备和可读存储介质,能够解决语音识别过程中获取关键信息的效率较低的问题。

为了解决上述技术问题,本申请是这样实现的:

第一方面,本申请实施例提供了一种语音识别的方法。该方法包括:在获取到语音信息的情况下,接收用户的第一输入;响应于上述第一输入,通过目标应用程序显示上述语音信息中的第一关键信息,上述第一关键信息与上述目标应用程序的类型相关联。

第二方面,本申请实施例提供了一种语音识别的装置。该装置包括:第一接收模块和第一显示模块;上述第一接收模块,用于在获取到语音信息的情况下,接收用户的第一输入;上述第一显示模块,用于响应于上述第一输入,通过目标应用程序显示上述语音信息中的第一关键信息,上述第一关键信息与上述目标应用程序的类型相关联。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令,该程序或指令被该处理器执行时实现如第一方面提供的方法的步骤。

第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的方法的步骤。

第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面提供的方法。

第六方面,本申请实施例提供了一种计算机程序产品,该程序产品被存储在非易失的存储介质中,该程序产品被至少一个处理器执行以实现如第一方面提供的方法。

在本申请实施例中,在获取到语音信息的情况下,当接收到第一输入后,便可响应该第一输入,并通过目标应用程序显示语音信息中的第一关键信息,其中,第一关键信息与目标应用程序的类型相关联。如此,直接显示从语音信息中提取出与该目标应用程序相关联的第一关键信息,不仅提高了关键信息的提取效率,而且避免了对语音信息的无效识别,还提升了电子设备的人机交互性能。

附图说明

图1为本申请实施例提供的一种语音识别的方法的示意图之一;

图2为本申请实施例提供的一种语音识别的方法的示意图之二;

图3为本申请实施例提供的聊天界面的示意图;

图4为本申请实施例提供的聊天界面接收屏幕识别手势的示意图;

图5为本申请实施例提供的显示应用标识的示意图;

图6为本申请实施例提供的接收第一输入的方法的示意图;

图7为本申请实施例提供的显示第一关键信息的方法的示意图;

图8为本申请实施例提供的第一关键信息的显示界面的示意图;

图9为本申请实施例提供的获取第一关键信息的方法的示意图;

图10为本申请实施例提供的一种语音识别的方法的示意图之三;

图11为本申请实施例提供的一种编辑第一关键信息的示意图;

图12为本申请实施例提供的语音识别的装置的结构示意图之一;

图13为本申请实施例提供的语音识别的装置的结构示意图之二;

图14为本申请实施例提供的电子设备的硬件示意图之一;

图15为本申请实施例提供的电子设备的硬件示意图之二。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音识别方法进行详细地说明。

针对电话购物的对话场景,用户A通过电子设备给客户B打电话,用户A询问客户B是否购买产品,如需购买需要记录产品的数量、型号、颜色、交付时间等属性信息。在相关技术中,用户A与客户B通话过程中,启动录音功能,对通话内容进行录音生成语音信息。通话结束后,如果客户B需要购产品,则用户A启动文本编辑应用程序,在文本编辑应用程序中选择上述语音信息,并将语音信息识别为文本信息,然后保存文本信息。在语音识别过程中,由于客户B的口语、口音、断句等问题,识别出的文本信息可能不够准确,导致文本信息有偏差,并且在文本信息中用户A真正需要记录的关键信息,混杂与文本信息中,导致获取关键信息的效率较低。

结合上述具体场景,在本申请实施例中,如果客户B需要购产品,用户A可以在电子设备获取到用户A与客户B的通话内容的语音信息的情况下,接收第一输入,使得电子设备通过文本编辑应用程序显示语音信息中的第一关键信息。如此,直接显示从语音信息中提取出与该文本编辑应用程序相关联的第一关键信息,不仅提高了关键信息的提取效率,而且避免了对语音信息的无效识别,还提升了电子设备的人机交互性能。同时,在用户A与客户B通话过程中,电子设备显示第一关键信息,使得用户A能够即时与客户B确认关键信息记录是否正确,能够确保客户、及其购买的产品的属性信息是一致的。

如图1所示,本申请实施例提供一种语音识别的方法。该方法可以包括下述的步骤101和步骤102。下面以执行主体为语音识别的装置为例对该方法进行示例性说明。

步骤101:语音识别的装置在获取到语音信息的情况下,接收用户的第一输入。

在本申请实施例中,上述第一输入为触发启动目标应用程序的输入。示例性的,上述第一输入可以包括以下至少一项:单击目标应用程序对应的图标、屏幕手势、点击目标应用程序对应的机械按键、点击目标应用程序对应的虚拟按键,也可以为其他可行性输入。

可选地,在本申请实施例中,如果上述第一输入为用户对目标应用标识的输入,并且,上述目标应用标识用于指示上述目标应用程序,那么如图2所示,在步骤101中接收用户的第一输入之前,本申请实施例提供的语音识别的方法还可以包括步骤201和步骤202。

步骤201:语音识别的装置接收用户的第三输入。

步骤202:语音识别的装置响应于第三输入,显示至少一个应用标识。

在本申请实施例中,每个应用标识分别用于指示一个应用程序,上述至少一个应用标识中包括目标应用标识。

应注意的是,上述第三输入可以包括以下至少一项:单击目标应用程序对应的图标、屏幕识别手势、点击目标应用程序对应的机械按键,也可以为其他可行性输入。

示例性的,如图3所示,语音识别的装置在检测到电子设备正常进行语音通话时,会显示语音通话对应的语音聊天界面。接着,如图4、图5所示,所示,当电子设备检测到用户在语音聊天界面上的屏幕识别手势(即上述第二输入)后,响应于该屏幕识别手势,在应用标识界面显示五个备选应用程序对应的应用标识,用户可以从中选择想要启动的应用程序(即上述目标应用程序)。

如此,通过显示多个应用程序的应用标识,来为用户展示多个可选的应用程序,不仅方便用户从中选取适合记录语音信息对应的文本信息的目标应用程序,还提高了电子设备的人机交互性能。

可选地,在本申请实施例中,如图6所示,上述步骤101可以通过步骤601和步骤602实现:

步骤601:在进行语音通话的过程中,语音识别的装置对语音通话的通话内容进行语音录制,获取到语音信息。

其中,上述语音信息是语音识别的装置在语音通话的过程中录制得到的语音信息。

步骤602:在语音通话结束后或语音通话过程中,语音识别的装置接收用户的第一输入。

如此,通过对语音通话内容的实时录制,使得电子设备可以随时响应用户的第一输入来提取与目标应用程序相关的关键信息,而且无需等待语音通话结束,不仅提高了语音识别效率,还提高了电子设备的人机交互性能。

进一步可选地,在本申请实施例中,语音识别的装置在对语音通话的通话内容进行语音录制时,可以选择以下任一种语音录制存储方式进行录制:对所有语音通话自动录制并存储、响应于用户输入录制并存储语音通话、对所有语音通话自动录制并缓存。

应注意的是,由于语音通话包括电话、语音聊天或语音消息等多种语音通话方式,因此,本申请实施例可以依据通话方式的实现机制不同选取不同的语音录制存储方式。

示例性的,以打电话的方式实现语音通话,其目的通常在于通过基站进行语音信号的传递,由于语音信号传输至语音识别的装置并播放后,通常会即刻消失,因此,为了存储通话内容,可以通过响应于用户输入录制并存储语音通话的方式来录制语音。

示例性的,以语音聊天的方式实现语音通话,其实现依赖于网络云端对语音的记录与转发,由于网络传输的不稳定性,通常在语音识别的装置缓存部分语音通话内容,因此,可以依据部分缓存方式来自动录制并缓存所有语音通话。

示例性的,以语音消息的方式实现语音通话,由于其数据量较小,且需要重复播放的可能性较大,因此,为了便于用户的重复播放,可以自动录制并存储所有语音通话。

进一步可选地,在本申请实施例中,以缓存方式存储的语音信息,临时存储在语音识别的装置的缓存空间,由于缓存空间有限,所以为了语音识别的装置中其他进程的正常运行,需要定期或不定期的清除语音信息所占用的缓存空间。一般的,在清除语音信息的过程中,使用的清除方式主要包括以下任一种:语音通话结束后语音信息缓存时间达到预置时长、接收到与语音信息对应的第一输入、接收到清除缓存数据的输入。

步骤102:语音识别的装置响应于第一输入,通过目标应用程序显示语音信息中的第一关键信息。

在本申请实施例中,第一关键信息与目标应用程序的类型相关联,其中,目标应用程序的类型,或可称为目标应用程序的可实现功能。示例性的,目标应用程序的类型为通讯录类型,语音信息中姓名、电话号码为与通讯录类型相关联的第一关键信息,目标应用程序为采购类型,语音信息中购买方、品牌、产品、产品型号、产品数量为与采购类型相关联的第一关键信息。

在一种示例中,如果接收第一输入时,电子设备的前端界面是应用标识的显示界面,那么直接确定第一输入针对的应用标识对应的应用程序为目标应用程序。

在另一种示例中,如果接收第一输入时,电子设备的前端界面是语音聊天界面,那么在步骤102之前,本申请实施例提供的语音识别的方法还可以包括确定目标应用程序的步骤102a或步骤102b。

步骤102a:在检测到进行语音通话的情况下,语音识别的装置将第一输入的第一参数关联的应用程序,确定为目标应用程序。

步骤102b:在检测到语音通话结束的情况下,语音识别的装置将第一输入的第二参数关联的应用程序,确定为目标应用程序。

示例性的,在语音通话的不同时刻,上述第一输入对应不同的目标应用程序。例如,在语音通话过程中,上述的目标应用程序为第一输入对应的第一应用程序,在语音通话结束后,上述的目标应用程序为第一输入对应的第二应用程序。

需要说明的是,电子设备显示不同界面的情况下,相同的屏幕手势可能会执行不同的操作,如,在电子设备的常规的初始界面,输入三指下滑手势,则启动相机应用程序,在电子设备执行语音识别的方法对应的显示界面,输入三指下滑手势,则启动备忘录应用程序。为了区别电子设备的常规的初始界面,与语音通话结束的情况下的初始界面,语音识别装置可以设置在检测到语音通话结束的情况下,语音通话的结束时刻与当前时刻相比的时间差属于预置时间段,语音识别的装置才能确定第一输入的第二输入参数关联的应用程序为目标应用程序。

示例性的,以第一输入为两指横向滑动为例,在第一输入的输入时刻检测到进行语音通话,则确认目标应用程序为翻译软件程序,以便于实现语音信息的快速翻译;反之,在第一输入的输入时刻检测到语音通话结束,则确认目标应用程序为备忘录软件程序,以便于实现语音信息的记录与保存。

如此,如果第一输入的内容相同,但是第一输入的输入时间不同,则确定不同的目标应用程序,即一个第一输入对应多个响应结果,以使得较少的第一输入的输入类型,能够实现更多的响应结果。

可选地,在确定第一输入对应的目标应用程序后,语音识别装置响应第一输入,启动目标应用程序。在检测到进行语音通话的情况下,挂起语音通话程序,将目标应应用程序切换到前台运行。在检测到语音通话结束的情况下,结束语音通话程序,将目标应应用程序切换到前台运行。

可选地,语音识别装置接收到第一输入后,先确定与第一输入对应的目标应用程序,然后确定语音信息中包含的具体语音内容,然后可以在启动目标应用程序的同时启动新建界面,还可以在启动目标应用程序之后,响应于用户输入启动新建界面。

进一步可选地,语音识别装置可以在目标应用程序的新建界面,显示语音信息中的第一关键信息。

可选地,在目标应用程序显示第一关键信息之后,语音识别装置对第一关键信息进行以下至少一项操作:保存、跳转至播号页面,跳转至短信发送页面、再次编辑。需要说明的是,对第一关键信息进行的操作,是通过目标应用程序可实现的。

在本申请实施例提供的语音识别的方法中,在获取到语音信息的情况下,当接收到第一输入后,便可响应该第一输入,并通过目标应用程序显示语音信息中的第一关键信息,其中,第一关键信息与目标应用程序的类型相关联。如此,直接显示从语音信息中提取出与该目标应用程序相关联的第一关键信息,不仅提高了关键信息的提取效率,而且避免了对语音信息的无效识别,还提升了电子设备的人机交互性能。

可选地,如图7所示,在本申请实施例中,步骤102可以通过步骤701至步骤703实现。

步骤701:语音识别的装置响应于第一输入,启动目标应用程序。

在本申请实施例中,根据接收第一输入时,电子设备的前端界面是应用标识的显示界面,还是语音聊天界面,确定目标应用程序,然后启动目标应用程序。需要说明的是,为减少操作步骤,在启动目标应用程序的同时,可以直接启动新建信息界面,以方便显示第一关键信息。

步骤702:语音识别的装置获取语音信息中目标应用程序对应的第一关键信息。

在本申请实施例中,在步骤702可以通过步骤702a和步骤702b。

步骤702a:语音识别的装置提取目标应用程序中新建信息界面包括的关键字段。

步骤702b:语音识别的装置根据上述关键字段,以及该关键字段的规则匹配方式,确定第一文本信息中每个关键字段对应的第一关键信息。

在本申请实施例中,提取目标应用程序中新建信息界面包括的关键字段,可以根据关键字段采用模板、词表、规则匹配方式,对第一文本信息中第一关键信息进行信息提取。

示例性的,如图8所示,假设目标应用程序为通讯录,通讯录的关键字段包括姓名、电话号码和备注信息,其中姓名为李四、电话号码为135xxxxxxxx、地址为书院街1号。根据电话号码为7-8位固定电话号码,或11位手机号码,设置规则匹配方式,提取关键字段电话号码对应第一关键信息。

需要说明的是,在本申请实施例中,在上述目标应用程序的界面中显示上述第一关键信息采用的显示方式,包括但不限于加粗显示方式、倾斜显示方式、高亮显示方式。

步骤703:语音识别的装置在目标应用程序中,显示第一关键信息。

在本申请实施例中,根据新建信息界面中的关键字段,识别语音信息中与关键字段对应的第一关键信息。在本申请实施例中,在目标应用程序的新建信息界面显示第一关键信息。

如此,通过直接启动目标应用程序界面,以获取与目标应用程序的新建信息界面中关键字段对应的第一关键信息,以实现实时语音识别的目的。

进一步可选地,在本申请实施例中,获取第一关键信息具体包括获取语音信息,以及识别语音信息中与目标程序对应的第一关键信息。以此对每个具体步骤分别予以说明。

示例一:获取语音信息

进一步可选地,在本申请实施例中,为了减少需要进行语音识别的语音信息的数据量,降低冗余信息所占比例,以提高语音识别效率。在步骤702中获取语音信息,可以通过步骤702c或步骤702d实现。

步骤702c:语音识别的装置在检测到进行语音通话的情况下,确定语音信息为第一语音信息;其中,上述第一语音信息为与上述第一输入的输入时间之前的预置时间段对应的语音信息。

步骤702d:语音识别的装置在检测到语音通话结束的情况下,则确定语音信息为第二语音信息;其中,上述第二语音信息为语音通话过程中录制的全部语音信息。

示例性的,在检测到进行语音通话的情况下,如果用户听到与该用户通话的用户提及一些关键内容(如,提及电话号码、地址、约定时间等内容),则用户输入第一输入。同时,由于上述第一输入的输入时间之前的预置时间段对应的语音信息中通常包括用户需要记录的信息,因此,以第一输入的输入时间为参考时间节点,可以获取较少数据量的语音信息,降低冗余信息所占比例,以提高语音识别效率。

示例性的,在检测到语音通话结束的情况下,那么对于用户而言,语音信息中的大部分内容都是第一关键信息,或者语音信息中的第一关键信息在整个语音通话过程中较为分散,因此,语音信息是从提取语音通话过程中录制的全部语音信息。

进一步可选地,在本申请实施例中,在启动目标应用程序后、关闭目标应用程序之前,语音识别的装置可以通过实时更新语音信息的方式,来避免遗漏语音通过中需要记录的内容。与步骤702c类似,在步骤702中获取语音信息,还可以包括步骤702e。

步骤702e:在检测到进行语音通话的情况下,语音识别的装置按照预设间隔,提取更新语音信息。

其中,上述更新语音信息包括:与预设间隔对应的语音通话录音的语音信息。

示例性的,语音识别的装置在提取到更新语音信息后,便会基于目标应用程序从该更新语音信息中提取出第二关键信息,然后,将目标应用程序的界面中显示的第一关键信息以及第二关键信息。

举例说明,甲某与乙某关于购买电脑进行对话,甲某告知乙某需要购买10台型号为1566的X品牌电脑,乙某通过电子设备识别两者的通话内容,从而在目标应用程序的应用界面中显示关键通话内容,如,“乙某需要购买10台型号为1566的X品牌电脑”(即上述第一关键信息)。接着,乙某在与甲某通话过程中再次确认订购商品,其后甲某又告知乙某需要购买5台型号为1588的Y品牌电脑。此时,电子设备对两者的通话内容再次进行识别,得到新的关键通话内容,如,“5台型号为1588的Y品牌电脑”(即上述第二关键信息),并基于该新的关键通话内容,对目标应用程序的应用界面中显示关键通话内容进行更新。

如此,随着语音通话的进行,不断地生成更新语音信息,以使得更新语音信息通过目标应用程序能够实时的提取并显示第一关键信息以及第二关键信息。

进一步可选地,在本申请实施例中,在步骤702中获取语音信息还可以包括:语音识别的装置根据预置声纹识别算法,滤除上述语音信息中干扰信息,重新生成语音信息。应注意的是,在语音聊天过程中,所处的环境中可能包括鸣笛声音、动物吼叫声音、下雨声音、风鸣声音等等,如此,滤除干扰信息能够提高语音识别的准确率。

示例二:识别语音信息中与目标程序对应的第一关键信息

进一步可选地,如图9所示,在本申请实施例中,在步骤702中识别语音信息所包含的文本信息,具体包括步骤901至步骤903。

步骤901:语音识别的装置将上述语音信息转换为目标文本信息,并从该目标文本信息中,提取与目标应用程序对应的第一文本信息。

步骤902:语音识别的装置获取至少一个类型信息。

步骤903:语音识别的装置根据上述至少一个类型信息,删除第一文本信息中类型与预设类型匹配的文本信息,以得到上述第一关键信息。

在本申请实施例中,上述第一文本信息中包括第一关键信息。

在本申请实施例中,通过对语音信息进行音频特征提取,然后将音频特征通过声学模型和语言模型的打分转换为文本信息,以实现将语音信息转换为目标文本信息。

在本申请实施例中,上述至少一个类型信息用于指示第一文本信息中包含的信息的类型。示例性的,上述文本信息类型可以包括非正常叠词、口头语词汇、时间词汇、地点词汇,例如“在黄河大街的某银行南侧侧的某酒店开年会,这个这个3月2日16点开始21点结束,您看这样的时间安排可以吗”,其中:“南侧侧”属于非正常叠词,“这个这个”属于口头语,“,3月2日、16点、21点”属于时间词汇,“黄河大街、某银行、某酒店”属于地点词汇。

需要说明的是,在上述示例中非正常叠词、口头语词汇和地方方言词汇,阻碍得到第一关键信息,因此,可以将叠词、口头语词汇和地方方言词汇等类型确定为预设类型。语音识别的装置删除上述第一文本信息中类型与预设类型匹配的文本信息,是指删除上述示例中“侧、这个这个”,得到第一关键信息“在黄河大街的某银行南侧的某酒店开年会,3月2日16点开始21点结束,您看这样的时间安排可以吗”。

示例性的,上述文本优化处理方法中的口语词汇优化过程包括:

方式1:通过预设口语词列表,对第一文本信息进行口语文本分析。其中,预设口语词列表可以通过用户通过语音输入方式录制一段口语语音,将口语语音进行文字识别,得到口语文本信息,显示口语文本信息,编辑口语文本信息保留自己的口头禅对应的口语词,最后合并口语词得到口语词列表。

方式2:通过添加语言模型(专门训练一个常用口语词的语言模型),对第一文本信息进行口语文本分析。

具体的,对于简单的口语词,如连续出现的“这个这个”、“这个(停顿较长时间)”,进行识别出与预设类型匹配的口语词。最后针对识别出的口语词,可以高亮或者突出的方式显示给用户,以便于用户选择是否删除这些口语词以便最终的语音输入的输出,或者最后针对识别出的口语词,通过设置语音输入法,进行一键删除,或者自动删除识别出的口语词。

如此,通过第一文本信息所包含的类型与预设类型进行匹配,删除第一文本信息的口语化词汇,能够提供第一关键信息的可读性。

可选地,如图10所示,在本申请实施例中,在步骤102之后,本申请实施例提供的语音识别的方法还可以包括步骤1001和步骤1002。

步骤1001:语音识别的装置接收用户的第二输入。

步骤1002:语音识别的装置响应于上述第二输入,采用与上述第二输入对应的编辑处理方式,处理上述第一关键信息。

在本申请实施例中,上述第二输入为用户对上述第一关键信息的编辑输入。需要说明的是,如图11所示,假设目标应用程序为通讯录,与上述第三输入对应的编辑处理方式为:在点击选择待修改信息后,待修改信息出现在编辑栏中,用户对待修改信息进行删减、拼接或重新录入。对于第一关键信息的原信息内容,可以随着用户的修改实时更新,也可以在用户修改完成后再替换。

示例性的,如果待修改信息为多次重新的重复信息,则用户对待修改信息进行删减、拼接或重新录入之后,对所有重复部分统一更正,以实现信息的快速整合。

可选地,在本申请实施例中,在步骤102之后,本申请实施例提供的语音识别的方法还可以包括:生成临时缓存控件,上述临时缓存控件用于缓存上述第一关键信息。

示例性的,如果目标应用程序为备忘录,第一关键信息为电话号码,通过临时缓存控件,可以直接拨打该电话号码,使得显示的第一关键信息能够直接应用,避免用户选择复制粘贴该电话号码才能拨打电话的繁琐过程。

需要说明的是,本申请实施例提供的语音识别的方法,执行主体可以为语音识别的装置,或者该语音识别的装置中的用于执行语音识别的方法的控制模块。本申请实施例中以语音识别的装置执行语音识别的方法为例,说明本申请实施例提供的语音识别的装置。但实际应用中上述语音识别的方法的执行主体还可以是其他可以执行该语音识别的方法的设备或装置,本申请实施例对此不作限定。

如图12所示,本申请实施例提供一种语音识别的装置。该语音识别的装置包括:第一接收模块1201和第一显示模块1202;

上述第一接收模块1201,用于在获取到语音信息的情况下,接收用户的第一输入;

上述第一显示模块1202,用于响应于上述第一接收模块1201接收的第一输入,通过目标应用程序显示上述语音信息中的第一关键信息,上述第一关键信息与上述目标应用程序的类型相关联。

可选地,上述第一接收模块1201,用于:在进行语音通话的过程中,对上述语音通话的通话内容进行语音录制,获取到上述语音信息;在上述语音通话结束后或上述语音通话过程中,接收用户的第一输入。

可选地,如图13所示,上述装置还包括:确定模块1203;

上述确定模块1203,用于上述第一显示模块1202响应于上述第一输入,通过目标应用程序显示上述语音信息中的第一关键信息之前,在检测到进行语音通话的情况下,将上述第一输入的第一参数关联的应用程序,确定为上述目标应用程序;

上述确定模块1203,还用于上述第一显示模块1202响应于上述第一输入,通过目标应用程序显示上述语音信息中的第一关键信息之前,在检测到语音通话结束的情况下,将上述第一输入的第二参数关联的应用程序,确定为上述目标应用程序。

可选地,上述第一显示模块1202,用于:响应于上述第一输入,启动目标应用程序;获取上述语音信息中上述目标应用程序对应的第一关键信息;在上述目标应用程序中,显示上述第一关键信息。

可选地,上述第一显示模块1202,具体用于:将上述语音信息转换为目标文本信息,并从上述目标文本信息中,提取与上述目标应用程序对应的第一文本信息,上述第一文本信息中包括上述第一关键信息;获取至少一个类型信息,上述至少一个类型信息用于指示上述第一文本信息中包含的信息的类型;根据上述至少一个类型信息,删除上述第一文本信息中类型与预设类型匹配的文本信息,以得到上述第一关键信息。

可选地,如图13所示,上述装置还包括:第二接收模块1204和第一处理模块1205;

上述第二接收模块1204,用于上述第一显示模块1202通过目标应用程序显示上述语音信息中的第一关键信息之后,接收用户的第二输入,上述第二输入为用户对上述第一关键信息的编辑输入;

上述第一处理模块1205,用于响应于上述第二接收模块1204接收的第二输入,采用与上述第二输入对应的编辑处理方式,处理上述第一关键信息。

在本申请实施例提供的语音识别的装置中,在获取到语音信息的情况下,当接收到第一输入后,便可响应该第一输入,并通过目标应用程序显示语音信息中的第一关键信息,其中,第一关键信息与目标应用程序的类型相关联。如此,直接显示从语音信息中提取出与该目标应用程序相关联的第一关键信息,不仅提高了关键信息的提取效率,而且避免了对语音信息的无效识别,还提升了电子设备的人机交互性能。

本申请实施例中的语音识别的装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(networkattached storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。

本申请实施例中的语音识别的装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。

本申请实施例提供的语音识别的装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。

可选的,如图14所示,本申请实施例还提供一种电子设备1400,包括处理器1401,存储器1402,存储在存储器1402上并可在处理器1401上运行的程序或指令,该程序或指令被处理器1401执行时实现上述语音识别的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图15为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1500包括但不限于:射频单元1501、网络模块1502、音频输出单元1503、输入单元1504、传感器1505、显示单元1506、用户输入单元1507、接口单元1508、存储器1509、以及处理器1510等部件。

本领域技术人员可以理解,电子设备1500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图15中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。

其中,上述用户输入单元1507,用于在获取到语音信息的情况下,接收用户的第一输入;

上述处理器1510,用于响应于上述第一输入,通过目标应用程序显示上述语音信息中的第一关键信息,上述第一关键信息与上述目标应用程序的类型相关联。

可选地,上述处理器1510,还用于进行语音通话的过程中,对上述语音通话的通话内容进行语音录制,获取到上述语音信息;

可选地,上述用户输入单元1507,还用于在上述语音通话结束后或上述语音通话过程中,接收用户的第一输入。

可选地,上述处理器1510,还用于在检测到进行语音通话的情况下,将上述第一输入的第一参数关联的应用程序,确定为上述目标应用程序;在检测到语音通话结束的情况下,将上述第一输入的第二参数关联的应用程序,确定为上述目标应用程序。

可选地,上述处理器1510,还用于响应于上述第一输入,启动目标应用程序;获取上述语音信息中上述目标应用程序对应的第一关键信息;在上述目标应用程序中,显示上述第一关键信息。

可选地,上述处理器1510,还用于将上述语音信息转换为目标文本信息,并从上述目标文本信息中,提取与上述目标应用程序对应的第一文本信息,上述第一文本信息中包括上述第一关键信息;获取至少一个类型信息,上述至少一个类型信息用于指示上述第一文本信息中包含的信息的类型;根据上述至少一个类型信息,删除上述第一文本信息中类型与预设类型匹配的文本信息,以得到上述第一关键信息。

可选地,上述用户输入单元1507,还用于接收用户的第二输入,上述第三输入为用户对上述第一关键信息的编辑输入;

可选地,上述处理器1510,还用于响应于上述第二输入,采用与上述第三输入对应的编辑处理方式,处理上述第一关键信息。

在本申请实施例提供的电子设备中,在获取到语音信息的情况下,当接收到第一输入后,便可响应该第一输入,并通过目标应用程序显示语音信息中的第一关键信息,其中,第一关键信息与目标应用程序的类型相关联。如此,直接显示从语音信息中提取出与该目标应用程序相关联的第一关键信息,不仅提高了关键信息的提取效率,而且避免了对语音信息的无效识别,还提升了电子设备的人机交互性能。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。

应理解的是,本申请实施例中,输入单元1504可以包括图形处理器(graphicsprocessing unit,GPU)15041和麦克风15042,图形处理器15041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1506可包括显示面板15061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板15061。用户输入单元1507包括触控面板15071以及其他输入设备15072。触控面板15071,也称为触摸屏。触控面板15071可包括触摸检测装置和触摸控制器两个部分。其他输入设备15072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1509可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器1510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1510中。

本申请实施例还提供一种可读存储介质,该可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音识别的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现上述语音识别的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 语音识别方法、语音识别装置、可读存储介质和电子设备
  • 语音识别方法、装置、电子设备和计算机可读存储介质
技术分类

06120113253709