掌桥专利:专业的专利平台
掌桥专利
首页

语音识别方法、装置、设备及存储介质

文献发布时间:2023-06-19 18:29:06


语音识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音处理技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

在面向全国业务的金融行业中,业务人员每天将处理大量来自全国不同地区对于金融银行的业务问题反馈。虽然交流场景广泛固定于金融业务,但不同地区语言中存在较大差异性的口音及表达方式,业务人员在全国性业务的处理过程中将面临复杂困难的识别理解问题。

发明内容

本发明实施例提供一种语音识别方法、装置、设备及存储介质,可以提高语音识别的准确性。

根据本发明的一方面,提供了一种语音识别方法,包括:

将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;

确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;

将所述多个候选词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。

可选的,确定所述声学特征序列中各声学特征对应的至少一个目标词,包括:

对所述声学特征序列中各声学特征进行解码,获得所述声学特征对应的多个候选词及各候选词的概率信息;

基于所述概率信息从所述多个候选词中选择至少一个目标词。

可选的,将所述多个目标词输入领域语言模型中,输出目标语音识别结果,包括:

将所述多个目标词输入领域语言模型中,输出多个候选识别结果及各候选识别结果的识别概率;

将识别概率最高的候选识别结果确定为目标语音识别结果。

可选的,所述设定声学模型的训练方式为:

获取语音样本数据;其中,所述语音样本数据携带有地域属性;

将所述语音样本数据输入标准声学模型,输出音素残差特征;其中,所述标准声学模型用于识别标准语音数据的音素特征;所述音素残差特征表征所述语音样本数据与标准语音数据间音素特征的差异;

将所述语音样本数据输入声音特征识别模型,输出声音特征;

基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练。

可选的,基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练,包括:

基于标准词对所述音素残差特征进行聚类,获得口音特征;

基于用户信息对所述声音特征进行聚类,获得用户发音特征;

基于所述口音特征和所述用户发音特征对所述设定声学模型进行训练。

可选的,基于所述口音特征和所述用户发音特征对所述设定声学模型进行训练,包括:

将所述口音特征和所述用户发音特征输入所述设定声学模型,输出第一声学特征;

将所述第一声学特征输入辅助声学模型,输出第二声学特征;

基于所述第一声学特征和所述第二声学特征对所述设定声学模型进行反向调参,获得训练后的设定声学模型。

可选的,所述领域语言模型的训练方式为:

获取设定领域的语料样本数据;其中,所述语料样本数据包括用户语料样本数据及数据库语料样本数据;

基于所述语料样本数据对领域语言模型进行训练;

基于训练后的领域语言模型和通用语言模型进行融合,获得最终的领域语言模型。

根据本发明的另一方面,提供了一种语音识别装置,包括:

声学特征序列输出模块,用于将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;

目标词获取模块,用于确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;

目标语音识别结果输出模块,用于将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。

根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的语音识别方法。

根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音识别方法。

本发明通过将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是根据本发明实施例一提供的一种语音识别方法的流程图;

图2是根据本发明实施例二提供的一种语音识别方法的流程图;

图3是根据本发明实施例三提供的一种语音识别装置的结构示意图;

图4是根据本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据本发明实施例一提供的一种语音识别方法的流程图,本实施例可适用于对语音进行识别的情况,该方法可以由一种语音识别装置来执行,具体包括如下步骤:

步骤110、将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列。

其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征。地域属性可以理解为目标用户语音数据携带有地方口音。示例性的,目标用户携带有粤语或者闽南语这类带有地域属性的语音数据。声学特征可以理解为每个语音数据中的每个字对应的发音。设定声学模型可以是预先设定的训练好的声学模型。声学模型可以用于识别用户的语音数据对应的声学特征序列。目标用户语音数据可以理解为需要进行语音数据识别的有地域口音的用户。本实施例中可以是在与某些智能客服对话的目标用户,可以是目标用户电话沟通获得的语音数据。

本实施例中可以将目标用户语音数据输入设定声学模型中,以输出目标用户语音数据对应的声学特征序列。

步骤120、确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词。

其中,目标词可以理解为声学特征序列中各声学特征对应的词,也就是每个声学特征对应的词。由于声学特征序列中包括多个声学特征,每个声学特征可以对应一个目标词,所以目标词可以有多个。本实施例中确定声学特征序列中各声学特征对应的至少一个目标词,以获得多个目标词。

在本实施例中,可选的,确定所述声学特征序列中各声学特征对应的至少一个目标词,包括:对所述声学特征序列中各声学特征进行解码,获得所述声学特征对应的多个候选词及各候选词的概率信息;基于所述概率信息从所述多个候选词中选择至少一个目标词。

其中,对声学特征序列中各声学特征进行解码的方式可以是通过调用现有的数据库或者字典或者词典去比对等方式进行解码操作。本实施例中由于很多词的发音相同或者类似,一个声学特征可以对应多个候选词。候选词的概率信息可以理解为得到的对应的候选词的概率数据内容。各个候选词的概率大小是不同的。本实施例中候选词和候选词的概率信息都可以通过对声学特征序列中各个声学特征进行解码得到。目标词可以是基于概率信息进行选择的。本实施例中可以根据业务需求基于概率信息选择预设数量的目标词。示例性,本实施例中可以按照概率信息从大到小排序,选择排序靠前的5个目标词。

本实施例中可以对声学特征序列中各声学特征进行解码,以获得声学特征对应的多个候选词以及各个候选词的概率信息,并基于概率信息从多个候选词中选择至少一个目标词。本实施例中通过这样的设置,可以基于业务需求选择概率较大的目标词,便于提高语音识别的准确性,

步骤130、将所述多个目标词输入领域语言模型中,输出目标语音识别结果。

其中,所述目标语音识别结果可以由词序列表征。词序列可以理解由各个词连接起来的序列,也就是一段话。领域语音模型可以理解为预先训练好的某个领域的语音模型。例如,本实施例中可以是金融领域语音模型等。领域语音模型可以用于将目标词进行融合为领域内可以理解的完整句子。目标语音识别结果可以是领域语言模型输出的。本实施例中可以将多个目标词输入领域语言模型中,以输出目标语音识别结果。

在本实施例中,可选的,将所述多个目标词输入领域语言模型中,输出目标语音识别结果,包括:将所述多个目标词输入领域语言模型中,输出多个候选识别结果及各候选识别结果的识别概率;将识别概率最高的候选识别结果确定为目标语音识别结果。

其中,多个候选识别结果可以理解为根据目标词组合的多个完整句子,可以是通过将目标词输入领域语音模型中输出的。候选识别结果的识别概率可以理解为候选识别结果的概率数据内容。各个候选识别结果的识别概率大小是不同的。目标语音识别结果可以是识别概率最高的候选识别结果。本实施例中可以根据各个候选识别结果的识别概率进行按照大小显示,并将识别概率最高的候选识别结果确定为目标语音识别结果。

本实施例中可以将多个目标词输入领域语音模型中,输出多个候选识别结果以及各个候选识别结果的识别概率,并将识别概率最高的候选识别结果确定为目标语音识别结果。本实施例中可以根据声学特征对应的目标词,输入到模型中直接得到所有可能的候选识别结果以及识别概率,采用领域语音模型可以对候选识别结果进行打分以及排序,实现了进行语法和语义的纠正,最终可以选出识别概率最高的候选识别结果。

本实施例中通过这样的设置,可以通过训练好的模型将识别概率最高的识别结果作为目标语音识别结果,进一步提高了语音识别的准确性,提升了口音特征的识别结果。

本发明通过将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。

实施例二

图2是根据本发明实施例二提供的一种语音识别方法的流程图,本实施例以上述实施例为基础进行优化。具体优化为:所述设定声学模型的训练方式为:获取语音样本数据;其中,所述语音样本数据携带有地域属性;将所述语音样本数据输入标准声学模型,输出音素残差特征;其中,所述标准声学模型用于识别标准语音数据的音素特征;所述音素残差特征表征所述语音样本数据与标准语音数据间音素特征的差异;将所述语音样本数据输入声音特征识别模型,输出声音特征;基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练。如图2所示,本实施例的方法具体包括如下步骤:

步骤210、获取语音样本数据;

其中,所述语音样本数据可以携带有地域属性。地域属性可以理解为具有地域口音的说话人的语音样本数据。本实施例中可以获取携带有地域属性的语音样本数据。

进一步的,本实施例中在获取语音样本数据之前,还可以将标准语音数据输入到标准声学模型,输出标准语音数据的音素特征。示例性的,标准语音数据可以理解为普通话发音的语音数据。

步骤220、将所述语音样本数据输入标准声学模型,输出音素残差特征。

其中,所述标准声学模型可以用于识别标准语音数据的音素特征;所述音素残差特征可以表征所述语音样本数据与标准语音数据间音素特征的差异。标准语音数据可以理解为用标准发音说出的语音数据。标准声学模型可以是预先训练好的模型。本实施例中可以将语音样本数据输入标准声学模型,输出音素残差特征。

步骤230、将所述语音样本数据输入声音特征识别模型,输出声音特征。

其中,声音特征可以是声音特征识别模型输出的特征。声音特征识别模型可以是预先训练好的模型,可以用于识别语音样本数据的声音特征。本实施例中可以将语音样本数据输入声音特征识别模型,从而输出声音特征。

步骤240、基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练。

本实施例中可以基于音素残差特征和声音特征对设定声学模型进行训练。

在本实施例中,可选的,基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练,包括:基于标准词对所述音素残差特征进行聚类,获得口音特征;基于用户信息对所述声音特征进行聚类,获得用户发音特征;基于所述口音特征和所述用户发音特征对所述设定声学模型进行训练。

其中,标准词可以理解为标准语音发音的词。口音特征可以是基于标准词对音素残差特征进行聚类得到的。本实施例中在聚类之后可以进行平均或者加权求和的操作,以得到口音特征。用户信息可以理解为用户标识,例如,用户的说话的频率高低情况,说话语速情况,声调高低情况等标识信息。用户信息还可以包括用户的说话内容信息。用户发音特征可以基于用户信息对声音特征进行聚类得到的。本实施例中可以基于口音特征和用户发音特征对设定声学模型进行训练。

本实施例中可以基于标准词对音素残差特征进行聚类,从而获得口音特征;然后基于用户说话的内容信息对声音特征进行聚类,从而获得用户发音特征;基于口音特征和用户发音特征对设定声学模型进行训练。本实施例中通过这样的设置,有利于提升了带口音用户的识别精度。

在本实施例中,可选的,基于所述口音特征和所述用户发音特征对所述设定声学模型进行训练,包括:将所述口音特征和所述用户发音特征输入所述设定声学模型,输出第一声学特征;将所述第一声学特征输入辅助声学模型,输出第二声学特征;基于所述第一声学特征和所述第二声学特征对所述设定声学模型进行反向调参,获得训练后的设定声学模型。

其中,第一声学特征可以是将口音特征和用户发音特征输入到设定声学特征模型中得到的。辅助声学模型可以是预先训练好的模型,可以用于第一声学特征进行修正,以得到第二声学特征。反向调参可以是通过计算第一声学特征和第二声学特征的差异进行调整参数的过程。本实施例中可以基于第一声学特征和第二声学特征对设定声学模型进行反向调参,以获得训练后的设定声学模型。此外,本实施例中的辅助声学模型通过对抗学习模块,自适应调整网络中的Batch Normalization中的scale和shift值,剔除与口音特征向量无关的信息,从而加强口音数据对识别结果的影响,弥补口语数据资源缺少的影响。

本实施例中可以将口音特征和用户发音特征输入到设定声学模型中,以输出第一声学特征;然后将第一声学特征输入到辅助声学模型中进行修正,以获得第二声学模型;最后基于第一声学特征和第二声学特征对设定声学特征进行反向调参,从而获得训练后的设定声学模型。本实施例中通过这样的设置,基于声学特征对设定声学模型进行训练,从而使得训练后的的声学模型和特定说话人更加匹配,从而提升了带口音用户的识别精度。

在本实施例中,可选的,所述领域语言模型的训练方式为:获取设定领域的语料样本数据;其中,所述语料样本数据包括用户语料样本数据及数据库语料样本数据;基于所述语料样本数据对领域语言模型进行训练;基于训练后的领域语言模型和通用语言模型进行融合,获得最终的领域语言模型。

其中,设定领域可以理解为设定的某个行业的领域,示例性的,如办理银行业务之类的金融领域。本实施例中可以根据业务需求对设定领域进行设定。语料样本数据可以包括用户语料样本数据以及数据库语料样本数据。用户语料样本数据可以理解为用户在设定领域的业务方面的历史语料信息。数据库语料样本数据可以是从互联网下载的行业领域通用的数据语料样本数据。

本实施例中还可以对语料信息进行关键信息的抽取。示例性的,语料中某句话是“你好,我要办理XX业务”本实施例中进行关键信息抽取,就可以抽取“办理”“XX业务”从而可以了解用户的意图信息。

其中,领域语音训练模型可以基于用户语料样本数据及数据库语料样本数据进行训练。通用语言模型可以识别各个领域的语音,可以根据语料中的关键词组合成完整的符合行业领域的专业术语。融合可以理解为求平均或者加权融合的操作。本实施例中的领域语音模型和通用语音模型对应的网络层可以是相同的,但各个网络层的参数设置不同。本实施例中基于训练后的领域语音模型和通用语音模型进行融合可以理解为对应网络层的参数进行求平均或者加权求和的操作。本实施例中通过将通用语言模型与领域模型融合,可以利用解码器将给定的特征向量序列和若干候选词序列计算声学模型得分和语言模型得分,将总体输出分数最高的词序列作为最终个性化识别结果。

本实施例中可以获取设定领域的用户语料样本数据及数据库语料样本数据;然后基于用户语料样本数据及数据库语料样本数据对领域语言模型进行训练;最后基于训练后的领域语言模型和通用语言模型进行求平均或者加权融合的操作,从而获得最终的领域语言模型。

本实施例中通过这样的设置,可以基于领域语言模型和用户语言模型相结合的语言个性化进行训练,从而提升了用户常用词汇和语法的识别精度,有利于提高语音识别的识别率。

本发明通过获取语音样本数据;将所述语音样本数据输入标准声学模型,输出音素残差特征;将所述语音样本数据输入声音特征识别模型,输出声音特征;基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练。通过本发明的技术方案,可以提高语音识别的准确性。

实施例三

图3是根据本发明实施例三提供的一种语音识别装置的结构示意图,该装置可执行本发明任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置包括:

声学特征序列输出模块310,用于将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列。

其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;

目标词获取模块320,用于确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词。

目标语音识别结果输出模块330,用于将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。

可选的,目标词获取模块320,具体用于:

对所述声学特征序列中各声学特征进行解码,获得所述声学特征对应的多个候选词及各候选词的概率信息;

基于所述概率信息从所述多个候选词中选择至少一个目标词。

可选的,目标语音识别结果输出模块330,具体用于:

将所述多个目标词输入领域语言模型中,输出多个候选识别结果及各候选识别结果的识别概率;

将识别概率最高的候选识别结果确定为目标语音识别结果。

可选的,所述设定声学模型的训练模块,包括:

语音样本数据获取单元,用于获取语音样本数据;其中,所述语音样本数据携带有地域属性;

音素残差特征输出单元,用于将所述语音样本数据输入标准声学模型,输出音素残差特征;其中,所述标准声学模型用于识别标准语音数据的音素特征;所述音素残差特征表征所述语音样本数据与标准语音数据间音素特征的差异;

声音特征输出单元,用于将所述语音样本数据输入声音特征识别模型,输出声音特征;

第一训练单元,用于基于所述音素残差特征和所述声音特征对所述设定声学模型进行训练。

可选的,第一训练单元,包括:

口音特征子单元,用于基于标准词对所述音素残差特征进行聚类,获得口音特征;

用户发音特征获取子单元,用于基于用户信息对所述声音特征进行聚类,获得用户发音特征;

训练子单元,用于基于所述口音特征和所述用户发音特征对所述设定声学模型进行训练。

可选的,训练子单元,具体用于:

将所述口音特征和所述用户发音特征输入所述设定声学模型,输出第一声学特征;

将所述第一声学特征输入辅助声学模型,输出第二声学特征;

基于所述第一声学特征和所述第二声学特征对所述设定声学模型进行反向调参,获得训练后的设定声学模型。

可选的,所述领域语言模型的训练模块,包括:

语料样本数据获取单元,用于获取设定领域的语料样本数据;其中,所述语料样本数据包括用户语料样本数据及数据库语料样本数据;

第二训练单元,用于基于所述语料样本数据对领域语言模型进行训练;

领域语言模型获取单元,用于基于训练后的领域语言模型和通用语言模型进行融合,获得最终的领域语言模型。

上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。

实施例四

图4是根据本发明实施例四提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如语音识别方法。

在一些实施例中,语音识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的语音识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 一种语音识别方法、装置、设备及存储介质
  • 语音类别的识别方法、装置、计算机设备和存储介质
  • 实时语音识别方法、装置、设备及存储介质
  • 语音识别方法、装置、设备及存储介质
  • 语音设备的语音识别方法、语音设备及可读存储介质
  • 语音设备的语音识别方法、语音设备及可读存储介质
技术分类

06120115581945