掌桥专利:专业的专利平台
掌桥专利
首页

语音处理的方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 11:57:35


语音处理的方法、系统、电子设备及存储介质

技术领域

本申请属于语音识别技术领域,尤其涉及一种语音处理的方法、系统、电子设备及存储介质。

背景技术

在语音识别技术中,实体识别是一个重要的分支。实体又称命名实体,是指具有特定意义的实体,如人名、机构名、地名等专有名词和有意义的时间等。

由于语音识别模型的训练数据中实体词较少,造成语音识别模型对实体词的识别率不高。因此需要对语音识别结果中的实体进行检查和纠错,以解决语音处理中实体识别不准确的问题。

发明内容

本申请实施例提供了一种语音处理的方法、系统、电子设备及存储介质,可以解决以上问题的至少一部分。

第一方面,本申请实施例提供了一种语音处理的方法,包括:

获取第一文本信息,所述第一文本信息是对语音信息的识别结果;

提取所述第一文本信息中各个词汇的注音特征,所述注音特征为词汇注音信息的特征;

若确定所述第一文本信息中的任一词汇的注音特征在实体词典中,则将该词汇作为目标词汇,所述目标词汇的注音特征为目标注音特征;

将所述实体词典中注音特征与所述目标注音特征相同的实体作为候选实体;

选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇。

应理解,本申请通过提取语音识别结果中实体的拼音特征,查询实体词典确定目标词汇和候选实体,选取与目标词汇匹配度最高的候选实体替换目标词汇,实现了对语音识别结果中的实体进行检查和纠错,提高了语音识别结果的正确率。

第二方面,本申请实施例提供了一种语音处理的装置,包括:

第一文本信息获取模块,获取第一文本信息,所述第一文本信息是对语音信息的识别结果;

注音特征提取模块,提取所述第一文本信息中各个词汇的注音特征,所述注音特征为词汇注音信息的特征;

目标词汇确定模块,若确定所述第一文本信息中的任一词汇的注音特征在实体词典中,则将该词汇作为目标词汇,所述目标词汇的注音特征为目标注音特征;

候选实体确定模块,将所述实体词典中注音特征与所述目标注音特征相同的实体作为候选实体;

目标词汇替换模块,选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇。

第三方面,本申请实施例提供了一种语音处理系统,该语音处理系统用于实现上述第一方面所述的方法的步骤。

第四方面,本申请实施例提供了一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第三方面所述的语音处理系统。

第五方面,本申请实施例提供了一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

第六方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面所述的方法步骤。

可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的语音处理系统示意图;

图2是本申请一实施例提供的语音处理的方法的流程示意图;

图3是本申请另一实施例提供的实体词典生成方法的流程示意图;

图4是本申请另一实施例提供的实体词典生成方法的流程示意图;

图5是本申请另一实施例提供的实体词典生成方法的流程示意图;

图6是本申请另一实施例提供的语音处理的方法的流程示意图;

图7是本申请另一实施例提供的语音处理的方法的流程示意图;

图8是本申请另一实施例提供的语音处理的方法的流程示意图;

图9a是本申请一实施例提供的计算匹配度的示意图;

图9b是本申请一实施例提供的计算匹配度的示意图;

图10是本申请另一实施例提供的语音处理的方法的流程示意图;

图11是本申请另一实施例提供的语音处理的方法的流程示意图;

图12是本申请一实施例提供的语音处理的装置的结构示意图;

图13是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

在说明本申请实施例提供的语音处理的方法之前,为方便对本申请实施例的理解,下面对本申请实施例提供的语音处理的方法的原理以及本申请实施例中涉及的相关概念进行说明。

实体,实体又称命名实体(named entity,NE)、专有名词,是指具有特定意义的实体,如人名、机构名、地名等专有名词和有意义的时间等

词典,一般意义上的词典是用来解释词语的意义、概念、用法的工具书。数据化后的词典可以看做是词汇与该词汇的注音、释义或范例的对应关系的集合。在信息技术领域,词典可以理解为一种可变容器模型,在本申请一些实施方式中,可以采用词典元素为键-值(key-value)的数据结构构成的对应关系。键-值对应关系可以为一一对应关系,也可以为一对多的对应关系,即一个键对应一个值,或一个键对应多个值。

实体词典,收录的词汇为实体的词典。在采用计算机实现时,可以是实体为key,该实体的注音和解释为value的词典;也可以是注音为key,实体为value的词典;还可以是注音特征为key,实体为value的词典,在一些实施方式中,可以是一个注音特征为key,对应多个实体value的词典。

通用词典,收录包含多种词性的词汇的词典。例如可以包含动词、名词、形容词等多种词性的词汇。在采用计算机实现时,可以为词汇为key,该词汇的注音和解释为value的词典;也可以为注音为key,词汇为value的词典。

语料库,语料库是指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。

实体语料库,是存放实体的语料库。

文本信息,是文本的承载方式,例如编码、字符或图像等。在计算机处理的数据中通常以编码形式表达文本信息,例如ASCII码等形式。

注音信息,是文本的注音的承载方式,例如注音的编码、注音符号或图像。

特征提取,是对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法。在本申请的实施例中,提取所述文本信息中各个词汇的注音特征,可以理解为,提取文本信息的注音信息中具有代表性的特征,获得该注音信息与其相似发音的词汇的注音信息共性的过程。

注音特征,是指注音信息经特征提取操作,获得的该注音信息与其相似发音的词汇的注音信息共性的特征。

语音信息,是人类语音的承载方式。在本申请的实施例中,可以是对实时收录的语音信号,也可以是存储在存储介质中的模拟或数字的语音信号。

语音信息识别,是采用语音识别模型,将语音信息转换为计算机可处理的数据的过程。

语音识别模型,是指在给定的语音输入下,找到可能性最大的文字序列的算法模型。

匹配度,是指两个比较对象之间的相似程度。通常的匹配度高以为这两个对象的相似度高。

综合匹配度,是指多组比较对象的匹配度经过预设运算获得的结果。在一些实施例中,预设运算可以是加权求和等。

索引,是指对数据进行排序的存储结构。

字典树,又称Trie树,或单词查找树,是一种树形结构的索引结构。Trie树通常用于字符查找。在本申请的实施例中,Trie树用于注音特征信息的查找,即每个节点为一个注音特征的声音单元。

声音单元,是构成注音信息基本单位,以中文的注音信息为例,包括声母、韵母和整体认读音节中的至少一种。

模糊声音单元,由于发音相同或相近,容易混淆的声音单元,可以是由于相同的语义在不同方言中发音不同而产生。在本申请的一些实施例中,模糊声音单元为预先确定的、容易因方言或发音出现混淆的声音单元,具体可以参考表1。

归一化声音单元,预先确定的、若干个模糊声音单元对应的声音单元,一个归一化声音单元对应多个模糊声音单元。

归一化操作,是指将注音信息中的模糊声音单元按预设规则转换为与该模糊声音单元对应的归一化声音单元。

分词,是指对文本信息中的词汇进行切分。作为一非限制性的示例,在词汇与词汇之间添加边界标记,例如空格、斜线或横杠等。

在语音信息识别中,通常用于训练语音识别模型的语料库中包含的实体较少,导致语音识别模型对实体的识别率性对于非实体词汇来说比较低。例如:“韶关市”这种实体词,训练语料中很少出现,因此训练出的语音识别模型较难识别出该实体。但是,在训练语料中,可能到处充满着“语音”,“识别”,“中文”这些非实体词,或称普通词,所以训练出的模型对非实体词有较高的识别率。

本申请的实施例提供了一种在语音识别之后,对语音识别结果中的错误实体进行纠错的方法。在一些实施例中,提供一种语音处理系统实现语音处理的方法。在一些实施例中,该语音处理系统中可以添加一个实体纠错单元对识别结果进行纠错。该方法基于本申请的申请人的对语音信息识别技术的以下认识:

一、中文很少吞音与连读,因此可以假设语音识别输出的结果字数相同。

二、正确的实体与该实体的错误识别词汇的发音相近,因此可以假设语音信息识别技术识别出的错误词汇与正确的实体的发音相近,不会差太远。

三、可以假设语音信息识别技术对英语、数字和符号等的识别结果都是正确的,此发现可以用于限定处理范围。

基于以上申请人对语音信息识别的认识,本申请实施提供了一种语音处理的方法,应用于语音处理系统中。在以上第三点认识的基础上,可以认为语音识别结果中的英语、数字和符号等是正确的。因此,可以只处理英语、数字和符号之外的信息,例如只处理中文文字信息。将语音信息识别结果的中文文字信息转换为对应的注音信息,基于以上第一点和第二点认识,出错的实体和出错实体对应的正确实体字数应该相同,并且发音相近,因此出错的实体和正确的实体应具有共性的部分,也就是说具有相同的注音特征。因此,通过提取注音信息的注音特征,这样可以帮助查询相似发音的词汇。可以通过查询任一词汇的注音特征是否在在实体词典中来确定该词汇为可能出错的目标词汇。并且将实体词典中与目标词汇相同的注音特征的实体作为候选实体。基于以上第二点认识,可以将与目标词汇匹配度最高的候选实体作为用于替换目标词汇的替换实体。基于以上第一点认识,正确实体和目标词汇的字数应该相同,采用替换实体替换目标词汇。

以下结合附图对本申请提供的语音处理的方法的实施方式进行说明。

图1示出的是本申请实施例提供的一种语音处理系统10。在一些实施例中,该语音处理系统10包括:实体纠错单元110。

所述实体纠错单元110,用于采用本申请实施例提供的语音处理的方法查找所述第一文本信息中的错误实体,并对错误实体进行纠错,输出纠错后的修正文本信息。

在一些实施例中,该语音处理系统10还包括语音识别单元120。

所述语音识别单元120,用于将语音信息转换为第一文本信息。所述第一文本信息是可能包含错误实体的文本信息。

在一些实施例中,该语音处理系统10还包括实体词典生成单元130。

所述实体词典生成单元130,用于生成实体词典。在一些实施例中,所述实体词典中包含实体和实体的注音特征的对应关系。

在一些实施例中,语音识别单元120,和实体纠错单元110也可以是同一计算设备中的两个不同功能模块。

作为一非限制性的示例,语音处理系统10的各个功能单元,例如实体纠错单元110、语音识别单元120和实体词典生成单元130,可以为独立硬件实体的功能单元,各个实体功能单元之间通过总线或存储介质耦合,还可通过有线或无线的网络连接耦合。

在一些实施例中,语音处理系统10的各个功能单元还可以是在具有计算功能的功能单元的基础上虚拟出的功能单元。各个虚拟功能单元通过虚拟信道耦合。

在一些实施例中,语音处理系统10的各个功能单元还可以是部分为独立硬件实体的功能单元,部分是在具有计算功能的功能单元的基础上虚拟出的功能单元。各个实体功能单元之间通过总线或存储介质耦合,还可通过有线或无线的网络连接耦合,各个虚拟的功能单元通过虚拟信道耦合。

作为一非限制性的示例,语音识别单元120可以是单独的语音识别设备,实体纠错单元 110也可以是单独的实体纠错设备。例如,语音识别单元120可以是包含语音输入模块和文本输出模块的计算设备。实体纠错单元110可以包含文本输入模块和文本输出模块的计算设备。语音识别单元120,和实体纠错单元110可通过近距离的有线或无线的方式通信,也可以通过网络远程通信。

图2示出了本申请实施例提供的语音处理的方法,应用于上述图1所示的语音处理系统10,在一些实施例中,可以由语音处理系统10的实体纠错单元110的软件和/或硬件实现。

如图2所示,该方法包括步骤S110至S150。各个步骤的具体实现原理如下:

S110,获取第一文本信息,所述第一文本信息是对语音信息的识别结果。

在一些实施例中,第一文本信息可以是语音识别单元120的对语音信息的实时识别结果;也可以是存储在存储介质中的,语音识别单元120的对语音信息的识别结果。

作为一非限制性示例,语音处理系统10的语音识别单元120实时获取使用者的语音信息,并将语音信息转换为第一文本信息,实体纠错单元110通过有线或无线通信的方式获取该第一文本信息。

作为一非限制性示例,语音处理系统10的语音识别单元120获取使用者的语音信息,并将语音信息转换为第一文本信息后,存储在存储介质中。实体纠错单元110通过有线或无线通信的方式获取存储在存储介质中的第一文本信息。

其中,第一文本信息是可能包含被错误识别的实体的文本信息。

S120,提取所述第一文本信息中各个词汇的注音特征,所述注音特征为词汇注音信息的特征。

在一些实施例中,语音处理系统10的实体纠错单元110将第一文本信息转换为注音信息。

作为一非限制性的示例,实体纠错单元110通过查询文本-注音对照表,将第一文本信息转换为注音信息。

可以理解的是,如果文本信息中的文本为中文,则注音信息是对应的汉语拼音或注音符号。

在一些实施例中,基于以上第二方面的认识,可以采用预设映射规则的方式提取第一文本信息中各个词汇的注音特征。即将相似的声音单元统一映射为同一声音单元的方式来提取第一文本信息中各个词汇的注音特征,即通过上述的归一化操作来提取第一文本信息中各个词汇的注音特征。

在一些实施例中,采用预先训练的神经网络提取注音信息的特征。该神经网络的输入数据为注音信息,输出数据为注音特征。训练该神经网络的样本为包含多组注音信息和该注音信息对应的注音特征的样本集合。该神经网络可以是分类网络,也可以是深度学习网络,在实施本申请的实施例时,可以通过有限次试验在现有技术中选择性能最优的神经网络。

S130,若确定所述第一文本信息中的任一词汇的注音特征在实体词典中,则将该词汇作为目标词汇,所述目标词汇的注音特征为目标注音特征。

其中,目标词汇是第一文本信息中的词汇,是经由本申请实施例提供的语音处理的方法确定的可能为出错实体的词汇。

应理解第一文本信息可能包含一个或多个句子,因此,也可能包含一个或多个被错误识别的实体,因此目标词汇应不应理解为唯一的出错词汇,而是第一文本信息中可能出错的词汇都可以作为目标词汇。

由于语音识别模块120的准确程度的原因,目标词汇在第一文本信息中可能为表现为实体,也可能表现为为非实体词汇。

例如,第一文本信息为“天堂是古代皇帝进行祭祀的场所。”,其中的“天堂”是被错误识别的词汇,此处应为“天坛”,此处的目标词汇是实体,但是是错误的实体。

又如,第一文本信息为“少管事被评为优秀旅游城市”,其中的“少管事”是被错误识别的词汇,此处应为“韶关市”,此处出错的目标词汇是非实体词汇。

在一些实施例中,对第一文本信息中的词汇进行分词处理,将第一文本信息中的句子切分成一个或多个词汇的组合。提取分词后的每个词汇的注音特征,在实体词典中查找是否有实体的注音特征与该注音特征相同,或者查找实体词典中是否有该注音特征。若实体词典有存在与该注音特征相同注音特征的实体,则可以认为该词汇大概率的应为实体,将该词汇作为目标词汇。

在一些实施例中,可以对第一文本信息进行多种形式的分词。分别对每一种分词形式切分出的词汇提取其注音特征,并查询该注音特征是否在实体词典中。

作为一非限制性的示例,对“小明看到湖岸上的花草,一株不知名的小花引起了他的注意”进行分词,可以得到至少以下几种不同的分词形式。对于这句话中的“湖岸”、“花草”、“不知名”等,不同的词语界定方式就会出现不一样的分词结果,如我们可以切分成以下几种形式:

1、小明/看到/湖岸/上/的/花草/,一株/不知名/的/小花/引起/了/他的/注意。

2、小明/看到/湖/岸/上/的/花/草,一株/不/知名/的/小花/引起了/他的/注意。

3、小明/看到/湖岸/上的/花/草,一株/不知名的/小花/引起了/他的/注意。

在一些实施例中,提取实体词典中各个实体的注音特征,将各个实体的注音特征与需要比对的词汇的注音特征进行比较,如果相同,则说明该词汇为目标词汇。如果实体词典是仅包含实体或者,仅包含实体和实体的释义的词典,可以获取实体词典中各个实体的注音信息,再将提取这些注音特征后与需要比较的词汇的注音特征进行比较;若实体词典中包含实体的注音信息,则可以直接提取注音信息的注音特征进行比较;若实体词典中包含实体的注音特征,则可以直接查询是否存在需要比较的词汇的注音特征。

可以理解的是,实体词典收录的词汇是实体,那么如果根据一个词汇的注音特征可以在实体词典中找对对应的实体,则说明这个词汇大概率的应是一个实体。

S140,将所述实体词典中注音特征与所述目标注音特征相同的实体作为候选实体。

在一些实施例中,语音处理系统10的实体纠错模块120遍历实体词典中的各个实体,将各个实体的注音特征与目标注音特征比较,将注音特征与目标注音特征相同的实体作为候选实体。

在一些实施例中,在实体词典中,实体和实体的注音特征是一一对应的关系,通过逐个查询是否有与待比较的注音特征相同的注音特征来确定词汇的注音特征在实体词典中。

在一些实施例中,实体词典中包含实体的注音特征与实体的对应关系,或者说,一个注音特征词条内包含一个或多个实体。在该实体词典中查找与目标注音相同的注音特征,将该注音特征对应的实体作为候选实体。

作为一非限制性的示例,在实体词典中的索引信息是注音特征,每个注音特征对应一个或多个实体,一种可能的计算机实现方式为注音特征为key,实体为value。例如注音特征“nanjin”的key对应实体value包括“南京”、“南津”、“南金”、“南靖”、“蓝鲸”、“蓝晶”和“蓝景”。若第一文本信息是“拦金是六朝古都”,其中的“拦金”的注音特征为“nanjin”,在索引信息是注音特征的实体词典中查询,可以快速找到相同的注音特征,以及该注音特征对应的实体,这些实体可以作为候选实体。

可以理解的是,实体词典中收录的都是实体,那么,可以通过上述不同的比较方法可以确定实体词典中的候选实体。但是如果实体词典是以注音特征为索引,包含注音特征与一个或多个实体对应关系的词典,则查询效率可以得到很大的提升。

S150,选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇。

在一些实施例中,语音处理系统10的实体纠错模块120逐一计算目标词汇与每个候选实体的匹配度,将匹配度最高的候选实体作为替换实体,采用该替换实体替换第一文本信息中的目标词汇。

作为一非限制性的示例,可以通过计算词汇的编辑距离来确定目标词汇和候选实体的匹配度。作为一非限制性的示例,可以通过深度神经网络模型来确定目标词汇和候选实体的匹配度。作为一非限制性的示例,可以通过计算词汇的词向量来确定目标词汇和候选实体的匹配度。

在一些实施例中,在若确定所述第一文本信息中的任一词汇的注音特征在实体词典中,则将该词汇作为目标词汇后,还包括:提取所述目标词汇在所述第一文本信息中的目标位置。相应的,选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇,包括:选取与所述目标词汇匹配度最高的候选实体,在所述目标位置替换所述第一文本信息中的所述目标词汇。

应理解,本申请通过提取语音识别结果中实体的拼音特征,通过查询实体词典确定目标词汇和候选实体,选取与目标词汇匹配度最高的候选实体替换目标词汇,实现了对语音识别结果中的实体进行检查和纠错,提高了语音识别结果的正确率。

上述图2所示的本申请实施例提供的语音处理的方法中,采用包含实体实体和实体的注音特征的对应关系的实体词典,可以获得查询效率大幅提升的效果。图3示出了本申请一实施例提供的包含实体和实体的注音特征的对应关系实体词典的生成方法。该实体词典的生成方法可以由上述语音处理系统10中实体词典生成单元130的软件和/或硬件实现。如图3 所示,该方法包括步骤S310至S330。各个步骤的具体实现原理如下:

S310,获取实体语料库。

在一些实施例中,实体语料库可以是只包含实体的词汇集,也可以是电子化的实体词典,但是该实体词典不包含实体和实体的注音特征的对应关系。语音处理系统10的词典生成单元130可以从提供实体语料库的服务器获取实体语料库,也可以从存储实体语料库的存储介质获取实体语料库。

S320,提取所述实体语料库中各个实体的注音特征。

在一些实施例中,语音处理系统10的词典生成单元130获取语料库中的各个实体的注音信息,提取各个注音信息的注音特征,建立实体和注音特征的对应关系。需要指出的是,应采用与上述实施例同样的方法提取各个实体的注音特征。例如,若上述步骤S120中采用的是神经网络模型提取注音信息的注音特征,则在此步骤中也应采用神经网络模型提取注音信息的注音特征;若上述S120中采用的是归一化处理提取注音信息的注音特征,则在此步骤中也应采用归一化处理提取注音信息的注音特征,以保证注音特征可查询和比较。

S330,根据所述各个实体的注音特征,对所述实体语料库中的实体进行归并操作,生成所述实体词典,所述归并操作包括将注音特征相同的实体归并到该注音特征对应的词条中。

作为一非限制性的示例,该实体词典以注音特征为key,以一个或多个实体为value,即一个注音特征的key对应一个或多个实体的value。

在图3提供的实体词典的生成方法的基础上,在基于所述实体语料库生成实体词典前,如图4所示,还包括步骤S301至S303:

S301,获取通用词典。

在一些实施例中,语音处理系统10的词典生成单元130可以从存储通用词典的存储介质或服务器获取通用词典。

S302,根据所述通用词典中词条的词性,确定所述通用词典中的基础词。

S303,去除所述实体语料库中由所述基础词构成的实体

在一些实施中,可以根据通用词典,对所述实体语料库中的实体进行过滤。对所述实体语料库中的实体进行过滤是指,去除实体语料库中的冗余实体。

通用词典中包含多种词性的词汇,例如“n”名词,“v”动词,“i”成语,“l”习惯用语,“vn”名动词,“t”时间词,“m”数词,“d”副词,“z”状态词,“ad”副形词,“a”形容词,等等。在名词中,还包括:nr,人名;ns,地名;nt,机构团体;nz,其他专名,等细分的词性。

可以选取一些词性的词汇作为基础词,这些词性的词汇可以组合成实体。例如,将动词、助词和细分的名词,例如nr,ns,nt,nz作为基础词,删除(即,过滤)实体语料库中由这些基础词组合而成的实体。

作为一非限制性的示例,歌曲实体“画画的baby”,这个实体词是由“画画”,“的”,“baby”三个普通词组成,因此这实体词理论上不难被语音识别单元正确识别,因此可以过滤掉实体语料库中相关实体。

在一些实施例中,基础词可以是两个字以上的词汇。

应理解,实体语料库中的实体数量可能非常庞大,一些实体语料库中的实体数量可达 30万个。如果采用图2所示的语音处理的方法,实体语料库中的实体数量过多,会造成纠错速度的较慢的问题。采用过滤掉一部分实体后获得的实体词典,可以提高纠错速度。

在图4提供的实体词典的生成方法的基础上,如图5所示,还包括步骤S340:

S340,根据所述实体词典中的各个词条中的注音特征,生成注音特征索引。

在一些实施例中,该索引可以为Trie树,Trie树的每个节点为一声音单元,Trie树用于索引实体词典中各个词条中的注音特征。

应理解,通过本申请实施例提供的实体词典的生成方法,预先生成实体词典,该实体词典中包含实体和实体的注音特征的对应关系,可加快确定目标词汇的速度,另外,可以加快查找候选实体的速度。

另外,通过Trie树查询目标词汇的注音特征是否在实体词典中,可以用空间换时间,缩短查询时间。

在图2提供的语音处理的方法的实施例的基础上,步骤S120,提取所述第一文本信息中各个词汇的注音特征,如图6所示,包括步骤S121和S122:

S121,基于所述第一文本信息获得第二文本信息;所述第二文本信息包括所述第一文本信息中各个词汇的注音信息。

在一些实施例中,语音处理系统10的实体纠错单元110将汉字编码构成的一个或多个句子,通过查询汉字-拼音对照表,转换成汉语拼音编码构成的一个或多个句子。

作为一非限制性的示例,第一文本信息为语音识别单元120输出的“少管事被评为优秀旅游城市”实体纠错单元110将该句子转换为“shao guan shibei ping wei you xiulv you chengshi”。

在一些实施例中,所述注音信息可以是第一文本信息的汉语拼音,或者汉语拼音的编码;还可以是注音符号,例如我国台湾地区使用的注音符号。可以理解的是,本申请实施例在同样可以应用于具有注音符号的表意文字的处理,例如日文和韩文的汉字及其对应的注音符号。

S122,将各个注音信息中的模糊声音单元转换为归一化声音单元,获得各个注音信息的注音特征。

在一些实施例中,语音处理系统10的实体纠错单元110通过映射网络将模糊声音单元转换为归一化声音单元。该映射网络用于映射模糊声音单元和归一化声音单元。映射网路可以是采用模糊声音单元和归一化声音单元训练样本集训练得到的神经网络模型。

在一些实施例中,将各个注音信息中的模糊声音单元转换为归一化声音单元,包括:查询预设的对照表,将各个注音信息中的模糊声音单元转换为对应的归一化声音单元,获得各个注音信息的注音特征,所述预设的对照表包括预设的模糊声音单元和预设的归一化声音单元的对应关系。

为了更好的理解本申请实施例,表1提供了一种实施方式中的预设的对照表。在实施本申请的实施例时,可以对的语种或方言对该对照表进行调整和扩充,表1可以为任何计算机容易处理的数据形式,例如数据表、数据库等。表1仅为示例而非限定。表1中标记为“-”的单元格表示此单元格为空。

表1:

作为一非限制性的示例,通过查询表1,将上述第二文本信息“shao guan shibeiping wei you xiu lv you chengshi”中的模糊声音单元转换为归一化声音单元,获得“sao guan sibei pin wei you xiu lv you chensi”,将其作为第一文本信息的注音特征。

应理解,基于上述申请人对语音识别技术的第二方面的认识,正确的实体与该实体的错误识别词汇的发音相近,因此可以假设语音信息识别技术识别出的错误词汇与正确的实体的发音相近,不会差太远。因此,采用将模糊音进行归一化处理,转换为归一化声音单元的方式,提取词汇的注音特征,也就是提取词汇的共性,可以降低特征提取的复杂度,提高特征提取的速度,进而提高对实体纠错的处理效率。另外,通过预设的对照表的方式将模糊声音单元转换为归一化声音单元,可以起到空间换时间的效果,进一步的提高对实体纠错的处理效率。

在图2提供的语音处理的方法的实施例的基础上,根据所述实体词典中的各个词条中的注音特征,生成注音特征索引。如图7所示,步骤S130,所述确定所述第一文本信息中的任一词汇的注音特征在实体词典中。可以替换为步骤S130’:

S130’,通过所述注音特征索引,确定所述第一文本信息中任一词汇的注音特征在实体词典中。

在一些示例中,所述注音特征索引包括注音特征字典树,Trie树。

在一些实施例中,采用上述步骤S330的方法生成注音特征索引。作为一非限制性的示例,语音处理系统10的实体纠错单元110逐个查询第一文本信息中各个词汇的注音特征是否包含在Trie树中,若在Trie树中查询到任一词汇,则说明该词汇在实体词典中。

应理解,采用索引来查询注音特征是否在实体词典中,可提高查询速度。采用Trie树来查询,可以起到空间换时间的作用,从而加快查询速度。另外,Trie树通常是采用字符为节点的树状存储结构,本申请中采用注音特征的声音单元为节点的树状存储结构,可以更加适应对注音特征的查询,从而进一步提高查询效率。

在图2提供的语音处理的方法的实施例的基础上,步骤150,选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇。如图8所示,包括步骤S151 至S152:

S151,针对每个候选实体,获取所述目标词汇与所述候选实体之间相同字的数量,获取所述目标词汇与所述候选实体之间相同注音信息的数量,计算所述相同字的数量和所述相同注音信息的数量的加权和,将所述加权和作为所述候选实体与所述目标词汇间的所述匹配度。

作为一非限制性的示例,目标词汇为“天堂”,一个候选实体为“天坛”,这两个词汇的相同字的数量为1个。

作为一非限制性的示例,目标词汇为“少管事”,候选实体为“韶关市”,这两个词汇的相同字的数量为0个。

作为一非限制性的示例,目标词汇“少管事”的注音信息为“shaoguanshi”,候选实体“韶关市”的注音信息为“shaoguanshi”,这两个注音信息的相同注音信息的数量为3。

作为一非限制性的示例,目标词汇“少管事”的注音信息为“shaoguanshi”,候选实体“韶光市”的注音信息为“shaoguangshi”,这两个注音信息的相同注音信息的数量为2。

应理解,分别计算目标词汇与候选实体之间相同字的数量和相同注音信息的数量,可以从多个维度衡量目标词汇和候选实体之间的匹配度,避免单一维度造成的匹配度偏差过大,从而提高匹配度的准确性。

在一些实施例中,可以采用计算相同字的数量和相同注音信息的数量加权和的方式计算匹配度。

作为一非限制性的示例,相同字的数量的权值a为0.6,相同注音信息的数量的权值b 为0.4,第一文本信息为“少管事被评为优秀旅游城市。”,确定候选实体有“韶关市”和“韶光市”。

目标词汇为“少管事”,其注音信息为“shaoguanshi”;获选实体为“韶关市”,其注音信息为“shaoguanshi”。那么相同字的数量为0,相同注音信息的数量为3,匹配度为 a*0+b*3=0.6*0+0.4*3=1.2。

目标词汇为“少管事”,其注音信息为“shaoguanshi”;获选实体为“韶光市”,其注音信息为“shaoguangshi”。那么相同字的数量为0,相同注音信息的数量为3,匹配度为 a*0+b*3=0.6*0+0.4*2=0.8。

图9a和图9b示出的是本申请实施例提供的计算目标词汇和候选实体的匹配度的示意图。在该示例中,相同字的数量的权值a为1,相同注音信息的数量的权值b为1。该示例是一个计算机代码的具体实现方式,如图9a和图9b所示,SCORE1和SCORE2分别为为目标词汇分别与两个候选实体的匹配度,len()表示求取集合元素个数,set()表示集合数据类型, set()括号内为该集合的元素,&为求取两个集合的交集计算符。为了更直观理解该具体示例,采用实线箭头标注出相同的元素,采用虚线箭头标注出不同的元素。

应理解,权值可以根据实际情况,在有限次试验的基础上进行调整,本申请实施例提供的权值示例并非对本申请提供的语音处理的方法的限定。

应理解,基于上述对语音信息识别技术的认识的第二点,正确的实体与该实体的错误识别词汇的发音相近,因此可以假设语音信息识别技术识别出的错误词汇与正确的实体的发音相近,不会差太远。采用目标词汇与候选实体之间相同字的相同字的数量,以及目标词汇与所述候选实体之间相同注音信息的数量计算匹配度,可以降低运算的复杂度,减少对计算资源的占用,从而提高处理速度,提高处理效率。

S152,选取所述匹配度最高的候选实体替换所述目标词汇。

在一些实施例中,将各个候选实体与目标词汇的匹配度进行排序,选取匹配度最高的候选实体,替换所述目标词汇。

作为一非限制性的示例,如匹配度的计算结果,“少管事”和“韶关市”的匹配度为1.2,“少管事”和“韶光市”的匹配度为0.8,候选实体“韶关市”的匹配度最高,选取候选实体“韶关市”替换目标词汇“少管事”。

在一些实施例中,若多个候选实体与目标词汇的匹配度相同,可以生成提示信息,在提示信息中心向用户展示可选的实体。响应用户的选择操作,采用用户选定的候选实体替换所述目标词汇。也可以进一步采用其他匹配算法计算候选实体与目标词汇的匹配度,采用匹配度最高的候选实体替换目标词汇。

可以理解的是,采用相同字的数量和相同注音信息的数量,基于上述申请人对语音识别技术的第二方面的认识,可以快速的确定匹配度,计算量相对于其他匹配度计算方式速度更快,需要的硬件计算资源更少。

应理解,上述图3、图4和图5所示的实施例中的各种实施方式,可以合理的进行组合应用,为了说明如何组合上述图3、图4和图5所示的实施例中的各种实施方式,作为一非限制性的示例,图10示出了一种具体的实体词典生成方法,以便更好的理解和实施本申请的实施例。

本申请实施例提供的语音处理系统10获取实体语料库,该实体语料库可以是电子化的实体词典,该实体词典不包含实体和实体的注音特征的对应关系。对实体语料库进行过滤,去除可以由普通词典的基础词构成的实体,得到过滤后的实体语料库。再对过滤后的实体语料库提取各个实体的注音特征,进行归并处理,获得包含实体和实体的注音特征对应关系的实体词典。对包含实体和实体的注音特征对应关系的实体词典建立索引,获得注音特征Trie 树。由此,可获得包含实体和实体的注音特征的对应关系的实体词典,和实体词典中实体的注音特征构成的Trie树。

应理解,上述实施例提供的语音处理的方法的各种实施方式,可以合理的进行组合应用,为了说明如何组合上述实施例中的各种实施方式,作为一非限制性的示例,图11示出了一种具体的语音处理的方法,以便更好的理解和实施本申请的实施例。

如图11所示,第一文本信息可以是中文句子,作为一非限制性的示例第一文本信息为“少管事被评为优秀旅游城市”。对此文本信息进行分词处理后,对分词后的每个词汇进行归一化处理,获得各个词汇的注音特征。通过预先建立的Trie树进行索引,若任一词汇的注音特征可以在Trie树中被查询到,则确定该词汇为目标词汇。在实体词典中查询目标词汇的注音特征对应的实体,作为候选实体。获取所述目标词汇与所述候选实体之间相同字的数量,获取所述目标词汇与所述候选实体之间相同注音信息的数量,计算所述相同字的数量和所述相同注音信息的数量的加权和,将所述加权和作为所述候选实体与所述目标词汇间的所述匹配度,将匹配度最高的实体作为替换实体。采用该替换实体替换第一文本信息中的目标词汇,获得修正文本信息。应理解,若第一文本信息中包含多个目标词汇,则重复以上步骤即可实现对全部目标词汇的修正。

应理解,图10和图11示出的具体实体,是为了说明如何将本申请实施例的各种不同的实施方式进行组合应用,并非对本申请的具体限定。

为了便于理解和实施本申请实施例,本申请实施例提供的语音处理的方法几种作为一非限制性的示例应用场景。

本申请实施例提供一种语音处理的方法在机器人的应用场景。该机器人包含上述的语音处理系统10,该机器人获取用户的语音后,通过上述语音处理系统,以上述语音处理的方法修正对用户的语音信息的识别结果,获得修正后的语音识别结果。该机器人可以根据修正后的语音识别结果与用户互动,包括但不限于回答用户问题、执行用户指令等动作。机器人可以是执行人机命令,完成人机命令对应操作的设备。作为示例而非限定,机器人可以是行走机器人、固定的对话机器人。可以理解的是,智能汽车可以看做是一种特殊的机器人。

本申请实施例提供一种在翻译机的应用场景。该翻译机包含上述的语音处理系统10,该翻译机获取用户的语音后,通过上述语音处理系统,以上述语音处理的方法修正对用户的语音信息的识别结果,获得修正后的语音识别结果。该翻译机将修正后的语音识别结果翻译成用户指定的或预先设定的语言后,以显示文本信息的方式展示翻译结果,或将翻译结果合成语音,通过发声设备展示翻译结果。

本申请实施例提供一种在语音输入设备的应用场景。该语音输入设备包含上述的语音处理系统10,该语音输入设备获取用户的语音后,通过上述语音处理系统,以上述语音处理的方法修正对用户的语音信息的识别结果,获得修正后的语音识别结果。该语音输入设备可以对修正后的语音识别结果执行包括但不限于存储、显示和发送至其他设备等操作。作为示例而非限定,语音输入设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机 (ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant, PDA)等终端设备

本申请实施例提供一种在可穿戴设备的应用场景。可穿戴设备是直接穿在用户身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,还可以通过软件支持以及数据交互、云端交互来实现更多的功能。作为一非限制性的示例,可穿戴设备可以是一种耳机。该可穿戴设备包含上述的语音处理系统10,该可穿戴设备获取用户的语音后,通过上述语音处理系统,以上述语音处理的方法修正对用户的语音信息的识别结果,获得修正后的语音识别结果。该可穿戴设备可以对修正后的语音识别结果执行包括但不限于存储、显示和发送至其他设备等操作。

作为示例而非限定,当所述终端设备为可穿戴设备时,该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,如智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。

本领域技术人员可以理解,上述几种应用场景中的设备机器人、翻译机、语音输入设备、可穿戴设备可以包含更多或更少的部件,或者组合某些部件,或者不同的部件布置。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

对应于上述图2所示的语音处理的方法,图12示出的是本申请实施例提供的一种语音处理的装置M100,包括:

第一文本信息获取模块M110,获取第一文本信息,所述第一文本信息是对语音信息的识别结果;

注音特征提取模块M120,提取所述第一文本信息中各个词汇的注音特征,所述注音特征为词汇注音信息的特征;

目标词汇确定模块M130,若确定所述第一文本信息中的任一词汇的注音特征在实体词典中,则将该词汇作为目标词汇,所述目标词汇的注音特征为目标注音特征;

候选实体确定模块M140,将所述实体词典中注音特征与所述目标注音特征相同的实体作为候选实体;

目标词汇替换模块M150,选取与所述目标词汇匹配度最高的候选实体替换所述第一文本信息中的所述目标词汇。

可以理解的是,以上实施例中的各种实施方式和实施方式组合及其有益效果同样适用于本实施例,这里不再赘述。

图13为本申请一实施例提供的电子设备的结构示意图。该电子设备用于实现上述语音处理系统,该电子设备可以是上述各种示例性应用场景中的机器人、翻译机、语音输入设备、和穿戴式设备。应理解,当该电子设备为上述各种示例性应用场景中的设备时,还可以包含相应的电源单元、动力单元、输入单元、输出单元、通信单元等装置或部件,这里不再一一列举。

如图13所示,该实施例的电子设备D10包括:至少一个处理器D100(图13中仅示出一个)处理器、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

所述电子设备D10可以是机器人、翻译机、语音输入设备、和穿戴式设备等设备。该电子设备可包括,但不仅限于,处理器D100、存储器D101。本领域技术人员可以理解,图 13仅仅是电子设备D10的举例,并不构成对电子设备D10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。

所称处理器D100可以是中央处理单元(Central Processing Unit,CPU),该处理器D100 还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述电子设备D10的内部存储单元,例如电子设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述电子设备D10的外部存储设备,例如所述电子设备D10上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述电子设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

相关技术
  • 语音处理系统、语音处理方法、电子设备和可读存储介质
  • 车内语音处理方法及系统、电子设备及存储介质
技术分类

06120113117127