掌桥专利:专业的专利平台
掌桥专利
首页

一种交互式热词更新的语音识别方法与系统

文献发布时间:2023-06-19 12:00:51


一种交互式热词更新的语音识别方法与系统

技术领域

本发明涉及语音识别方法与系统领域,具体涉及一种交互式热词更新的语音识别方法与系统。

背景技术

随着信息技术的发展,互联网的普及,实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求;

近年来,随着语音识别技术的飞速发展,语音输入、语音识别、语音判断等各种在线语音识别受到了越来越多的关注,预先基于海量数据训练的系统能满足常用语输入撰写的需要,特别当语音输入内容符合原语言模型概率分布时识别准确率往往较高,然而在实际应用中,移动互联网和社交网络快速发展不断产生着新的热点话题及相应的热点词汇,在现有技术中采用对所有的用户场景提供一致的识别结果,但是难以满足用户的个性化需求,不同用户也存在不同个性化词汇的识别需求,但是由于一些热点词汇或个性化词汇由于时效性和特异性在进行识别、转写、判断时因出现频率较低,导致系统不能准确识别、转写、判断;

并且现有的语音识别方法中,对识别得到的文本结果进行热词更新时需要重新经过语音识别模块、解码器后重新识别音频,从而得到加入热词后的文本结果,但这一过程耗时较长,无法做到实时刷新的文本;

针对现有的情况,希望能够有一种满足用户个性化需求的同时增加识别效率的交互式热词更新的语音识别方法与系统。

发明内容

本发明要解决的技术问题是提供一种交互式热词更新的语音识别方法,采用识别语音单元对音频进行识别、转写、解码并生成识别文本结果进行判断,若判断不准确,可增加热词后结合热词再次进行识别、转写、解码后生成结合文本结果,以达到最高的准确率的同时满足不同用户的个性化需求,实现交互的功能;

新增的编码器对音频进行识别、转写生成识别文本结果;

新增的解码器对识别文本结果进行缓存的同时将识别文本结果进行解码后与热词结合再进行识别、转写后生成结合识别结果进行判断,减少了对音频的再次识别与转写的步骤,提高了准确率的同时增加整个过程的效率,节约了音频与热词更新时所需要的时间的开销,快速进行处理;

新增的解码器还能够将热词分数表与识别文本结果、热词结合后再进行识别、转写后生成结合识别结果进行判断,热词分数表用于对热词进行加分,相同的热词每增加一次便进行一次的加分,分数越高的热词在进行识别时的识别度越高、被转写的机率越多,有效提高识别、转写的准确率;

通过热词列表能够记录被增加以及用户自设定的热词,实现用户个性化热词库的创建,满足每个用户的个性化的需求,实现交互式热词更新的效果,用以解决现有技术导致的缺陷。

本发明还提供一种交互式热词更新的语音识别系统。

为解决上述技术问题本发明提供以下的技术方案:

一种交互式热词更新的语音识别方法,其中,包括以下步骤:

对接收的音频进行识别、转写后输出识别文本结果;

判断该识别文本结果是否准确;若准确,则输出该识别文本结果;若不准确,则增加热词;

将所述识别文本结果以现有的任意一种方式与热词进行结合,比如加在识别文本结果前段或识别文本结果中间或识别文本结果后段增加热词,再进行识别、转写后输出结合文本结果并进行上述判断,若准确,则输出该结合文本结果;

若不准确,则增加热词,重复上一个步骤,直至判断准确,输出该结合文本结果。

上述的一种交互式热词更新的语音识别方法,其中,所述热词为管理员定义的热词或者用户自定义的热词。

上述的一种交互式热词更新的语音识别方法,其中,接收的音频的方式可以采用本领域常规方式,例如,在系统内部已存的音频库中接收音频,或者从外部接收音频。优选的,所述接收的音频为用户输入的一段音频,并将该一段音频存储到音频集合。

上述的一种交互式热词更新的语音识别方法,其中,对接收的音频进行识别、转写的过程还包括对音频的解码,生成解码结果,所述解码结果包含在所述识别文本结果中,并对所述识别文本结果进行缓存。

上述的一种交互式热词更新的语音识别方法,其中,所述输出结合文本结果之前对该文本结果进行打分生成字级别的解码分数,所述输出的结合文本结果包括文本、以及打分生成的字级别的解码分数。

上述的一种交互式热词更新的语音识别方法,其中,还包括对增加的热词进行管理生成包含热词的热词列表。

上述的一种交互式热词更新的语音识别方法,其中,每增加一次不同的热词会将新增的热词更新在所述热词列表中。

上述的一种交互式热词更新的语音识别方法,其中,每增加一次热词均对对应的热词进行一次加分,并生成热词分数表,热词的分数越高出现在识别文本结果或结合文本结果中的机率越大。

上述的一种交互式热词更新的语音识别方法,其中,对识别文本结果与热词结合进行识别、转写的过程还包括将所述热词分数表与所述识别文本结果、所述热词结合进行识别、转写重新输出一个结合文本结果。

上述的一种交互式热词更新的语音识别方法,其中,还包括对缓存的识别文本结果重新解码并与所述热词分数表、所述识别文本结果、所述热词结合进行识别、转写重新输出一个结合文本结果。

一种交互式热词更新的语音识别系统,其中,包括:

语音识别单元,用于接收音频并进行识别、转写后生成识别文本结果;

文本判断单元,用于判断识别文本结果是否准确;

判断处理单元,若判断为准确,则输出该识别本文结果,若判断不准确,则需增加热词;

热词增加单元,用于进行热词的增加;

所述语音识别单元还用于将所述识别文本结果与所述热词结合进行识别、转写后输出结合文本结果。

上述的一种交互式热词更新的语音识别系统,其中,还包括音频获取单元,用于获取所述音频并进行存储生成音频集合。

上述的一种交互式热词更新的语音识别系统,其中,所述音频获取单元通过无线与用户音频输入模块创建连接用于获取所述音频。

上述的一种交互式热词更新的语音识别系统,其中,所述音频为用户输入的一段音频。

上述的一种交互式热词更新的语音识别系统,其中,所述语音识别单元还包括编码单元与解码单元;

所述编码单元用于接收所述音频并进行识别与转写并生成识别文本结果;

所述解码单元用于对所述音频进行解码并生成解码结果,将所述解码结果导入至所述识别文本结果中;

所述解码单元内设缓存单元,用于缓存解码后的所述识别文本结果;

所述解码单元内设打分模块,用于生成字级别的解码分数并导入至所述识别文本结果中;

所述解码单元还用于对缓存的所述识别文本结果进行重新解码并与识别文本结果、热词结合进行识别、转写后输出结合文本结果。

上述的一种交互式热词更新的语音识别系统,其中,所述热词增加单元内置有热词列表生成模块;

所述热词列表生成模块用于记录增加的热词并生成热词列表。

上述的一种交互式热词更新的语音识别系统,其中,所述热词增加单元内置有热词加分模块;

所述热词加分模块用于对增加的热词对应的热词进行加分,并生成热词分数表;

上述的一种交互式热词更新的语音识别系统,其中,所述解码单元还用于将所述热词分数表与所述识别文本结果、所述热词结合进行识别、转写重新输出一个结合文本结果。

上述的一种交互式热词更新的语音识别系统,其中,所述解码单元还用于对缓存的识别文本结果进行重新解码并与所述识别文本结果、所述热词、所述热词分数表结合进行识别、转写重新输出一个结合文本结果。

上述的一种交互式热词更新的语音识别系统,其中,所述解码模块内置有声学模型、语言模型、热词模型。所述热词模型是神经网络模型。

一种交互式热词更新语音识别系统的存储器,所述存储器上存储有计算机程序与执行指令,其中,该计算机程序被处理器执行时实现上述中任一项所述的方法。

一种芯片,其中,所述芯片上安装有所述存储器,用于从芯片中调所述存储器中存储的所述计算机程序并执行,使得安装有所述芯片的设备执行上述中任一项所述的方法。

一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述的方法的步骤。

一种计算机程序产品,其中,包括计算机程序指令,该计算机程序指令使得计算机执行上述中任一项所述的方法。

一种交互式热词更新的语音识别装置,其中,包括处理器、语音识别器、编码器、解码器、存储器,所述处理器内置有判断处理器、热词处理器,所述解码器内置有缓存器;

所述语音识别器连接于所述编码器,所述编码器连接于所述解码器,所述处理器分别控制连接所述解码器、所述存储器、所述判断处理器、所述热词处理器;

所述处理器控制所述存储器运行计算机程序执行指令实现上述中任一项所述的方法。

上述的一种交互式热词更新的语音识别装置,其中,还包括用户语音输入器,所述语音识别器与所述用户语音输入器创建连接实现数据交互,用于获取所述用户语音输入器中存储的音频。

依据上述本发明一种交互式热词更新的语音识别方法与系统提供的技术方案具有以下技术效果:

采用识别语音单元对音频进行识别、转写、解码并生成识别文本结果进行判断,若判断不准确,可增加热词后结合热词再次进行识别、转写、解码后生成结合文本结果,以达到最高的准确率的同时满足不同用户的个性化需求,实现交互的功能;

新增的编码器对音频进行识别、转写生成识别文本结果;

新增的解码器对识别文本结果进行缓存的同时将识别文本结果进行解码后与热词结合再进行识别、转写后生成结合识别结果进行判断,减少了对音频的再次识别与转写的步骤,提高了准确率的同时增加整个过程的效率,节约了音频与热词更新时所需要的时间的开销,快速进行处理;

新增的解码器还能够将热词分数表与识别文本结果、热词结合后再进行识别、转写后生成结合识别结果进行判断,热词分数表用于对热词进行加分,相同的热词每增加一次便进行一次的加分,分数越高的热词在进行识别时的识别度越高、被转写的机率越多,有效提高识别、转写的准确率;

通过热词列表能够记录被增加以及用户自设定的热词,实现用户个性化热词库的创建,满足每个用户的个性化的需求,实现交互式热词更新的效果。

附图说明

图1为本发明一种交互式热词更新的语音识别方法的流程示意图;

图2为本发明一种交互式热词更新的语音识别系统的结构示意图;

图3为本发明一种交互式热词更新的语音识别装置的结构示意图;

图4为本发明一种交互式热词更新的语音识别系统的解码单元结构示意图;

图5为现有语音识别系统的结构示意图。

其中,附图标记如下:

语音识别单元101、文本判断单元102、判断处理单元103、热词增加单元104、编码单元105、解码单元106、缓存单元107、打分模块108、处理器201、语音识别器202、编码器203、解码器204、存储器205、缓存器206。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。

同时,本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本发明的一较佳实施例是提供一种交互式热词更新的语音识别方法与系统,目的是采用识别语音单元对音频进行识别、转写、解码并生成识别文本结果进行判断,若判断不准确,可增加热词后结合热词再次进行识别、转写、解码后生成结合文本结果,以达到最高的准确率的同时满足不同用户的个性化需求,实现交互的功能;

新增的编码器对音频进行识别、转写生成识别文本结果;

新增的解码器对识别文本结果进行缓存的同时将识别文本结果进行解码后与热词结合再进行识别、转写后生成结合识别结果进行判断,减少了对音频的再次识别与转写的步骤,提高了准确率的同时增加整个过程的效率,节约了音频与热词更新时所需要的时间的开销,快速进行处理;

新增的解码器还能够将热词分数表与识别文本结果、热词结合后再进行识别、转写后生成结合识别结果进行判断,热词分数表用于对热词进行加分,相同的热词每增加一次便进行一次的加分,分数越高的热词在进行识别时的识别度越高、被转写的机率越多,有效提高识别、转写的准确率;

通过热词列表能够记录被增加以及用户自设定的热词,实现用户个性化热词库的创建,满足每个用户的个性化的需求,实现交互式热词更新的效果。

第一方面,如图1所示,一种交互式热词更新的语音识别方法,其中,包括以下步骤:

对接收的音频进行识别、转写后输出识别文本结果;

判断该识别文本结果是否准确;若准确,则输出该识别文本结果;若不准确,则增加热词;

将识别文本结果与热词结合进行识别、转写后输出结合文本结果并进行上述判断,若准确,则输出该结合文本结果;

若不准确,则增加热词,重复上一个步骤,直至判断准确,输出该结合文本结果;

在具体过程中识别文本结果记载对音频进行的识别与转写后的内容,在增加热词后只需要将增加的热词与识别文本结果结合进行再次处理得到结合文本结果,无需再对音频进行处理,减少了处理的步骤。

本实施例提供的一种交互式热词更新的语音识别方法,其中,热词为管理员定义的热词或者用户定义的热词。

本实施例提供的一种交互式热词更新的语音识别方法,其中,接收的音频为用户输入的一段音频,并将该一段音频存储到音频集合。

本实施例提供的一种交互式热词更新的语音识别方法,其中,对音频进行识别、转写的过程还包括对音频的解码,生成解码结果,解码结果包含在识别文本结果中,并对识别文本结果进行缓存。

本实施例提供的一种交互式热词更新的语音识别方法,其中,所述输出结合文本结果之前对该文本结果进行打分生成字级别的解码分数,所述输出的结合文本结果包括文本、以及打分生成的字级别的解码分数。解码分数根据热词与识别文本结果中的词进行一个一个字的比对,相同的字越多其进行的打分越高,其解码分数越高,解码分数越高,识别文本结果中的词与热词的相似度越高。

本实施例提供的一种交互式热词更新的语音识别方法,其中,还包括对增加的热词进行管理生成包含热词的热词列表。

本实施例提供的一种交互式热词更新的语音识别方法,其中,每增加一次不同的热词会将新增的热词更新在热词列表中;

热词由用户自定义(用户可以自己增加热词)或者由管理员定义(即由系统管理员操作进行热词增加),热词列表能够记载所出现的所有热词并且在进行热词的增加时,对于增加的热词如果之前没有出现过会将该热词增加到热词列表中,用于能够基于该热词列表制定自己的个性化热词列表,以满足自己的需求,使得音频处理检索时增加效率的同时增加准确度。

本实施例提供的一种交互式热词更新的语音识别方法,其中,其特征在于,每增加一次热词均对对应的热词进行一次加分,并生成热词分数表,热词的分数越高出现在识别文本结果或结合文本结果中的机率越大。

本实施例提供的一种交互式热词更新的语音识别方法,其中,对识别文本结果与热词结合进行识别、转写的过程还包括将热词分数表与识别文本结果、热词结合进行识别、转写重新输出一个结合文本结果。

本实施例提供的一种交互式热词更新的语音识别方法,其中,还包括对缓存的识别文本结果重新解码并与热词分数表、识别文本结果、热词结合进行识别、转写重新输出一个结合文本结果。

第二方面,如图2所示,一种交互式热词更新的语音识别系统,其中,包括:

语音识别单元101,用于接收音频并进行识别、转写后生成识别文本结果;

文本判断单元102,用于判断识别文本结果是否准确;

判断处理单元103,若判断为准确,则输出该识别本文结果,若判断不准确,则需增加热词;

热词增加单元104,用于进行热词的增加;

语音识别单元101还用于将识别文本结果与热词结合进行识别、转写后输出结合文本结果。

本实施例提供的一种交互式热词更新的语音识别系统,其中,还包括音频获取单元,用于获取音频并进行存储生成音频集合。

本实施例提供的一种交互式热词更新的语音识别系统,其中,音频获取单元通过无线与用户音频输入模块创建连接用于获取音频。

本实施例提供的一种交互式热词更新的语音识别系统,其中,音频为一段音频。

本实施例提供的一种交互式热词更新的语音识别系统,其中,语音识别单元101还包括编码单元105与解码单元106;

编码单元105用于接收音频并进行识别与转写并生成识别文本结果;

解码单元106用于对音频进行解码并生成解码结果,将解码结果导入至识别文本结果中;

解码单元106内设打分模块,用于生成字级别的解码分数并导入至识别文本结果中;

解码单元106内设缓存单元107,用于缓存解码后的识别文本结果;

解码单元106还用于还用于对缓存的识别文本结果进行重新解码并与识别文本结果、热词结合进行识别、转写后输出结合文本结果。

本实施例提供的一种交互式热词更新的语音识别系统,其中,热词增加单元104内置有热词列表生成模块;

热词列表生成模块用于记录增加的热词并生成热词列表。

本实施例提供的一种交互式热词更新的语音识别系统,其中,热词增加单元104内置有热词加分模块;

热词加分模块用于对增加的热词对应的热词进行加分,并生成热词分数表;

本实施例提供的一种交互式热词更新的语音识别系统,其中,解码单元106还用于将热词分数表与识别文本结果、热词结合进行识别、转写重新输出一个结合文本结果。

本实施例提供的一种交互式热词更新的语音识别系统,其中,解码单元106还用于对缓存的识别文本结果进行重新解码并与识别文本结果、热词、热词分数表结合进行识别、转写重新输出一个结合文本结果。

如图4所示,本实施例提供的一种交互式热词更新的语音识别系统,其中,解码单元106(解码器)内置有声学模型(例如,GMM HMM DNN RNN)、语言模型(例如,生成性模型、分析性模型、辨识性模型)、热词模型以及缓存单元107。其中,热词模型是神经网络模型,区别于现有的热词功能(通常是一个词或分数的大字典)。本发明的解码单元106中设有缓存单元107,而现有技术中解码单元106内未设缓存单元107(见图5),并且现有技术中对文本进行一次判断后需要重新进行编码、解码后再进行判断,本发明的缓存单元107可以缓存声学模型和语言模型的分数,还能够缓存识别文本结果,判断后可在增加热词后直接进行再次判断,大大增加了热词刷新的速度。假设对“肯德基”这个词进行识别,第一次的识别文本结果判断不准确,则将该识别文本结果存储在解码单元106中的缓存单元107中(此时在缓存单元107中,根据声学模型、语言模型的分数为:啃得鸡76分,肯得鸡52分,肯德基44分);然后增加热词“肯德基”至热词列表中,打分模块108直接获取在缓存单元107内已经缓存的声学模型、语言模型的分数和识别文本结果等数据并与热词列表增加的热词“肯德基”进行比较判断重新打分后输出最终的“肯德基”结果分值为95分,相似度越高分数越高。由于可直接获取缓存单元107内数据,大大增加了判断的速率和热词刷新的速度。因此,本发明与现有技术的最大区别在于:1. 语音识别能做热词;2. 由于本发明的解码单元106中设有缓存单元107,减少了操作的步骤,大大加快了热词刷新速度。

第三方面,一种交互式热词更新语音识别系统的存储器205,存储器205上存储有计算机程序与执行指令,其中,该计算机程序被处理器201执行时实现上述任一项的方法。

例如,存储器205可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等;

处理器201可以是中央处理器(Central Processing Unit,CPU)等,或者是图像处理器(Graphic Processing Unit,GPU)存储器205可以存储可执行指令;

处理器201可以执行在存储器205中存储的执行指令,从而实现本文描述的各个过程。

可以理解,本实施例中的存储器205可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;

其中,非易失性存储器可以是ROM (Read-OnlyMemory,只读存储器)、PROM(ProgrammableROM,可编程只读存储器)、EPROM (ErasablePROM,可擦除可编程只读存储器)、EEPROM (ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。

易失性存储器可以是RAM (RandomAccessMemory,随机存取存储器),其用作外部高速缓存;

通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM (StaticRAM,静态随机存取存储器)、DRAM (DynamicRAM,动态随机存取存储器)、SDRAM (SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM (DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM (Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM (DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器205旨在包括但不限于这些和任意其它适合类型的存储器205。

在一些实施方式中,存储器205存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序;

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

第四方面,一种芯片,其中,芯片上安装有存储器205,用于从芯片中调存储器205中存储的计算机程序并执行,使得安装有芯片的设备执行上述任一项的方法。

第五方面,一种计算机可读存储介质,其中,计算机可读存储介质上存储有计算机程序,计算机程序被处理器201执行时实现上述任一项的方法的步骤。

第六方面,一种计算机程序产品,其中,包括计算机程序指令,该计算机程序指令使得计算机执行上述任一项的方法。

第七方面,如图3所示,一种交互式热词更新的语音识别装置,其中,包括处理器201、语音识别器202、编码器203、解码器204、存储器205,处理器201内置有判断处理器201、热词处理器201,解码器204内置有缓存器206;

语音识别器202连接于编码器203,编码器203连接于解码器204,处理器201分别控制连接解码器204、存储器205、判断处理器、热词处理器;

处理器201控制存储器205运行计算机程序执行指令实现上述任一项的方法;

语音识别器202获取音频后由编码器203进行识别、转写后生成传输至解码器204的识别文本结果,由解码器204传输识别文本结果至判断处理器201进行判断,判断准确直接输出,判断不准确先增加热词后再通过解码器204进行识别、转写后生成传输至判断处理器201进行判断的结合文本结果,判断准确直接输出,判断不准确再重复上一个步骤。

本实施例提供的一种交互式热词更新的语音识别装置,其中,还包括用户语音输入器,语音识别器202与用户语音输入器创建连接实现数据交互,用于获取用户语音输入器中存储的音频。

本领域技术人员可以明白的是,结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现;

这些功能是以硬件还是软件方式来实现,取决于技术方案的特定应用和设计约束条件;

本领域技术人员可以针对每个特定的应用,使用不同的方式来实现所描述的功能,但是这种实现并不应认为超出本申请的范围。

在本申请实施例中,所公开的系统、装置和方法可以通过其它方式来实现;

例如,单元的划分仅仅为一种逻辑功能划分,在实际实现时还可以有另外的划分方式;

例如,多个单元或组件可以进行组合或者可以集成到另一个系统中;

另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是单独的物理存在等等。

应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在机器可读存储介质中;

因此,本申请的技术方案可以以软件产品的形式来体现,该软件产品可以存储在机器可读存储介质中,其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程;

上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

综上,本发明的一种交互式热词更新的语音识别方法与系统,能够采用识别语音单元对音频进行识别、转写、解码并生成识别文本结果进行判断,若判断不准确,可增加热词后结合热词再次进行识别、转写、解码后生成结合文本结果,以达到最高的准确率的同时满足不同用户的个性化需求,实现交互的功能;

新增的编码器对音频进行识别、转写生成识别文本结果;

新增的解码器对识别文本结果进行缓存的同时将识别文本结果进行解码后与热词结合再进行识别、转写后生成结合识别结果进行判断,减少了对音频的再次识别与转写的步骤,提高了准确率的同时增加整个过程的效率,节约了音频与热词更新时所需要的时间的开销,快速进行处理;

新增的解码器还能够将热词分数表与识别文本结果、热词结合后再进行识别、转写后生成结合识别结果进行判断,热词分数表用于对热词进行加分,相同的热词每增加一次便进行一次的加分,分数越高的热词在进行识别时的识别度越高、被转写的机率越多,有效提高识别、转写的准确率;

通过热词列表能够记录被增加以及用户自设定的热词,实现用户个性化热词库的创建,满足每个用户的个性化的需求,实现交互式热词更新的效果。

以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。

相关技术
  • 一种交互式热词更新的语音识别方法与系统
  • 一种基于智慧终端的语音交互式访客身份识别方法及系统
技术分类

06120113134678