掌桥专利:专业的专利平台
掌桥专利
首页

热词管理方法、语音识别方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:54:45


热词管理方法、语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域,尤其涉及一种热词管理方法、语音识别方法、装置、设备及存储介质。

背景技术

近年来,随着语音技术的飞速发展,语音识别技术凭借其智能、高效和人性化的优势,被广泛应用于生产、生活等各个行业领域。在语音转文字这项技术的应用上,转写的正确率是最基本的要求。

目前市面上有很多语音识别相关的硬件产品或软件产品,它们作为消费级产品逐渐走进个人的工作和学习中。语音识别产品对于一些专业名词,识别的效果不是很好,需要用户人工修改转写后的文本。但是修改的文本没有形成数据积累,因此,在之后的语音识别任务中,依然无法将语音转写为准确地文本。

发明内容

为了解决上述问题,本申请提出一种热词管理方法、语音识别方法、装置、设备及存储介质,能够显著提升语音转写文本的准确性。

根据本申请实施例的第一方面,提供了一种热词管理方法,包括:

获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;

根据所述目标热词更新所述热词库,得到更新后的热词库;其中,所述热词库用于辅助对待识别语音进行语音识别

根据本申请实施例的第二方面,提供了一种语音识别方法,包括:

基于预先构建的热词库,对待识别语音进行语音识别,得到语音识别结果;

其中,所述热词库包括从用户对历史语音识别结果进行编辑修正后的文本中选出的、与用户编辑修正操作对应的文本词。

根据本申请实施例的第三方面,提供了一种热词管理装置,包括:

获取模块,用于获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

确定模块,用于根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

选择模块,用于基于热词库和所述热词候选词在用户历史语音数据出现的使用情况,在所述热词候选词中确定目标热词;

更新模块,用于根据所述目标热词更新所述热词库,得到更新后的热词库;其中,所述热词库用于辅助对待识别语音进行语音识别。

根据本申请实施例的第四方面,提供了一种语音识别装置,包括:

识别模块,用于基于预先构建的热词库,对待识别语音进行语音识别,得到语音识别结果;

其中,所述热词库包括从用户对历史语音识别结果进行编辑修正后的文本中选出的、与用户编辑修正操作对应的文本词。

本申请第五方面提供了一种电子设备,包括:

存储器和处理器;

所述存储器与所述处理器连接,用于存储程序;

所述处理器,通过运行所述存储器中的程序,实现上述的热词管理方法或语音识别方法。

本申请第六方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的热词管理方法或语音识别方法。

上述申请中的一个实施例具有如下优点或有益效果:

利用对第一文本进行编辑的编辑类型,在第二文本中确定热词候选词;基于热词库和热词候选词在用户历史语音数据中的使用情况,在热词候选词中确定目标热词,再根据目标热词更新热词库,得到更新后的热词库。如此,可以对编辑的文本进行数据累积,在编辑后的文本中选择出更符合用户习惯的个性化目标热词,再根据目标热词更新热词库,这样,根据更新后的热词库辅助进行语音识别,可以提升语音转写文本的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种热词管理方法的流程示意图;

图2为本申请实施例提供另一种热词管理方法的流程示意图;

图3为本申请实施例提供的针对不同编辑类型对编辑文本进行处理的具体流程示意图;

图4为本申请实施例提供的另一种热词管理方法的流程示意图;

图5为本申请实施例提供的热词候选词确定目标热词的具体流程示意图;

图6为本申请实施例提供的管理热词的具体流程示意图;

图7为本申请实施例提供的一种语音识别方法的流程示意图;

图8为本申请实施例提供的一种热词管理装置的结构示意图;

图9为本申请实施例提供的另一种语音识别装置的结构示意图;

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于应用在各种语音识别的场景中,例如,会议场景、在线教育场景等。采用本申请实施例技术方案,能够提升语音转写文本的准确性。

本申请实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备,或包装成软件程序被运行,当硬件设备执行本申请实施例技术方案的处理过程,或上述软件程序被运行时,可以实现在热词库上更新符合用户习惯的个性化热词的目的。本申请实施例只对本申请技术方案的具体处理过程进行示例性介绍,并不对本申请技术方案的具体实现形式进行限定,任意的可以执行本申请技术方案处理过程的技术实现形式,都可以被本申请实施例所采用。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

示例性方法

图1是根据本申请一实施例的热词管理方法的流程图。在一示例性实施例中,提供了一种热词管理方法,包括:

S110、获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

S120、根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

S130、基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;

S140、根据所述目标热词更新所述热词库,得到更新后的热词库;其中,所述热词库用于辅助对待识别语音进行语音识别。

在步骤S110中,示例性地,第一文本用于表示语音识别得到的文本。语音识别是将语音转换为文字的方法。可选地,语音识别常用的方法包括:基于语言学和声学的方法,随机模型法,利用人工神经网络的方法,概率语法分析。具体地,可以是通过各种开源的声学模型、语言模型(如马尔可夫模型等)对语音进行识别得到对应的第一文本。可选地,可以是用户在任意场景(例如会议场景)下输出的语音转写得到的文本。第一文本和第二文本可以是词汇、词组、整句等,其中,词汇可以是至少一个字组成的。第二文本是用户根据实际情况对第一文本进行编辑得到的,即第二文本是符合用户习惯的文本。

可选地,可以是对第一文本进行修改得到第二文本,具体地,可以是修改一个词汇,也可以是修改多个词汇。可选地,可以是在第一文本上新增一个或多个词汇。可选地,可以是删除第一文本中的内容,得到第二文本。

在本实施例,在会议场景下,获取用户的语音,对用户的语音进行识别,得到第一文本。将第一文本发送至用户,用户对第一文本进行编辑,可以通过识别鼠标焦点的移动或者鼠标焦点停留在某个固定位置的时间间隔,来判断该处的错误是否已完成编辑,从而获取编辑前后的第一文本和第二文本。还可以是在接收到用户的编辑完成指令(例如,用户在显示界面点击完成选项)之后,获取编辑前后的第一文本和第二文本。

在步骤S120中,示例性地,热词候选词用于表示针对当前用户的待选热门词汇,热门词汇用于表示当前用户常用的词汇。编辑类型包括:新增文本类型、删除文本类型和修改文本类型。可选地,在第一文本中词汇的数量少于第二文本的中词汇的数量,则编辑类型为删除文本类型。在第一文本中词汇数量多于第二文本的中词汇数量且新增的词汇数量在预设的数量阈值内,则编辑类型为新增文本类型,其中,预设的数量阈值根据第一文本中的词汇数量确定。将新增文本类型和删除文本类型之外的文本编辑情况确定为修改文本类型。

例如,对第一文本和第二文本进行分词处理,对比分词后的第一文本和第二文本,若对第一文本进行编辑的编辑类型既不是新增文本类型,也不是删除文本类型,则认为编辑类型为修改文本类型。再根据修改内容确定热词候选词。其中,修改内容用于表示第二文本中与第一文本不同的文本内容。

在步骤S130中,示例性地,热词库用于表示针对当前用户的多个热门词汇组成的数据库。可选地,可以是一个用户对应一个热词库,还可以是一个用户设置多个热词库,其中,多个热词库是根据不同的场景设置的。可选地,可以是在任意场景下采集到的当前用户的语音数据所转换的文本,当前用户对转换的文本进行编辑,根据编辑内容选择词汇组成热词库。用户历史语音数据是表示当前时刻之前在任意场景下获取当前用户的语音数据。

热词候选词在用户历史语音数据中的使用情况可以是热词候选词在第一文本中的出现频率,可选地,在用户历史语音数据中出现的频率可以是热词候选词的在第一文本中的出现次数,或用户将语音识别的文本修改为热词候选词的次数。

可选地,可以是根据热词库和用户历史语音数据联合对热词候选词进行判断。例如,当热词库中存在热词候选词,且热词候选词在用户历史语音数据中出现的频率大于频率阈值,则将热词候选词确定为目标热词,这样,使得选出的目标热词更符合用户的习惯,从而可以提升语音识别的准确性。

可选地,还可以是热词候选词被使用的时间分布,具体地,在特定时间段的使用频率。特定时间段可以是最近一周,也可以是每一天的上午十点至十二点,还可以是每一天的下午一点到六点。例如,用户最近一周的语音中频繁使用了一个词A,虽然这个词A在过去一个月的使用频率不如其他词,但是用户最近一周一直在用这个词A,此时也可以将词A作为目标热词。

在步骤S140中,示例性地,可以是将目标热词加入热词库中,得到更新后的热词库。还可以是在热词库中增加目标热词的权重,以提高目标热词的命中率。

在本申请的技术方案中,利用对第一文本进行编辑的编辑类型,在第二文本中确定热词候选词;基于热词库和热词候选词在用户历史语音数据中的使用情况,在热词候选词中确定目标热词,再根据目标热词更新热词库,得到更新后的热词库。如此,可以对编辑的文本进行数据累积,在编辑后的文本中选择出更符合用户习惯的个性化目标热词,再根据目标热词更新热词库,这样,根据更新后的热词库辅助进行语音识别,可以提升语音转写文本的准确性。

在一种实施方式中,所述根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词,步骤S120包括:

S210、对比所述第一文本和所述第二文本,确定编辑文本;

S220、根据对所述第一文本进行编辑的编辑类型和所述编辑文本的数量,在所述第二文本中选择热词候选词。

示例性地,编辑文本用于表示第二文本区别于第一文本的内容,编辑内容可以是对第一文本进行修改的内容,还可以是对第一文本进行新增的内容。可选地,编辑文本可以是词汇、词组或整句。可选地,当第二文本区别于第一文本的内容是多个词汇或词组的情况下,可以是将每一个词汇或词组作为一个编辑文本,还可以是将多个词汇或词组作为一个编辑文本。可选地,当第一文本有多处被编辑时,可以根据第一文本被编辑位置确定编辑文本的数量,例如,第一文本是“好学习,向上”,第二文本“好好学习,天天向上”,编辑文本1为“好”,编辑文本2为“天天”,此时编辑文本的数量为2。

具体地,将第一文本和第二文本进行对比,确定对第一文本进行编辑的编辑类型。并根据上述两者之间的区别内容确定出至少一个编辑文本。可以预先存储编辑类型和编辑文本的数量的对应条件,在第二文本中选择满足对应条件的编辑文本作为热词候选词。这样可以根据编辑类型和用户的编辑文本的数量,在第二文本中确定出针对用户的个性化热词候选词。

优选地,在所述编辑类型为新增文本类型的情况下,相应地,所述根据对所述第一文本进行编辑的编辑类型和所述编辑文本的数量,在所述第二文本中选择热词候选词,包括:

在所述编辑文本的数量不大于预设第一阈值的情况下,将所述编辑文本确定为热词候选词。

示例性地,如图3所示,在编辑类型为新增文本类型的情况下,则认为编辑文本为新增文本。判断新增文本的数量是否大于预设第一阈值,若新增文本的数量不大于预设第一阈值,说明是语音的漏识别,则提取新增文本,对新增文本进行分词处理,将分词后的新增文本作为热词候选词。其中,预设第一阈值可以根据实际情况进行设置,在此不作限定。在本实施例中,第一阈值可以设置为2个新增文本。

若新增文本的数量大于预设第一阈值,则认为此类编辑属于完善优化文本,不属于语音的漏识别。丢弃新增文本,不做后续处理。如此,通过对第一文本的编辑方式划分为不同的编辑类型,可以更准确地确定语音的漏识别,从而确定针对当前用户的热词候选词。

优选地,在所述编辑类型为修改文本类型的情况下,相应地,所述根据对所述第一文本进行编辑的编辑类型和所述编辑文本的数量,在所述第二文本中选择热词候选词,包括:

在所述编辑文本的数量不大于预设第二阈值的情况下,将所述编辑文本确定为热词候选词;

在所述编辑文本的数量大于预设第二阈值的情况下,若所述第一文本中存在所述编辑文本的近似文本,将所述编辑文本确定为热词候选词。

示例性地,预设第二阈值是根据预设的权重系数和第一文本中词汇的总数量确定。预设权重系数可以是根据实际情况进行设置的,例如,预设的权重系数为50%,那么预设第二阈值为第一文本中词汇的总数量*50%。近似文本用于表示发音相近的词汇或词组,具体地,可以根据模糊音进行匹配。

具体地,如图3所示,在编辑类型为修改文本类型的情况下,则认为编辑文本为修改文本。判断修改文本中的词汇的数量是否大于第一文本中词汇的总数量*50%,若修改文本中的词汇的数量不大于第一文本中词汇的总数量*50%,说明修改的内容较少,可以直接将修改文本中的各个词汇作为热词候选词。

若修改文本中的词汇的数量大于第一文本中词汇的总数量*50%,说明修改的内容较多,需要将修改文本与第一文本进行对齐,进一步确定修改文本所对应第一文本中的内容。根据词语模糊音匹配规则,从修改文本中挑选出与第一文本中发音相近的词汇(即近似文本),将修改文本与第一文本中发音相近的词汇作为热词候选词。进一步地,在编辑类型为删除文本类型的情况下,丢弃编辑文本,不进行处理。

如此,通过对第一文本的编辑方式划分为不同的编辑类型,可以更准确地确定语音的漏识别或语音的识别错误,从而确定针对当前用户的热词候选词。

在一种实施方式中,如图4所示,所述基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词,步骤S130包括:

S410、在所述热词库中存在所述热词候选词的情况下,将所述候选词确定为目标热词;

S420、在所述热词库中不存在所述热词候选词的情况下,确定所述热词候选词在所述用户历史语音数据中的使用情况,将使用情况符合设定条件的热词候选词确定为目标热词。

可选地,步骤S420包括:确定所述热词候选词在所述用户历史语音数据中的使用时间分布情况,将使用时间分布情况满足预设时间阈值的热词候选词确定为目标热词。其中,预设时间阈值可以是根据实际情况设置的任意数值,在此不作限定。

具体地,获取热词候选词最近一周的使用时间分布情况,若在最近一周的工作时间内热词候选词的使用时间超过预设时间阈值,即使该热词候选词的频率较低,也将该热词候选词确定为目标热词。

优选地,步骤S420包括:确定所述热词候选词在所述用户历史语音数据中的使用次数,将使用次数大于预设第一次数阈值的热词候选词确定为目标热词。

示例性地,热词候选词在所述用户历史语音数据中的使用次数可以是在对历史语音数据进行语音识别时查找热词候选词的次数,还可以是将历史语音数据转写为文本后,将其修改为热词候选词的次数。可选地,第一次数阈值可以是根据上述两种不同的使用次数分别进行设置的,第一次数阈值可以根据实际情况进行设置,在此不作限定。

具体地,如图5所示,判断热词库中是否存在热词候选词,若热词库中存在热词候选词,说明此热词候选词属于当前用户的热词,因此依旧将其确定为目标热词。

在热词库中不存在热词候选词的情况下,若对历史语音数据进行语音识别时查找热词候选词的次数大于10,或历史语音数据转写为文本后将其修改为热词候选词的次数大于2,则将满足上述条件的热词候选词确定为目标热词。如此,将热词库和用户历史语音数据进行结合,可以更准确地在热词候选词中确定出符合当前用户习惯的目标热词,增加了语音转写文本的准确性。

在一种实施方式中,所述方法还包括:

在所述热词候选词在所述用户历史语音数据中的使用次数不大于预设第一次数阈值且所述热词候选词为设定类型词的情况下,若所述第一文本中存在与所述热词候选词相匹配的词汇,则将所述热词候选词确定为目标热词;其中,与所述热词候选词相匹配的词汇,包括与所述热词候选词的发音和/或语义相匹配的词汇。

示例性地,设定类型词用于表示特定名字的词汇,设定类型词可以包括:专业名词、特定的人名、地名等。可选地,专业名词用于表示各个领域下专用词汇,例如,医学领域下的专业词汇可以包括:缓冲盐、毛细管、支气管扩张剂等。生物领域下的专业词汇可以包括:巨噬细胞、三酰甘油等。可选地,确定设定类型词的方式可以是在网站上进行搜索确定热词候选词是否为专业名词或特定的人名或地名。还可以是预先构建专业名词库,在专业名词库中查找是否存在热词候选词。在本实施例中,设定类型词采用专业名词。

可选地,在热词候选词在用户历史语音数据中的使用次数不大于预设第一次数阈值且热词候选词为设定类型词的情况下,若第一文本中存在与热词候选词发音或语义相匹配的词汇,则将热词候选词确定为目标热词。可选地,在热词候选词在用户历史语音数据中的使用次数不大于预设第一次数阈值且热词候选词为设定类型词的情况下,若第一文本中存在与热词候选词发音和语义相匹配的词汇,则将热词候选词确定为目标热词。具体地,可以是采用模糊音匹配的方法来对热词候选词进行发音匹配,还可以是其他发音匹配方法,在此不作限定。可以是采用神经网络进行语义匹配,例如,深度语义匹配模型(DeepStructured Semantic Models,DSSM)等。还可以是采用其他可以对词汇进行语义分析的方法,在此不作限定。

具体地,如图5所示,当热词库中不存在所述热词候选词时,若热词候选词在用户历史语音数据中的使用次数不大于预设第一次数阈值,即对历史语音数据进行语音识别时查找热词候选词的次数不大于10且历史语音数据转写为文本后将其修改为热词候选词的次数不大于2。判断热词候选词是否为专业名词,若是,将热词候选词与第一文本进行模糊音匹配。若第一文本中存在模糊音匹配的词汇,将能匹配上的热词候选词确定为目标热词。若不是专业名词,则丢弃不进行处理。如此,结合了专业名词对候选词进行选取,进一步避免了漏选目标热词,增加语音转写文本的准确性。

优选地,所述方法还包括:

在所述热词候选词在所述用户历史语音数据中的使用次数不大于预设第一次数阈值且所述热词候选词为设定类型词的情况下,若所述第一文本中不存在与所述热词候选词相匹配的词汇,且热词备选库中存在所述热词候选词,将所述热词候选词确定为目标热词。

示例性地,热词备选库用于表示未加入热词库的热词候选词所组成的数据库。具体地,如图5所示,在热词候选词在用户历史语音数据中的使用次数不大于预设第一次数阈值的情况下,即对历史语音数据进行语音识别时查找热词候选词的次数不大于10且历史语音数据转写为文本后将其修改为热词候选词的次数不大于2。判断热词候选词是否为专业名词,若是,将热词候选词与第一文本进行模糊音匹配。若第一文本中不存在模糊音匹配的词汇,判断热词备选库中是否存在该热词候选词,若存在,则将该热词候选词确定为目标热词。若不存在,则将该热词候选词加入为热词备选库。如此,结合专业名词和热词备选库对候选词进行选取,进一步避免了漏选目标热词,增加语音转写文本的准确性。

在一种实施方式中,所述根据所述目标热词更新所述热词库,得到更新后的热词库,包括:

在所述热词库中存在所述目标热词的情况下,在所述热词库中增加所述目标热词的热词激励系数。

示例性地,如图5所示,热词激励系数用于表示热词库中热词的命中概率。可选地,每次增加的热词激励系数可以是相同的数值,也可以是阶梯增长的数值。例如,可以将每次增加的热词激励系数设置为1。还可以是针对热词库中的一热词,第一次作为热词候选词被选中时,将热词库中热词的热词激励系数增加1。若下一次语音识别时还是无法正确识别该热词,则热词激励系数增加2。

具体地,若热词库中存在目标热词,说明此目标热词属于当前用户的热词,但是热词库中该热词的默认权重还不足以保证命中生效,因此增加目标热词的热词激励系数,如此提升热词的命中效率。

在一种实施方式中,在所述根据所述目标热词更新所述热词库,得到更新后的热词库之后,还包括:

对预设的测试音频集进行语音识别,得到第一测试文本集;

利用所述更新后的热词库对所述测试音频集进行语音识别,得到第二测试文本集;

在所述第二测试文本集比第一测试文本集的识别准确率高的情况下,根据所述更新后的热词库进行语音识别。

示例性地,预设的测试音频集中包括多个在任意场景下预先采集的音频,测试音频集用于对热词库中的热词进行测试。具体地,可以是在网页上抽取的音频数据,还可以是通过各种声音采集器采集到的的音频数据,在此不作限定。

可选地,在热词库中每增加一个目标热词均进行一次测试,目标热词正式加载启用前,可以是通过不加载热词和加载更新后的热词库两种模式对测试音频集进行转写,分别得到第一测试文本集和第二测试文本集。判断第一测试文本集和第二测试文本集识别的准确性(即通用效果),如果第二测试文本集识别的准确性高于第一测试文本集,则正式启用更新后的热词库进行语音识别。如果第二测试文本集识别的准确性不高于第一测试文本集,则从热词库中剔除目标热词。如此,在热词生效前进行了误触发的验证,保障不会出现误触发,并且形成了数据积累,提升后续的语音识别效果,使得用户对产品产生黏性,语音识别效果越用越准。

可选地,目标热词正式加载启用前,通过不加载热词和加载更新后的热词库中的目标热词两种模式对测试音频集进行转写,分别得到第一测试文本集和第二测试文本集。判断第一测试文本集和第二测试文本集识别的准确性(即通用效果),如果第二测试文本集识别的准确性不高于第一测试文本集,则从热词库中剔除目标热词。如果第二测试文本集识别的准确性高于第一测试文本集,则正式启用更新后的热词库进行语音识别。进一步地,在实时转写场景,将更新后的热词库添加到语音识别引擎中,使得后面的会议中该热词的转写准确率得到保障。

在一种实施方式中,所述方法还包括:

利用所述热词库中每个热词在语音识别过程中的命中次数和命中时间,对所述热词库中的热词进行更新。

示例性地,命中次数用于表示在语音识别过程中该热词被选中的次数。命中时间用于表示在语音识别过程中该热词上一次被选中的时间。

具体地,根据命中次数和命中时间联合对热词库进行管理,可以是根据命中次数和命中时间设置命中条件,例如,命中次数不少于M次且命中时间不大于N天,M、N均为正整数。将不满足命中条件的热词在热词库中剔除,满足命中条件的热词保留在热词库中,从而及时对热词库进行淘汰管理。

优选地,所述利用所述热词库中每个热词的命中次数和命中时间,对所述热词库中的热词进行更新,还包括:

在所述热词库中的第i个热词的命中时间在当前时间之前的预设时间区间内的情况下,所述第i个热词保存在所述热词库中;

在所述热词库中的所述第i个热词的命中时间不在所述预设时间区间内的情况下,若所述第i个热词的命中次数大于第二次数阈值,则从所述热词库中删除所述第i个热词,并将所述第i个热词添加至热词备选库中;其中,i为正整数。预设时间区间可以是根据实际需要进行设置的,例如,1个月、10天等。第二次数阈值可以是根据实际需要进行设置的,例如,5次、10次。

在本实施例中,如图6所示,每进行一次语音识别之后均对热词库中热词的命中次数和命中时间进行统计,如果最近一次命中时间大于1个月(预设时间区间)且命中次数少于10次(第二次数阈值),则将该热词从热词库中剔除。如果最近一次命中时间大于1个月且命中次数不少于10次,将该热词从热词库中剔除,并加到热词备选库。如果最近一次命中时间不大于1个月,则刷新该热词的命中次数和命中时间。

图7是根据本申请一实施例的语音识别方法的流程图。在一示例性实施例中,提供了一种语音识别方法,包括:

S710、基于预先构建的热词库,对待识别语音进行语音识别,得到语音识别结果;

其中,所述热词库包括从用户对历史语音识别结果进行编辑修正后的文本中选出的、与用户编辑修正操作对应的文本词。

在一种实施方式中,所述热词库通过以下处理构建得到:

获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;

根据所述目标热词更新所述热词库,得到更新后的热词库。

示例性地,上述语音识别方法中的热词库可以是由上述热词管理方法的任一实施例得到的。

在本申请的技术方案中,根据预先构建的热词库对待识别语音进行语音识别,得到语音识别结果,由于预先构建的热词库包括从用户对历史语音识别结果进行编辑修正后的文本中选出的、与用户编辑修正操作对应的文本词,即热词库中的热词符合用户的习惯,使得语音识别结果更加准确。

示例性装置

相应的,图8是根据本申请一实施例的热词管理装置的结构示意图。在一示例性实施例中,提供了一种热词管理装置,包括:

获取模块810,用于获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

确定模块820,用于根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

选择模块830,用于基于用户历史语音数据基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;

更新模块840,用于根据所述目标热词更新所述热词库,得到更新后的热词库;其中,所述热词库用于辅助对待识别语音进行语音识别。

在一种实施方式中,所述确定模块,包括:

对比模块,用于对比所述第一文本和所述第二文本,确定编辑文本;

第一处理模块,用于根据所述对所述第一文本进行编辑的编辑类型和所述编辑文本的数量,在所述第二文本中选择热词候选词。

在一种实施方式中,在所述编辑类型为新增文本类型的情况下,相应地,所述第一处理模块,还用于:

在所述编辑文本的数量不大于预设第一阈值的情况下,将所述编辑文本确定为热词候选词。

在一种实施方式中,在所述编辑类型为修改文本类型的情况下,相应地,所述第一处理模块,还用于:

在所述编辑文本的数量不大于预设第二阈值的情况下,将所述编辑文本确定为热词候选词;

在所述编辑文本的数量大于预设第二阈值的情况下,若所述第一文本中存在所述编辑文本的近似文本,将所述编辑文本确定为热词候选词。

在一种实施方式中,所述选择模块,包括:

第二处理模块,用于在所述热词库中存在所述热词候选词的情况下,将所述候选词确定为目标热词;

第三处理模块,用于在所述热词库中不存在所述热词候选词的情况下,确定所述热词候选词在所述用户历史语音数据中的使用情况,将使用情况符合设定条件的的热词候选词确定为目标热词。

在一种实施方式中,第三处理模块,还用于:确定所述热词候选词在所述用户历史语音数据中的使用次数,将使用次数大于预设第一次数阈值的热词候选词确定为目标热词。

在一种实施方式中,所述装置还包括:

第四处理模块,用于在所述热词候选词在所述用户历史语音数据中的使用次数不大于预设第一次数阈值且所述热词候选词为设定类型词的情况下,若所述第一文本中存在与所述热词候选词相匹配的词汇,将所述热词候选词确定为目标热词;其中,与所述热词候选词相匹配的词汇,包括与所述热词候选词的发音和/或语义相匹配的词汇。

在一种实施方式中,所述装置还包括:

第五处理模块,用于在所述热词候选词在所述用户历史语音数据中的使用次数不大于预设第一次数阈值且所述热词候选词为设定类型词的情况下,若所述第一文本中不存在与所述热词候选词相匹配的词汇,且热词备选库中存在所述热词候选词,则将所述热词候选词确定为目标热词。

在一种实施方式中,所述更新模块,还用于:

在所述热词库中存在所述目标热词的情况下,在所述热词库中增加所述目标热词的热词激励系数。

在一种实施方式中,所述装置,还包括:

第一测试模块,用于对预设的测试音频集进行语音识别,得到第一测试文本集;

第二测试模块,用于利用所述更新后的热词库对所述测试音频集进行语音识别,得到第二测试文本集;

验证模块,用于在所述第二测试文本集比第一测试文本集的识别准确率高的情况下,根据所述更新后的热词库进行语音识别。

在一种实施方式中,所述装置还包括:

管理模块,用于利用所述热词库中每个热词在语音识别过程中的命中次数和命中时间,对所述热词库中的热词进行更新。

在一种实施方式中,管理模块,还用于:

在所述热词库中的第i个热词的命中时间在当前时间之前的预设时间区间内的情况下,所述第i个热词保存在所述热词库中;

在所述热词库中的所述第i个热词的命中时间不在所述预设时间区间内的情况下,若所述第i个热词的命中次数大于第二次数阈值,则从所述热词库中删除所述第i个热词,并将所述第i个热词添加至热词备选库中;其中,i为正整数。

相应的,图9是根据本申请一实施例的语音识别装置的结构示意图。在一示例性实施例中,提供了一种语音识别装置,包括:

识别模块910,用于基于预先构建的热词库,对待识别语音进行语音识别,得到语音识别结果;

其中,所述热词库包括从用户对历史语音识别结果进行编辑修正后的文本中选出的、与用户编辑修正操作对应的文本词。

在一种实施方式中,所述热词库通过以下处理构建得到:

获取语音识别的第一文本以及第二文本,其中,所述第二文本是对所述第一文本进行编辑得到的;

根据对所述第一文本进行编辑的编辑类型,在所述第二文本中确定热词候选词;

基于热词库和所述热词候选词在用户历史语音数据中的使用情况,在所述热词候选词中确定目标热词;

根据所述目标热词更新所述热词库,得到更新后的热词库。

本实施例提供的装置,与本申请上述实施例所提供的方法属于同一申请构思,可执行本申请上述任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的方法的具体处理内容,此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备,参见图10所示,该设备包括:

存储器1000和处理器1010;

其中,所述存储器1000与所述处理器1010连接,用于存储程序;

所述处理器1010,用于通过运行所述存储器1000中存储的程序,实现上述任一实施例公开的热词管理方法或语音识别方法。

具体的,上述电子设备还可以包括:总线、通信接口1020、输入设备1030和输出设备1040。

处理器1010、存储器1000、通信接口1020、输入设备1030和输出设备1040通过总线相互连接。其中:

总线可包括一通路,在计算机系统各个部件之间传送信息。

处理器1010可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器1010可包括主处理器,还可包括基带芯片、调制解调器等。

存储器1000中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器1000可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备1030可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备1040可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。

通信接口1020可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。

处理器1010执行存储器1000中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种热词管理方法或语音识别方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的热词管理方法或语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的热词管理方法或语音识别方法中的步骤。

上述的电子设备的具体工作内容,以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容,均可以参见上述的方法实施例的内容,此处不再赘述。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120116381148