掌桥专利:专业的专利平台
掌桥专利
首页

一种提高语音识别准确率的方法、系统和介质

文献发布时间:2024-04-18 19:58:30


一种提高语音识别准确率的方法、系统和介质

技术领域

本申请涉及智慧语音技术领域,具体而言,涉及一种提高语音识别准确率的方法、系统和介质。

背景技术

目前语音识别技术的广泛使用涵盖了人机交互的各个领域,语音识别的核心难题在于识别个性化的用户语音表述习惯,并甄辨不同环境干扰下的语音语义,且不同用户的职业、身份、语境、语系的差异造成的语义表述的情绪加持的补偿性干扰对语音识别精准度和效果增加难度,而目前缺少可根据用户表达信息结合个性情态和表达语境以及语音采集环境进行有效补偿和修正,以实现对语音识别响应能力的精准度的有效修正和判断手段,因此,如何获取用户个性化的表述信息以及语义信息,并识别语音环境的干扰影响要素和用户表达情绪要素,对用户语音语义行为的识别判断响应进行结果修正,以提高语音识别响应能力的精准度并进行检验,具有实际的应用意义。

针对上述问题,目前亟待有效的技术解决方案。

发明内容

本申请实施例的目的在于提供一种提高语音识别准确率的方法、系统和介质,可以基于语音大数据对语音信息结合场景环境进行数据处理和评估,对语音识别结果进行准确度判断,提高对用户语音识别准确率的校准判断。

本申请实施例还提供了一种提高语音识别准确率的方法,包括以下步骤:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息;

根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数;

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数;

根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值;

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据;

根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

根据所述语义行为识别响应修正数据与所述语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度。

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息,包括:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息;

获取所述用户语音所处环境的语音环境信息;

根据所述用户属性标记信息提取用户身份属性特征数据和用户母语类别标记数据。

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数,包括:

根据所述语音片段信息提取语音片段特征数据,包括音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据;

根据所述音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据通过预设语音情绪诱导干扰识别模型进行处理,分别获得语音频调特性因子和用户情绪修正因子;

根据所述语音频调特性因子和用户情绪修正因子处理获得语音情绪诱扰因指数;

所述语音情绪诱扰因指数的程序公式为:

其中,

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数,包括:

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据;

所述声场环境特征数据包括环境空间指标数据、音散分布指标数据、混响度指标数据以及声音覆盖率数据,所述环境声噪音扰特征数据包括环境嘈杂度指标数据、噪音频色分类数据、音散衰减率数据以及啸音指标数据;

根据所述声场环境特征数据处理获得环况净态系数,根据所述环境声噪音扰特征数据处理获得环状声扰补偿系数;

所述环况净态系数的计算公式为:

所述环状声扰补偿系数的计算公式为:

其中,

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值,包括:

根据所述用户身份属性特征数据和用户母语类别标记数据结合所述音色音频特征数据和所述混响度指标数据、音散分布指标数据以及所述噪音频色分类数据、音散衰减率数据通过预设类型语义拾取识别模型库获得对应预设类型语义拾取识别模型,以及对应语义行为识别响应阈值。

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据,包括:

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据;

根据多个所述语音关键表意数据以及语音表述动作数据结合所述语音情绪诱扰因指数通过预设类型语义行为检测模型进行处理,获得语义行为预判响应数据;

所述语义行为预判响应数据的程序公式为:

其中,

可选地,在本申请实施例所述的提高语音识别准确率的方法中,所述根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据,包括:

根据所述环况净态系数以及所述环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

所述语义行为识别响应修正数据的修正公式为:

其中,

第二方面,本申请实施例提供了一种提高语音识别准确率的系统,该系统包括:存储器及处理器,所述存储器中包括提高语音识别准确率的方法的程序,所述提高语音识别准确率的方法的程序被所述处理器执行时实现以下步骤:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息;

根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数;

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数;

根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值;

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据;

根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

根据所述语义行为识别响应修正数据与所述语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度。

可选地,在本申请实施例所述的提高语音识别准确率的系统中,所述采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息,包括:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息;

获取所述用户语音所处环境的语音环境信息;

根据所述用户属性标记信息提取用户身份属性特征数据和用户母语类别标记数据。

第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括提高语音识别准确率的方法程序,所述提高语音识别准确率的方法程序被处理器执行时,实现如上述任一项所述的提高语音识别准确率的方法的步骤。

由上可知,本申请实施例提供的一种提高语音识别准确率的方法、系统和介质,通过采集语音片段信息、用户属性标记信息以及语音环境信息,根据提取的语音片段特征数据处理获得语音情绪诱扰因指数,根据提取的声场环境特征数据和环境声噪音扰特征数据处理获得环况净态系数和环状声扰补偿系数,再结合语音片段特征数据获得对应预设类型语义拾取识别模型并对语音片段信息进行识别处理获得多个语音关键表意数据和语音表述动作数据,并结合语音情绪诱扰因指数处理获得语义行为预判响应数据,再根据环况净态系数和环状声扰补偿系数进行修正获得语义行为识别响应修正数据,最后与语义行为识别响应阈值进行阈值对比判断语音行为识别的准确度;从而基于语音大数据对语音信息结合场景环境进行数据处理和评估,对语音识别结果进行准确度判断,提高对用户语音识别准确率的校准判断。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的提高语音识别准确率的方法的流程图;

图2为本申请实施例提供的提高语音识别准确率的方法的获取语音片段信息、用户属性标记信息以及语音环境信息的流程图;

图3为本申请实施例提供的提高语音识别准确率的方法的获得语音情绪诱扰因指数的流程图;

图4为本申请实施例提供的提高语音识别准确率的系统的结构示意图。

具体实施方式

下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

请参照图1,图1是本申请一些实施例中的提高语音识别准确率的方法的流程图。该提高语音识别准确率的方法用于终端设备中,例如电脑、手机终端等。该提高语音识别准确率的方法,包括以下步骤:

S101、采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息;

S102、根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数;

S103、根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数;

S104、根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值;

S105、根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据;

S106、根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

S107、根据所述语义行为识别响应修正数据与所述语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度。

需要说明的是,为实现结合用户个性化属性和情绪要素信息以及语音采集环境信息对用户语音的语义识别结果进行补偿和检验,以获取对语音识别能力效果的精准检验,从而提升对用户语音识别准确度结果的有效判断,通过采集用户在预设时间段内的语音片段信息,同时获取用户属性标记信息以及语音获取环境的语音环境信息,再提取语音片段特征数据并处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数,即通过用户语音片段特征获得反映用户语音个性化频率音调、情绪表述以及语音情绪的干扰要素因子,同时根据提取的声场环境特征数据和环境声噪音扰特征数据进行处理,获得环况净态系数和环状声扰补偿系数,即对语音的环境声音净化状况和声音干扰状况进行系数评估,后根据用户属性标记信息的数据结合语音片段特征数据以及声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,再根据预设类型语义拾取识别模型对语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,即通过类型模型对语音片段进行关键意义和表述动作的数据进行识别提取,再结合语音情绪诱扰因指数进行处理获得语义行为预判响应数据,即对获得的语音识别结果数据结合用户语音表述的情绪干扰因子进行处理获得对语音含义行为识别预判的准确响应度的结果数据,再根据环况净态系数和环状声扰补偿系数对语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据,使识别响应结果通过补偿修正变得更加精准,最后再与获得的语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度,即实现对用户语音识别响应准确度效果进行有效判断。

请参照图2,图2是本申请一些实施例中的提高语音识别准确率的方法的获取语音片段信息、用户属性标记信息以及语音环境信息的流程图。根据本发明实施例,所述采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息,具体为:

S201、采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息;

S202、获取所述用户语音所处环境的语音环境信息;

S203、根据所述用户属性标记信息提取用户身份属性特征数据和用户母语类别标记数据。

需要说明的是,首先采集用户在预设时间段内的语音片段信息,即用户的语音片段,并获取用户属性标记信息,以及获取用户语音所处环境的语音环境信息,根据用户属性标记信息提取用户身份、职业、户籍、驻地等反映用户身份属性的特征数据和用户的母语类别的标记数据。

请参照图3,图3是本申请一些实施例中的提高语音识别准确率的方法的获得语音情绪诱扰因指数的流程图。根据本发明实施例,所述根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数,具体为:

S301、根据所述语音片段信息提取语音片段特征数据,包括音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据;

S302、根据所述音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据通过预设语音情绪诱导干扰识别模型进行处理,分别获得语音频调特性因子和用户情绪修正因子;

S303、根据所述语音频调特性因子和用户情绪修正因子处理获得语音情绪诱扰因指数;

所述语音情绪诱扰因指数的程序公式为:

其中,

需要说明的是,为评估出用户的语音频率音色音调以及语态特点情绪等个性化语音要素对用户语音识别造成的干扰影响,通过用户的语音片段的特征数据进行分析处理获得相关要素干扰因子并进一步处理获得因指数,根据语音片段信息提取出语音片段特征数据,包括用户的音色音频、音符发音特点、播音清晰度、语态音调的波动性特点以及情态起伏的特征数据,再对上述提取的特征数据通过第三方语义拾取识别平台的预设语音情绪诱导干扰识别模型进行计算处理,分别获得反映用户语音频调特点的特性因子和用户情绪特征对语音的影响修正因子,后根据语音频调特性因子和用户情绪修正因子再通过计算处理获得语音情绪诱扰因指数,即获得用户语音表述的情绪表达对语音识别产生的干扰诱导的要因指数。

根据本发明实施例,所述根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数,具体为:

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据;

所述声场环境特征数据包括环境空间指标数据、音散分布指标数据、混响度指标数据以及声音覆盖率数据,所述环境声噪音扰特征数据包括环境嘈杂度指标数据、噪音频色分类数据、音散衰减率数据以及啸音指标数据;

根据所述声场环境特征数据处理获得环况净态系数,根据所述环境声噪音扰特征数据处理获得环状声扰补偿系数;

所述环况净态系数的计算公式为:

所述环状声扰补偿系数的计算公式为:

其中,

需要说明的是,由于用户语音的采集环境具有复杂性和多样性以及多变性,因此语音环境状况对语音的识别具有良性或弱化的补偿功能,因此,需对用户语音获取环境的干扰要素系数进行评估,以对语音识别效果的评估进行补偿修正,根据语音环境信息提取获取语音的声音场地的环境特征数据以及环境声响噪音的干扰特征数据,其中声场环境特征数据包括语音采集环境的空间大小指标数据、场地环境音散分布的指标数据、场地环境混响度的指标数据以及场地声音覆盖率数据,环境声噪音扰特征数据包括环境噪声嘈杂度的指标数据、噪音频率音色的分类数据、场地音散的衰减率数据以及场地啸音的指标数据,再根据声场环境特征数据和环境声噪音扰特征数据分别通过预处理公式进行计算处理获得环况净态系数和环状声扰补偿系数,即获得语音采集场地环境的声音净化状态和环境状况声音干扰情况的补偿系数。

根据本发明实施例,所述根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值,具体为:

根据所述用户身份属性特征数据和用户母语类别标记数据结合所述音色音频特征数据和所述混响度指标数据、音散分布指标数据以及所述噪音频色分类数据、音散衰减率数据通过预设类型语义拾取识别模型库获得对应预设类型语义拾取识别模型,以及对应语义行为识别响应阈值。

需要说明的是,由于不同用户的语音个性、表述、母语类别等声音要素具有差异性,为准确识别出用户语音片段中的语义信息和表述行为信息,即对语音片段识别出表述的要义和指导行为表达,需有针对性的获取对应类别的语义拾取识别模型,即获得适配于用户语音个性化特征的语义识别模型,根据用户身份属性特征数据和用户母语类别标记数据结合音色音频特征数据和混响度指标数据、音散分布指标数据以及噪音频色分类数据、音散衰减率数据通过预设的第三方类型语义拾取识别模型库获得对应预设类型语义拾取识别模型,语义拾取识别模型库是包含多个语音类型的语义拾取识别模型的集成库,通过上述数据在该模型库中通过数据的相似度对比,获取符合数据最适配相似度的目标模型,相似度对比可以是采用余弦相似度进行数据对比,获得对应的预设类型语义拾取识别模型和语义行为识别响应阈值。

根据本发明实施例,所述根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据,具体为:

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据;

根据多个所述语音关键表意数据以及语音表述动作数据结合所述语音情绪诱扰因指数通过预设类型语义行为检测模型进行处理,获得语义行为预判响应数据;

所述语义行为预判响应数据的程序公式为:

其中,

需要说明的是,通过模型库获得的预设类型语义拾取识别模型对语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,即通过对应类型识别模型对语音片段进行关键语义和表述动作的识别提取获得相关数据,再将多个语音关键表意数据和语音表述动作数据结合语音情绪诱扰因指数通过预设程序计算公式进行计算处理,获得语义行为预判响应数据,即对获得的多个语音识别结果数据结合用户语音表述的情绪干扰因子进行处理,获得对语音表义行为进行识别预判响应的评估结果数据,反映对用户语音识别判断的准确响应度的评估结果。

根据本发明实施例,所述根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据,具体为:

根据所述环况净态系数以及所述环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

所述语义行为识别响应修正数据的修正公式为:

其中,

需要说明的是,为进一步提高对语音识别响应结果的评估精准度,以获得对用户语音识别准确率效果的修正和判断,根据环况净态系数和环状声扰补偿系数对获得的语义行为预判响应数据通过修正计算公式进行修正处理,获得语义行为识别响应修正数据,使语音识别能力的判断响应结果通过补偿修正变得更加精准,提高对语音识别准确率效果的校准处理和判断手段的精准度。

如图4所示,本发明还公开了一种提高语音识别准确率的系统,包括存储器41和处理器42,所述存储器中包括提高语音识别准确率的方法程序,所述提高语音识别准确率的方法程序被所述处理器执行体征异样修正数据时实现如下步骤:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息;

根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数;

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数;

根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值;

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据;

根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

根据所述语义行为识别响应修正数据与所述语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度。

需要说明的是,为实现结合用户个性化属性和情绪要素信息以及语音采集环境信息对用户语音的语义识别结果进行补偿和检验,以获取对语音识别能力效果的精准检验,从而提升对用户语音识别准确度结果的有效判断,通过采集用户在预设时间段内的语音片段信息,同时获取用户属性标记信息以及语音获取环境的语音环境信息,再提取语音片段特征数据并处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数,即通过用户语音片段特征获得反映用户语音个性化频率音调、情绪表述以及语音情绪的干扰要素因子,同时根据提取的声场环境特征数据和环境声噪音扰特征数据进行处理,获得环况净态系数和环状声扰补偿系数,即对语音的环境声音净化状况和声音干扰状况进行系数评估,后根据用户属性标记信息的数据结合语音片段特征数据以及声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,再根据预设类型语义拾取识别模型对语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,即通过类型模型对语音片段进行关键意义和表述动作的数据进行识别提取,再结合语音情绪诱扰因指数进行处理获得语义行为预判响应数据,即对获得的语音识别结果数据结合用户语音表述的情绪干扰因子进行处理获得对语音含义行为识别预判的准确响应度的结果数据,再根据环况净态系数和环状声扰补偿系数对语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据,使识别响应结果通过补偿修正变得更加精准,最后再与获得的语义行为识别响应阈值进行阈值对比,根据阈值对比结果判断对用户的语音行为识别的准确度,即实现对用户语音识别响应准确度效果进行有效判断。

根据本发明实施例,所述采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息以及语音获取环境的语音环境信息,具体为:

采集用户在预设时间段内的语音片段信息,并获取用户属性标记信息;

获取所述用户语音所处环境的语音环境信息;

根据所述用户属性标记信息提取用户身份属性特征数据和用户母语类别标记数据。

需要说明的是,首先采集用户在预设时间段内的语音片段信息,即用户的语音片段,并获取用户属性标记信息,以及获取用户语音所处环境的语音环境信息,根据用户属性标记信息提取用户身份、职业、户籍、驻地等反映用户身份属性的特征数据和用户的母语类别的标记数据。

根据本发明实施例,所述根据所述语音片段信息提取语音片段特征数据,并根据语音片段特征数据处理获得语音频调特性因子和用户情绪修正因子以及语音情绪诱扰因指数,具体为:

根据所述语音片段信息提取语音片段特征数据,包括音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据;

根据所述音色音频特征数据、音符发音特征数据、播音清晰度特征数据、语态音调波动特征数据以及情态起伏特征数据通过预设语音情绪诱导干扰识别模型进行处理,分别获得语音频调特性因子和用户情绪修正因子;

根据所述语音频调特性因子和用户情绪修正因子处理获得语音情绪诱扰因指数;

所述语音情绪诱扰因指数的程序公式为:

其中,

需要说明的是,为评估出用户的语音频率音色音调以及语态特点情绪等个性化语音要素对用户语音识别造成的干扰影响,通过用户的语音片段的特征数据进行分析处理获得相关要素干扰因子并进一步处理获得因指数,根据语音片段信息提取出语音片段特征数据,包括用户的音色音频、音符发音特点、播音清晰度、语态音调的波动性特点以及情态起伏的特征数据,再对上述提取的特征数据通过第三方语义拾取识别平台的预设语音情绪诱导干扰识别模型进行计算处理,分别获得反映用户语音频调特点的特性因子和用户情绪特征对语音的影响修正因子,后根据语音频调特性因子和用户情绪修正因子再通过计算处理获得语音情绪诱扰因指数,即获得用户语音表述的情绪表达对语音识别产生的干扰诱导的要因指数。

根据本发明实施例,所述根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据,并根据声场环境特征数据和环境声噪音扰特征数据分别处理,获得环况净态系数和环状声扰补偿系数,具体为:

根据所述语音环境信息提取声场环境特征数据以及环境声噪音扰特征数据;

所述声场环境特征数据包括环境空间指标数据、音散分布指标数据、混响度指标数据以及声音覆盖率数据,所述环境声噪音扰特征数据包括环境嘈杂度指标数据、噪音频色分类数据、音散衰减率数据以及啸音指标数据;

根据所述声场环境特征数据处理获得环况净态系数,根据所述环境声噪音扰特征数据处理获得环状声扰补偿系数;

所述环况净态系数的计算公式为:

所述环状声扰补偿系数的计算公式为:

其中,

需要说明的是,由于用户语音的采集环境具有复杂性和多样性以及多变性,因此语音环境状况对语音的识别具有良性或弱化的补偿功能,因此,需对用户语音获取环境的干扰要素系数进行评估,以对语音识别效果的评估进行补偿修正,根据语音环境信息提取获取语音的声音场地的环境特征数据以及环境声响噪音的干扰特征数据,其中声场环境特征数据包括语音采集环境的空间大小指标数据、场地环境音散分布的指标数据、场地环境混响度的指标数据以及场地声音覆盖率数据,环境声噪音扰特征数据包括环境噪声嘈杂度的指标数据、噪音频率音色的分类数据、场地音散的衰减率数据以及场地啸音的指标数据,再根据声场环境特征数据和环境声噪音扰特征数据分别通过预处理公式进行计算处理获得环况净态系数和环状声扰补偿系数,即获得语音采集场地环境的声音净化状态和环境状况声音干扰情况的补偿系数。

根据本发明实施例,所述根据所述用户属性标记信息的数据结合所述语音片段特征数据以及所述声场环境特征数据和环境声噪音扰特征数据获得对应预设类型语义拾取识别模型,以及语义行为识别响应阈值,具体为:

根据所述用户身份属性特征数据和用户母语类别标记数据结合所述音色音频特征数据和所述混响度指标数据、音散分布指标数据以及所述噪音频色分类数据、音散衰减率数据通过预设类型语义拾取识别模型库获得对应预设类型语义拾取识别模型,以及对应语义行为识别响应阈值。

需要说明的是,由于不同用户的语音个性、表述、母语类别等声音要素具有差异性,为准确识别出用户语音片段中的语义信息和表述行为信息,即对语音片段识别出表述的要义和指导行为表达,需有针对性的获取对应类别的语义拾取识别模型,即获得适配于用户语音个性化特征的语义识别模型,根据用户身份属性特征数据和用户母语类别标记数据结合音色音频特征数据和混响度指标数据、音散分布指标数据以及噪音频色分类数据、音散衰减率数据通过预设的第三方类型语义拾取识别模型库获得对应预设类型语义拾取识别模型,语义拾取识别模型库是包含多个语音类型的语义拾取识别模型的集成库,通过上述数据在该模型库中通过数据的相似度对比,获取符合数据最适配相似度的目标模型,相似度对比可以是采用余弦相似度进行数据对比,获得对应的预设类型语义拾取识别模型和语义行为识别响应阈值。

根据本发明实施例,所述根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,并结合所述语音情绪诱扰因指数进行处理,获得语义行为预判响应数据,具体为:

根据所述预设类型语义拾取识别模型对所述语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据;

根据多个所述语音关键表意数据以及语音表述动作数据结合所述语音情绪诱扰因指数通过预设类型语义行为检测模型进行处理,获得语义行为预判响应数据;

所述语义行为预判响应数据的程序公式为:

其中,

需要说明的是,通过模型库获得的预设类型语义拾取识别模型对语音片段信息进行识别处理,获得多个语音关键表意数据和多个语音表述动作数据,即通过对应类型识别模型对语音片段进行关键语义和表述动作的识别提取获得相关数据,再将多个语音关键表意数据和语音表述动作数据结合语音情绪诱扰因指数通过预设程序计算公式进行计算处理,获得语义行为预判响应数据,即对获得的多个语音识别结果数据结合用户语音表述的情绪干扰因子进行处理,获得对语音表义行为进行识别预判响应的评估结果数据,反映对用户语音识别判断的准确响应度的评估结果。

根据本发明实施例,所述根据所述环况净态系数和环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据,具体为:

根据所述环况净态系数以及所述环状声扰补偿系数对所述语义行为预判响应数据进行修正处理,获得语义行为识别响应修正数据;

所述语义行为识别响应修正数据的修正公式为:

其中,

需要说明的是,为进一步提高对语音识别响应结果的评估精准度,以获得对用户语音识别准确率效果的修正和判断,根据环况净态系数和环状声扰补偿系数对获得的语义行为预判响应数据通过修正计算公式进行修正处理,获得语义行为识别响应修正数据,使语音识别能力的判断响应结果通过补偿修正变得更加精准,提高对语音识别准确率效果的校准处理和判断手段的精准度。

本发明第三方面提供了一种可读存储介质,所述可读存储介质中包括提高语音识别准确率的方法程序,所述提高语音识别准确率的方法程序被处理器执行时,实现如上述任一项所述的提高语音识别准确率的方法的步骤。

本发明公开的一种提高语音识别准确率的方法、系统和介质,通过采集语音片段信息、用户属性标记信息以及语音环境信息,根据提取的语音片段特征数据处理获得语音情绪诱扰因指数,根据提取的声场环境特征数据和环境声噪音扰特征数据处理获得环况净态系数和环状声扰补偿系数,再结合语音片段特征数据获得对应预设类型语义拾取识别模型并对语音片段信息进行识别处理获得多个语音关键表意数据和语音表述动作数据,并结合语音情绪诱扰因指数处理获得语义行为预判响应数据,再根据环况净态系数和环状声扰补偿系数进行修正获得语义行为识别响应修正数据,最后与语义行为识别响应阈值进行阈值对比判断语音行为识别的准确度;从而基于语音大数据对语音信息结合场景环境进行数据处理和评估,对语音识别结果进行准确度判断,提高对用户语音识别准确率的校准判断。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

相关技术
  • 语音识别方法、智能终端、语音识别系统及可读存储介质
  • 一种语音识别方法、装置、设备及介质
  • 一种语音识别方法及装置、设备、介质
  • 一种语音识别方法、装置、家电设备、云服务器及介质
  • 一种语音识别的方法、装置及计算机存储介质
  • 一种提高语音识别准确率的方法、系统、设备及存储介质
  • 语音识别准确率提高方法、系统、电子设备和存储介质
技术分类

06120116503631