掌桥专利:专业的专利平台
掌桥专利
首页

一种语音信息处理方法和装置

文献发布时间:2023-06-19 18:37:28


一种语音信息处理方法和装置

技术领域

本发明涉及通信领域中的语音处理技术,尤其涉及一种语音信息处理方法和装置。

背景技术

随着互联网技术的高速发展,无线网络在各行各业得到了广泛的应用,随之语音服务也应运而生。基于语音交互体验的便捷性,语音技术广泛应用到人们的工作、娱乐、运动等生活方式中。例如,Google在其谷歌文档(Google Docs)应用中集成新款语音听写工具,实现了用户能够摆脱传统的键盘输入的人机交互;微软和苹果也分别将各自手持终端设备上的语音产品Cortana和Siri集成到各自的电脑系统中;甚至,一些智能手机或可穿戴设备也可以通过语音技术与终端设备交互。现有的语音识别技术主要是:通过本地或云端将使用者的声音信息中包含的语言信息转化为文本与采样数据中相应的文本进行比对,同时将两段声音进行频率共振的比对,以达到区别不同用户的目的。

但是,现有的语音识别技术只是将用户声音中的某些“物理特征”进行了一些体验式的鉴别,没有考虑用户的说话习惯、心情等因素造成的声音频率变化,导致与采样的用户声音频率误差较大,不能准确识别目标用户,会出现某些用户的操作不在实际操作权限内的情况,导致用户体验效果较差。

发明内容

为解决上述技术问题,本发明实施例提供一种语音信息处理方法和装置,至少部分解决了现有技术中根据语音信息无法准确识别目标用户的问题。

为达到上述目的,本发明实施例的技术方案是这样实现的:

一种语音信息处理方法,所述方法包括:

获取第一语音信息;

对所述第一语音信息进行分析处理,得到所述第一语音信息的第一特征信息和第二特征信息;

基于所述第一语音信息的第一特征信息和第二特征信息,判断所述第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与所述第一语音信息对应的操作。

可选的,所述对所述第一语音信息进行分析,得到所述第一语音信息的第一特征信息和第二特征信息之前,还包括:

获取所述第一语音信息对应的第一时域波形;

判断所述第一语音信息的所述第一时域波形是否是连续的;

如果所述第一语音信息的所述第一时域波形是连续的,则执行所述对所述第一语音信息进行分析处理,得到所述第一语音信息的第一特征信息和第二特征信息;

如果所述第一语音信息的所述第一时域波形是不连续的,则重新获取所述第一语音信息。

可选的,所述对所述第一语音信息进行分析处理,得到所述第一语音信息的第一特征信息和第二特征信息,包括:

对所述第一语音信息的第一时域波形进行频谱分析,得到所述第一语音信息的频率域波形;

根据所述第一语音信息的所述频率域波形,获取所述第一语音信息的所述第一特征信息;

对所述第一语音信息的第一时域波形进行过滤并采用延时补偿机制进行处理,得到所述第一语音信息的第二时域波形;

根据所述第一语音信息的第二时域波形,获取所述第一语音信息的所述第二特征信息。

可选的,所述基于所述第一语音信息的第一特征信息和第二特征信息,判断所述第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与所述第一语音信息对应的操作,包括:

分析所述第一语音信息的第一特征信息与所述预设语音信息的第一特征信息之间的关系,得到所述第一语音信息的第一特征系数;

分析所述第一语音信息的第二特征信息与所述预设语音信息的第二特征信息之间的关系,得到所述第一语音信息的第二特征系数;

判断所述第一特征系数是否小于第一阈值且所述第二特征系数是否小于第二阈值;

如果所述第一特征系数小于所述第一阈值且所述第二特征系数小于所述第二阈值,则确定所述第一语音信息与所述预设语音信息匹配并执行与所述第一语音信息对应的操作。

可选的,所述如果所述第一特征系数小于第一阈值且所述第二特征系数小于第二阈值,则确定所述第一语音信息与所述预设语音信息匹配并执行与所述第一语音信息对应的操作,包括:

如果所述第一特征系数小于第一阈值且所述第二特征系数小于第二阈值,则确定所述第一语音信息与所述预设语音信息匹配并获取所述预设语音信息的预设操作权限;

识别所述第一语音信息,得到所述第一语音信息对应的第一操作;

判断所述第一操作是否在所述预设操作权限中,若所述第一操作在所述预设操作权限中,则执行所述第一操作。

可选的,所述方法还包括:

对所述第一语音信息的第一时域波形进行频谱分析,获取所述第一语音信息的频率;

判断所述第一语音信息的频率是否在预设频率范围内;

如果所述第一语音信息的频率在所述预设频率范围内,则设置所述第一语音信息对应的用户的操作权限。

一种语音信息处理装置,所述装置包括:第一获取单元、第二获取单元和第一处理单元;其中:

所述第一获取单元,用于获取第一语音信息;

所述第二获取单元,用于对所述第一语音信息进行分析处理,得到所述第一语音信息的第一特征信息和第二特征信息;

所述第一处理单元,用于基于所述第一语音信息的第一特征信息和第二特征信息,判断所述第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与所述第一语音信息对应的操作。

可选的,所述装置还包括:第三获取单元、第一判断单元和第二处理单元;其中:

所述第三获取单元,用于获取所述第一语音信息对应的第一时域波形;

所述第一判断单元,用于判断所述第一语音信息的所述第一时域波形是否是连续的;

所述第二处理单元,用于如果所述第一语音信息的所述第一时域波形是连续的,则执行所述对所述第一语音信息进行分析处理,得到所述第一语音信息的所述第一特征信息和所述第二特征信息;

所述第二处理单元,还用于如果所述第一语音信息的所述第一时域波形是不连续的,则重新获取所述第一语音信息。

可选的,所述第二获取单元包括:第一获取模块和第二获取模块;其中:

所述第一获取模块,用于对所述第一语音信息的第一时域波形进行频谱分析,得到所述第一语音信息的频率域波形;

所述第一获取模块,还用于根据所述第一语音信息的所述频率域波形,获取所述第一语音信息的所述第一特征信息;

所述第二获取模块,用于对所述第一语音信息的第一时域波形进行过滤并采用延时补偿机制进行处理,得到所述第一语音信息的第二时域波形;

所述第二获取模块,还用于根据所述第一语音信息的第二时域波形,获取所述第一语音信息的所述第二特征信息。

可选的,所述第一处理单元包括:第三获取模块、判断模块和处理模块;其中:

所述第三获取模块,用于分析所述第一语音信息的第一特征信息与所述预设语音信息的第一特征信息之间的关系,得到所述第一语音信息的第一特征系数;

所述第三获取模块,还用于分析所述第一语音信息的第二特征信息与所述预设语音信息的第二特征信息之间的关系,得到所述第一语音信息的第二特征系数;

所述判断模块,用于判断所述第一特征系数是否小于第一阈值且所述第二特征系数是否小于第二阈值;

所述处理模块,用于如果所述第一特征系数小于所述第一阈值且所述第二特征系数小于所述第二阈值,则确定所述第一语音信息与所述预设语音信息匹配并执行与所述第一语音信息对应的操作。

可选的,所述处理模块具体还用于:

如果所述第一特征系数小于第一阈值且所述第二特征系数小于第二阈值,则确定所述第一语音信息与所述预设语音信息匹配并获取所述预设语音信息的预设操作权限;

识别所述第一语音信息,得到所述第一语音信息对应的第一操作;

判断所述第一操作是否在所述预设操作权限中,若所述第一操作在所述预设操作权限中,则执行所述第一操作。

可选的,所述装置还包括:第四获取单元、第二判断单元和设置单元;其中,

所述第四获取单元,用于对所述第一语音信息的第一时域波形进行频谱分析,获取所述第一语音信息的频率;

所述第二判断单元,用于判断所述第一语音信息的频率是否在预设频率范围内;

所述设置单元,用于如果所述第一语音信息的频率在所述预设频率范围内,则设置所述第一语音信息对应的用户的操作权限。

本发明实施例所提供的语音信息处理方法和装置,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。

附图说明

图1为本发明实施例提供的一种语音信息处理方法的流程示意图;

图2为本发明实施例提供的另一种语音信息处理方法的流程示意图;

图3为本发明实施例提供的又一种语音信息处理方法的流程示意图;

图4为本发明实施例提供的再一种语音信息处理方法的流程示意图;

图5为本发明实施例提供的一种语音信息处理装置的结构示意图;

图6为本发明实施例提供的另一种语音信息处理装置的结构示意图;

图7为本发明实施例提供的又一种语音信息处理装置的结构示意图;

图8为本发明另一实施例提供的一种语音信息处理装置的结构示意图;

图9为本发明另一实施例提供的另一种语音信息处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供一种语音信息处理方法,参照图1所示,该方法包括以下步骤:

步骤101、获取第一语音信息。

具体的,步骤101获取第一语音信息可以由语音信息处理装置来实现。语音信息处理装置可以是能够进行语音识别并执行对应的操作的智能手机、导航仪、平板电脑、智能电视、智能冰箱、智能继电器、空调等智能设备;第一语音信息可以是用户发送的能够控制智能设备执行相关操作的实时语音信息,第一语音信息可以是从用户开始说话进行采集,在用户停止说话超过一个时间段后停止采集,该时间段可以是用户根据自己的意愿进行设置的,例如可以是5秒。

步骤102、对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息。

具体的,步骤102对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息可以由语音信息处理装置来实现。第一特征信息可以包括声音的音色、共振、谐振方式等声音的物理特征信息,第二特征信息可以包括声音的音量高低、语速快慢等声音的行为特征信息。

步骤103、基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与第一语音信息对应的操作。

具体的,步骤103基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与第一语音信息对应的操作可以由语音信息处理装置来实现。比较第一语音信息的第一特征信息与预设语音信息的第一特征信息之间的关系,同时比较第一语音信息的第二特征信息与预设语音信息的第二特征信息之间的关系,判断第一语音信息与预设语音信息是否匹配;若第一语音信息与预设语音信息匹配,执行与第一语音信息对应的操作;若第一语音信息与预设语音信息不匹配,则不执行第一语音信息对应的操作,可以发出对应的提示语音,例如“您无操作权限”等。

本发明实施例所提供的语音信息处理方法,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。

本发明实施例提供一种语音信息处理方法,参照图2所示,该方法包括以下步骤:

步骤201、语音信息处理装置获取第一语音信息。

步骤202、语音信息处理装置获取第一语音信息对应的第一时域波形。

具体的,第一语音信息对应的第一时域波形是采集到的第一语音信息未经处理的原始波形。

步骤203、语音信息处理装置判断第一语音信息的第一时域波形是否是连续的。

具体的,判断第一语音信息,即用户发送的实时语音信息的时域波形在接收时间内是否是连续的。其中,用户发送的实时语音信息的时域波形在接收时间内一直是连续的信号,而录制的语音信息的时域波形是经过数字设备采样获得的,其对应的时域波形在接收时间内的时域波形整体上是不连续的。

其中,步骤203判断第一语音信息的第一时域波形是否是连续的,可以选择执行步骤204或者步骤205~206,若第一语音信息的第一时域波形是不连续的执行步骤204,若第一语音信息的第一时域波形是连续的执行步骤205~206;

步骤204、如果第一语音信息的第一时域波形是不连续的,则语音信息处理装置重新获取第一语音信息。

具体的,如果第一语音信息的第一时域波形是不连续的,表明当前获取到的第一语音信息是录制的语音信息,此时可以直接删除该第一语音信息,重新获取语音信息,避免出现误操作的情况。

步骤205、如果第一语音信息的第一时域波形是连续的,则语音信息处理装置对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息。

具体的,如果第一语音信息的第一时域波形是连续的,表明第一语音信息是用户发送的实时语音信息,此时可以对第一语音信息的第一时域波形进行频谱分析得到第一语音信息的频率域波形,从第一语音信息的频率域波形中获取第一语音信息的音色、共振、谐振方式等第一特征信息;同时从第一语音信息的第一时域波形中可以获取第一语音信息的音量高低、语速快慢等第二特征信息。

步骤206、语音信息处理装置基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与第一语音信息对应的操作。

具体的,预设语音信息是提前录制采样并保存在智能设备本地系统或对应的云端中的至少一个用户语音信息;在本地系统中对预设语音信息进行录制采样时,在尽可能保证预设语音信息的音频质量的前提下可以采用高采样文件的压缩率,以降低用户的网络使用费用;预设语音信息存储在云端中可以是通过智能设备采用无线网络与云端进行通信,将本地系统中得到的预设语音信息存储到云端中实现的。

需要说明的是,本实施例中与其它实施例中相同步骤或者概念的解释,可以参照其它实施例中的描述,此处不再赘述。

本发明实施例所提供的语音信息处理方法,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。进而,降低了语音识别过程中存在识别录制的语音信息导致错误操作而给用户的生命财产安全造成不必要的损失的风险。

本发明实施例提供一种语音信息处理方法,参照图3所示,该方法包括以下步骤:

步骤301、语音信息处理装置获取第一语音信息。

步骤302、语音信息处理装置获取第一语音信息对应的第一时域波形。

步骤303、语音信息处理装置判断第一语音信息的第一时域波形是否是连续的。

其中,步骤303语音信息处理装置判断第一语音信息的第一时域波形是否是连续的,可以选择执行步骤304或者步骤305~312,若第一语音信息的第一时域波形是不连续的执行步骤304,若第一语音信息的第一时域波形是连续的执行步骤305~312;

步骤304、如果第一语音信息的第一时域波形是不连续的,则语音信息处理装置重新获取第一语音信息。

步骤305、如果第一语音信息的第一时域波形是连续的,则语音信息处理装置对第一语音信息的第一时域波形进行频谱分析,得到第一语音信息的频率域波形。

具体的,可以采用傅里叶变换方法对第一语音信息的第一时域波形进行频谱分析,得到第一语音信息的频率域波形。

步骤306、语音信息处理装置根据第一语音信息的频率域波形,获取第一语音信息的第一特征信息。

具体的,可以对第一语音信息的频率域波形进行第一特征分析,得到第一语音信息的第一特征信息,其中,对频率域波形进行分析得到第一特征信息的具体实现方法可以参照现有技术的实现方式,此处不再赘述。

步骤307、语音信息处理装置对第一语音信息的第一时域波形进行过滤并采用延时补偿机制进行处理,得到第一语音信息的第二时域波形。

具体的,可以对第一语音信息的第一时域波形的首尾空白信号进行过滤,然后采用延时补偿机制对过滤处理后的第一语音信息的第一时域波形进行处理,得到第二语音信息的第二时域波形;其中,第二时域波形与预设语音信息的时域波形从波形分布、波峰波谷间距、时间戳等能够达到动态一致。

步骤308、语音信息处理装置根据第一语音信息的第二时域波形,获取第一语音信息的第二特征信息。

具体的,对第一语音信息的第二时域波形进行第二特征分析,得到第一语音信息的第二特征信息,其中,对时域波形进行分析得到第二特征信息的实现方法可以参照现有技术的实现方式,此处不再赘述。

步骤309、语音信息处理装置分析第一语音信息的第一特征信息与预设语音信息的第一特征信息之间的关系,得到第一语音信息的第一特征系数。

具体的,可以将第一语音信息的第一特征信息与预设语音信息的第一特征信息进行相减并取绝对值得到第一语音信息的第一特征系数,当然,分析第一语音信息的第一特征信息与预设语音信息的第一特征信息之间的关系还可以采用现有技术中所采取的其他方法,并不局限于本发明提出的实现方式。其中,预设语音信息的第一特征信息获取方法可以与第一语音信息的第一特征信息获取方法一致。

步骤310、语音信息处理装置分析第一语音信息的第二特征信息与预设语音信息的第二特征信息之间的关系,得到第一语音信息的第二特征系数。

具体的,可以将第一语音信息的第二特征信息与预设语音信息的第二特征信息进行相减并取绝对值得到第一语音信息的第二特征系数,当然,分析第一语音信息的第二特征信息与预设语音信息的第二特征信息之间的关系还可以采用现有技术中所采取的其他方法,并不局限于本发明提出的实现方式。其中,预设语音信息的第二特征信息获取方法可以与第一语音信息的第二特征信息获取方法一致。

步骤311、语音信息处理装置判断第一特征系数是否小于第一阈值且第二特征系数是否小于第二阈值。

具体的,第一阈值可以是针对所有第一特征系数设置的一个数值,也可以是针对不同的第一特征系数对应设置不同的数值,例如可以设置根据第一语音信息的第一特征信息(音色、共振、谐振方式)得到的三个第一特征系数的第一阈值为同一个数值,也可以设置第一语音信息的第一特征信息(音色)对应的第一特征系数的第一阈值为第一数值、第一特征信息(共振)对应的第一特征系数的第一阈值为第二数值、第一特征信息(谐振方式)对应的第一特征系数为第三数值。第二阈值可以是针对所有第二特征系数设置的一个数值,也可以是针对不同的第二特征系数对应设置不同的数值;例如可以设置根据第一语音信息的第二特征信息(音量高低、语速快慢)得到的两个第二特征系数的第二阈值为同一个数值,也可以设置第一语音信息的第二特征信息(音量高低)对应的第二特征系数的第二阈值为第四数值、第二特征信息(语速快慢)对应的第二特征系数的第二阈值为第五数值;其中,用户可以根据实际的应用场景和实现效果设置第一阈值和第二阈值。

步骤312、如果第一特征系数小于第一阈值且第二特征系数小于第二阈值,则语音信息处理装置确定第一语音信息与预设语音信息匹配并获取预设语音信息的预设操作权限。

具体的,如果第一语音信息的第一特征系数大于等于第一阈值,第二特征系数大于等于第二阈值或者第一语音信息的第一特征系数大于等于第一阈值且第二特征系数大于等于第二阈值,则认为第一语音信息与预设语音信息不匹配,不执行第一语音信息对应的操作。在使用过程中,经过判断后确定第一特征系数小于第一阈值且第二特征系数小于第二阈值时,可以将第一语音信息的语义与预设语音信息的语义进行匹配,加强验证过程保证安全性。

需要说明的是,步骤312可以通过以下具体方式来实现:

步骤312a、如果第一特征系数小于第一阈值且第二特征系数小于第二阈值,则语音信息处理装置确定第一语音信息与预设语音信息匹配并获取预设语音信息的预设操作权限。

具体的,预设操作权限可以是基于智能设备的功能设置的不同的用户可以对智能设备进行操作的范围,提高了操作的安全系数;该预设操作权限可以是用户预先设置并存储在智能设备中的。

步骤312b、语音信息处理装置识别第一语音信息,得到第一语音信息对应的第一操作。

具体的,可以对第一语音信息进行语义识别得到第一语音信息对应的第一操作;其中,第一操作可以是用户希望智能设备执行的操作,语义识别的实现方法可以参照现有技术的实现方式,此处不再赘述。

步骤312c、语音信息处理装置判断第一操作是否在预设操作权限中,若第一操作在预设操作权限中,则执行第一操作。

具体的,判断第一操作是否在预设操作权限中可以是通过判断第一语音信息对应的操作能否在预设的操作范围中找到与之相同的操作来实现的,如果第一语音信息对应的操作与预设的操作范围中的至少一个操作相同,则智能设备响应并执行第一操作。

基于上述实施例,参照图4所示,在本发明的其他实施例中,该语音信息处理方法还包括:

步骤313、语音信息处理装置对第一语音信息的第一时域波形进行频谱分析,获取第一语音信息的频率。

步骤314、语音信息处理装置判断第一语音信息的频率是否在预设频率范围内。

具体的,预设频率可以根据用户不同年龄阶段对应的声音频率不同进行设定。在本实施例中,可以设置预设频率范围为未成年人对应的声音频率范围;例如,以男性声音频率为例进行说明:变声期前(未成年)的声音频率为174.614Hz~184.997Hz,变声后(成年)的声音频率为87.307Hz~92.499Hz。

步骤315、如果第一语音信息的频率在预设频率范围内,则语音信息处理装置设置第一语音信息对应的用户的操作权限。

具体的,如果第一语音信息的频率范围在预设频率范围内说明此时发送语音信息的用户为未成年人,需要限定未成年人能够使用智能设备的功能。例如,可以设置停用智能设备或者限制智能设备的某些功能不能使用,如智能继电器对电源插座停止供电、不能使用智能电视的收费频道或者不能使用智能设备的游戏功能;当第一语音信息的频率在预设频率范围内时,不执行第一语音信息对应的第一操作在限制功能范围内的操作;当第一语音信息的频率在预设范围外时,则判断第一语音信息与预设语音信息之间的关系,并根据第一语音信息与预设语音信息之间的关系执行后续的处理流程。

需要说明的是,在本发明其它实施例中,预设频率范围也可以是成年人对应的声音频率范围,如果第一语音信息的频率在预设频率范围外,则语音信息处理装置设置第一语音信息对应的用户的操作权限。预设频率范围的设置可以是根据用户的具体需求和意愿进行,也可以是在智能设备出厂时设置完成的。本发明所有实施例中的第一特征信息可以是声音的物理特征信息,第一特征系数可以是物理特征信息对应的物理特征系数;第二特征信息可以是声音的行为特征信息,第二特征系数可以是行为特征信息对应的行为特征系数。

需要说明的是,本实施例中与其它实施例中相同步骤或者概念的解释,可以参照其它实施例中的描述,此处不再赘述。

本发明实施例所提供的语音信息处理方法,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。进而,降低了语音识别过程中存在识别录制的语音信息导致错误操作而给用户的生命财产安全造成不必要的损失的风险。

本发明实施例提供了一种语音信息处理装置4,可应用于图1~4对应的实施例提供的一种语音信息处理方法中,参照图5所示,该装置包括:第一获取单元41、第二获取单元42和第一处理单元43,其中:

第一获取单元41,用于获取第一语音信息。

第二获取单元42,用于对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息。

第一处理单元43,用于基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,并根据判断结果确定是否执行与第一语音信息对应的操作。

本发明实施例所提供的语音信息处理装置,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。

具体的,参照图6所示,该装置还包括:第三获取单元44、第一判断单元45和第二处理单元46,其中:

第三获取单元44,用于获取第一语音信息对应的第一时域波形。

第一判断单元45,用于判断第一语音信息的第一时域波形是否是连续的。

第二处理单元46,用于如果第一语音信息的第一时域波形是连续的,则执行对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息。

第二处理单元46,还用于如果第一语音信息的第一时域波形是不连续的,则重新获取第一语音信息。

具体的,参照图7所示,第二获取单元42包括:第一获取模块421和第二获取模块422,其中:

第一获取模块421,用于对第一语音信息的第一时域波形进行频谱分析,得到第一语音信息的频率域波形。

第一获取模块421,还用于根据第一语音信息的频率域波形,获取第一语音信息的第一特征信息。

第二获取模块422,用于对第一语音信息的第一时域波形进行过滤并采用延时补偿机制进行处理,得到第一语音信息的第二时域波形。

第二获取模块422,还用于根据第一语音信息的第二时域波形,获取第一语音信息的第二特征信息。

具体的,参照图8所示,第一处理单元43包括:第三获取模块431、判断模块432和处理模块433,其中:

第三获取模块431,用于分析第一语音信息的第一特征信息与预设语音信息的第一特征信息之间的关系,得到第一语音信息的第一特征系数。

第三获取模块431,还用于分析第一语音信息的第二特征信息与预设语音信息的第二特征信息之间的关系,得到第一语音信息的第二特征系数。

判断模块432,用于判断第一特征系数是否小于第一阈值且第二特征系数是否小于第二阈值。

处理模块433,用于如果第一特征系数小于第一阈值且第二特征系数小于第二阈值,则第一语音信息与预设语音信息匹配并执行与第一语音信息对应的操作。

具体可选的,处理模块433具体用于执行以下步骤:

如果第一特征系数小于第一阈值且第二特征系数小于第二阈值,则第一语音信息与预设语音信息匹配并获取预设语音信息的预设操作权限。

识别第一语音信息,得到第一语音信息对应的第一操作。

判断第一操作是否在预设操作权限中,若第一操作在预设操作权限中,则执行第一操作。

具体的,参照图9所示,该装置还包括:第四获取单元47、第二判断单元48和设置单元49,其中:

第四获取单元47,用于对第一语音信息的第一时域波形进行频谱分析,获取第一语音信息的频率。

第二判断单元48,用于判断第一语音信息的频率是否在预设频率范围内。

设置单元49,用于如果第一语音信息的频率在预设频率范围内,则设置第一语音信息对应的用户的操作权限。

需要说明的是,本实施例中各个单元和模块之间的交互过程,可以参照图1~4对应的实施例提供的一种语音信息处理方法中的交互过程,此处不再赘述。

本发明实施例所提供的语音信息处理装置,能够获取第一语音信息,之后对第一语音信息进行分析处理,得到第一语音信息的第一特征信息和第二特征信息,并基于第一语音信息的第一特征信息和第二特征信息,判断第一语音信息与预设语音信息之间的关系,最后根据判断结果确定是否执行与第一语音信息对应的操作;这样,在进行用户语音信息识别时,可以同时考虑用户语音信息的第一特征信息和第二特征信息识别用户语音信息与预设语音信息之间的关系,解决了现有技术中无法根据语音信息准确识别目标用户的问题,能够准确识别目标用户并精确匹配用户的操作权限,避免某些用户的操作不在实际操作权限内的情况发生,提高了用户与设备之间的交互能力。进而,降低了语音识别过程中存在识别录制的语音信息导致错误操作而给用户的生命财产安全造成不必要的损失的风险。

在实际应用中,第一获取单元41、第二获取单元42、第一处理单元43、第三获取单元44、第一判断单元45、第二处理单元46、第四获取单元47、第二判断单元48、设置单元49、第一获取模块421、第二获取模块422、第三获取模块431、判断模块432和处理模块433均可由位于无线数据发送设备中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro ProcessorUnit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

技术分类

06120115636962