掌桥专利:专业的专利平台
掌桥专利
首页

一种远程语音指令识别加速方法、装置和智能烤箱系统

文献发布时间:2023-06-19 19:33:46


一种远程语音指令识别加速方法、装置和智能烤箱系统

技术领域

本申请属于智能物联网技术领域,尤其涉及一种远程语音指令识别加速方法、装置和智能烤箱系统。

背景技术

电烤箱是利用电热元件发出的烤制食物的。随着智能化应用的广泛推行,智能电烤箱加入了远程语音指令识别功能,可以实现远程加热,减少用户的操作时间。然而,智能电烤箱语音识别的灵敏度和速度成为新的技术难题。

因此,我们需要一种方法或装置优化智能电烤箱系统的远程语音指令识别的灵敏度和效率。

发明内容

有鉴于此,本申请提供了一种远程语音指令识别加速方法、装置和智能烤箱系统,解决智能电烤箱语音识别速度过慢的问题,提高用户的使用舒适度。

本申请的具体技术方案如下:

本申请第一方面提供一种远程语音指令识别加速方法,包括如下步骤:

监测来自用户端的远程启动信号,获取来自用户端的远程语音指令,将所述远程语音指令进行分类并根据分类情况生成第一音频数据;

提取所述第一音频数据的关键字段,根据所述分类情况对所述关键字段进行加扰处理生成第二音频数据;

将所述第二音频数据转换为数字音频,根据所述分类情况对所述数字音频进行编码生成第三音频数据;

根据所述分类情况对所述第三音频数据进行解码,控制执行模块执行解码后的远程语音指令。

进一步的,将所述远程语音指令进行分类具体为:

识别所述远程语音指令的声音频率;

提取声音频率高于频率阈值的有效语音指令,计算所述有效语音指令的总时长;

根据所述有效语音指令的总时长进行分类。

进一步的,根据分类情况生成第一音频数据具体为:

若所述远程语音指令为短音频指令,则识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据;

若所述远程语音指令为长音频指令,则检测所述远程语音指令的起始位置,消除所述远程语音指令中所述起始位置后的非语言段,识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据。

进一步的,对所述关键字段进行加扰处理生成第二音频数据具体为:

根据所述关键字段解析指令类别和指令参数;

分别对相同指令类别下的指令参数进行数据加密生成第二音频数据。

进一步的,根据所述分类情况对所述关键字段进行加扰处理具体为:

根据所述分类情况确定所述关键字段的解析密度和加密强度;

根据所述关键字段的解析密度和加密强度对所述关键字段进行加扰处理。

进一步的,对所述数字音频进行编码生成第三音频数据具体为:

获取所述数字音频的音频频段,获取所述音频频段对应的数据量的随机位数;

根据所述数据量和所述随机位数计算编码参数,并按照所述编码参数对所述数字音频进行编码。

进一步的,根据所述分类情况对所述数字音频进行编码具体为:

根据所述分类情况调整所述数字音频的音频频段;

根据所述分类情况设定所述音频频段对应的基础数据量。

进一步的,根据所述分类情况对所述第三音频数据进行解码具体为:

根据所述分类情况确定所述第三音频数据的打包长度和接口数量;

根据所述打包长度和所述接口数量匹配解码参数,并按照所述解码参数对所述第三音频数据进行编码。

本申请第二方面提供一种远程语音指令识别加速装置,所述远程语音指令识别加速装置包括:

信号处理模块,用于监测来自用户端的远程启动信号,获取来自用户端的远程语音指令,将所述远程语音指令进行分类并根据分类情况生成第一音频数据;

音频识别加扰模块,用于提取所述第一音频数据的关键字段,根据所述分类情况对所述关键字段进行加扰处理生成第二音频数据;

快速编码打包模块,用于将所述第二音频数据转换为数字音频,根据所述分类情况对所述数字音频进行编码生成第三音频数据;

快速解码模块,用于根据所述分类情况对所述第三音频数据进行解码,控制执行模块执行解码后的远程语音指令。

本申请第三方面提供一种智能烤箱系统,所述智能烤箱系统实现所述远程语音指令识别加速方法,或包含所述远程语音指令识别加速装置中的各模块。

综上所述,本申请提供了一种远程语音指令识别加速方法、装置和智能烤箱系统,通过将远程语音指令进行分类并根据分类情况生成第一音频数据,提取第一音频数据的关键字段,对关键字段进行加扰处理生成第二音频数据,将第二音频数据转换为数字音频进行编码生成第三音频数据,对第三音频数据进行解码,控制执行模块执行解码后的远程语音指令。本申请通过远程语音指令的音频长短进行分类,以区分不同的音频预处理模式、识别加扰处理模式以及音频数据编码解码模式,保护远程语音指令中的关键信息在解析过程中不受干扰,提升提取的音频段中关键信息的识别灵敏度,同时有效调节数据传输和处理效率,配合不同复杂程度的远程语音指令快速被执行模块响应。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本申请远程语音指令识别加速方法的流程图;

图2为本申请远程语音指令识别加速装置的框图。

具体实施方式

为使得本申请的目的、特征、优点能够更加的明显和易懂,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

请参照图1,图1为本申请远程语音指令识别加速方法的流程图。

本申请实施例提供一种远程语音指令识别加速方法,包括如下步骤:

S1:监测来自用户端的远程启动信号,获取来自用户端的远程语音指令,将所述远程语音指令进行分类并根据分类情况生成第一音频数据;

S2:提取所述第一音频数据的关键字段,根据所述分类情况对所述关键字段进行加扰处理生成第二音频数据;

S3:将所述第二音频数据转换为数字音频,根据所述分类情况对所述数字音频进行编码生成第三音频数据;

S4:根据所述分类情况对所述第三音频数据进行解码,控制执行模块执行解码后的远程语音指令。

作为一种实施例,S1中用户端在识别环境中带有启动字段的语音音频后向电烤箱系统发送远程启动信号,电烤箱系统在收到远程启动信号后开始通过无线网获取用户端权限,以及获取来自用户端接收到的远程语音指令。通过远程语音指令的音频长短进行分类,以区分不同降噪程度的音频预处理模式,对远程语音指令进行降噪处理后传输至音频识别加扰模块。

S2中利用常规的特征提取技术提取第一音频数据的关键字段,关键字段可以但不局限于是加热模式、启动时间点等关键信息所处的音频段。根据远程语音指令的音频长短区分不同保护强度的识别加扰处理模式,保护远程语音指令中的关键信息在解析过程中不受干扰,提升提取的音频段中关键信息的识别灵敏度,防止数据丢失。

S3中通过无线网传输数据获取无线网传输配置,结合远程语音指令的音频长短区分不同的音频数据编码模式,例如控制音频数据的质量、大小、传输配置等,将第二音频数据进行编码后通过无线网数据传输至电烤箱系统,针对不同复杂程度的远程语音指令,可有效调节数据传输和处理效率,提升语音识别速度、缩短运行等待时间。

S4中电烤箱系统在接收到第三音频数据后,根据远程语音指令的音频长短区分不同通量的音频数据解码模式,例如控制解码器的开启数量和功耗等,也可根据第三音频数据的编码配置情况直接匹配音频数据解码模式,例如根据打包接口数量自动匹配解码器开启数量等,实现资源利用最大化,配合不同复杂程度的远程语音指令快速被加热组件等执行模块响应。

根据本申请实施例,将所述远程语音指令进行分类具体为:

识别所述远程语音指令的声音频率;

提取声音频率高于频率阈值的有效语音指令,计算所述有效语音指令的总时长;

根据所述有效语音指令的总时长进行分类。

作为一种实施例,电烤箱系统通过无线网侦测到用户端向智能电烤箱进行远程语音指令传输,电烤箱系统暂时获取用户端权限,并创建一个从用户端到电烤箱系统的单线程模式。电烤箱系统获取用户端发出的控制指令音频,首先根据声音频率大小排除空白的音频段并计算音频总时长,其中频率阈值设定仅为区分无声音产生的音频段。接着根据音频总时长进行分类,例如音频数据小于5秒,系统判定为短音频信号处理模式,音频数据大于5秒,系统判定为长音频信号处理模式。

根据本申请实施例,根据分类情况生成第一音频数据具体为:

若所述远程语音指令为短音频指令,则识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据;

若所述远程语音指令为长音频指令,则检测所述远程语音指令的起始位置,消除所述远程语音指令中所述起始位置后的非语言段,识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据。

作为一种实施例,根据远程语音指令的音频长短选择不同程度的去噪处理模式。对于短音频指令,电烤箱系统依次通过常规自适应LMS算法(Least mean square,最小均方算法)对获取的音频数据进行降噪和消除回音、基于逆滤波技术进行混响消除、利用MAD算法(Multimedia access delay,多媒体接入时延算法)进行声源定位、利用波速形成技术形成波速生成消除完成后的第一音频数据,最后电烤箱将数据传输给音频识别加扰模块。而对于长音频指令往往涵盖多项逻辑关系紧密的控制指令,同时各部分指令之间存在间隔或环境干扰,破坏了控制指令的连贯性、增加解析难度。因此需要进行拆分起始点再进行消除防止关键信息丢失,在以上步骤的起始阶段还需利用VAD静音抑制(Voice ActivityDetection,语音端点检测)技术进行语音端点检测出音频数据的启始位置,分离出语言和非语言段并将非语言段进行消除。

根据本申请实施例,对所述关键字段进行加扰处理生成第二音频数据具体为:

根据所述关键字段解析指令类别和指令参数;

分别对相同指令类别下的指令参数进行数据加密生成第二音频数据。

作为一种实施例,通过常规特征提取器提取关键字段中的关键字后生成模型进行模型匹配,根据内置字典获取到对应的文字,指令类别如加热、保温、停止等,以及指令参数如温度、时间等。对相同指令类别下的指令参数进行数据加密,以降低相互干扰的影响,提升语音识别的准确度和灵敏度,完成后电烤箱系统将音频数据传输给快速编码打包模块。

根据本申请实施例,根据所述分类情况对所述关键字段进行加扰处理具体为:

根据所述分类情况确定所述关键字段的解析密度和加密强度;

根据所述关键字段的解析密度和加密强度对所述关键字段进行加扰处理。

作为一种实施例,根据远程语音指令的分类情况区分加扰程度,尤其对于长音频指令,由于指令复杂程度高,易导致模块化解析失败、各部分指令间逻辑关系识别度差的问题,可通过提高关键字段的解析密度和加密强度来解决,例如解析关键字段的断点频率提高50%、同类指令下指令参数的密码位数提高50%等。

根据本申请实施例,对所述数字音频进行编码生成第三音频数据具体为:

获取所述数字音频的音频频段,获取所述音频频段对应的数据量的随机位数;

根据所述数据量和所述随机位数计算编码参数,并按照所述编码参数对所述数字音频进行编码。

作为一种实施例,电烤箱系统的ADC芯片将模拟音频数据转换成数字音频以便进行编码操作。由于电烤箱系统区分无线网为2.4GHZ与5GHZ发送模式,需要将不同频段的数字音频适应性地标准化处理以便进行数据传输。例如,当无线网为2.4GHZ发送模式,设置音频频段为2.4GHZ,对应的数据量权重为2,将数据量权重乘以8(2*8=16字节)作为音频频段对应的数据量。随机获取该数据量的随机位数,将数据量的值与随机位数的值求和生成编码值,接着获取该编码值进行左移生成编码完成后的数字音频。

根据本申请实施例,根据所述分类情况对所述数字音频进行编码具体为:

根据所述分类情况调整所述数字音频的音频频段;

根据所述分类情况设定所述音频频段对应的基础数据量。

作为一种实施例,根据远程语音指令的分类情况区分不同编码模式,其中利用音频频段和基础数据量调整音频质量和大小,用于根据不同的指令复杂程度针对性调整数据传输速度和音频数据识别度。例如,若为短音频指令(时长小于5秒),则选择低度编码模式,将音频频段调整为2.4GHZ,同时设置数据量权重值为2;若为中音频指令(时长大于5秒小于10秒),则选择中度编码模式,将音频频段调整为5GHZ,同时设置数据量权重值为4;若为长音频指令(时长大于10秒),则选择高度编码模式,将音频频段调整为5GHZ,同时设置数据量权重值为6。

根据本申请实施例,根据所述分类情况对所述第三音频数据进行解码具体为:

根据所述分类情况确定所述第三音频数据的打包长度和接口数量;

根据所述打包长度和所述接口数量匹配解码参数,并按照所述解码参数对所述第三音频数据进行编码。

作为一种实施例,根据远程语音指令的分类情况区分音频数据的打包和解包模式,包括打包长度、接口数量、解码器数量和解码器功耗等,用于根据指令的复杂程度自动调整数据传输和解析效率,充分调动配置使执行模块的响应速度达到顶峰。例如,当电烤箱系统获取远程语音指令为短音频指令,或者获取远程语音指令为低度编码模式时,启动低速解码模式,打包长度设置为1秒、接口数量设置为1个进行音频数据打包、解码参数匹配为1级(1个解码器工作)进行音频数据解包。电烤箱系统获取编码值进行右移进行解扰后再减去右移的值得到解码值,当解码值等于0则认证成功还原音频数据,电烤箱系统获取还原的远程语音指令开始控制执行模块工作。当电烤箱系统获取远程语音指令为中音频指令时,启动中速解码模式,打包长度设置为2秒、接口数量设置为2个、解码参数匹配为2级(2个解码器工作);当电烤箱系统获取远程语音指令为长音频指令时,启动高速解码模式,打包长度设置为3秒、接口数量设置为3个、解码参数匹配为3级(3个解码器工作)。

请参照图2,图2为本申请远程语音指令识别加速装置的框图。

本申请实施例还提供一种远程语音指令识别加速装置,所述远程语音指令识别加速装置包括:

信号处理模块1,用于监测来自用户端的远程启动信号,获取来自用户端的远程语音指令,将所述远程语音指令进行分类并根据分类情况生成第一音频数据;

音频识别加扰模块2,用于提取所述第一音频数据的关键字段,根据所述分类情况对所述关键字段进行加扰处理生成第二音频数据;

快速编码打包模块3,用于将所述第二音频数据转换为数字音频,根据所述分类情况对所述数字音频进行编码生成第三音频数据;

快速解码模块4,用于根据所述分类情况对所述第三音频数据进行解码,控制执行模块执行解码后的远程语音指令。

根据本申请实施例,所述信号处理模块具体用于:

识别所述远程语音指令的声音频率;

提取声音频率高于频率阈值的有效语音指令,计算所述有效语音指令的总时长;

根据所述有效语音指令的总时长进行分类。

根据本申请实施例,所述信号处理模块具体用于:

若所述远程语音指令为短音频指令,则识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据;

若所述远程语音指令为长音频指令,则检测所述远程语音指令的起始位置,消除所述远程语音指令中所述起始位置后的非语言段,识别所述远程语音指令的噪音段,对所述噪音段进行混响消除,将混响消除后的远程语音指令重新进行声源定位和形成波速,生成所述第一音频数据。

根据本申请实施例,所述音频识别加扰模块具体用于:

根据所述关键字段解析指令类别和指令参数;

分别对相同指令类别下的指令参数进行数据加密生成第二音频数据。

根据本申请实施例,所述音频识别加扰模块具体用于:

根据所述分类情况确定所述关键字段的解析密度和加密强度;

根据所述关键字段的解析密度和加密强度对所述关键字段进行加扰处理。

根据本申请实施例,所述快速编码打包模块具体用于:

获取所述数字音频的音频频段,获取所述音频频段对应的数据量的随机位数;

根据所述数据量和所述随机位数计算编码参数,并按照所述编码参数对所述数字音频进行编码。

根据本申请实施例,所述快速编码打包模块具体用于:

根据所述分类情况调整所述数字音频的音频频段;

根据所述分类情况设定所述音频频段对应的基础数据量。

根据本申请实施例,所述快速解码模块具体用于:

根据所述分类情况确定所述第三音频数据的打包长度和接口数量;

根据所述打包长度和所述接口数量匹配解码参数,并按照所述解码参数对所述第三音频数据进行编码。

本申请实施例还提供一种智能烤箱系统,所述智能烤箱系统实现所述远程语音指令识别加速方法,或包含所述远程语音指令识别加速装置中的各模块。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种4K点播智能判断识别码率的方法及装置和系统
  • 一种智能识别方法、装置及系统
  • 一种基于IO场景识别的读加速方法、装置及电子设备
  • 一种基于对象识别的远程快速界面交互方法及装置
  • 一种智能电器中的语音指令识别方法及识别系统
  • 一种可识别语音指令的智能家电控制系统
技术分类

06120115950043