掌桥专利:专业的专利平台
掌桥专利
首页

一种离线式语音识别电路、方法、PCB板及装置

文献发布时间:2024-04-18 20:02:18


一种离线式语音识别电路、方法、PCB板及装置

技术领域

本申请涉及语音识别的技术领域,特别涉及一种离线式语音识别电路、方法、PCB板及装置。

背景技术

离线语音识别是指在设备本地进行语音识别的技术,不需要依赖互联网连接。离线语音识别在许多应用领域都有广泛的应用,包括智能助手、语音控制、语音输入和语音翻译等。离线语音识别的工作原理是将用户的语音输入转化为文本输出,实现对用户语音命令和语音内容的识别。

在现有技术中,离线语音识别通常包括以下几个步骤:声音采集、声音预处理、特征提取、声学模型训练、语音识别输出。现有的离线语音识别普遍存在以下缺点:

准确性有限:传统的离线语音识别系统在复杂语音环境下的识别准确性相对较低,尤其是对于噪声、语速变化和口音等因素的适应能力较弱。

数据需求大:传统的离线语音识别系统通常需要大量的标注数据才能训练准确的模型,而这些数据的获取和标注成本较高。

无法自适应:传统的离线语音识别系统难以根据用户个性化的语音特点和需求进行自适应,无法提供个性化的用户体验。

所以,传统的离线语音识别系统在准确性、数据需求、自适应性和模块化设计等方面存在一定的缺点。在现有技术中,缺少一种自适应能力较强的离线语音识别系统。

发明内容

本申请为了解决背景技术中所述的传统的离线语音识别系统准确性和自适应性较差的技术问题,提供了一种离线式语音识别电路、方法、PCB板及装置。

第一方面,本申请提供了一种离线式语音识别电路,包括:

采集模块,用于采集用户的语音指令;

预处理模块,用于对所述采集模块采集到的语音进行预处理;

识别模块,包括MCU芯片,所述MCU芯片用于建立音频识别模型,通过模型训练将所述预处理模块传输的语音信号转化为文本指令,以提成准确率和识别效率;以及

指令传输模块,用于将所述识别模块识别到的文本指令离线传输给外部目标设备,以实现输出动作指令控制外部目标设备。

在一些优选的实施例中,所述指令传输模块包括处理芯片、蓝牙模块和USB接口,所述处理芯片的信号接收端组与所述识别模块的信号输出端组数据连接,第一信号输出端与所述蓝牙模块连接,第二信号输出端与所述USB接口连接。

在一些优选的实施例中,所述采集模块包括麦克风;所述处理芯片为CH582M系列型号的芯片;所述MCU芯片为TW-ASR-PRO型号的芯片。

在一些优选的实施例中,所述预处理模块包括第一电阻、第二电阻、第三电阻、第一电容和第二电容,所述麦克风的正极通过第一电容与所述MCU芯片的第一信号端连接,负极通过第二电容与所述MCU芯片的第二信号端连接;所述MCU芯片的检测端通过第一电阻与所述麦克风的正极连接;所述第二电阻连接在所述麦克风的正极与负极之间;第三电阻一端与所述麦克风的负极连接,另一端接地。

在一些优选的实施例中,所述电路还包括回声消除模块,所述回声消除模块设置在所述识别模块与外部扬声器之间。

在一些优选的实施例中,所述回声消除模块包括第三电容、第四电阻和第五电阻,所述MCU芯片的第三信号端通过依次第三电容和第四电阻与所述外部扬声器的正极连接;所述第五电阻的一端连接在所述第三电容与第四电阻之间,另一端接地。

第二方面,本申请提供了一种离线式语音识别方法,所述方法应用于如第一方面所述的离线式语音识别电路,所述方法包括:

采集模块采集语音信号;

预处理模块将所述采集模块传输的语音信号进行滤波、放大和降噪处理;

识别模块的MCU芯片建立音频识别模型,通过模型训练将所述预处理模块传输的语音信号转化为文本指令;

指令传输模块将所述识别模块识别到的文本指令离线传输给外部目标设备,以实现语音指令控制外部目标设备。

在一些优选的实施例中,所述通过模型训练将所述预处理模块传输的语音信号转化为文本指令,包括:

MCU芯片提取所述预处理模块传输的语音信号的特征序列,通过模型训练将所述特征序列映射到相应的文本标签序列,转化为文本指令。

第三方面,本申请提供一种PCB板,包括如第一方面所述的离线式语音识别电路。

第四方面,本申请提供一种离线式语音识别装置,包括如第一方面所述的离线式语音识别电路,或者第三方面所述的PCB板;

本申请的有益效果在于:

1.本申请具有更高的准确性。本申请的识别模块采用音频识别模型来学习更复杂的语音特征表示,更能捕捉到语音信号中的细微差异,从而提高识别的准确性。

2.本申请具有更好的自适应能力。本申请的识别模块采用音频识别模型可以通过大规模数据的训练,自动学习到不同语音环境下的特征表示,从而具备更好的自适应能力,提高在不同噪声环境下的识别效果。

附图说明

图1为本申请实施例提供的离线式语音识别电路的结构示意图。

图2为本申请实施例提供的采集模块和预处理模块的电路图。

图3为本申请实施例提供的识别模块的电路图。

图4为本申请实施例提供的指令传输模块的电路图。

图5为本申请实施例提供的回声消除模块的电路图。

图6为本申请实施例提供的离线式语音识别方法的流程图。

图7为本申请实施例提供的离线式语音识别装置的结构示意图。

其中:10-采集模块、11-麦克风;

20-预处理模块、R1-第一电阻、R2-第二电阻、R3-第三电阻、C1-第一电容、C2-第二电容;

30-识别模块、U1-MCU芯片

40-指令传输模块、U2-处理芯片、41-蓝牙模块、42-USB接口;

50-目标设备;

60-回声消除模块、C3-第三电容、R4-第四电阻、R5-第五电阻;

a-离线式语音识别装置、b-离线式语音识别电路。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征更易被本领域技术人员理解,从而对本申请的保护范围作出更为清楚的界定。

请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。

本文所使用的术语“模块”可为在该运算系统上执行的软件或硬件对象。本文所述的不同组件、模块、引擎及服务可为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

实施例一

请参阅图1,图1示出了本申请实施例提供的一种离线式语音识别电路的结构示意图。该电路用于语音识别用户的语音指令,并根据语音指令控制目标设备50的动作。该电路包括采集模块10、预处理模块20、识别模块30和指令传输模块40。

在本实施中,采集模块10的输出端与预处理模块20的输入端连接。预处理模块20的输出端与识别模块30的输入端连接。识别模块30的输出端与指令传输模块40的输入端连接。指令传输模块40的输出端与外部目标设备50数据连接。

其中,采集模块10主要用于采集用户的语音指令。预处理模块20主要用于对采集模块10采集到的语音进行预处理。识别模块30包括MCU芯片U1,MCU芯片U1主要用于建立音频识别模型,通过模型训练将预处理模块20传输的语音信号转化为文本指令,以提成准确率和识别效率。指令传输模块40主要用于将识别模块30识别到的文本指令离线传输给外部目标设备50,以实现输出动作指令控制外部目标设备50。

通过上述的结构连接,本申请的工作原理可以为:

首先,在用户说话时,采集模块10可以将检测到的声音信号转化为电信号,经过预处理模块20对该电信号进行滤波、放大、降噪等处理以提高语音信号的质量。

处理后的语音信号会被传输到识别模块30中,识别模块30会对语音电信号进行数字化处理,将其转换成计算机可以理解的数字信号,此外,识别模块30还会对语音信号进行特征提取,提取出语音信号的频率、能量、语速等特征,这些特征将被用于后续的语音识别。

进一步的,MCU芯片U1会根据语音数字信号的特征,将其与预先存储的语音模型进行匹配。语音模型是由大量的语音样本训练得到的,它可以识别出不同的语音单元,如音素、单词、短语等。当语音信号与语音模型匹配成功时MCU芯片U1就会解码输出相应的语音指令或文字信息。

最后,指令传输模块40获取MCU芯片U1传输的语音指令或文字信息,并通过蓝牙连接或者USB接口42通讯的方式将指令传输给目标设备50,目标设备50在接收到的指令时做出动作,完成语音控制目标设备50的动作。

在本实施例中,USB接口42并不是唯一的一种接口通讯方式,也可以通过其他串口来实现语音指令的传输。

本申请的识别模块30采用音频识别模型来学习更复杂的语音特征表示,以捕捉到语音信号中的细微差异,从而提高识别的准确性;同时,通过大规模数据的训练,自动学习到不同语音环境下的特征表示,从而具备更好的自适应能力,提高在不同噪声环境下的识别效果。

实施例二

在上一实施例的基础上,本实施例的不同点在于:

请参考图2-4,图2示出了本申请实施例提供的采集模块10和预处理模块20的电路图。

图3示出了本申请实施例提供的识别模块30的电路图。

图4示出了本申请实施例提供的指令传输模块40的电路图。

本实施例的采集模块10可以设置为麦克风11。

在本实施例中,预处理模块20包括第一电阻R1、第二电阻R2、第三电阻R3、第一电容C1和第二电容C2,麦克风11的正极通过第一电容C1与MCU芯片U1的第一信号端U1_MICP L连接,负极通过第二电容C2与MCU芯片U1的第二信号端U1_MICN L连接。MCU芯片U1的检测端U1_MICBIAS通过第一电阻R1与麦克风11的正极连接。第二电阻R2连接在麦克风11的正极与负极之间;第三电阻R3一端与麦克风11的负极连接,另一端接地。第一电阻R1、第二电阻R2、第三电阻R3、第一电容C1和第二电容C2共同配合会对电信号进行滤波、放大、降噪等处理。

在本实施例中,MCU芯片U1可以为TW-ASR-PRO型号的芯片。识别模块30设置有多个电容和电阻与MCU芯片U1连接,具体见图3。设置有多个电容可以起到滤波、隔离、耦合的作用,稳定电路的工作和减少噪声干扰。电阻可以限制MCU芯片U1引脚电流的流动,调整电路的阻抗和分压比,以及提供电路的保护。

在本实施例中,指令传输模块40包括处理芯片U2、蓝牙模块41和USB接口42,处理芯片U2的信号接收端组U2_UAPT1 RX、U2_UAPT1 TX与识别模块30的信号输出端组U1_UAPT0RX、U1_UAPT0 TX数据连接,第一信号输出端U2_34与蓝牙模块41连接,第二信号输出端U2_14、U2_13与USB接口42连接。处理芯片U2主要通过蓝牙模块41或USB接口42与目标设备50数据连接,可以通过蓝牙或者USB协议发送相应的控制命令来实现设备的远程控制。

在本实施例中,处理芯片U2的型号为CH582M系列型号的芯片。

请参考图5,图5示出了本申请实施例提供的回声消除模块60的电路图。

在一些优选地实施例中,电路还可以包括回声消除模块60。回声消除模块60主要用于识别并抑制回声信号,以便更清晰地使MCU芯片U1接收和传输语音信号。回声消除模块60包括第三电容C3、第四电阻R4和第五电阻R5,MCU芯片U1的第三信号端U1_MICP_R依次通过第三电容C3和第四电阻R4与外部扬声器的正极SPKL+连接。第五电阻R5的一端连接在第三电容C3与第四电阻R4之间,另一端接地。

通过上述的结构连接,本申请实施例的工作可以为:

首先,在用户说话时,麦克风11可以将检测到的声音信号转化为电信号,经过预处理模块20对该电信号进行滤波、放大、降噪等处理以提高语音信号的质量。

处理后的语音信号会被传输到MCU芯片U1中,MCU芯片U1会对语音电信号进行数字化处理,将其转换成计算机可以理解的数字信号,此外,MCU芯片U1还会对语音信号进行特征提取,提取出语音信号的频率、能量、语速等特征,这些特征将被用于后续的语音识别。

进一步的,MCU芯片U1会根据语音数字信号的特征,将其与预先存储的语音模型进行匹配。语音模型是由大量的语音样本训练得到的,它可以识别出不同的语音单元,如音素、单词、短语等。当语音信号与语音模型匹配成功时MCU芯片U1就会解码输出相应的语音指令或文字信息。

最后,处理芯片U2获取MCU芯片U1传输的语音指令或文字信息,并通过蓝牙连接或者USB接口42通讯的方式将指令传输给目标设备50,目标设备50在接收到的指令时做出动作,完成语音控制目标设备50的动作。

实施例三

如图6所示,图6示出了本申请实施例提供的一种离线式语音识别方法的流程图。

本申请提供一种离线式语音识别方法,所述方法应用于如实施例一或实施例二所述的离线式语音识别电路,该方法包括:

步骤101、采集模块10采集语音信号。

步骤102、预处理模块20将所述采集模块10传输的语音信号进行滤波、放大和降噪处理。

步骤103、识别模块30的MCU芯片U1建立音频识别模型,通过模型训练将所述预处理模块20传输的语音信号转化为文本指令。

步骤104、指令传输模块40将所述识别模块30识别到的文本指令离线传输给外部目标设备50,以实现语音指令控制外部目标设备50。

在步骤103中,MCU芯片U1在接收到预处理模块20传输的电信号时,会将该电信号转化为特征向量,以提取其特征序列,提取方法可以使用短时傅里叶变换将音频切分为短时间片段,并通过傅里叶变换将每个时间片段转换为频谱图。MCU芯片U1利用已标记的音频数据集,建立一个音频识别模型。该音频识别模型是基于深度学习的方法,如循环神经网络或转换器。

在建模和训练过程中,MCU芯片U1通过音频识别模型学习如何将输入特征序列映射到相应的文本标签序列,并将特征序列映射到相应的文本标签序列。

在本实施例中,解码过程是将输入的特征序列映射到最可能的文本序列。解码算法基于统计模型,如隐马尔可夫模型或声学模型。在解码过程中,模型根据训练得到的概率分布,计算出最有可能的识别结果,随后,解码转化为文本指令。

在本实施例中,还可以实现后处理步骤,即解码后的文本序列可能需要进行拼写纠错、语言模型校正或其他后处理步骤,可以提高识别准确性。

实施例四

本申请提供一种PCB板,其包括实施例一或实施例二中所述的离线式语音识别电路。

实施例五

如图7所示,图7为本申请实施例提供的一种离线式语音识别装置的结构示意图。

本申请提供一种离线式语音识别装置a,其包括如实施例一或实施例二所述的离线式语音识别电路b,或者包括有实施例四所述的PCB板。

上面结合附图对本申请的实施方式作了详细说明,但是本申请并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种改变。

技术分类

06120116576542