掌桥专利:专业的专利平台
掌桥专利
首页

一种基于机器学习技术的聋哑人发声装置及方法

文献发布时间:2024-04-18 19:54:45


一种基于机器学习技术的聋哑人发声装置及方法

技术领域

本发明涉及机器学习技术领域,具体的说是一种基于机器学习技术的聋哑人发声装置及方法。

背景技术

聋哑人是指患有听觉及语言障碍症的人群,该类人群由于先天性患有严重耳聋导致无法学习说话,或者后期声带或其他发声器官出现损伤情况而无法正常发声。他们与其他人群如何方便、快捷的进行交流是一个值得探讨且亟需解决的问题。

传统的解决办法是聋哑人通过手语、书写等方式与他人进行交流,该类方法存在一定的局限性,一是通过肢体语言的方式进行交流在特定环境下无法正常进行,二是通过手语交流仅限于交流双方对手语有一定的知识储备,大多数普通人难以理解与沟通。

目前,存在一种利用特种设备对脑电波进行采集,并将其识别为语言的方法,该方法认为语言由人的大脑皮层产生,可以通过脑机接口将交流过程中聋哑人的脑电波记录下来,并对其进行编码、识别,这种通过识别特定脑电波来进行发声的方法目前还在实验研究阶段,短时间内无法商用,且该类方法还存在其他很多问题,比如安装需要外科介入,对人体有损害;设备庞大,损失了最重要的便携性以及设备价格高昂且维护困难,不适合聋哑人现实的生活状况。

综上所述,提供一种便携、廉价、易于维护的聋哑人发声装置及方法是目前亟需解决的问题。

发明内容

本发明针对目前技术发展的需求和不足之处,提供一种基于机器学习技术的聋哑人发声装置及方法。

首先,本发明的一种基于机器学习技术的聋哑人发声装置,解决上述技术问题采用的技术方案如下:

一种基于机器学习技术的聋哑人发声装置,其结构包括云端、处理器、麦克风、扬声器、键盘、通信模块、显示屏和电池,其中:

将单个聋哑人的声音数据进行十进制编码,将编码后的声音数据及与声音数据对应的文字信息存储于云端,以编码后的声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型;

聋哑人发声时,麦克风采集聋哑人的声音,传送至处理器,处理器根据频率和音强将采集声音编码为供计算机识别的十进制数字,随后通过通信模块将编码数据发送至深度神经网络模型,深度神经网络模型解析编码数据并输出文字信息至显示屏,聋哑人查看并判定显示屏显示的文字信息,判定无误时通过扬声器播报文字信息,判定有误时通过键盘手动校正,随后通过扬声器播报校正后的文字信息,同时,将编码数据和校正后的文字信息通过通信模块上传至云端。

可选的,所涉及深度神经网络模型采用Seq2seq框架,Seq2seq框架包括编码器Encoder和解码器Decoder,其中,编码器对接收的编码数据进行二次编码,获得中间结果,解码器根据词库将中间结果解码为文字信息。

进一步可选的,所涉及编码器Encoder和解码器Decoder使用LSTM实现,每一个时间步输入一个波形值,直到最后一个波形值输入后获得句向量,解码阶段将句向量与前一时刻的输出结果作为本时刻的输入,直到得到结尾输出标识。

优选的,所涉及键盘采用微型九格蓝牙键盘。

优选的,所涉及云端设置有定时任务,每间隔设定时间,利用云端存储的编码后声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型。

其次,本发明的一种基于机器学习技术的聋哑人发声方法,解决上述技术问题采用的技术方案如下:

一种基于机器学习技术的聋哑人发声方法,该方法的实现步骤包括:

将单个聋哑人的声音数据进行十进制编码,将编码后的声音数据及与声音数据对应的文字信息存储于云端,以编码后的声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型;

采集聋哑人的声音;

根据频率和音强将采集声音编码为供计算机识别的十进制数字;

深度神经网络模型接收编码数据,随后解析编码数据并输出文字信息至显示屏;

聋哑人查看并判定显示屏显示的文字信息,

判定无误时通过扬声器播报文字信息,

判定有误时通过键盘手动校正,随后通过扬声器播报校正后的文字信息,同时,将编码数据和校正后的文字信息通过通信模块上传至云端。

可选的,所涉及深度神经网络模型采用Seq2seq框架,Seq2seq框架包括编码器Encoder和解码器Decoder,其中,编码器对接收的编码数据进行二次编码,获得中间结果,解码器根据词库将中间结果解码为文字信息。

进一步可选的,所涉及编码器Encoder和解码器Decoder使用LSTM实现,每一个时间步输入一个波形值,直到最后一个波形值输入后获得句向量,解码阶段将句向量与前一时刻的输出结果作为本时刻的输入,直到得到结尾输出标识。

优选的,所涉及键盘采用微型九格蓝牙键盘。

优选的,所涉及云端设置有定时任务,每间隔设定时间,利用云端存储的编码后声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型。

本发明的一种基于机器学习技术的聋哑人发声装置及方法,与现有技术相比具有的有益效果是:

本发明能够解决聋哑人与其他人群沟通困难、手语及其他方式进行表达不方便等问题,可以降低沟通成本,满足聋哑人日常生活需要。

附图说明

附图1是本发明实现聋哑人发声的流程图;

附图2是本发明的Seq2seq框架图;

附图3是本发明中处理器收到的声音数据。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。

实施例一:

参考附图1、2、3,本实施例提出一种基于机器学习技术的聋哑人发声装置,其结构包括云端、处理器、麦克风、扬声器、键盘、通信模块、显示屏和电池,其中:

将单个聋哑人的声音数据进行十进制编码,将编码后的声音数据及与声音数据对应的文字信息存储于云端,以编码后的声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型;

聋哑人发声时,麦克风采集聋哑人的声音,传送至处理器,处理器根据频率和音强将采集声音编码为供计算机识别的十进制数字,随后通过通信模块将编码数据发送至深度神经网络模型,深度神经网络模型解析编码数据并输出文字信息至显示屏,聋哑人查看并判定显示屏显示的文字信息,判定无误时通过扬声器播报文字信息,判定有误时通过键盘手动校正,随后通过扬声器播报校正后的文字信息,同时,将编码数据和校正后的文字信息通过通信模块上传至云端。

本实施例中,深度神经网络模型采用Seq2seq框架,Seq2seq框架包括编码器Encoder和解码器Decoder,其中,编码器对接收的编码数据进行二次编码,获得中间结果,解码器根据词库将中间结果解码为文字信息。词库采用中文日常用语词库。

本实施例中,所涉及编码器Encoder和解码器Decoder使用LSTM实现,每一个时间步输入一个波形值,直到最后一个波形值输入后获得句向量,解码阶段将句向量与前一时刻的输出结果作为本时刻的输入,直到得到结尾输出标识。

本实施例中,键盘采用微型九格蓝牙键盘。

本实施例中,为了更好的保证深度神经网络模型的准确率,云端设置有定时任务,每间隔设定时间,利用云端存储的编码后声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型。

实施例二:

参考附图1、2、3,本实施例提出一种基于机器学习技术的聋哑人发声方法,该方法的实现步骤包括:

(1)将单个聋哑人的声音数据进行十进制编码,将编码后的声音数据及与声音数据对应的文字信息存储于云端,以编码后的声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型。

深度神经网络模型采用Seq2seq框架,Seq2seq框架包括编码器Encoder和解码器Decoder,其中,编码器对接收的编码数据进行二次编码,获得中间结果,解码器根据词库将中间结果解码为文字信息。词库采用中文日常用语词库。

编码器Encoder和解码器Decoder使用LSTM实现,每一个时间步输入一个波形值,直到最后一个波形值输入后获得句向量,解码阶段将句向量与前一时刻的输出结果作为本时刻的输入,直到得到结尾输出标识。

(2)采集聋哑人的声音,根据频率和音强将采集声音编码为供计算机识别的十进制数字。

(3)深度神经网络模型接收编码数据,随后解析编码数据并输出文字信息至显示屏。

(4)聋哑人查看并判定显示屏显示的文字信息,判定无误时通过扬声器播报文字信息,判定有误时通过键盘手动校正,随后通过扬声器播报校正后的文字信息,同时,将编码数据和校正后的文字信息通过通信模块上传至云端。

键盘采用微型九格蓝牙键盘。

需要补充的是,云端设置有定时任务,每间隔设定时间,利用云端存储的编码后声音数据作为输入、与聋哑人声音对应的文字信息作为输出训练深度神经网络模型。

综上可知,采用本发明的一种基于机器学习技术的聋哑人发声装置及方法,能够解决聋哑人与其他人群沟通困难、手语及其他方式进行表达不方便等问题,可以降低沟通成本,满足聋哑人日常生活需要。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

技术分类

06120116380882