导航：首页> 乐器；声学>婴幼儿需求的识别系统、方法、电子设备及存储介质

婴幼儿需求的识别系统、方法、电子设备及存储介质

文献发布时间：2023-06-19 18:35:48

技术领域

本发明涉及计算机技术领域，具体涉及一种婴幼儿需求的识别系统、方法、电子设备及存储介质。

背景技术

婴幼儿无法像成年人一样通过语言表达自己的需求，婴幼儿的看护人只能通过婴幼儿的哭闹声、表情和动作去猜测婴幼儿的需求，一些新手父母由于没有看护婴幼儿的经验，往往无法通过婴幼儿的哭闹声、表情和动作准确猜测到婴幼儿的需求；

亟需一种能够通过婴幼儿的声音智能识别婴幼儿需求的产品。

发明内容

本发明实施例的目的在于提供一种婴幼儿需求的识别系统、方法、电子设备及存储介质，用以解决现有技术中无法通过婴幼儿的声音智能识别婴幼儿的需求的问题。

为实现上述目的，本发明实施例提供一种婴幼儿需求的识别方法，所述方法具体包括：

获取历史声音数据，并对所述历史声音数据进行去噪处理；

通过CNN神经网络对所述历史声音数据进行卷积得到第一语义特征；

将所述第一语音特征输入transformer模型得到第二语义特征；

对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；

基于多组所述归一化语义特征构建多个训练样本集；

基于所述训练样本集训练婴幼儿需求识别模型；

将待识别的婴幼儿声音输入所述婴幼儿需求识别模型，得出婴幼儿的需求信息。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，所述基于多组所述归一化语义特征构建多个训练样本集，包括：

选择一定比例的所述归一化语义特征形成训练样本集，剩余的所述归一化语义特征形成测试样本集。

进一步地，所述基于所述训练样本集训练婴幼儿需求识别模型，包括：

基于所述训练样本集训练婴幼儿需求识别模型得到多个子婴幼儿需求识别模型；

选取熵最大的子婴幼儿需求识别模型，获得训练好的婴幼儿需求识别模型；

基于所述测试样本集优化所述婴幼儿需求识别模型。

进一步地，所述婴幼儿需求的识别方法还包括：

将所述婴幼儿的需求信息发送至客户终端。

一种婴幼儿需求的识别系统，包括：

获取模块，用于获取历史声音数据，并对所述历史声音数据进行去噪处理；

CNN神经网络，用于对所述历史声音数据进行卷积得到第一语义特征；

transformer模型,用于接收所述第一语音特征后得到第二语义特征；

归一化处理模块，用于对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；

构建模块，用于基于多组所述归一化语义特征构建多个训练样本集；

训练模块，用于基于所述训练样本集训练婴幼儿需求识别模型；

婴幼儿需求识别模型，用于将待识别的婴幼儿声音输入所述婴幼儿需求识别模型，得出婴幼儿的需求信息。

进一步地，所述构建模块还用于：

选择一定比例的所述归一化语义特征形成训练样本集，剩余的所述归一化语义特征形成测试样本集。

进一步地，所述训练模块还用于：

基于所述训练样本集训练婴幼儿需求识别模型得到多个子婴幼儿需求识别模型；

选取熵最大的子婴幼儿需求识别模型，获得训练好的婴幼儿需求识别模型；

基于所述测试样本集优化所述婴幼儿需求识别模型。

进一步地，所述婴幼儿需求的识别系统还包括发送模块，所述发送模块用于：

将所述婴幼儿的需求信息发送至客户终端。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

一种非暂态计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明实施例具有如下优点：

本发明中的婴幼儿需求的识别方法，获取历史声音数据，并对所述历史声音数据进行去噪处理；通过CNN神经网络对所述历史声音数据进行卷积得到第一语义特征；将所述第一语音特征输入transformer模型得到第二语义特征；对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；基于多组所述归一化语义特征构建多个训练样本集；基于所述训练样本集训练婴幼儿需求识别模型；将待识别的婴幼儿声音输入所述婴幼儿需求识别模型，得出婴幼儿的需求信息；解决了现有技术中无法通过婴幼儿的声音智能识别婴幼儿的需求的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明婴幼儿需求的识别方法的流程图；

图2为本发明婴幼儿需求的识别方法的流程图；

图3为本发明婴幼儿需求的识别方法的流程图；

图4为本发明提供的电子设备实体结构示意图。

其中附图标记为：

获取模块10，CNN神经网络20，transformer模型30，归一化处理模块40，构建模块50，训练模块60，婴幼儿需求识别模型70，发送模块80，电子设备90，处理器901，存储器902，总线903。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1为本发明婴幼儿需求的识别方法实施例流程图，如图1所示，本发明实施例提供的一种婴幼儿需求的识别方法包括以下步骤：

S101，获取历史声音数据，并对历史声音数据进行去噪处理；

具体的，分析所述训练声音数据得到带有婴幼儿需求标签的语音；

判断所述训练声音数据是否包含婴幼儿声音，若是，对所述所述训练声音数据进行噪声过滤处理得到婴幼儿声音数据。

婴幼儿虽然语言表达能力和肢体表达能力欠缺，但是婴幼儿的声音表达存在一定的规律，比如：婴幼儿在饥饿状态下发出的声音和胃胀气难受状态下发出的声音有着明显的区别。

基于月子中心的资源，使用可穿戴式声音收集设备，收集婴幼儿的各种声音。结合月嫂的护理记录，以及父母、家属的反馈。对每一次婴幼儿的声音所表达的需求进行详细的记录形成标准的标注数据。同时组织声纹专家、儿科专家、学前教育专家，对上述声音标注进行复核及通用标准制定。其中，婴儿的需求包括饥饿、太冷、过热、食物太烫、起身、拥抱、尿床、头疼、肚子疼等。

S102，通过CNN神经网络对历史声音数据进行卷积得到第一语义特征；

S103，将第一语音特征输入transformer模型得到第二语义特征。

S104，对第二语义特征进行归一化处理，获得与第二语义特征对应的多组归一化语义特征。

具体的，CNN神经网络20又称为卷积神经网络包括输入层、卷积层和输出层；

卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。由于卷积神经网络在计算机视觉领域应用较广，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。

卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块(residual block)等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。以LeNet-5为例，3类常见构筑在隐含层中的顺序通常为：输入-卷积层-池化层-全连接层-输出。

卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题，输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签；在物体识别(object detection)问题中，输出层可设计为输出物体的中心坐标、大小和分类[16]。在图像语义分割中，输出层直接输出每个像素的分类结果。

先通过噪音处理模块处理，过滤噪声。然后通过CNN神经网络20读取，此处通过滑动时间窗口读取声纹信息，对T个时间窗口内的隐含语音特征Z(z1,……，zt),Z作为transformer模型30的输入构建语义特征C，然后经过softmax进行归一化后得到需求分类的结果。重复上述过程，直至婴幼儿需求识别模型7040可以准确识别婴幼儿需求。

S105，基于多组归一化语义特征构建多个训练样本集。

选择一定比例的所述归一化语义特征形成训练样本集，剩余的所述归一化语义特征形成测试样本集；

S106，基于训练样本集训练婴幼儿需求识别模型；

具体的，婴幼儿需求标签包括饥饿、太冷、过热、起身、拥抱、尿床、头疼、肚子疼等日常行为。

用户可以通过可穿戴设备、智能音箱等设备，实时采集婴幼儿的声音。当婴幼儿发出声音后，智能设备会将采集到音频数据，传输至服务器，服务器中的程序，首先通过IPython.display.Audio模块读取声音信息。然后进入声音检测模块，判断是否包含婴幼儿的声音，如果包含婴幼儿的声音则进入噪声处理模块，会将环境音、成人的说话声音等噪声过滤，过滤后得到训练声音数据，通过训练声音数据训练婴幼儿需求识别模型7040得到训练好的婴幼儿需求识别模型7040；将待识别的婴幼儿声音输入到婴幼儿需求识别模型7040，婴幼儿需求识别模型7040会识别出婴幼儿的需求，并发送至对应的客户终端。

以所述训练样本集的归一化语义特征为输入层，婴幼儿的需求信息为输出层，对所述婴幼儿需求识别模型70进行训练，得到训练好的婴幼儿需求识别模型70。

以所述测试样本集的归一化语义特征为输入层，婴幼儿的需求信息为输出层，对所述婴幼儿需求识别模型70进行优化，得到优化后的婴幼儿需求识别模型70。

S107，将待识别的婴幼儿声音输入婴幼儿需求识别模型，得出婴幼儿的需求信息。

该婴幼儿需求的识别方法通过获取历史声音数据，并对所述历史声音数据进行去噪处理；通过CNN神经网络20对所述历史声音数据进行卷积得到第一语义特征；将所述第一语音特征输入transformer模型30得到第二语义特征；对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；基于多组所述归一化语义特征构建多个训练样本集；基于所述训练样本集训练婴幼儿需求识别模型70；将待识别的婴幼儿声音输入所述婴幼儿需求识别模型70，得出婴幼儿的需求信息。基于婴幼儿需求信息获知婴幼儿的需求，例如饥饿、太冷、过热、起身、拥抱、尿床、头疼、肚子疼等，大大减轻了家长和看护人员的护理负担，能够更好的帮助婴幼儿成长。

图2-3为本发明婴幼儿需求的识别系统实施例流程图；如图3所示，本发明实施例提供的一种婴幼儿需求的识别系统，包括以下步骤：

获取模块10，用于获取历史声音数据，并对所述历史声音数据进行去噪处理；

CNN神经网络20，用于对所述历史声音数据进行卷积得到第一语义特征；

transformer模型30,用于接收所述第一语音特征后得到第二语义特征；

归一化处理模块40，用于对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；

构建模块50，用于基于多组所述归一化语义特征构建多个训练样本集；

训练模块60，用于基于所述训练样本集训练婴幼儿需求识别模型70；

婴幼儿需求识别模型70，用于将待识别的婴幼儿声音输入所述婴幼儿需求识别模型70，得出婴幼儿的需求信息。

所述构建模块50还用于：

选择一定比例的所述归一化语义特征形成训练样本集，剩余的所述归一化语义特征形成测试样本集。

所述训练模块60还用于：

基于所述训练样本集训练婴幼儿需求识别模型70得到多个子婴幼儿需求识别模型70；

选取熵最大的子婴幼儿需求识别模型70，获得训练好的婴幼儿需求识别模型70；

基于所述测试样本集优化所述婴幼儿需求识别模型70。

所述婴幼儿需求的识别系统还包括发送模块80，所述发送模块80用于：

将所述婴幼儿的需求信息发送至客户终端。

本发明的一种婴幼儿需求的识别系统，通过获取模块获取历史声音数据，并对所述历史声音数据进行去噪处理，通过CNN神经网络对所述历史声音数据进行卷积得到第一语义特征，通过transformer模型接收所述第一语音特征后得到第二语义特征，通过归一化处理模块对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征，通过构建模块基于多组所述归一化语义特征构建多个训练样本集，通过训练模块基于所述训练样本集训练婴幼儿需求识别模型，通过婴幼儿需求识别模型将待识别的婴幼儿声音输入所述婴幼儿需求识别模型，得出婴幼儿的需求信息。解决了现有技术中无法通过婴幼儿的声音智能识别婴幼儿的需求的问题。

图4为本发明实施例提供的电子设备90实体结构示意图，如图4所示，电子设备90包括：处理器901(processor)、存储器902(memory)和总线903；

其中，处理器901、存储器902通过总线903完成相互间的通信；

处理器901用于调用存储器902中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取历史声音数据，并对所述历史声音数据进行去噪处理；通过CNN神经网络20对所述历史声音数据进行卷积得到第一语义特征；将所述第一语音特征输入transformer模型30得到第二语义特征；对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；基于多组所述归一化语义特征构建多个训练样本集；基于所述训练样本集训练婴幼儿需求识别模型70；将待识别的婴幼儿声音输入所述婴幼儿需求识别模型70，得出婴幼儿的需求信息。

本实施例提供一种非暂态计算机可读介质，非暂态计算机可读介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：获取历史声音数据，并对所述历史声音数据进行去噪处理；通过CNN神经网络20对所述历史声音数据进行卷积得到第一语义特征；将所述第一语音特征输入transformer模型30得到第二语义特征；对所述第二语义特征进行归一化处理，获得与所述第二语义特征对应的多组归一化语义特征；基于多组所述归一化语义特征构建多个训练样本集；基于所述训练样本集训练婴幼儿需求识别模型70；将待识别的婴幼儿声音输入所述婴幼儿需求识别模型70，得出婴幼儿的需求信息。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：管仲平;何琦;刘思岑;
专利申请人：广州城建职业学院;

上一篇：一种面向自动驾驶专用相位的轨迹规划与信号优化方法
下一篇：一种具备高强度内骨骼的拉杆箱