一种听障儿童发音水平测试方法、设备及存储介质

文献发布时间：2023-06-19 18:37:28

技术领域

本发明属于特殊教育技术领域。更具体地，涉及一种听障儿童发音水平测试方法、设备及存储介质。

背景技术

教育评价作为一种评教手段在整个教育活动过程中占据着重要的位置，可以对听障儿童的学习效果和教师的教学质量进行判断，得出听障儿童知识掌握的情况。然而，传统的教育评价仅通过报告得到较为笼统的测验分数或能力值，并对其进行排序，不仅无法详细的获取听障儿童的认知结构和知识掌握的情况信息，而且也没有对学习信息进行更深入的分析和挖掘，使得不能帮助教师更加针对性的指导听障儿童。

目前一些关于教育评价的相关研究主要集中在线上教育平台，除了能够记录学习者的海量历史学习数据还能记录下学习者的一些学习习惯数据如鼠标移动轨迹、点击次数等，线上平台海量且丰富的数据驱动着知识追踪领域不断创新；但是针对线下课堂进行知识追踪建模的研究还是非常少的，尤其是在特殊教育领域几乎是零开展。

对听障儿童课堂学习数据进行知识追踪建模既能实现技术的落地应用也能解决一些现实困境。其中，图神经网络知识追踪(GKT)是知识追踪领域里一个全新方向，这个模型是图神经网络在知识追踪方向的突破性应用，其完全舍弃了以往RNN或者是Transformer这样的线性模型，整个更新知识状态的操作都是在图上完成，充分利用到了图神经网络中信息传递的机制。不过GKT仍然属于比较初始的模型，在现实应用中可在初始GKT上模型上做出一些改进。

专利申请号为CN201810274088.4的发明专利公开了一种基于模糊综合评价的听障儿童元音评估方法。其主要技术方案为使用三维电磁发音记录获得多个正常人和听障儿童阅读语料时的基本声学参数u1、舌位声学参数u2、唇舌运动参数u3建立模糊综合评价数据库，以及建立模糊综合数据库的一级评价指标和二级评价指标；将听障儿童的二级评价指标的每个特征参数到正常人的特征参数的距离作为顺序作为隶属函数，设置六个得分等级，建立判断矩阵；再通过嫡权评价指标每个特征参数到正常人的一级评价指标的特征参数的距离标准差作为一级评价指标的权重，最终利用M(·+)算子，得到听障儿童的发音得分。上述方案作为一种传统领域的听障儿童发音评估方法，需要重新采集实验所需特定数据，并且需要人工建立数据库和指标，使得听障儿童的发音得分完全受实验时所采集数据和评估标准的等硬性指标来决定；其次，大量的最接近真实水平语训和课堂发音历史记录无法得到应用；此外，单一的评分也无法反应出听障儿童长期的发音水平的变化。

发明内容

针对以上现有技术的至少一个缺陷或改进需求，本发明提供了一种听障儿童发音水平测试方法、设备及存储介质，通过对听障儿童学习过程中的学习数据进行个性化建模实现对听障儿童现有发音水平进行预测，同时也提高了知识追踪模型的个性化能力和时间动态特性。

为了实现上述目的，按照本发明的第一个方面，本发明采用了如下技术方案。

一种听障儿童发音水平测试方法，该方法包括：

采集听障儿童的训练过程中一段时间内的发音数据集，并按训练时间顺序进行排序，然后将所述发音数据集按所述顺序依次进行预处理；

将所述预处理后的发音数据集按所述顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇，再将所述多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型；

所述多组知识追踪模型接收新采集的听障儿童的发音数据依次进行所述预处理和所述聚类后，输出测试结果。

进一步的，所述发音数据集包括音频数据和/或视频数据。

进一步的，所述预处理：

S1：记录听障儿童的ID、记录发音正误并标记知识点；

S2：根据所述发音正误及知识点得到相关特征并进行特征筛选得到聚类所需的特征项数据；

进一步的，所述聚类所需的特征项数据包括回答问题正确率、尝试次数、回答响应时间及寻求提示次数特征。

进一步的，所述记录发音正误是将所述发音数据集与标准发音数据集进行对比，以单个发音为一条记录，正确发音标记为1、错误发音标记为0。

进一步的，所述知识点为所有汉语拼音的单独发音；

所述标记知识点为给每个所述单独发音按所述顺序进行编号。

进一步的，所述聚类为：

根据所述聚类所需的特征项数据对所述发音数据集进行切割，再依据所述顺序对每个切割后的所述发音数据附上时间戳；

取所有特征项的平均值作为聚类的特征值，再使用标准化对特征项的平均值做无量纲化处理后生成带权重的网络图，再进而得到带有时间戳的矩阵；

依据所述矩阵在每个时间点生成聚类簇，并在下一个时间点将新数据输入后调整聚类簇，最终得到当前时刻的多组聚类簇。

进一步的，所述聚类模型的目标函数包括时间平滑的惩罚项。

按照本发明的第二个方面，还提供了一种听障儿童发音水平测试设备，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

按照本发明的第三个方面，还提供了一种存储介质，其存储有可由访问认证设备执行的计算机程序，当所述计算机程序在访问认证设备上运行时，使得所述访问认证设备执行上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的一种听障儿童发音水平测试方法、设备及存储介质，在使用知识追踪模型的基础上，对听障儿童进行了进化聚类处理，使听障儿童的发音得分不会完全受实验时采集数据和评估标准的硬性指标决定，可以避免传统测评的目标性、主观性等弊端，给教师的工作提供便利和参考价值，同时也比单独使用知识追踪模型的测试结果更准确可靠。

(2)本发明的一种听障儿童发音水平测试方法、设备及存储介质，使用聚类使聚类的结果随着数据特征值的变化在不同的时刻做出调整变化并避免相邻时刻的聚类结果相差较大，使对于任意时刻新进入的儿童都能将其聚类到与其表现相似的学习者簇中，而对于此类儿童，尽管未能有其历史学习数据来训练知识追踪模型也能输出一个较准确的测试结果。

(3)本发明的一种听障儿童发音水平测试方法、设备及存储介质，使用图神经网络能够很好的挖掘不同试题之间的关联关系，在更新知识状态的过程中，能将包含相关知识点的试题掌握状态都得到更新，在不需要额外去分析试题之间的隐含联系的前提下，可以很好的反映出听障儿童长期的发音水平的变化。

(4)本发明的一种听障儿童发音水平测试方法、设备及存储介质，利用听障儿童在课堂中连续一段时间内的发声数据作为听障儿童的学习数据，使真实水平语训和课堂发音历史记录也能很好的得到应用，不仅不增加听障儿童额外负担，而且可以获得更多的真实可靠的听障儿童发音数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的方法流程示意图；

图2为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的聚类流程示意图；

图3为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的图神经网络知识追踪模型的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的方法流程示意图，解决了听障儿童的发音得分完全受实验时采集数据和评估标准的硬性指标来决定、真实水平语训和课堂发音历史记录无法得到应用、以及单一的评分无法反映出听障儿童长期的发音水平变化的问题，该方法包括：

采集听障儿童的训练过程中一段时间内的发音数据集，并按训练时间顺序进行排序，然后将发音数据集按顺序依次进行预处理。

将预处理后的发音数据集按顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇，再将多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型。

将新采集的听障儿童的发音数据输入到多组知识追踪模型中输出当前听障儿童的发音水平及测试结果评估参数。

首先使用摄像机和录音笔获取听障儿童的训练过程中的原始数据，筛选出原始数据中听障儿童主动发音的片段，将采集到的发音数据集按照训练时间的先后顺序保存。

具体而言，在听障儿童训练课堂上，提前在教室内架上摄像机并放置录音笔，在听障儿童进行训练时采集听障儿童的主动说话和发音，连续记录一段时间内的多个听障儿童课堂视频，将视频数据以每个听障儿童为单位进行素材剪切，并与音频数据的发音一一对应，按课堂时间为先后顺序对素材进行剪切，然后按时间先后顺序以每个听障儿童的每节课作为一个单独文件对视频进行保存。

需要说明的是，为解决录像过程可能存在的收音不清楚的情况，在架设摄像机的同时使用录音笔记录每节课的音频记录。作为本发明的一个实施例，在网络环境下使用科大讯飞录音笔，可自动将语音文件转换成文本文件，并保存成单个文件。

然后将发音数据集按顺序依次进行预处理。具体的预处理步骤是：针对听障儿童在现实课堂训练是产生的一系列发音数据集，首先记录听障儿童的ID、记录发音正误并标记知识点；然后根据发音正误及知识点得到相关特征并进行特征筛选得到聚类所需的特征项数据。

首先明确知识点为所有汉语拼音的单独发音；标记知识点是给每个单独发音按顺序进行编号。记录发音正误是将发音数据集与标准发音数据集进行对比，以单个发音为一条记录，正确发音标记为1、错误发音标记为0。

针对发音数据集，按照训练顺序记录下发音词汇和发音正误，并标记整个发音过程中所包含的知识点，此处所有拼音表中的每个拼音为一个知识点。

选取词汇发音或单个拼音发音作为一道习题记录，记录每道习题所包含的知识点、对应的听障儿童编号、以及拼音发音正误。在所有发音数据集中，若为单个拼音发音，则直接记录发音正误，正确记录为1错误记录为0，此时一条问题记录只包含一个知识点；若为词语发音，则在记录词语发音正误的同时要标记出一个词语所包含的所有知识点，此时一条问题记录包含多个知识点。

根据发音正误及知识点记录每个习题记录的尝试次数和寻求提示次数。一个发音片段时间作为一次回答问题的响应时间，根据历史数据计算出该听障儿童从数据采集到当前时刻回答问题的总数量，并计算出当前时刻学生作答的正确率。此时一条数据记录包括上述的所有特征标记。从而获得听障儿童的回答问题数量、正确率、尝试次数、回答响应时间和使用提示的次数等特征，然后进行特征筛选得到数据集中的回答问题正确率、尝试次数、回答响应时间及寻求提示次数这四个维度的特征，作为聚类所需的特征项数据。

将预处理后的发音数据集按顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇。

具体而言，根据聚类所需的特征项数据对发音数据集进行切割，再依据训练顺序对每个切割后的发音数据附上时间戳；取所有特征项的平均值作为聚类的特征值，再使用标准化对特征项的平均值做无量纲化处理后生成带权重的网络图，进一步得到带有时间戳的相似矩阵；最后依据相似矩阵在每个时间点生成聚类簇，并在下一个时间点将新数据输入后调整聚类簇，最终得到当前时刻的多组聚类簇。

作为本发明的一个实施例，聚类模型是一个进化Louvain聚类模型，其用于根据学习者的学习数据，在每一个时间点上对学习者进行动态的聚类，得到不同知识水平的学生群体。

在静态Louvain聚类的基础上融入了进化聚类的框架，对其在时间序列上进行扩展。通过向静态聚类的目标函数增加时间平滑的惩罚项，从而避免相邻时刻的聚类结果相差较大，进而能在每一时刻都得到质量较高的聚类簇。将预处理数据按时间戳载入到进化Louvain模型中，对于t时刻的聚类，选取学习者在t时刻之前的平均表现作为当前时刻学习者聚类的特征值，输出当前时刻的聚类簇，在每一时刻得到当前时刻的聚类簇直到最后作答序列载入后输出最终聚类结果。

在某一时间下，仅当前时间戳下所在的数据可见，取听障儿童当前时间之前所有的特征项表现的平均值作为当前时刻学习者进行聚类的特征值，再进行无量纲化处理，并生成带时间戳的相似矩阵，同时初始化一个带权重的网络。

作为本发明的进一步改进，还输入了时间平滑方程的参数，避免相邻时刻的聚类结果相差较大，进而能在每一时刻都得到质量较高的聚类簇。使用Louvain算法对整个社区模块度进行度量，并选择能使模块度增益最大的邻居节点加入当前聚类簇，重复这一过程，直到每一个节点的社区归属都不在发生变化，进化Louvain聚类输出当前时刻的聚类结果。

值得说明的是，Louvain算法的优化目标为最大化整个数据的模块度，一个无向图G＝(V，E)中的一个分区C的模块化Q的定义模块度的计算为：

其中，m为图中边的总数量，d

算法遍历数据中的所有节点，针对每个节点遍历该节点的所有邻居节点，衡量把该节点加入其邻居节点所在的社区前后所带来的模块度的收益(前后图的模块度之差)。模块度之差计算公式为：

其中，

图2为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的聚类流程示意图。在知识追踪数据集中，由于能够在每次t时刻将潜在的数千个新样本合并数据集，所以针对此类在线数据集，需要保证每个时刻都能取得高质量的聚类结果为解决上述问题，在静态的Louvain聚类上实现演化聚类框架，对其在时间序列上进行扩展。通过向静态聚类的目标函数增加时间平滑的惩罚项，从而避免相邻时刻的聚类结果相差较大。该聚类框架具有平滑性、一致性和受噪音干扰小等优点。应用于静态Louvain聚类的时间平滑方程为：

使用这种方法，聚类簇不会随着时间的推移受到新点的很大影响，因为过去的分区点被优先于它们之上。这种方法提供了一种在新信息可用时缓慢调整模块化的方法。以类似于演化半径测量的方式，使用用户定义的参数α来调整时间t的网络快照与之前时间t-1的网络历史之间的比率。

将得到的多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型；也就是将听障儿童进行聚类，在单独的知识追踪基础上实现了个性化的知识追踪，从而使听障儿童的知识水平的预测准确率在原有基础上有了一定的提升。

具体而言，也就是按照聚类结果对将所有的听障儿童按簇划分，并将完整的数据集按照听障儿童的分类进行分割，对于分割好的数据集分别输入进图神经网络知识追踪模型中，即可训练出多组个性化的知识追踪模型。

当获得新的发音测验数据时，多组知识追踪模型接收新采集的听障儿童的发音数据依次进行预处理和聚类后，输出测试结果，也就是当前听障儿童的发音水平和在测试集习题上的正误表现，及测试结果评估参数。测试结果评估参数为模型的预测结果与真实结果之间的偏差。

图3为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的图神经网络知识追踪模型的示意图，在图神经网络知识追踪模型中，将V表示试题，E表示试题之间的关联，图结构表示为G＝(V，E)。模型主要包括图的聚合、图的更新以及模型输出三个主要步骤。在图更新阶段，学习者每次答题的结果受其当前知识状态的影响，这个知识状态会随着时间不断更新，当学习者答对了某一试题后，此时学习者不仅在当前试题上的知识状态得到更新，对于此试题包含的多个知识点上的掌握状态也会发声改变具体变现为包含这些知识点的试题上学习者的掌握状态也能更新。

由于在每个时间步，模型都会得到学习者的一个新的交互信息，那么学习者状态需要更新，同时受影响节点也会将影响传播到邻居节点。假设交互的试题为i，受到影响的所有邻居节点为N

其中，

此时，E

根据已经聚合的特征和知识图架构来更新整个知识的结构图，整个图的更新细分为图的空间更新和时间维度上的更新。

空间更新包括对节点的更新和其邻居节点的更新，对于节点i，唯一的输入是

对于邻居节点，不仅有其本身的隐藏状态

使用多层感知机来对拼接的隐藏状态进行处理，然后使用涉及两个节点的邻接矩阵的值作为其权重，得到节点的邻居节点的状态更新公式为：

在时间维度的更新参考DKT和DKVMN使用门更新和GRU更新，公式为：

其中，w

最后是模型的输出，即为预测学习者在未来对试题的反应，预测要得到一个0到1之间的值，这个值越高表示学习者答对这道题的概率越大，预测结果p的计算方式为：

其中，w

对于能够覆盖到的节点的数据，我们能够根据标签容易的计算出模型这部分的损失。在图神经网络中采用拉普拉斯正则化，使得有标签的这部分信息能够惠及到整个图的学习过程中，公式为：

则最终构成的损失函数表示为L＝L

对于某个听障儿童的当前知识水平，将其输入所在组的知识追踪模型中测试即可。作为本发明的一个实施例，对整个预处理数据集按照聚类进行分组，运用分组好的预处理数据分别训练出多组图神经网络知识追踪模型。模型训练一次共进行50个Epoch，Batch-size设置为128。根据图神经网络知识追踪的输出，可以得到当前时刻的下一时刻儿童在所有试题上的知识状态。同时模型默认选取最后一个时刻的输入的数据集作为测试集，每个Epoch结束会计算出本次训练的Loss、AUC、ACC参数，所有训练结束模型会自动给出最佳的Epoch并进行测试，测试完毕会同样会输出上述参数。

本发明针对所有经过预处理得到的数据，选取相关特征使用进化聚类对听障儿童进行聚类，按照得到的不同聚类簇分别输入到知识追踪模型进行多组建模。使用模型对听障儿童现阶段拼音发音水平进行预测，以预测结果作为现阶段听障儿童的知识水平。本发明采用进化聚类作为知识追踪模型的预处理步骤，在每一个时间点上对听障儿童进行动态的聚类，提高了知识追踪模型的个性化能力，同时考虑了听障儿童的交互数据具有时间动态特性。

总之，对数据集中的多个儿童取当前时刻之前的所选特征的特征值的平均值作为当前时刻参与聚类的特征值，在每个时刻进行进化聚类后得到当前时刻的聚类簇，直到知识追踪数据集按照时间点加载完了所有数据到了最新的时刻，得到了聚类的最终结果。按最终聚类结果，对多组儿童按组分别进行图神经网络知识追踪建模，运用训练完毕的多组图神经网络知识追踪模型分别对属于该聚类簇的学习者输出当前时刻在所有知识点上的答题表现预测，从而达到对学习者现有知识水平即发音水平的预测。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：廖盛斌;方安妮;
专利申请人：华中师范大学;

上一篇：一种射频功率放大器及电子设备
下一篇：基于树莓派系统的二维码或条形码重复性检查方法及系统