一种课堂状态确定方法、装置、介质和电子设备

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及人工智能、深度学习以及语音分析技术领域，具体涉及一种课堂状态确定方法、装置、介质和电子设备。

背景技术

随着科技的不断发展,人工智能技术已经逐渐渗透到我们生活的各个领域，其中教育领域也不例外。人工智能技术可以协助教师对课堂状态进行分析，可以显著提高教学质量，因而受到广泛关注。

相关技术中，课堂状态分析一般会通过语音识别，先将课堂语音中教师和学生的发言转换为文字，再进行后续的课堂活动分析。但语音识别的过程中，会将课堂语音中齐声朗读和自由朗读的部分，当成是噪音数据消除，从而导致这部分语音信息丢失。进而使得课堂状态分析可适用的场景受限。

发明内容

本申请提供了一种课堂状态确定方法、装置、介质和电子设备，可以达到扩展课堂状态分析可适用的场景的目的。

根据本申请的第一方面，提供了一种课堂状态确定方法，所述方法包括：

将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征；

基于所述课堂语音片段的语音频谱特征，确定所述课堂语音片段对应的发声人数、发声时机和语音内容；

基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态。

根据本申请的第二方面，提供了课堂状态确定装置，所述装置包括：

频谱特征提取模块，用于将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征；

语音参数确定模块，用于基于所述课堂语音片段的语音频谱特征，确定所述课堂语音片段对应的发声人数、发声时机和语音内容；

课堂状态确定模块，用于基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态。

根据本发明的第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的课堂状态确定方法。

根据本发明的第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的课堂状态确定方法。

根据本申请的第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请实施例所述的课堂状态确定方法。

本申请技术方案，通过将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取课堂语音片段的语音频谱特征；基于课堂语音片段的语音频谱特征，确定课堂语音片段对应的发声人数、发声时机和语音内容；基于课堂语音片段对应的发声人数、发声时机和语音内容，确定目标课堂语音对应的课堂状态。本申请实施例支持对出现多人同步发声和多人异步发声的场景进行识别，扩展课堂状态分析可适用的场景，有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据实施例一提供的课堂状态确定方法的流程图；

图2是根据实施例二提供的课堂状态确定方法的流程图；

图3是本申请实施例三提供的课堂状态确定装置的结构示意图；

图4是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”以及“候选”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据实施例一提供的课堂状态确定方法的流程图，本实施例可适用于通过对课堂活动进行识别实现对课堂状态进行分析的情况，该方法可以配置于由课堂状态确定装置来执行，课堂状态确定装置采用硬件和/或软件的形式实现，并可集成于运行此系统的电子设备中。

如图1所示，该方法包括：

S110、将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征。

S120、基于所述课堂语音片段的语音频谱特征，确定所述课堂语音片段对应的发声人数、发声时机和语音内容。

S130、基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态。

其中，待识别的目标课堂语音是指需要进行课堂状态识别的课堂语音。其中，待识别的目标课堂语音具有确定时长，且目标课堂语音属于准稳态信号，即具有短时平稳性。为了减少目标课堂语音的非稳态和时变的影响，将待识别的目标课堂语音切分为至少两组课堂语音片段。可选的，将待识别的目标课堂语音切分为时长为1秒的课堂语音片段。其中，课堂语音片段为至少两组，课堂语音片段的具体组数，根据实际业务需求确定。

在课堂语音片段式为至少两组的情况下，分别提取课堂语音片段的语音频谱特征。其中，语音频谱特征用于描述频域上的能量分布情况。可选的，语音频谱特征为滤波器组特征(Fbank特征)。

可选的，语音频谱特征可用于确定课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长。

可以理解的是，不同发声人数，不同发声时机以及不同语音内容所对应的课堂语音片段，其语音频谱特征会表现出显著差异，具体的，反映在其频率分布范围和共振峰所处的频段以及持续时长会不同。可选的，发声人数包括单人和多人，发声时机包括同步和异步，语音内容包括相同和不同。与单人发声相比多人发声更多的分布在低频范围，多人发声则分步在更高的频率范围。区别于多人异步发声和单人发声，多人同步就相同内容发声会形成共振峰。

基于此，根据课堂语音片段的语音频谱特征，可以确定课堂语音片段对应的发声人数、发声时机和语音内容。

在课堂语音片段为至少两组的情况下，分别确定各组课堂语音片段对应的发声人数、发声时机和语音内容。然后，根据各组课堂语音片段对应的发声人数、发声时机和语音内容，对课堂语音片段对应的课堂活动进行识别。综合各组课堂语音片段对应的课堂活动，确定目标课堂语音对应的课堂状态。

可选的，目标课堂语音对应的课堂状态包括课堂活动类型以及课堂活动持续时长。

本申请技术方案，通过将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取课堂语音片段的语音频谱特征；基于课堂语音片段的语音频谱特征，确定课堂语音片段对应的发声人数、发声时机和语音内容；基于课堂语音片段对应的发声人数、发声时机和语音内容，确定目标课堂语音对应的课堂状态。本申请实施例支持对出现多人同步发声和多人异步发声的场景进行识别，扩展了课堂状态分析可适用的场景，有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

在一个可选的实施例中，所述基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态，包括：若所述发声人数为多人，所述语音内容包括相同且所述发声时机为同步，则确定所述课堂语音片段对应的课堂活动为齐声朗读；若所述发声人数为多人，所述语音内容包括不同且所述发声时机为异步，则确定所述课堂语音片段对应的课堂活动为自由朗读；若所述发声人数为单人，则确定所述课堂语音片段对应的课堂活动为独立发言；

基于所述课堂语音片段对应的课堂活动，确定所述目标课堂语音对应的课堂状态。

其中，语音内容主要关注一致性，发声时机主要关注同步性。若发声人数为单人，则可以直接确定课堂语音片段对应的课堂活动为独立发言。若发声人数为多人，则需进一步结合语音内容和发声时机，确定课堂语音片段对应的课堂活动。

具体的，语音内容相同，发声时机同步，则可以进一步的确定课堂语音片段对应的课堂活动为齐声朗读；语音内容包括不同且发声时机为异步，则确定课堂语音片段对应的课堂活动为自由朗读。

目标课堂语音包括至少两组课堂语音片段，基于各组课堂语音片段对应的课堂活动，可以确定目标课堂语音对应的课堂状态。可选的，目标课堂语音对应的课堂状态包括课堂活动类型以及课堂活动持续时长。

上述技术方案，不仅支持对出现单人发声的场景进行识别，还支持对出现多人同步发声和多人异步发声的场景进行识别，扩展了课堂状态分析可适用的场景，有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

在一个可选的实施例中，所述将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征，包括：基于预设时长将待识别的目标课堂语音切分为至少两组课堂语音片段；从时域维度对所述课堂语音片段进行分帧处理，并对得到的至少两个短时语音帧进行频域变换以得到短时语音帧的频域表示；从频域维度对所述短时语音帧的频域表示进行分频处理，并确定所述短时语音帧在各频带的能量；将所述至少两个短时语音帧在各频带的能量作为矩阵元素构建能量分布矩阵，并将所述能量分布矩阵作为所述语音频谱特征。

其中，预设时长用于将待识别的目标课堂语音切分为至少两组课堂语音片段。预设时长根据实际业务需求确定，在这里不作限定，示例性的，预设时长为1秒。

从时域维度对课堂语音片段进行分帧处理，将课堂语音片段切分为至少两个短时语音帧。示例性的，对一段时长为1秒的课堂语音片段按照10ms为间隔进行分帧处理，得到100个短时语音帧。

可选的，对短时语音帧进行傅里叶变换以实现对短时语音帧的频域变换，将短时语音帧的傅里叶变换结果作为短时语音帧的频域表示。

从频域维度对短时语音帧的频域表示进行分频处理，并确定短时语音帧在各频带的能量。可选的，从频率维度对短时语音帧的频域表示进行分频处理，将短时语音帧的频域表示分成128个频段，确定短时语音帧在128个频段的能量。

可选的，在短时语音帧为至少两个的情况下，将所有短时语音帧在各频带的能量作为矩阵元素，构建能量分布矩阵。其中，能量分布矩阵用于量化频域上的能量分布情况。能量分布矩阵的矩阵维度与短时语音帧的帧数以及将短时语音帧分为多少个频带相关。在短时语音帧为100帧，将短时语音帧分为128个频带的情况下，得到的能量分布矩阵为100×128。

每组课堂语音片段均存在对应的能量分布矩阵，能量分布矩阵即为课堂语音片段的语音频谱特征。

上述技术方案，提供了一种切实可行的语音频谱特征确定方案，可用于确定课堂语音片段的语音频谱特征。为后续基于课堂语音片段的语音频谱特征，确定课堂语音片段对应的发声人数、发声时机和语音内容，进而确定目标课堂语音对应的课堂状态提供了数据支持。

在一个可选的实施例中，所述方法还包括：确定所述目标课堂语音对应的课堂活动安排，并对所述课堂活动安排进行解析得到预期课堂活动和所述预期课堂活动对应的预期持续时长；对所述目标课堂语音对应的课堂状态进行解析，确定所述目标课堂语音对应的实际课堂活动和所述实际课堂活动对应的实际持续时长；基于所述预期课堂活动和所述预期课堂活动对应的预期持续时长，以及所述实际课堂活动和所述实际课堂活动对应的实际持续时长，确定所述课堂活动安排的执行效果。

其中，课堂活动安排中记录有预期开展的课堂活动，以及每项课堂活动需持续的时长。其中，预期开展的课堂活动是指预期课堂活动，预期开展的课堂活动预期持续的时长是指预期课堂活动对应的预期持续时长。

目标课堂语音对应的课堂状态包括课堂活动类型以及课堂活动持续时长。

对目标课堂语音对应的课堂状态进行解析，可以确定目标课堂语音对应的实际课堂活动。其中，实际课堂活动是指在目标课堂语音收集的过程中，实际开展的课堂活动。实际课堂活动实际持续的时长是指实际课堂活动对应的实际持续时长。

其中，课堂活动安排的执行结果包括符合预期和不符合预期。

可选的，将实际课堂活动与预期课堂活动进行比对，确定实际课堂活动与预期课堂活动是否一致，若一致则进一步判断实际课堂活动对应的实际持续时长与预期课堂活动对应的预期持续时长是否相同，若相同则确定课堂活动安排的执行效果符合预期。否则，确定课堂活动安排的执行结果不符合预期。

上述技术方案，在目标课堂语音对应的课堂状态确定的情况下，将目标课堂语音对应的课堂状态用于确定课堂活动安排的执行结果，可以协助教师对课堂状态进行分析，方便其及时调整教学方法，有利于提高教学质量。

实施例二

图2是根据实施例二提供的课堂状态确定方法的流程图。本实施例在上述实施例的基础上进行进一步地优化。

如图2所示，该方法包括：

S210、将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征。

S220、通过课堂活动识别模型中的向量表示模块，利用滑动窗口以预设步长对所述语音频谱特征进行特征提取，以将所述语音频谱特征切分为至少两个特征子块；其中，所述课堂活动识别模型通过预先训练得到。

其中，课堂活动识别模型用于对课堂语音片段对应的课堂活动进行识别。课堂活动识别模型是经过预先训练得到的。可选的，课堂活动识别模型包括：向量表示模块和特征编码模块。其中，向量表示模块用于对语音频谱特征进行向量化处理以得到语音频谱特征的向量表示。

具体的，课堂活动识别模型中的向量表示模块，利用滑动窗口以预设步长对语音频谱特征进行特征提取。其中，语音频谱特征以矩阵形式输入向量表示模块，语音频谱特征包括时域维度和频域维度，可选的，向量表示模块利用预设大小的滑动窗口以预设步长对语音频谱特征进行特征提取。其中，预设大小和预设步长均根据实际业务需求确定，在这里不作限定。在一个具体的示例中，示例性的，预设大小为16×16，预设步长为10。语音频谱特征的时域维度为100维，频域维度为128维，利用大小为16×16的滑动窗口，以时域步长和频域步长均为10，对语音频谱特征进行特征提取，得到196个特征子块，每个特征子块的维度为256。196个特征子块可构成一个维度为196×256的过渡特征矩阵。可选的，利用线性层对过渡特征矩阵进行维度调整，将其调整为196×384。

S230、基于所述向量表示模块所产生的位置嵌入矩阵，对所述至少两个特征子块进行排序，得到所述语音频谱特征的向量表示。

其中，位置嵌入矩阵用于描述特征子块之间的先后顺序特征。可选的，位置嵌入矩阵是参数可学习的，也就是说，位置嵌入矩阵在训练过程中是可以通过算法自动进行调整和优化的。

可选的，位置嵌入矩阵与特征子块构成的过渡特征矩阵维度一致。示例性的，过渡特征矩阵为196×384，位置嵌入矩阵也为196×384。对位置嵌入矩阵和特征子块构成的过渡特征矩阵进行矩阵加法运算，将得到的运算结果确定为语音频谱特征的向量表示。

S240、将所述语音频谱特征的向量表示输入所述课堂活动识别模型的特征编码模块中，以通过所述特征编码模块提取所述语音频谱特征中的频率特征分量和能量特征分量。

其中，特征编码模块用于对语音频谱特征的向量表示进行编码，进而提取语音频谱特征中的频率特征分量和能量特征分量。

其中，频率特征分量用于确定课堂语音片段的频率分布范围。能量特征分量用于确定共振峰所处的频段以及持续时长。

S250、通过所述特征编码模块基于所述频率特征分量和所述能量特征分量，确定所述课堂语音片段对应的发声人数、发声时机和语音内容。

不同发声人数，不同发声时机以及不同语音内容所对应的课堂语音片段，其语音频谱特征会表现出显著差异，具体的，反映在其频率分布范围和共振峰所处的频段以及持续时长会不同。可选的，发声人数包括单人和多人，发声时机包括同步和异步，语音内容包括相同和不同。与单人发声相比多人发声更多的分布在低频范围，多人发声则分步在更高的频率范围。区别于多人异步发声和单人发声，多人同步就相同内容发声会形成共振峰。

S260、基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态。

本申请技术方案，通过预先训练完成的课堂活动识别模型，对课堂语音片段的语音频谱特征进行特征提取，从语音频谱特征中提取可以区分发声人数、发声时机和语音内容的频率特征分量和能量特征分量。进而，基于课堂语音片段对应的发声人数、发声时机和语音内容，确定目标课堂语音对应的课堂状态。为支持对出现多人同步发声和多人异步发声的场景进行识别提供了技术支持，有利于扩展课堂状态分析可适用的场景，有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

在一个可选的实施例中，所述通过所述特征编码模块基于所述频率特征分量和所述能量特征分量，确定所述课堂语音片段对应的发声人数、发声时机和语音内容，包括：通过所述特征编码模块基于所述频率特征分量和所述能量特征分量，确定所述课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长；基于所述课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长，确定所述课堂语音片段对应的发声人数、发声时机和语音内容。

语音频谱特征包括频率特征分量和能量特征分量。频率特征分量和能量特征分量可以确定课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长。进而区分发声人数、发声时机和语音内容。

上述技术方案，通过特征编码模块基于频率特征分量和所述能量特征分量，确定课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长，进而确定课堂语音片段对应的发声人数、发声时机和语音内容。有利于提高课堂活动识别的准确性，为支持对出现多人同步发声和多人异步发声的场景进行识别提供了技术支持，有利于扩展课堂状态分析可适用的场景，同时有利于提高课堂状态分析的可靠性。

在一个可选的实施例中，所述课堂活动识别模型采用如下方式训练得到：提取所述课堂语音片段的语音频谱特征，并将所述语音频谱特征作为训练样本；根据所述课堂语音片段对应的发声人数、发声时机和语音内容，为所述训练样本确定对应的样本标签；利用所述训练样本和与所述训练样本对应的样本标签，对预先构建的课堂活动识别模型进行训练。

其中，训练样本和样本标签用于训练课堂活动识别模型。课堂语音片段的语音频谱特征为训练样本，课堂语音片段的语音频谱特征以矩形形式输入预先构建的课堂活动识别模型。课堂语音片段对应的发声人数、发声时机和语音内容，为训练样本确定对应的样本标签。其中，样本标签用于区分不同的课堂活动。可选的，样本标签为独立发言、自由朗读和齐声朗读。样本标签还可以包括无人说话。语音频谱特征对应的样本标签根据课堂语音片段对应的发声人数、发声时机和语音内容确定。可选的，语音频谱特征对应的样本标签通过人工标注得到。

在一个具体的实施例中，首先收集课堂语音，然后通过人工标注课堂语音对应的课堂活动类型，再将标注后的课堂语音切分为时长为1秒的课堂语音片段，可得到数据集。训练数据集中的课堂语音片段的总时长可达几十个小时例如70个小时。可选的，将数据集按照一定比例如9:1拆分成训练集和验证集，分别对预先构建的课堂活动识别模型进行训练，以及对训练后的课堂活动识别模型进行验证。

上述技术方案，提供了一种切实可行的课堂活动识别模型训练方法，为将课堂活动识别模型用于识别课堂语音片段对应的课堂活动，进而确定目标课堂语音对应的课堂状态提供了技术支持，有利于扩展课堂状态分析可适用的场景。

实施例三

图3是本申请实施例三提供的课堂状态确定装置的结构示意图，本实施例可适用于通过对课堂活动进行识别实现对课堂状态进行分析的情况，所述装置可由软件和/或硬件实现，并可集成于智能终端等电子设备中。

如图3所示，该装置可以包括：

频谱特征提取模块310，用于将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取所述课堂语音片段的语音频谱特征；

语音参数确定模块320，用于基于所述课堂语音片段的语音频谱特征，确定所述课堂语音片段对应的发声人数、发声时机和语音内容；

课堂状态确定模块330，用于基于所述课堂语音片段对应的发声人数、发声时机和语音内容，确定所述目标课堂语音对应的课堂状态。

本申请技术方案，通过将待识别的目标课堂语音切分为至少两组课堂语音片段，并提取课堂语音片段的语音频谱特征；基于课堂语音片段的语音频谱特征，确定课堂语音片段对应的发声人数、发声时机和语音内容；基于课堂语音片段对应的发声人数、发声时机和语音内容，确定目标课堂语音对应的课堂状态。本申请实施例支持对出现多人同步发声和多人异步发声的场景进行识别，扩展了课堂状态分析可适用的场景，有利于更好的协助教师分析课堂状态方便其及时调整教学方法。

可选的，语音参数确定模块320，包括：频谱特征切分子模块，用于通过课堂活动识别模型中的向量表示模块，利用滑动窗口以预设步长对所述语音频谱特征进行特征提取，以将所述语音频谱特征切分为至少两个特征子块；其中，所述课堂活动识别模型通过预先训练得到；特征子块排序子模块，用于基于所述向量表示模块所产生的位置嵌入矩阵，对所述至少两个特征子块进行排序，得到所述语音频谱特征的向量表示；特征分量提取子模块，用于将所述语音频谱特征的向量表示输入所述课堂活动识别模型的特征编码模块中，以通过所述特征编码模块提取所述语音频谱特征中的频率特征分量和能量特征分量；语音参数确定子模块，用于通过所述特征编码模块基于所述频率特征分量和所述能量特征分量，确定所述课堂语音片段对应的发声人数、发声时机和语音内容。

可选的，所述语音参数确定子模块，包括：频率和共振峰确定单元，用于通过所述特征编码模块基于所述频率特征分量和所述能量特征分量，确定所述课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长；语音参数确定单元，用于基于所述课堂语音片段的频率分布范围和共振峰所处的频段以及持续时长，确定所述课堂语音片段对应的发声人数、发声时机和语音内容。

可选的，所述装置还包括识别模型训练模块，用于对所述课堂活动识别模型进行训练；

所述识别模型训练模块，包括：训练样本确定子模块，用于提取所述课堂语音片段的语音频谱特征，并将所述语音频谱特征作为训练样本；样本标签确定子模块，用于根据所述课堂语音片段对应的发声人数、发声时机和语音内容，为所述训练样本确定对应的样本标签；识别模型训练子模块，用于利用所述训练样本和与所述训练样本对应的样本标签，对预先构建的课堂活动识别模型进行训练。

可选的，所述发声人数包括单人和多人，所述语音内容包括相同和不同，所述发声时机包括同步和异步；

相应的，所述课堂状态确定模块330，包括：第一状态确定子模块，用于若所述发声人数为多人，所述语音内容包括相同且所述发声时机为同步，则确定所述目标课堂语音对应的课堂状态为齐声朗读；第二状态确定子模块，用于若所述发声人数为多人，所述语音内容包括不同且所述发声时机为异步，则确定所述目标课堂语音对应的课堂状态为自由朗读；第三状态确定子模块，用于若所述发声人数为单人，则确定所述目标课堂语音对应的课堂状态为独立发言。

可选的，所述频谱特征提取模块310，包括：语音片段切分子模块，用于基于预设时长将待识别的目标课堂语音切分为至少两组课堂语音片段；频域表示确定子模块，用于从时域维度对所述课堂语音片段进行分帧处理，并对得到的至少两个短时语音帧进行频域变换以得到短时语音帧的频域表示；频带能量确定子模块，用于从频域维度对所述短时语音帧的频域表示进行分频处理，并确定所述短时语音帧在各频带的能量；频谱特征确定子模块，用于将所述至少两个短时语音帧在各频带的能量作为矩阵元素构建能量分布矩阵，并将所述能量分布矩阵作为所述语音频谱特征。

可选的，所述装置还包括：预期状态确定模块，用于确定所述目标课堂语音对应的课堂活动安排，并对所述课堂活动安排进行解析得到预期课堂活动和所述预期课堂活动对应的预期持续时长；实际状态确定模块，用于对所述目标课堂语音对应的课堂状态进行解析，确定所述目标课堂语音对应的实际课堂活动和所述实际课堂活动对应的实际持续时长；执行效果确定模块，用于基于所述预期课堂活动和所述预期课堂活动对应的预期持续时长，以及所述实际课堂活动和所述实际课堂活动对应的实际持续时长，确定所述课堂活动安排的执行效果。

发明实施例所提供的课堂状态确定装置可执行本申请任意实施例所提供的课堂状态确定方法，具备执行课堂状态确定方法相应的性能模块和有益效果。

本申请的技术方案中，所涉及的用户数据的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

实施例四

根据本申请实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施的实施例的电子设备410的结构示意图。电子设备410包括至少一个处理器411，以及与至少一个处理器411通信连接的存储器，如只读存储器(ROM)412、随机访问存储器(RAM)413等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器411可以根据存储在只读存储器(ROM)412中的计算机程序或者从存储单元418加载到随机访问存储器(RAM)413中的计算机程序，来执行各种适当的动作和处理。在RAM413中，还可存储电子设备410操作所需的各种程序和数据。处理器411、ROM 412以及RAM413通过总线414彼此相连。输入/输出(I/O)接口415也连接至总线414。

电子设备410中的多个部件连接至I/O接口415，包括：输入单元416，例如键盘、鼠标等；输出单元417，例如各种类型的显示器、扬声器等；存储单元418，例如磁盘、光盘等；以及通信单元419，例如网卡、调制解调器、无线通信收发机等。通信单元419允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器411可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器411的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器411执行上文所描述的各个方法和处理，例如课堂状态确定方法。

在一些实施例中，课堂状态确定方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元418。在一些实施例中，计算机程序的部分或者全部可以经由ROM 412和/或通信单元419而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 413并由处理器411执行时，可以执行上文描述的课堂状态确定方法的一个或多个步骤。备选地，在其他实施例中，处理器411可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行课堂状态确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程课堂状态确定装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为课堂状态确定服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

本申请实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现本申请任一实施例所提供的课堂状态方法。该程序产品与本申请各实施例所公开的课堂状态方法属于相同发明构思，因此不在此赘述。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京智慧荣升科技有限公司;

上一篇：一种基于语音信号处理的意图识别系统
下一篇：分类器训练方法、语音识别方法、设备及存储介质