试题正确率的预测方法、系统、设备及存储介质

文献发布时间：2024-04-18 19:53:33

技术领域

本发明涉及教育技术领域，尤其涉及一种试题正确率的预测方法、系统、设备及存储介质。

背景技术

预测学生完成试题的正确率是教育领域中的一个重要研究方向。早期的预测方法主要基于统计学方法，如回归分析、贝叶斯网络等。近年来，随着机器学习和深度学习技术的发展，学习模型更多地被应用于此类预测中，如循环神经网络(RNN)和长短时记忆网络(LSTM)等。然而，单一模型或方法可能无法充分捕捉和利用所有学生数据的潜在信息，使得预测的准确率不高。

综上所述，现有技术存在的问题亟需得到解决。

发明内容

本发明提供一种试题正确率的预测方法、系统、设备及存储介质，用以解决现有技术中预测准确度不高的缺陷。

本发明提供一种试题正确率的预测方法，包括：

获取待预测学生的身份信息；

根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

根据所述身份信息，获取对应的历史试题作答数据；

根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

根据所述错题偏好分数，确定目标学生特征；

将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

根据本发明提供的一种试题正确率的预测方法，所述根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数，通过以下方式实现：

其中，u为学生的特征向量，v

根据本发明提供的一种试题正确率的预测方法，所述将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率这一步骤，具体包括：

获取试题完成情况数据，所述试题完成情况数据包括不同学生完成不同试题的情况；

根据试题知识图谱，确定每个试题包含的考查知识点；

确定所述考查知识点与学生特征的映射关系；

获取所述目标学生特征和待预测试题；

根据所述错题偏好分数，确定待预测学生的目标学生特征；

根据所述目标学生特征和所述映射关系，确定所述待预测学生完成所述待预测试题的正确率。

根据本发明提供的一种试题正确率的预测方法，所述根据试题知识图谱，确定每个试题包含的考查知识点这一步骤，具体包括：

根据试题完成情况数据中的试题文本信息，获取每个试题的试题特征向量；

根据所述试题特征向量和试题知识图谱，确定试题包含的考查知识点。

根据本发明提供的一种试题正确率的预测方法，所述根据所述试题特征向量和试题知识图谱，确定试题包含的考查知识点这一步骤，具体包括：

根据所述试题特征向量与所述试题知识图谱中的知识点特征向量进行匹配，确定所述试题特征向量对应的考查知识点。

根据本发明提供的一种试题正确率的预测方法，所述根据所述目标学生特征和所述映射关系，确定所述待预测学生完成所述待预测试题的正确率这一步骤，具体包括：

确定所述待预测试题包含的考查知识点以及知识点权重；

根据所述待预测试题包含的考查知识点和所述映射关系，确定基于所述待预测学生的所述待预测试题包含的考查知识点的正确率；

根据所述知识点权重和考查知识点的正确率，确定所述待预测试题的正确率。

根据本发明提供的一种试题正确率的预测方法，还包括：

根据试题的文本信息，获取每个试题的试题特征向量；

根据所述试题特征向量和试题知识图谱，确定试题的试题难度；

提取所述待预测试题的考查知识点；

根据所述历史试题作答数据，确定所述待预测学生对待预测试题的考查知识点的掌握程度；

根据所述掌握程度和所述待预测试题的试题难度，校正所述待预测试题的正确率。

本发明还提供一种试题正确率的预测系统，包括：

信息获取单元，用于获取待预测学生的身份信息；

向量调用单元，用于根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

数据获取单元，用于根据所述身份信息，获取对应的历史试题作答数据；

系数确定单元，用于根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

特征确定单元，用于根据所述错题偏好分数，确定目标学生特征；

结果预测单元，用于将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述试题正确率的预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述试题正确率的预测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述试题正确率的预测方法。

本发明提供的试题正确率的预测方法、系统、设备及存储介质，通过获取待预测学生的身份信息；根据所述身份信息，在初始向量数据库中调用对应的初始化向量；根据所述身份信息，获取对应的历史试题作答数据；根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；根据所述错题偏好分数，确定目标学生特征；将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。通过这种方法能够增强待预测目标的学生特征，更好地了解待预测目标对知识点的掌握情况以及薄弱项，从而提高预测结果的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的试题正确率的预测方法的流程示意图；

图2是本发明提供的试题正确率的预测装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了帮助教育工作者、学校和学生更好地了解学习状况，优化教学方法，并为学生提供个性化学习建议，需要能够准确地预测学生在特定试题或考试中的表现。然而，现有技术中一般采用单一模型或方法，导致无法充分捕捉和利用所有学生数据的潜在信息，使得预测的准确率不高。

为了解决现有技术中存在的问题，本发明提出了一种试题正确率的预测方法，以提高试题正确率预测结果的准确率。如图1所示，一种试题正确率的预测方法，包括但不限于步骤110-160：

步骤110：获取待预测学生的身份信息；

步骤120：根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

步骤130：根据所述身份信息，获取对应的历史试题作答数据；

步骤140：根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

步骤150：根据所述错题偏好分数，确定目标学生特征；

步骤160：将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

在本实施例中，为了对待预测目标进行针对性地试题正确率预测，需要获取待预测目标的权重系数，以构建待预测目标的目标学生特征。具体地，根据学生id映射得到学生的初始化向量u，即上述通过分析试题完成情况数据得到的学生特征。接着，计算历史试题作答数据中K

其中，W

为了表征学生u的拓扑邻近结构，计算出u的邻域特征

其中

最后，聚合邻域特征，生成最终的目标特征向量u'：

其中，l为激活函数，W

作为进一步可选的实施例，所述根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数，通过以下方式实现：

其中，u为学生的特征向量，v

作为进一步可选的实施例，将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率包括：

获取试题完成情况数据，所述试题完成情况数据包括不同学生完成不同试题的情况。

根据试题知识图谱，确定每个试题包含的考查知识点。

确定所述考查知识点与学生特征的映射关系。

获取待预测目标的权重系数和待预测试题。

根据所述权重系数，确定待预测目标的目标学生特征。

根据所述目标学生特征和所述映射关系，确定所述待预测目标完成所述待预测试题的正确率。

试题完成情况数据包括不同学生完成不同试题的情况，具体地，试题可以是现有的试题，也可以是重新命题的试题，但试题中包含的知识点的范围不能超过试题知识图谱的范围，示例性地，试题知识图谱只包含有知识点A、知识点B和知识点C，那么试题就不能包含有知识点D。为了更好地了解学生对知识点的掌握情况，该试题应覆盖所有的知识点；同时，完成试题的学生也应尽可能的多。本实施例中，对于试题完成情况数据的获取渠道不做限制，该试题完成情况数据既可以是直接通过智能终端从考试位置中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机系统获取得到的。

为了分析试题完成情况数据，构建学生特征与知识点之间的映射关系，需要提取每个试题中所包含的知识点。具体地，本实施例中，可以根据试题的文本信息，得到试题的试题特征向量，进一步地，该试题特征向量包含有知识点参数和试题难度参数。根据试题特征向量包含的知识点参数，可以确定该试题所包含的知识点，以便后续构建考查知识点与学生特征的映射关系。

需要将试题涉及到的考查知识点与学生特征进行关联，该映射关系用于表征参与考试的这类学生中对于某一考查知识点的正确率。对于构建映射关系的本申请不作限制，本领域技术人员可以根据实际情况选择哈希算法、神经网络模型等方式进行实现。

需要获取待预测目标的权重系数和待预测试题，以对待预测目标进行针对性地试题正确率预测。为此，需要获取待预测目标的权重系数，以校正考查知识点与学生特征的映射关系，从而获得考查知识点与待预测目标特征的映射关系。可以理解的是，待预测试题中所包含的知识点，也不能超过试题知识图谱的范围。

根据前面所述，可以得到学生的初始向量，即学生特征，但该学生特征不能很好地反映待预测目标的实际情况。因此，需要根据待预测目标的权重系数，重新调整学生特征，从而得到需要的目标学生特征。示例性地，可以根据学生的历史做题情况，确定学生各个知识点的掌握情况，从而进一步调整学生特征，得到需要的目标学生特征。

在得到待预测目标的目标学生特征，即可根据映射关系，确定待预测目标完成所述待预测试题的正确率。具体地，将目标学生特征向量和待预测试题的特征向量输入评分函数中，评分函数的输出结果即为待预测目标完成所述待预测试题的正确率。

作为进一步可选的实施例，所述根据试题知识图谱，确定每个试题包含的考查知识点这一步骤，具体包括：

根据试题完成情况数据中的试题文本信息，获取每个试题的试题特征向量；

根据所述试题特征向量和试题知识图谱，确定试题包含的考查知识点。

在本实施例中，需要将试题的文本信息转换成试题特征向量，每一题试题对应一个试题特征向量组，一个试题特征向量组包括多个知识点特征向量。示例性地，首先可以对得到的试题文本信息进行句子级别的切分处理，得到多个语句。然后再分别对每个语句进行分词处理，得到组成该语句的词组。示例性地，文本内容中包括语句“衬衫的价格是二百”，经过分词处理后可以得到词组“衬衫，的，价格，是，二百”。此处，可以采用的分词算法有多种，例如在一些实施例中，可以采用基于词典的分词算法，先把语句按照词典切分成词，再寻找词的最佳组合方式；在一些实施例中，也可以采用基于字的分词算法，先把语句分成一个个字，再将字组合成词，寻找最优的组合方式。将语句进行分词处理后，可以通过预先建立的词典来确定词组中每个词对应的词嵌入向量，当然，在一些实施例中，词嵌入向量可以通过将词映射到一个具有统一的较低维度的向量空间中得到，生成这种映射的策略包括神经网络、单词共生矩阵的降维、概率模型以及可解释的知识库方法等。比如说对于“衬衫的价格是二百”的语句，首先一一确定语句中各个词对应的词嵌入向量，其中，词“衬衫”对应的词向量为(0，5，1，1)，词“的”对应的词向量为(0，0，0，1)，词“价格”对应的词向量为(4，2，3，1)，词“是”对应的词向量为(0，1，0，1)，词“二百”对应的词向量为(1，0，0，4)。在确定到词组“衬衫，的，价格，是，二百”中每个词对应的词嵌入向量后，可以对这些词嵌入向量进行累加，累加后的向量可以记为词组向量，如词组“衬衫，的，价格，是，二百”对应的词组向量420为(5，8，4，8)，对词组向量进行归一化处理，即可得到的语句对应的向量，比如说归一化处理时，可以设定语句对应的向量中元素和为1，则语句“衬衫的价格是二百”可以通过向量(0.2，0.32，0.16，0.32)来表示。可以理解的是，参照上述的方式，可以确定出试题文本信息的文本内容中所有语句对应的向量，对这些向量进行拼接或者将这些向量构造成矩阵，即可得到包含文本内容320所有特征信息的结构化数据，本申请实施例中，可以将这些结构化数据作为文本特征信息。当然，类似地，上述基于文本内容的语义提取文本特征信息的方式仅用于举例说明，并不意味着对本申请的实际实施形成限制，本申请中还可以基于语法特征、语用特征、关键词击中特征等维度提取文本特征信息，也同样可以将多种维度提取得到的文本特征信息整合起来得到新的文本特征信息，在此不再一一赘述。

随后，将得到的向量和试题知识图谱进行匹配，即可得到试题包含的考查知识点。

作为进一步可选的实施例，所述根据所述试题特征向量和试题知识图谱，确定试题包含的考查知识点这一步骤，具体包括：

根据所述试题特征向量与所述试题知识图谱中的知识点特征向量进行匹配，确定所述试题特征向量对应的考查知识点。

作为进一步可选的实施例，所述根据所述目标学生特征和所述映射关系，确定所述待预测目标完成所述待预测试题的正确率这一步骤，具体包括：

确定所述待预测试题包含的考查知识点以及知识点权重；

根据所述待预测试题包含的考查知识点和所述映射关系，确定基于所述待预测目标的所述待预测试题包含的考查知识点的正确率；

根据所述知识点权重和考查知识点的正确率，确定所述待预测试题的正确率。

在本实施例中，因为待预测试题包含的考查知识点可能不止一个，因此需要获取待预测试题包含的考查知识点以及对应的知识点权重，在确定到待预测试题包含的考查知识点后，可以根据考查知识点与目标学生特征的映射关系，确定待预测目标完成对应考查知识点的正确率。再根据各个考查知识点的正确率以及对应的知识点权重，确定所述待预测试题的正确率。示例性地，待预测试题包含有知识点A、知识点B和知识点C，那么根据考查知识点与目标学生特征的映射关系得到知识点A、知识点B和知识点C对应的正确率是70％、80％和60％，当知识点A、知识点B和知识点C的权重相等时，则待预测目标完成待预测试题的正确率为70％*1/3+80％*1/3+60％*1/3＝70％。

作为进一步可选的实施例，一种试题正确率的预测方法，还包括：

根据试题的文本信息，获取每个试题的试题特征向量；

根据所述试题特征向量和试题知识图谱，确定试题的试题难度。

提取所述待预测试题的考查知识点；

根据所述历史试题作答数据，确定所述待预测目标对待预测试题的考查知识点的掌握程度；

根据所述掌握程度和所述待预测试题的试题难度，校正所述待预测试题的正确率。

在本实施例中，为了进一步保证正确率预测的准确度，还进一步确定待预测目标对待预测试题的考查知识点的掌握程度，再根据掌握程度和待预测试题的试题难度，对待预测试题的正确率进行校正。示例性地，当掌握程度大于待预测试题的试题难度，则在原有预测正确率的基础上增加预设值；而当掌握程度小于待预测试题的试题难度，则在原有预测正确率的基础上减少预设值。对于待预测目标对待预测试题的考查知识点的掌握程度，可以通过机器学习模型进行计算得到。

此处，可以通过带有标签的训练数据集对其进行训练，可以将历史试题作答数据输入到初始化后的掌握程度测试模型中进行训练。具体地，将历史试题作答数据中的数据输入到初始化后的掌握程度测试模型后，可以得到模型输出的识别结果，即掌握程度结果，可以根据掌握程度结果和前述的标签来评估识别模型预测的准确性，从而对模型的参数进行更新。对于掌握程度测试模型来说，模型预测结果的准确性可以通过损失函数(LossFunction)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本申请实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的掌握程度测试模型。具体地迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。

参照图2，下面对本发明提供的试题正确率的预测系统进行描述，下文描述的试题正确率的预测系统与上文描述的试题正确率的预测方法可相互对应参照。

信息获取单元210，用于获取待预测学生的身份信息；

向量调用单元220，用于根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

数据获取单元230，用于根据所述身份信息，获取对应的历史试题作答数据；

系数确定单元240，用于根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

特征确定单元250，用于根据所述错题偏好分数，确定目标学生特征；

结果预测单元260，用于将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行试题正确率的预测方法，该方法包括：

获取待预测学生的身份信息；

根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

根据所述身份信息，获取对应的历史试题作答数据；

根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

根据所述错题偏好分数，确定目标学生特征；

将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的试题正确率的预测方法，该方法包括：

获取待预测学生的身份信息；

根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

根据所述身份信息，获取对应的历史试题作答数据；

根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

根据所述错题偏好分数，确定目标学生特征；

将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的试题正确率的预测方法，该方法包括：

获取待预测学生的身份信息；

根据所述身份信息，在初始向量数据库中调用对应的初始化向量；

根据所述身份信息，获取对应的历史试题作答数据；

根据所述初始化向量和所述历史试题作答数据，确定待预测学生的错题偏好分数；

根据所述错题偏好分数，确定目标学生特征；

将所述目标学生特征，输入至试题正确率的预测模型中，得到待预测学生完成所述待预测试题的正确率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广东德诚科教有限公司;

上一篇：基于物料信息整合的MES控制系统
下一篇：一种基于分片策略的区块链异步共识方法及装置