掌桥专利:专业的专利平台
掌桥专利
首页

基于因果推断消除问题难度偏差的认知诊断方法及系统

文献发布时间:2023-06-19 18:37:28


基于因果推断消除问题难度偏差的认知诊断方法及系统

技术领域

本发明属于教育数据挖掘技术领域,尤其涉及基于因果推断消除问题难度偏差的认知诊断方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

随着计算机辅助技术的日益普及,越来越多的学生选择从在线教育系统中获取知识,例如Massive Online Open Course(MOOC)和KhanAcedemy.org;具体来说,这些系统中的学生,根据自己的需求,有选择地观看讲座和回答问题来获取知识;智能教育系统也可以根据学生的认知水平向他们推荐个性化问题,帮助他们更好地掌握知识。

在这种系统中,一个普遍而基本的任务是认知诊断;认知诊断旨在通过学生的问答记录发现学生对特定知识概念的认知状态,准确的诊断对学生和系统有以下好处:(1)学生能够及时意识到自己薄弱的知识概念,从而准备有针对性的实践;(2)智能教育系统能够为不同的学生提供更好的个性化问题推荐。

现有的认知诊断方法主要通过建模学生的回答记录来学习学生和问题之间的复杂模式,主要分为以下几类:

1)基于教育心理学的诊断方法,主要使用简单的逻辑方程来模拟学生和问题之间的关系,但未能捕捉到它们之间的复杂模式;

2)基于矩阵分解的方法,通常将学生回答矩阵分解为学生和问题的潜在向量;

3)基于深度学习的方法,利用深度学习的强表征能力来学习学生和问题之间的复杂交互模式。

然而,上述现有的方法忽略了对习题难度信息的挖掘,挖掘习题难度信息存在三点必要性:

1)具有相同知识概念的问题有不同的难度,认知诊断模型应该体现出不同难度问题的作答表现对于诊断结果的影响。

2)同一问题的相对难度在学生作答的不同阶段应该不同,认知诊断模型应该区分习题在不同阶段的相对难度的影响。

3)由于绝大部分的回答记录都是对简单问题的回答,学生回答问题历史数据的统计分布呈现长尾分布;这种对于简单题目的倾向导致了问题难度偏差,认知诊断模型需要消除这种偏差。

因此,在设计认知诊断模型时,明确地建模问题难度是至关重要的。

发明内容

为克服上述现有技术的不足,本发明提供了基于因果推断消除问题难度偏差的认知诊断方法及系统,提出一个通用认知诊断框架Causal Cognitive Diagnosis Framework(CausalCDF),基于现有诊断模型创建认知诊断模型,利用因果推断技术消除问题难度偏差的不良影响,并对模型进行无偏训练,来诊断学生的认知水平,提高认知诊断的准确性和效率。

为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:

本发明第一方面提供了基于因果推断消除问题难度偏差的认知诊断方法;

基于因果推断消除问题难度偏差的认知诊断方法,包括:

对学生回答问题的历史记录进行预处理,得到由学生、问题、问题难度及得分组成的训练集;

在现有诊断模型的基础上,引入问题难度变量,利用因果推断消除偏差,构建认知诊断模型,并用训练集对其进行训练;

将待诊断的学生、问题和问题难度,输入到训练好的认知诊断模型中,得到诊断模型输出的学生认知诊断结果。

进一步的,所述问题难度,根据问题回答记录,计算每个问题的错误回答率,并将错误率视为问题难度的值。

进一步的,所述现有诊断模型,以学生和问题为输入,输出学生特征、问题特征及预测得分。

进一步的,所述认知诊断模型,包括现有诊断模型和线性层,将问题难度和现有诊断模型输出的预测得分,输入到线性层中,得到学生认知诊断结果。

进一步的,所述认知诊断模型,以最小化预测得分以及真实得分之间的交叉熵为目标,对模型进行训练。

进一步的,所述利用因果推断消除偏差,是消除混杂因子的不良影响,通过因果干预得到学生、问题、正确回答上真正的因果关系。

进一步的,所述因果干预,是基于后门准则对学生特征、问题特征施加do算子操作,消除问题难度到问题特征的影响。

本发明第二方面提供了基于因果推断消除问题难度偏差的认知诊断系统。

基于因果推断消除问题难度偏差的认知诊断系统,包括数据处理模块、模型构建模块和认知诊断模块:

数据处理模块,被配置为:对学生回答问题的历史记录进行预处理,得到由学生、问题、问题难度及得分组成的训练集;

模型构建模块,被配置为:在现有诊断模型的基础上,引入问题难度变量,利用因果推断消除偏差,构建认知诊断模型,并用训练集对其进行训练;

认知诊断模块,被配置为:将待诊断的学生、问题和问题难度,输入到训练好的认知诊断模型中,得到诊断模型输出的学生认知诊断结果。

本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于因果推断消除问题难度偏差的认知诊断方法中的步骤。

本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于因果推断消除问题难度偏差的认知诊断方法中的步骤。

以上一个或多个技术方案存在以下有益效果:

本发明通过将习题难度添加到认知诊断因果图分析问题难度如何影响认知诊断,并利用因果理论确定问题难度的混杂效应,本发明首次从因果角度明确建模问题难度偏差,以更好地进行认知诊断。

本发明提出了一种新的因果认知诊断框架CausalCDF,通过因果干预消除混杂因子(即问题难度)的影响,所提出的CausalCDF框架可以很容易地与现有的认知诊断模型集成。

本发明在五个有代表性的诊断模型上实例化了CausalCDF,并在两个真实数据集上进行了大量实验,通过学生表现预测任务验证了提出的框架的有效性,与这些现有方法相比,本发明在性能上有显著的提高。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为认知诊断的因果图。

图3为第一个实施例的认知诊断模型训练示意图。

图4为第二个实施例的系统结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明;除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

现有认知诊断模型,忽略了对习题难度信息的挖掘,实际上应该考虑不同难度的问题的作答表现对于诊断结果的影响,也应该区分习题在不同阶段的相对难度的影响,下面从因果关系的角度分析认知诊断,并解释问题难度混杂的影响。

利用因果图来明确分析认知诊断过程中的因果关系,图2显示了由四个变量S、E、A、D组成的因果图;具体来说,节点S表示学生变量,对于一个学生s

图中的边(路径)描述了变量之间的因果关系,例如S→A意味着学生S对正确回答A有直接的影响,对学生S的改变将影响正确回答A的值。具体地说:

1.路径{S,E,D}→A表示正确回答A由学生S、问题E和问题难度D共同决定;传统方法基于学生的认知状态与问题特征之间的匹配决定了学生能否正确回答问题的假设,仅考虑{S,E}→A;这里本实施例还额外添加了一个原因节点D用于捕捉问题难度对正确回答A的影响。

2.路径D→E意味着问题难度D会影响问题被回答的可能性。当学生学习一个新概念时,他们通常会按照从易到难的顺序回答问题;因此,简单的问题在回答日志中出现得更频繁。

根据因果理论,问题难度D同时影响问题E和正确回答A,是一个混杂因子,导致虚假相关性;具体来说,问题难度D从两个因果路径影响观察到的学生的答案:D→A和D→E→A。由于问题难度D会增加简单问题的回答概率,即路径D→E,所以第二条路径有偏见的负面影响,正确回答记录会包含更多的简单问题;因此,由于混杂因子问题难度D的存在,直接使用P(A|S,E)来表示因果效应是不正确的;所以,认知诊断考虑问题难度影响的同时,还需要消除“问题难度增加简单问题的回答概率”导致的偏见的负面影响。

为此,本实施例公开了基于因果推断消除问题难度偏差的认知诊断方法,提出一种新的因果认知诊断框架CausalCDF,对于不同的诊断模型,用CausalCDF创建新的认知诊断模型,通过因果干预消除混杂因子(即问题难度)的影响,更准确高效地诊断学生的认知水平。

如图1所示,基于因果推断消除问题难度偏差的认知诊断方法,包括:

S201:对学生回答问题的历史记录进行预处理,得到由学生、问题、问题难度及得分组成的训练集;

本实施例采用两个真实数据集,分别为ASSIST和Code;ASSIST数据是由ASSISTments在线辅导系统收集的公开训练集;Code数据是从一个面向儿童的编程学习系统收集的。

对数据集进行预处理,比如为了确保每个学生都有足够的数据进行训练,分别删除ASSIST和Code中少于15个和10个回答问题记录的学生。

根据数据集中问题回答记录,统计每个问题的错误回答率,并将错误率视为问题难度的值,从而构建学生、问题、问题难度及得分组成的训练集。

S202:在现有诊断模型的基础上,引入问题难度变量,利用因果推断消除偏差,构建认知诊断模型,并用训练集对其进行训练;

为了将认知诊断与问题难度解耦,使得任何现有的诊断模型都适用于因果认知诊断框架CausalCDF,本发明将因果认知诊断框架CausalCDF设计为现有诊断模型和线性层的两层架构,现有诊断模型如IRT、NeuralCDM等,以学生和问题为输入,输出学生特征、问题特征及预测得分。

基于因果认知诊断框架CausalCDF的认知诊断模型,将问题难度和现有诊断模型输出的预测得分,输入到线性层中,得到学生认知诊断结果。

在将问题难度输入到线性层之前,为了消除混杂因子D的不良影响,要利用do算子进行去偏处理,具体为:

为了消除混杂因子D的不良影响,通过因果干预得到S、E、A上真正的因果关系;基于后门准则对S、E施加do算子操作,从而阻断路径D→E,即忽略D到E的影响,如图2(c)所示;这样,在计算P(A|do(S,E))时,不存在同时影响A和E的混杂因子,这意味着已经去除了混杂因子D的影响并捕捉到了S、E在A上真正的因果效应;将正确回答的概率表示为P(A|do(S,E))而不是通过传统方法估计的P(A|S,E)。

导出后门准则的具体表达式,以计算P(A|do(S,E)),具体来说,用G表示图2(b)所示的因果图,用G′表示图2(c)所示的干预因果图;令PG′(·)表示在G′上计算得到的概率函数,D表示问题难度D的样本空间;对G执行do算子并得到:

采用步骤S201所构建的训练集对认知诊断模型进行训练,如图3所示。

考虑如何从数据中预测得分P,给定学生集合S=[s

确定了损失函数后,下一步参数化

通过组合公式(1)和(3)得到P(A|do(S,E));基于normalized weightedgeometric mean(NWGM),NWGM是一种归一化加权几何平均的期望计算方法,将期望纳入到sigmoid函数中,得到:

最后,用d

综上所述,用

S203:将待诊断的学生、问题和问题难度,输入到训练好的认知诊断模型中,得到诊断模型输出的学生认知诊断结果。

通过对比实验验证本实施例所提出方法的效果,采用的五个现有诊断模型分别为:

DINA:确定性输入噪声“与”门模型Deterministic Inputs,Noisy“And”gatemodel(DINA)将学生正确回答问题的概率建模为学生特征和问题特征之间的交互作用。具体来说,这两个特征都是二进制的,问题特征来自Q矩阵。

IRT:项目反应理论ItemResponseTheory(IRT)将学生和问题建模为一个类逻辑函数,其中学生和问题的特征是一维和连续的潜在特征。

MIRT:多维项目反应理论Multidimensional IRT(MIRT)是IRT的直接延伸,它为学生和问题构建了多维潜在特征,而不是一维特征。

MF:矩阵分解Matrix Factorization(MF)将学生作答矩阵分解为学生特征和问题特征。

NeuralCDM:神经认知诊断模型Neural Cognitive Diagnosis Model(NeuralCDM)是一种深度学习模型,它利用神经网络捕捉学生和问题之间的复杂关系。

在上述五个现有诊断模型基础上创建基于CausaICDF的新的认知诊断模型,CausaIDINA、CausallRT、CausalMIRT、CausalMF和CausalNCDM分别是在DINA、IRT、MIRT、MF和NeuralCDM基础上创建的新的认知诊断模型;用5倍交叉验证在ASSIST和Code这两个数据集上的所有方法进行评估,以获得四个指标的平均值,并以粗体突出显示了最佳结果,结果下表所示:

表1结果对比表

从表1中,可以看到:(1)CausalCDF在两个数据集中的四个指标上优于几乎所有原有模型,验证了所提出的因果框架对于认知诊断的有效性;(2)与NeuralCDM相比,CausalNCDM没有太大改进,因为NeuralCDM隐含地考虑了问题的知识难度,并通过完全连接的神经网络直接从数据中学习;(3)CausalCDF在Code数据上改进不如ASSIST明显,这是由于学生可以反复回答,直到问题得到正确答案,因此根据错误率来衡量代码问题的难度可能不准确,这会降低模型性能。

实施例二

本实施例公开了基于因果推断消除问题难度偏差的认知诊断系统;

如图4所示,基于因果推断消除问题难度偏差的认知诊断系统,包括数据处理模块、模型构建模块和认知诊断模块:

数据处理模块,被配置为:对学生回答问题的历史记录进行预处理,得到由学生、问题、问题难度及得分组成的训练集;

模型构建模块,被配置为:在现有诊断模型的基础上,引入问题难度变量,利用因果推断消除偏差,构建认知诊断模型,并用训练集对其进行训练;

认知诊断模块,被配置为:将待诊断的学生、问题和问题难度,输入到训练好的认知诊断模型中,得到诊断模型输出的学生认知诊断结果。

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的基于因果推断消除问题难度偏差的认知诊断方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于因果推断消除问题难度偏差的认知诊断方法中的步骤。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115629983