掌桥专利:专业的专利平台
掌桥专利
首页

试题分类和标注方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 19:18:24


试题分类和标注方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种试题分类和标注方法、装置、电子设备和存储介质。

背景技术

在教育领域,不同的试题考察的知识点不同,适用群体不同,为了提高学习者的学习效率,需要从海量试题中精准快速的选择合适的试题。现有技术主要是通过线下的方式收集试题,通过人工的方式对试题进行分类,手动添加标签数据。现有技术对试题进行分类和标注的效率较低、准确性较低,试题资源的利用率低。

发明内容

本发明提供一种试题分类和标注方法、装置、电子设备和存储介质,用以解决现有技术对试题进行分类和标注的效率较低、准确性较低,试题资源的利用率低的问题。

本发明提供了一种试题分类和标注方法,包括:

获取待分类和标注的目标试题的文本数据,以及所述目标试题的属性数据;

确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;

确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;

将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;

基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;

其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

在一些实施例中,所述确定所述目标试题关联的知识点,包括:

从所述目标试题的文本数据中提取所述目标试题对应的锚点数据;

基于所述目标试题对应的锚点数据,得到所述目标试题关联的知识点。

在一些实施例中,所述确定所述目标试题关联的知识点对应的目标题目知识集,包括:

基于所述目标试题关联的知识点,从题目知识库中挑选出所述目标试题关联的知识点对应的题目,得到目标题目知识集;

其中,所述题目知识库中包含不同类型的题目,所述不同类型的题目考察的知识点不同;

其中,所述目标题目知识集中包含所述目标试题关联的知识点对应的多个典型题目,所述典型题目由若干锚块组成。

在一些实施例中,所述将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,包括:

将所述目标试题的文本数据分割成若干片段,将每个片段对应的文本数据与所述目标题目知识集中的各个锚块进行匹配。

在一些实施例中,所述基于匹配上的各个锚块对应的知识点,得到知识点标签,包括:

基于匹配上的各个锚块对应的特征数据,确定所述匹配上的各个锚块对应的知识点,所述匹配上的各个锚块对应的特征数据包括所述匹配上的各个锚块关联的知识点,以及所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度;

基于所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度,得到所述知识点标签。

在一些实施例中,所述基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,包括:

确定所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度;

基于所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度,计算每个所述知识点标签的置信度;

在所述知识点标签的置信度大于或等于预设置信度阈值的情况下,保留所述知识点标签,在所述知识点标签的置信度小于所述预设置信度阈值的情况下,剔除所述知识点标签。

在一些实施例中,所述将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注之后,还包括:

对于所述目标试题中未匹配上的片段,从所述目标题目知识集中选出与所述未匹配上的片段相关度最高的锚块;

基于选出的锚块对应的特征数据,得到补充标签;

对所述补充标签进行检测,在所述知识点标签包含所述补充标签的情况下,放弃所述补充标签;在所述知识点标签不包含所述补充标签的情况下,保留所述补充标签,对所述目标试题标注所述补充标签。

本发明还提供一种试题分类和标注装置,包括:

获取单元,用于获取待标注的目标试题的文本数据,以及所述目标试题的属性数据;

分类单元,用于确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;

确定单元,用于确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;

匹配单元,用于将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;

标注单元,用于基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;

其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述试题分类和标注方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述试题分类和标注方法。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述试题分类和标注方法。

本发明提供的一种试题分类和标注方法、装置、电子设备和存储介质,通过确定目标试题关联的知识点,对目标试题进行分类,将目标试题的文本数据与目标题目知识集中的各个锚块进行匹配,得到知识点标签,基于所述目标试题的属性数据,以及匹配上的各个锚块对应的知识点的属性数据,对知识点标签进行筛选,得到目标试题的目标知识点标签;本发明能够有效提高试题分类和标注的效率和准确性,便于对试题资源进行高效利用。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的试题分类和标注方法的流程示意图之一;

图2为本发明实施例提供的确定目标试题关联的知识点并将目标试题归属至目标试题关联的知识点对应的试题数据库中的流程示意图;

图3为本发明实施例提供的试题分类和标注方法的流程示意图之二;

图4为本发明实施例提供的试题分类和标注装置的结构示意图;

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。

在各个学科教育领域,试题资源尤为重要,如何更好地依据学习者的需求从海量试题资源中寻找到合适的试题,为学习者提供个性化的学习方案,从而有效地提高试题资源的利用率以及学习者的学习效率,成为大家关注的热点问题。基于因材施教的背景,为了避免进行同质化的无效作业,需要更加精准的布置作业。但是面对海量的试题资源,老师无法精准快速的选择合适的题目。基于此背景,需要有一套完善的机制,对海量的试题进行分类和标签化,为自适应教学提供依据。

目前对于试题的收集、分类和标注主要依靠人工,具有一定的局限性,难以收集到大量的试题资源并对其进行合理、有效的利用,对试题进行分类和标注的主观性较强,而对题目的质量判别,也仅依靠个人的经验,试题分类和标注的效率较低,而且易存在分类和标注不准确的问题。

当前也有一些试题自动分类和标注方法,通过采用自然语言处理领域通用的分类模型来实现。然而自然语言处理领域通用的分类模型主要聚焦于算法的实现和改进,缺乏对试题领域知识的融合,忽视了知识点和试题的属性特点,对试题进行分类和标注的准确性不高;具体地,它们缺乏对试题的属性特征和语义信息的提取和研究;另外,现有的大多数分类模型都属于二分类模型,而试题往往与多个且数量不定的知识点标签相关联,试题的属性与知识点的属性之间也有一定的关联,现有的大多数分类模型很难在捕获试题语义信息的同时考虑试题的属性与知识点的属性之间的联系,并且已有的知识点自动标注方法也很少关注文本多标签分类。

为此,本发明提供了一种试题分类和标注方法、装置、电子设备和存储介质,通过确定目标试题关联的知识点,对目标试题进行分类,将目标试题的文本数据与目标题目知识集中的各个锚块进行匹配,得到知识点标签,基于所述目标试题的属性数据,以及匹配上的各个锚块对应的知识点的属性数据,对知识点标签进行筛选,得到目标试题的目标知识点标签。本发明可以有效提高试题分类和标注的效率和准确性,便于对试题资源进行高效利用。

图1为本发明实施例提供的试题分类和标注方法的流程示意图之一。如图2所示,提供了一种试题分类和标注方法方法,包括以下步骤:步骤110、步骤120、步骤130、步骤140和步骤150。该方法流程步骤仅仅作为本发明一个可能的实现方式。

步骤110、获取待分类和标注的目标试题的文本数据,以及所述目标试题的属性数据。

其中,目标试题可以是考试真题、模拟试题或练习题等。

其中,目标试题的文本数据包括题干文本数据,还包括答案文本数据和答案解析文本数据中的至少一种;目标试题的属性数据包括多个维度的特征数据,如学科值,版本值,试题难度值,试题类型,区域信息,考频,得分率等。

示例性的,目标试题的文本数据为:补写出下列句子中的空缺部分:《庄子·逍遥游》中说,到郊野去的人,只带一日之粮当天回来,肚子还饱饱的;到百里之外去的人,则需要“”;而去往千里之外的人,就必须“”;该目标试题的属性数据为:语文学科、2021年版本、湖北区域、高考I卷。

具体地,目标试题的文本数据和目标试题的属性数据可以通过终端设备采集,终端设备可以是手机、个人电脑、平板电脑等设备。

可选地,目标试题的文本数据可以通过多种途径获取,如用户上传的文本,接收用户上传的语音数据进行语音识别得到的文本,或者接收用户上传的图像数据进行图像识别得到的文本。

可选地,目标试题的属性数据可以基于大数据技术得到。

具体地,对来自各个渠道的目标试题的属性数据进行处理,计算或统计出目标试题的属性数据,比如考频、版本值、得分率、试题的难度值等。

示例性的,目标试题的难度值可以通过以下公式进行计算:

H(x)=m*h

其中,H(x)表示目标试题的难度值,x表示目标试题;h

其中,目标试题的难度系数的计算公式为:

f(z)=1-z/w

其中,f(z)表示目标试题的难度系数,z表示目标试题的得分,w为目标试题的总分,目标试题的难度系数f(z)与第二难度值h

可选地,在目标试题的考频较低,计算得到的目标试题的难度系数的置信度不高的情况下,目标试题的难度值可以通过以下公式进行计算:

H(x)=m*h

其中,h

在本发明实施例中,获取的目标试题的属性数据的准确性较高,种类较丰富,获取的目标试题的文本数据和目标试题的属性数据为目标试题的分类和标签化提供了可靠的依据。

步骤120、确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中。

其中,目标试题关联的知识点的数量为一个、两个或多个。

图2为本发明实施例提供的确定目标试题关联的知识点并将目标试题归属至目标试题关联的知识点对应的试题数据库中的流程示意图,如图2所示,步骤120包括:步骤121、步骤122和步骤123。

步骤121、从所述目标试题的文本数据中提取所述目标试题对应的锚点数据;

其中,目标试题对应的锚点数据为与目标试题的考察内容关联的数据,锚点数据包含了丰富的考察内容信息。

步骤122、基于所述目标试题对应的锚点数据,得到所述目标试题关联的知识点;

步骤123、将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中。

示例性的,目标试题的题干文本数据为:“小明把500元钱存入银行,整存整取,存期为一年,一年后共得本息和510.8元,求银行一年期的年利率是多少?”,结合目标试题A的题干文本数据和答案文本数据,提取得到该目标试题对应的锚点数据为:“一元一次方程,利率问题,涉及银行年利率的计算方式”,从而得到该目标试题关联的知识点为“一元一次方程”,将该目标试题分类至考察知识点为“一元一次方程”的试题数据库中。

在本发明实施例中,通过提取得到目标试题对应的锚点数据,从而得到目标试题关联的知识点,根据目标试题关联的知识点对目标试题进行分类,使学习者能够根据需要学习的知识点,从相应的试题数据库中挑选合适的试题进行练习,减少了试题选择的盲目性,提高了学习效率。

在一些实施例中,基于锚点分类层,从所述目标试题的文本数据中提取所述目标试题对应的锚点数据,所述锚点分类层的确定过程包括:

基于初始锚点分类层,从试题样本的文本数据中提取所述试题样本对应的锚点数据;

根据所述试题样本对应的锚点数据,以及所述试题样本对应的真实锚点数据,对所述初始锚点分类层进行参数迭代,得到锚点分类层。

可选地,试题样本的文本数据包括题干文本数据,还包括答案文本数据和答案解析文本数据中的至少一种。

需要解释的是,试题样本对应的锚点数据是通过初始锚点分类层预测得到的锚点数据,试题样本对应的真实锚点数据是通过人工方式标注的锚点数据。

具体地,基于试题样本对应的锚点数据,以及试题样本对应的真实锚点数据,计算损失函数值,基于损失函数值,对初始锚点分类层的参数进行迭代,迭代完成后,得到锚点分类层,从而便于对目标试题对应的锚点数据进行预测,提高了锚点数据预测的准确性。

步骤130、确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块。

具体地,所述确定所述目标试题关联的知识点对应的目标题目知识集,包括:

基于所述目标试题关联的知识点,从题目知识库中挑选出所述目标试题关联的知识点对应的题目,得到目标题目知识集。

可选地,在目标试题关联的知识点数量较多的情况下,基于目标试题关联的知识点与目标试题之间的关联度,对目标试题关联的知识点进行筛选,基于筛选后得到的目标试题关联的知识点,从题目知识库中挑选对应的题目,得到目标题目知识集。

其中,所述题目知识库中包含不同类型的题目,所述不同类型的题目考察的知识点不同。

可选地,题目知识库中的题目依据教材或考试大纲指定的考察知识点进行收集,可以是考试真题、测试题或常规练习题。

其中,所述目标题目知识集中包含所述目标试题关联的知识点对应的多个典型题目,所述典型题目由若干锚块组成。

可选地,题目知识库中的每个题目均包括题干文本数据,还包括题目知识点信息、答案文本数据和答案解析文本数据中的至少一种。

需要解释的是,题目知识库中的每个题目预先切分成了若干元数据片段,切分的片段成为锚块,每个锚块都是一个多维度特征数据的集合,比如,锚块的特征数据可以包括锚块的位置信息、锚块关联的知识点、锚块关联的知识点与锚块的关联度等。

示例性的,题目知识库中的某一题目的题干文本数据为:补写出下列句子中的空缺部分:《荀子·劝学》中“,”两句,以劣马的执着为喻,强调为学必须持之以恒;该题目的答案文本数据为:驽马十驾,功在不舍;该题目对应的各个锚块分别为“补写出下列句子中的空缺部分”、“《荀子·劝学》”、“驽马十驾,功在不舍”和“以劣马的执着为喻,强调为学必须持之以恒”;锚块“补写出下列句子中的空缺部分”对应的特征数据包括:位于题干起始处、知识点考察方式-默写填空;锚块“《荀子·劝学》”对应的特征数据包括:位于题干中空缺部分之前,关联知识点—《荀子·劝学》;锚块“驽马十驾,功在不舍”对应的特征数据包括:位于题干中空缺部分、考察知识点—“驽马十驾,功在不舍”;锚块“以劣马的执着为喻,强调为学必须持之以恒”对应的特征数据包括:位于题干中空缺部分之后、考察知识点的语义解释。

在本发明实施例中,通过确定所述目标试题关联的知识点对应的目标题目知识集,从而能够得到目标题目知识集中的各个锚块的多维度特征数据,便于将锚块与目标试题的文本数据进行匹配,得到的目标试题对应的知识点标签。

步骤140、所述将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签。

在一些实施例中,所述将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,包括:

将所述目标试题的文本数据分割成若干片段,将每个片段对应的文本数据与所述目标题目知识集中的各个锚块进行匹配。

具体地,分别对目标试题的题干文本数据,以及目标试题的其他类型的文本数据进行分割,例如答案文本数据、答案解析文本数据;得到目标试题的信息表示,例如I={s

可选地,在目标试题的题干文本数据为填空类题型的情况下,基于目标试题的答案文本数据或答案解析文本数据,将目标试题的题干文本数据补充完整,再对完整的目标试题的题干文本数据进行分割。

在一些实施例中,所述基于匹配上的各个锚块对应的知识点,得到知识点标签,包括:

基于匹配上的各个锚块对应的特征数据,确定所述匹配上的各个锚块对应的知识点,所述匹配上的各个锚块对应的特征数据包括所述匹配上的各个锚块关联的知识点,以及所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度;

基于所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度,得到所述知识点标签。

其中,锚块对应的特征数据包括锚块的文本数据、锚块的位置信息、锚块关联的知识点、锚块关联的知识点与锚块的关联度等。

可选地,根据匹配上的锚块关联的知识点与该匹配上的锚块的相关度,对匹配上的各个锚块关联的知识点进行排序,匹配上的锚块关联的知识点与该匹配上的锚块的相关度越高,该匹配上的锚块关联的知识点的排序越靠前,按照排序的前后顺序选取前N个匹配上的锚块关联的知识点,确定选取的前N个匹配上的锚块关联的知识点为匹配上的各个锚块对应的知识点,从而得到知识点标签。

本发明实施例中,将目标试题的文本数据中的每个片段与目标题目知识集中的各个锚块进行匹配,并对匹配上的各个锚块关联的知识点进行筛选,过滤与匹配上的各个锚块相关性较低的无效知识点,得到知识点标签。

需要说明的是,本步骤仅将目标试题的文本数据中的每个片段与目标题目知识集中的各个锚块进行匹配,目标试题的文本数据中的每个片段可以匹配上多个锚块,然而并不是所有的锚块都是有价值的,例如目标试题为一道考察某个知识点的初中试题,可能会涉及到一些小学的基础知识点,涉及的小学的基础知识点虽然匹配上了,却可以当成次要相关知识点,因此,还需考虑目标试题的属性数据,以及匹配上的各个锚块对应的知识点的属性数据。

步骤150、基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注。

其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

可选地,预先构建的知识点库是基于教材建设的知识点库,预先构建的知识点库中包括教材上的各个知识点,以及各个知识点的属性数据。

具体地,基于考试大纲,知识点的属性数据包括多个维度的属性数据,例如知识点的所属学科,知识点的重要性、知识点的难度值、知识点的考察点等。

在一些实施例中,步骤150包括:步骤151、步骤152和步骤153。

步骤151、确定所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度;

具体地,目标试题的属性数据集合A={a

步骤152、基于所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度,计算每个所述知识点标签的置信度;

具体地,目标试题的属性数据与匹配上的锚块对应的知识点的属性数据的相关度越高,基于该匹配上的锚块,得到的知识点标签的置信度越高。

步骤153、在所述知识点标签的置信度大于或等于预设置信度阈值的情况下,保留所述知识点标签,在所述知识点标签的置信度小于所述预设置信度阈值的情况下,剔除所述知识点标签。

在本发明实施例中,通过确定目标试题的属性数据与匹配上的各个锚块对应的知识点的属性数据的相关度,计算每个知识点标签的置信度,从而对知识点标签进行筛选,提高了试题标注的准确性。

需要说明的是,本发明每一个实施方式可以自由组合、调换顺序或者单独执行,并不需要依靠或依赖固定的执行顺序。

图3为本发明实施例提供的试题分类和标注方法的流程示意图之二,如图3所示,在一些实施例中,步骤150之后还包括:步骤310、步骤320和步骤330。

步骤310、对于所述目标试题中未匹配上的片段,从所述目标题目知识集中选出与所述未匹配上的片段相关度最高的锚块;

其中,基于选出的锚块的特征数据与未匹配上的片段的文本数据和未匹配上的片段的属性数据,得到选出的锚块与未匹配上的片段相关度。

可选地,对于所述目标试题中未匹配上的片段,基于锚块的位置信息,从目标题目知识集中初步选取与目标试题中未匹配上的片段的位置信息相近的锚块,从初步选取的锚块中选出与所述未匹配上的片段相关度最高的锚块。

例如,目标试题中未匹配上的片段位于目标试题的题干文本数据的起始处,则基于锚块的位置信息,初步选取位于对应题目的题干文本数据的起始处及起始处附近的锚块,再从初步选取的锚块中选出与所述未匹配上的片段相关度最高的锚块。

步骤320、基于选出的锚块对应的特征数据,得到补充标签;

步骤330、对所述补充标签进行检测,在所述知识点标签包含所述补充标签的情况下,放弃所述补充标签;在所述知识点标签不包含所述补充标签的情况下,保留所述补充标签,对所述目标试题标注所述补充标签。

在本发明实施例中,对于目标试题中未匹配上的片段,从目标题目知识集中选出与未匹配上的片段相关度最高的锚块,得到补充标签,并对补充标签进行检测,保留有效的补充标签,使目标试题标注的知识点标签更加丰富、全面,能够防止遗漏知识点标签。

下面对本发明实施例提供的试题分类和标注装置进行描述,下文描述的试题分类和标注装置与上文描述的试题分类和标注方法可相互对应参照。

图4为本发明实施例提供的试题分类和标注装置的结构示意图,如图4所示,该装置400包括:

获取单元410,用于获取待标注的目标试题的文本数据,以及所述目标试题的属性数据;

分类单元420,用于确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;

确定单元430,用于确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;

匹配单元440,用于将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;

标注单元450,用于基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;

其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

可选地,在一些实施例中,所述确定所述目标试题关联的知识点,包括:

从所述目标试题的文本数据中提取所述目标试题对应的锚点数据;

基于所述目标试题对应的锚点数据,得到所述目标试题关联的知识点。

可选地,所述确定所述目标试题关联的知识点对应的目标题目知识集,包括:

基于所述目标试题关联的知识点,从题目知识库中挑选出所述目标试题关联的知识点对应的题目,得到目标题目知识集;

其中,所述题目知识库中包含不同类型的题目,所述不同类型的题目考察的知识点不同;

其中,所述目标题目知识集中包含所述目标试题关联的知识点对应的多个典型题目,所述典型题目由若干锚块组成。

可选地,所述将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,包括:

将所述目标试题的文本数据分割成若干片段,将每个片段对应的文本数据与所述目标题目知识集中的各个锚块进行匹配。

可选地,所述基于匹配上的各个锚块对应的知识点,得到知识点标签,包括:

基于匹配上的各个锚块对应的特征数据,确定所述匹配上的各个锚块对应的知识点,所述匹配上的各个锚块对应的特征数据包括所述匹配上的各个锚块关联的知识点,以及所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度;

基于所述匹配上的各个锚块关联的知识点与所述匹配上的各个锚块的相关度,得到所述知识点标签。

可选地,所述基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,包括:

确定所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度;

基于所述目标试题的属性数据与所述匹配上的各个锚块对应的知识点的属性数据的相关度,计算每个所述知识点标签的置信度;

在所述知识点标签的置信度大于或等于预设置信度阈值的情况下,保留所述知识点标签,在所述知识点标签的置信度小于所述预设置信度阈值的情况下,剔除所述知识点标签。

可选地,所述试题分类和标注装置,还包括:

挑选单元,用于对于所述目标试题中未匹配上的片段,从所述目标题目知识集中选出与所述未匹配上的片段相关度最高的锚块;

生成单元,用于基于选出的锚块对应的特征数据,得到补充标签;

检测单元,用于对所述补充标签进行检测,在所述知识点标签包含所述补充标签的情况下,放弃所述补充标签;在所述知识点标签不包含所述补充标签的情况下,保留所述补充标签,对所述目标试题标注所述补充标签。

在此需要说明的是,本发明实施例提供的试题分类和标注装置,能够实现上述试题分类和标注方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行试题分类和标注方法,该方法包括:获取待分类和标注的目标试题的文本数据,以及所述目标试题的属性数据;确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例所提供的试题分类和标注方法,该方法包括:获取待分类和标注的目标试题的文本数据,以及所述目标试题的属性数据;确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的试题分类和标注方法,该方法包括:获取待分类和标注的目标试题的文本数据,以及所述目标试题的属性数据;确定所述目标试题关联的知识点,将所述目标试题归属至所述目标试题关联的知识点对应的试题数据库中;确定所述目标试题关联的知识点对应的目标题目知识集,所述目标题目知识集包括多个锚块;将所述目标试题的文本数据与所述目标题目知识集中的各个锚块进行匹配,基于匹配上的各个锚块对应的知识点,得到知识点标签;基于所述目标试题的属性数据,以及所述匹配上的各个锚块对应的知识点的属性数据,对所述知识点标签进行筛选,将筛选后得到的目标知识点标签作为所述目标试题的标签进行标注;其中,所述匹配上的各个锚块对应的知识点的属性数据是根据所述匹配上的各个锚块对应的知识点和预先构建的知识点库确定的,所述知识点库包括知识点的属性数据。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 视频分类方法、装置、电子设备及计算机可读存储介质
  • 分类模型的处理方法、装置、电子设备及存储介质
  • 图像分类方法、装置、电子设备及存储介质
  • 视频分类方法、装置、电子设备及存储介质
  • 基于聚类的分类方法、装置、存储介质和电子设备
  • 试题答案标注方法、装置、电子设备及计算机可读介质
  • 试题生成方法、试题生成装置、电子设备以及存储介质
技术分类

06120115867081