掌桥专利:专业的专利平台
掌桥专利
首页

基于主动学习和半监督学习的案情特征标注方法、装置和设备

文献发布时间:2023-06-19 19:27:02


基于主动学习和半监督学习的案情特征标注方法、装置和设备

技术领域

本发明涉及智慧司法技术领域,具体涉及一种基于主动学习和半监督学习的案情特征标注方法、装置和设备。

背景技术

随着法院信息化和智慧法院建设的不断深入,法院积累了海量的数字化历史案件卷宗材料。这些材料为司法智能应用的研发提供了数据支持,也对智慧司法技术提出了更高的要求。案情特征标注是实现智慧司法相关应用的一项重要底层技术工具,通过对卷宗文本的认知学习,将法律专业和司法业务作为先验知识引入案件卷宗语料中,所得到的标签信息,对案情语义理解、文本语义解构、领域语言模型优化、样本信息增强等能力都具有重要促进作用,可有效提升相关应用中计算模型的精度,对类案检索、文书生成等众多司法案例知识服务的落地应用具有重要意义。

相关技术中,面对海量历史案卷数据,通常通过手工标注样本,训练分类模型,从而实现案情特征标注。但是,由于案件类型繁多,梳理的标签体系庞大,所有训练样本的标注均需要法律专业人士才能完成。因此,获取标注样本的成本较高,难以满足训练深度学习模型对标注样本的需求。

因此,如何快速对案情特征进行标注,降低样本标注成本,成为现有技术中亟待解决的技术问题。

发明内容

有鉴于此,本发明的目的在于提供一种基于主动学习和半监督学习的案情特征标注方法、装置和设备,以克服目前标注样本的成本较高,难以满足训练深度学习模型对标注样本的需求的问题。

为实现以上目的,本发明采用如下技术方案:

一方面,一种基于主动学习和半监督学习的案情特征标注方法,包括:

获取待标注的案情事实文本;

对所述待标注的案情事实文本进行分词处理,将得到的所有分词作为目标案情事实;

将所述目标案情事实输入至案情特征标注模型中,得到所述目标案情事实的案情特征标注结果;所述案情特征标注结果包括:案情特征及案件特征的层次关系;

其中,所述案情特征标注模型为根据部分已标注好的样本案情事实和部分未进行标注的样本案情事实进行主动学习和半监督学习预先训练得到;所述已标注好的样本案情事实的案情特征标注有层次关系。

可选的,还包括:

在裁判文书集中,获取每个裁判文书的案情事实文本,并对每条案情事实文本进行分词处理,将得到的所有分词作为样本集;

在所述样本集中抽取待标注样本,构建待标注样本集,将剩余的未标注样本构建为未标注样本集;响应于专家的标注指令,标注所述待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;其中,每个案件特征对应一个标签;

基于所述已标注样本集和预设模型进行模型训练,得到初步案情特征标注模型;

将未标注样本集中的未标注样本输入所述初步案情特征标注模型中,得到每个未标注样本的标注结果,其中,所述标注结果包括:每个标签的分类概率;

根据所述分类概率,计算对应每个未标注样本的置信度;

根据置信度的高低,在所述未标注样本集中抽取置信度低的未标注样本重新作为待标注样本集,并响应于专家的标注指令,标注所述待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;以及,在所述未标注样本中抽取置信度高的未标注样本,将所述置信度高的未标注样本及对应的标注结果作为已标注样本,加入所述已标注样本集;对所述初步案情特征标注模型进行迭代更新,直至所述初步案情特征标注模型的迭代次数达到迭代次数阈值,得到所述案情特征标注模型。

可选的,所述在所述未标注样本集中抽取置信度低的未标注样本重新作为待标注样本集,包括:

根据置信度由高到低的顺序,对所述未标注样本进行排序;

抽取排在后第一阈值数量的未标注样本,重新构成所述待标注样本集。

可选的,所述在所述未标注样本中抽取置信度高的未标注样本,将所述置信度高的未标注样本及对应的标注结果作为已标注样本,加入所述已标注样本集,包括:

根据置信度由高到低的顺序,对所述未标注样本进行排序;

抽取排在前第二阈值数量的未标注样本及对应的标注结果作为已标注样本,加入所述已标注样本集。

可选的,所述已标注样本包括:案件事实样本和对应的特征标签;

所述基于所述已标注样本集和预设模型进行模型训练,包括:

获取所述案情事实样本的词向量,将所述词向量输入至双向长短时记忆网络,得到案情事实样本关联关系,将所述案情事实样本关联关系输入至预设卷积神经网络中,得到各个特征,将所述各个特征输入全连接层,得到各个案情事实的语义向量;以及,

获取所述特征标签的标签向量,将所述标签向量及特征标签的层次关系,输入至双向树形结构长短期记忆网络,将输出结果输入全连接层,得到各个标签的语义向量;

将所述各个案情事实的语义向量和各个标签的语义向量经过注意力网络,得到每个案情事实对应不同标签的权重;

根据每个案情事实对应不同标签的权重,得到案情事实的标注结果;所述案情事实的标准结果包括每个案情事实对应的标签的概率及标签的层次关系。

可选的,所述预设模型包括:案情事实编码器、标签结构编码器和注意力网络;所述案情事实编码器包括相互连接的双向长短期记忆网络和卷积神经网络;所述标签结构编码器,包括双向树形结构长短期记忆网络。

可选的,所述对所述待标注的案情事实文本进行分词处理,包括:根据LTP工具或结巴分词工具,对所述待标注的案情事实文本进行分词处理。

可选的,所述根据所述分类概率,计算对应每个未标注样本的置信度,包括:

将所述分类概率输入至置信度计算公式中,得到对应的置信度;其中,所述置信度计算公式为:

其中,y

又一方面,一种基于主动学习和半监督学习的案情特征标注装置,包括:

获取模块,用于获取待标注的案情事实文本;

分词模块,用于对所述待标注的案情事实文本进行分词处理,将得到的所有分词作为目标案情事实;

输入标注模块,用于将所述目标案情事实输入至案情特征标注模型中,得到所述目标案情事实的案情特征标注结果;所述案情特征标注结果包括:案情特征及案件特征的层次关系;

其中,所述案情特征标注模型为根据部分已标注好的样本案情事实和部分未进行标注的样本案情事实进行主动学习和半监督学习预先训练得到;所述已标注好的样本案情事实的案情特征标注有层次关系。

又一方面,一种基于主动学习和半监督学习的案情特征标注设备,包括处理器和存储器,所述处理器与存储器相连:

其中,所述处理器,用于调用并执行所述存储器中存储的程序;

所述存储器,用于存储所述程序,所述程序至少用于执行上述任一项所述的基于主动学习和半监督学习的案情特征标注方法。

本发明实施例提供的技术方案至少具体如下有益效果:

在获取待标注的案情事实文本后,通过分词处理得到目标案情事实;将目标案情事实输入到案情特征标注模型中,得到目标案情事实的案情特征标注结果;所述案情特征标注结果包括:案情特征及案件特征的层次关系;其中,所述案情特征标注模型为根据部分已标注好的样本案情事实文本和部分未进行标注的样本案情事实文本进行主动学习和半监督学习预先训练得到;所述已标注好的样本案情事实文本的案情特征标注有层次关系。因此,本申请中使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高的技术问题,提升标注的效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注方法的流程示意图;

图2为本发明一实施例提供的一种案情特征标注模型的构建方法流程示意图;

图3为本发明一实施例提供的一种案情特征标注模型的架构示意图;

图4为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注装置的结构示意图;

图5为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

如背景技术记载,相关技术中,面对海量历史案卷数据,通常通过手工标注样本,训练分类模型,从而实现案情特征标注。但是,由于案件类型繁多,梳理的标签体系庞大,所有训练样本的标注均需要法律专业人士才能完成。因此,获取标注样本的成本较高,难以满足训练深度学习模型对标注样本的需求。

因此,如何快速对案情特征进行标注,降低样本标注成本,成为现有技术中亟待解决的技术问题。

面对海量历史案卷数据,需要采用自动或半自动的方式来标注案情特征,当前常基于文本分类技术,通过手工标注样本,训练分类模型,实现案情特征标注的目的。该技术方案的关键在于所构建的标签体系,以及标注样本的质量与数量。现有技术中的案情标签体系缺乏对精准层级关系的考虑,难以充分表达复杂案件的案情特征。基于此,本发明针对特定案由梳理出案情标签之间的语义关联和层级关系,构建一个多层级标签体系,用于对复杂案情精准建模。

此外,即使同一种类型的案件,案情标签样本的分布也存在明显的长尾效应,即一些标签在大多数案例中出现,而另一些标签很少出现,这种标签的不均衡分布,大大增加了标注样本的抽取难度,造成严重的数据偏置,从而导致训练的模型难以收敛到最优解。本发明采用主动学习来缓解上述问题,降低人工标注成本,不需要标注全部的样本,而是迭代选择那些对模型训练最有益的样本来标注,从而用最小的标注成本获得最大的标注收益。

具体的,本发明实施例提供一种基于主动学习和半监督学习的案情特征标注方法、装置和设备。

图1为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注方法的流程示意图,参阅图1,本实施例可以包括以下步骤:

步骤S11、获取待标注的案情事实文本;

步骤S12、对待标注的案情事实文本进行分词处理,将得到的所有分词作为目标案情事实;

步骤S13、将目标案情事实输入至案情特征标注模型中,得到目标案情事实的案情特征标注结果;案情特征标注结果包括:案情特征及案件特征的层次关系;

其中,案情特征标注模型为根据部分已标注好的样本案情事实和部分未进行标注的样本案情事实进行主动学习和半监督学习预先训练得到;已标注好的样本案情事实的案情特征标注有层次关系。

需要说明的是,本实施例提供的技术方案,该方法的执行主体可以为任一具有数据及指令处理功能的控制器,例如,控制器可以为PLC、单片机等;控制器可以设置在任一电子设备中,例如,电子设备可以为:智能终端、电话手表、计算器、服务器等。

其中,服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然,服务器也可以是指运行于电子设备中的软体。服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。

在一个具体的基于主动学习和半监督学习的案情特征标注过程中,可以从任意一个需要进行案情特征标注的裁判文书中抽取案情事实部分作为待标注的案情事实文本。其中,裁判文书可以从案情官网获得,可以在任意存储地址中获取,可以利用基于Python语言的requests库和BeautifulSoup库实现一个爬虫模块来自动采集裁判文书。获取裁判文书后,可以通过文字识别,在裁判文书中提取案情事实文本。

在得到待标注的案情事实文本后,对其进行分词处理,将得到的所有分词作为目标案情事实。其中,分词方法可以为根据语言技术平台LTP或结巴分词等工具进行。

将目标案情事实输入预先构建的案情特征标注模型中进行特征标注,从而得到案情特征标注结果;案情特征标注结果包括:案情特征及案情特征的层次关系。其中,每个案情特征即为一个标签,案情特征的层次关系即为标签的层次关系。

值得说明的是,本实施中的案情特征标注模型为根据部分已标注好的样本案情事实和部分未进行标注的样本案情事实进行主动学习和半监督学习预先训练得到;已标注好的样本案情事实的案情特征标注有层次关系。

可以理解的是,采用本实施例的技术方案,在获取待标注的案情事实文本后,通过分词处理得到目标案情事实;将目标案情事实输入到案情特征标注模型中,得到目标案情事实的案情特征标注结果;案情特征标注结果包括:案情特征及案件特征的层次关系;其中,案情特征标注模型为根据部分已标注好的样本案情事实文本和部分未进行标注的样本案情事实文本进行主动学习和半监督学习预先训练得到;已标注好的样本案情事实文本的案情特征标注有层次关系。因此,本申请中使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高的技术问题以及长尾效应问题,提升标注的效率和准确率。

为了对本发明技术方案进行进一步说明,本发明一实施例还提供对案情特征标注模型的构建过程。

图2为本发明一实施例提供的一种案情特征标注模型的构建方法流程示意图。具体的,参阅图2,案情特征标注模型的构建过程可以包括以下步骤:

步骤S21、在裁判文书集中,获取每个裁判文书的案情事实文本,并对每条案情事实文本进行分词处理,将得到的所有分词作为样本集。

例如,可以利用基于Python语言的requests库和BeautifulSoup库实现一个爬虫模块来自动采集不同裁判文书,从而构成裁判文书集。由于裁判文书数量众多,可以按照案件类型来分批处理,单次采集和标注一个或几个类型的文书。其中,案件类型可以分为民间借贷纠纷、盗窃罪等。在以下的描述中,本实施例将以民间借贷纠纷为例,对基于主动学习的案情特征标注方法进行说明;对案情事实进行分词时,分词工具可以选用语言技术平台(LTP)。将得到的分词作为样本集。

步骤S22、在样本集中抽取待标注样本,构建待标注样本集,将剩余的未标注样本构建为未标注样本集;响应于专家的标注指令,标注待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;其中,每个案件特征对应一个标签。

值得说明的是,本实施中,可以提前构建案情标签体系。可以对每一种案件类型,均由法学专家梳理一套案情标签,该套标签囊括了该类型案件所有的案情特征,其中每个标签都代表了一种案情特征,标签与标签之间具有层次关系,一个案件可能对应多个标签,即具有多种特征。最后将所有的案情标签组成案情标签体系。采用法学专家的先验知识,提升了标注的准确率。

例如,以民间借贷案件为例,在争议焦点标签下,标签的层级关系可以为:一级标签为诉讼主体资格,二级标签为出借人与实际付款人不一致、借款人与实际使用人不一致、借据持有人是否为适格原告、借款人配偶是否为适格被告等;一级标签为合同主体争议,二级标签为债权债务转让,三级标签为债务承担、第三人加入债务等。在案由层级标签下,标签的层级关系可以为:一级标签为民事案由,二级标签可以为人格权纠纷,婚姻家庭、继承纠纷,物权纠纷,合同、无因管理、不当得利纠纷等。在物权纠纷,合同、无因管理、不当得利纠纷纠纷下,二级标签可以为合同纠纷中的借款合同纠纷,三级标签可以为民间借贷纠纷等。

在具体的实时过程中,可以每次在样本集中抽取一定数量的待标注样本(如1000-3000个),作为待标注样本集,将剩余的未标注样本构建为未标注样本集。可以表示为:

从样本集S中抽取待标注样本T={T

在抽取到待标注样本后,由法学专家对待标注样本集中的待标注样本进行案情特征及层级关系进行识别,并进行人工标注。其中,具体的实现方式可以为发送待标注样本至法学专家,法学专家发送标注指令(携带标注信息),从而响应于该指令对待标注样本的案件特征及案件特征的层级关系进行标注。每个案件特征对应一个标签。

步骤S23、基于已标注样本集和预设模型进行模型训练,得到初步案情特征标注模型。

将已标注样本集和预设模型进行模型训练,从而得到初步案情特征标注模型。需要说明的是,也可以将已标注样本集分为训练集、验证集和测试集,从而进行模型训练、验证和测试。其中验证集和测试集应尽可能多地覆盖该案件类型下的标签。

在初步案情特征标注模型的训练过程中,在第一轮迭代过程中,将标注完成的样本作为已标注样本集后,记为已标注样本集L。在模型的迭代训练过程中,若不是第一轮迭代,则将当次标注的样本T加入到训练集,并将当次标注的样本T从未标注样本集U中移除。

步骤S24、将未标注样本集中的未标注样本输入初步案情特征标注模型中,得到每个未标注样本的标注结果,其中,标注结果包括:每个标签的分类概率。

在训练得到初步案情特征标注模型后,用训练完成的初步案情特征标注模型对未标注样本集中的案情事实进行预测,得到每个未标注样本的标注结果,即,各个标签的分类概率。

步骤S25、根据分类概率,计算对应每个未标注样本的置信度。

具体的,根据分类概率,计算对应每个未标注样本的置信度,包括:将分类概率输入至置信度计算公式中,得到对应的置信度;其中,置信度计算公式为:

其中,y

步骤S26、根据置信度的高低,在未标注样本集中抽取置信度低的未标注样本重新作为待标注样本集,并响应于专家的标注指令,标注待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;以及,在未标注样本中抽取置信度高的未标注样本,将置信度高的未标注样本及对应的标注结果作为已标注样本,加入已标注样本集;对初步案情特征标注模型进行迭代更新,直至初步案情特征标注模型的迭代次数达到迭代次数阈值,得到案情特征标注模型。

在计算得到各个未标注样本的置信度后,可以根据置信度的高低从而抽取置信度低的未标注样本重新作为待标注样本集,由法学专家进行人工标注;而置信度高的样本直接将其及标注结果作为已标注样本,加入已标注样本集,减少人工标注的数量,执行循环训练过程,迭代更新初步案情特征标注模型,直至初步案情特征标注模型的迭代次数达到迭代次数阈值,得到案情特征标注模型。其中,迭代次数阈值可以进行预习设定。

可以理解的是,采用本实施例提供的技术方案,在构建案情特征标注模型时,使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高的技术问题以及长尾效应问题,提升标注的效率和准确率。

在上述实施例的基础上,可选的,在未标注样本集中抽取置信度低的未标注样本重新作为待标注样本集,包括:

根据置信度由高到低的顺序,对未标注样本进行排序;

抽取排在后第一阈值数量的未标注样本,重新构成待标注样本集。

例如,可以抽取排在后第一阈值数量的未标注样本(即,选取不确定性最大的前第一阈值的未标注样本),重新构成待标注样本集。其中,第一阈值可以为具体数值K,如100。

可以用公式表示为:

其中,U

将选取出的模型不确定性最大的前K个样本,作为待标注样本集,即

在上述实施例的基础上,可选的,在未标注样本中抽取置信度高的未标注样本,将置信度高的未标注样本及对应的标注结果作为已标注样本,加入已标注样本集,包括:

根据置信度由高到低的顺序,对未标注样本进行排序;

抽取排在前第二阈值数量的未标注样本及对应的标注结果作为已标注样本,加入已标注样本集。

其中,第二阈值可以为具体数值,例如,可以为100。选择置信度最高的前若干个样本及其标签,作为标注样本加入到已标注训练集中,并将该部分样本从未标注样本中移除。

在上述实施例的基础上,可选的,已标注样本包括:案件事实样本和对应的特征标签;

基于已标注样本集和预设模型进行模型训练,包括:

获取案情事实样本的词向量,将词向量输入至双向长短时记忆网络,得到案情事实样本关联关系,将案情事实样本关联关系输入至预设卷积神经网络中,得到各个特征,将各个特征输入全连接层,得到各个案情事实的语义向量;以及,

获取特征标签的标签向量,将标签向量及特征标签的层次关系,输入至双向树形结构长短期记忆网络,将输出结果输入全连接层,得到各个标签的语义向量;

将各个案情事实的语义向量和各个标签的语义向量经过注意力网络,得到每个案情事实对应不同标签的权重;

根据每个案情事实对应不同标签的权重,得到案情事实的标注结果;案情事实的标准结果包括每个案情事实对应的标签的概率及标签的层次关系。

在上述实施例的基础上,可选的,预设模型包括:案情事实编码器、标签结构编码器和注意力网络;案情事实编码器包括相互连接的双向长短期记忆网络和卷积神经网络;标签结构编码器,包括双向树形结构长短期记忆网络。

具体的,图3为本发明一实施例提供的一种案情特征标注模型的架构示意图,参阅图3,案情特征标注模型的架构可以包括案情事实编码器31、标签结构编码器32和注意力网络33;案情事实编码器包括相互连接的双向长短期记忆网络311和卷积神经网络312;标签结构编码器,包括双向树形结构长短期记忆网络321。

具体的,在得到已标注样本后,已标注样本包括:案件事实样本和对应的特征标签。可以通过案情事实编码器查询词向量表,从而得到每条案情事实文本分词后案件事实样本的词向量,记为E={e

将E输入到3层双向长短时记忆网络(Bi-Long Short-Term Memory,Bi-LSTM)中,各层最终的隐藏层状态可由正向和反向两个LSTM的隐藏层状态拼接而成,可按下式计算:

其中,

然后,将最高层的LSTM状态作为输入,输入到卷积神经网络CNN中,由卷积神经网络CNN提取特征。在CNN结构中,双向LSTM的输出状态

其中,f为非线性激活函数,*表示卷积运算,K

可选地,CNN结构的池化层可选用max-pooling池化技术。各个特征经过大小为w的滑动窗口,以及max-pooling运算后可提取到拥有最大值的重要特征,即第j个特征为:

其中,max为取大最值运算,m为输入单元的数量,它等于输入词向量的数量。CNN的最终输出为各个特征经过一个全连接层,即

其中,g为非线性激活函数,W为全连接层的权重,O=[o

可以通过标签结构编码器获取特征标签的标签向量(如,可以通过查询词向量表得到标签向量),采用双向树形结构长短期记忆网络(双向Tree-LSTM)对案情标签层次结构进行编码。整个标签体系作为一个树结构,每个标签作为树上的一个结点;每个结点既接收来自孩子结点的信息(自下而上),也接收来自父亲结点的信息(自上而下)。

在Tree-LSTM中,各结点的计算方式如下:

其中,C(j)表示结点j的孩子结点,h

而对于自上而下的传播,其计算方式为:

其中,P(k,j)为在给定父亲结点k的情况下,结点j出现的概率,可以由样本中统计得出:

其中,N

最终,将自下而上和自上而下两种方向的隐藏层状态进行拼接,得到结点j的最终状态:

在模型输出方面,使用注意力网络计算各个案情事实的编码对于各个标签贡献的信息权重,然后根据权重计算案情特征向量,用于输出分类标签。

案情编码对于标签的信息权重按下式计算:

其中,x

然后,根据信息权重计算案情特征向量:

该特征向量经过sigmoid激活函数后的输出为:

其中,v

最后,可选地,使用交叉熵损失函数对模型进行训练,如下式所示:

其中,y

本申请中,两个编码器编码的结果,即案情事实语义向量和标签语义向量,通过一个注意力网络学习标签的特征权重,最后利用这些不同权重的特征进行分类,得到案情标签的概率。

可以理解的是,采用本实施例提供的技术方案,在构建案情特征标注模型时,使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高的技术问题以及长尾效应问题,提升标注的效率和准确率。

基于一个总的发明构思,本发明实施例提供一种基于主动学习和半监督学习的案情特征标注装置,用于实现上述方法实施例。

图4为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注装置的结构示意图,参阅图4,本实施例提供的装置可以包括:

获取模块41,用于获取待标注的案情事实文本;

分词模块42,用于对待标注的案情事实文本进行分词处理,将得到的所有分词作为目标案情事实;

输入标注模块43,用于将目标案情事实输入至案情特征标注模型中,得到目标案情事实的案情特征标注结果;案情特征标注结果包括:案情特征及案件特征的层次关系;

其中,案情特征标注模型为根据部分已标注好的样本案情事实和部分未进行标注的样本案情事实进行主动学习和半监督学习预先训练得到;已标注好的样本案情事实的案情特征标注有层次关系。

可选的,还包括:模型构建模块,用于在裁判文书集中,获取每个裁判文书的案情事实文本,并对每条案情事实文本进行分词处理,将得到的所有分词作为样本集;

在样本集中抽取待标注样本,构建待标注样本集,将剩余的未标注样本构建为未标注样本集;响应于专家的标注指令,标注待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;其中,每个案件特征对应一个标签;

基于已标注样本集和预设模型进行模型训练,得到初步案情特征标注模型;

将未标注样本集中的未标注样本输入初步案情特征标注模型中,得到每个未标注样本的标注结果,其中,标注结果包括:每个标签的分类概率;

根据分类概率,计算对应每个未标注样本的置信度;

根据置信度的高低,在未标注样本集中抽取置信度低的未标注样本重新作为待标注样本集,并响应于专家的标注指令,标注待标注样本集中每个待标注样本的案件特征及案件特征的层级关系,得到已标注样本集;以及,在未标注样本中抽取置信度高的未标注样本,将置信度高的未标注样本及对应的标注结果作为已标注样本,加入已标注样本集;对初步案情特征标注模型进行迭代更新,直至初步案情特征标注模型的迭代次数达到迭代次数阈值,得到案情特征标注模型。

可选的,模型构建模块,具体用于:

根据置信度由高到低的顺序,对未标注样本进行排序;

抽取排在后第一阈值数量的未标注样本,重新构成待标注样本集。

可选的,模型构建模块,具体用于:

根据置信度由高到低的顺序,对未标注样本进行排序;

抽取排在前第二阈值数量的未标注样本及对应的标注结果作为已标注样本,加入已标注样本集。

可选的,模型构建模块,具体用于:

获取案情事实样本的词向量,将词向量输入至双向长短时记忆网络,得到案情事实样本关联关系,将案情事实样本关联关系输入至预设卷积神经网络中,得到各个特征,将各个特征输入全连接层,得到各个案情事实的语义向量;以及,

获取特征标签的标签向量,将标签向量及特征标签的层次关系,输入至双向树形结构长短期记忆网络,将输出结果输入全连接层,得到各个标签的语义向量;

将各个案情事实的语义向量和各个标签的语义向量经过注意力网络,得到每个案情事实对应不同标签的权重;

根据每个案情事实对应不同标签的权重,得到案情事实的标注结果;案情事实的标准结果包括每个案情事实对应的标签的概率及标签的层次关系。

可选的,预设模型包括:案情事实编码器、标签结构编码器和注意力网络;案情事实编码器包括相互连接的双向长短期记忆网络和卷积神经网络;标签结构编码器,包括双向树形结构长短期记忆网络。

可选的,对待标注的案情事实文本进行分词处理,包括:根据LTP工具或结巴分词工具,对待标注的案情事实文本进行分词处理。

可选的,模型构建模块,具体用于:

将分类概率输入至置信度计算公式中,得到对应的置信度;其中,置信度计算公式为:

其中,y

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

可以理解的是,采用本实施例提供的技术方案,在构建案情特征标注模型时,使用主动学习策略选取收益最大的部分样本交给法学专家进行标注,使用半监督学习策略选取置信度最高的部分样本扩充训练集,经过多次迭代后进行多层次多标签的案情特征标注;结合了主动学习和半监督学习的优点,仅需标注较少数据即可获得较大的标注收益和较多的高质量训练样本,并可对案情标签的层次结构和语义关系建模,从而解决当前案情特征标注中存在的全部人工标注成本过高的技术问题以及长尾效应问题,提升标注的效率和准确率。

基于一个总的发明构思,本发明实施例提供一种基于主动学习和半监督学习的案情特征标注设备,用于实现上述方法实施例。

图5为本发明一实施例提供的一种基于主动学习和半监督学习的案情特征标注设备的结构示意图。如图5所示,本实施例的基于主动学习和半监督学习的案情特征标注设备包括处理器51和存储器52,处理器51与存储器52相连。其中,处理器51用于调用并执行存储器52中存储的程序;存储器52用于存储程序,程序至少用于执行以上实施例中的基于主动学习和半监督学习的案情特征标注方法。

本申请实施例提供的基于主动学习和半监督学习的案情特征标注设备的具体实施方案可以参考以上任意实施例的基于主动学习和半监督学习的案情特征标注方法的实施方式,此处不再赘述。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 基于主动半监督学习的图像分类方法
  • 基于图半监督学习的文档二值化处理方法、系统、装置
  • 基于半监督学习的联邦建模方法、设备及可读存储介质
  • 基于特征筛选与半监督学习的用户成长性画像构建方法
  • 基于表情识别的标注监控方法、装置及电子设备
  • 基于半监督学习的脸部特征定位方法、装置和计算机设备
  • 基于超像素主动学习和半监督学习策略的图像瑕疵分割方法
技术分类

06120115918443