一种基于标签增强表示的罪名预测方法及系统

文献发布时间：2023-06-19 16:04:54

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于标签增强表示的罪名预测方法及系统。

背景技术

法律判决是根据案件事实的描述完成对罪名的预测，在刑事案件的判决中能够起到有效的辅助作用，近年来受到了越来越广泛的关注，主要是一方面为没有法律基础的人提供较高质量的判决结果；另一方面为专业的法律人士提供法律参考。

近些年来，关于自动判决的研究很多。最开始是将自动判决的问题当作一个简单的文本分类问题，用一些传统的手段，如关键字匹配来处理自动判决的问题。随着深度学习的发展，更多的学者开始利用深度学习的框架来抽取文本中的信息，以对自动判决进行辅助。但是，这种方法大多集中在案情描述的文本内容中，模型需要学习的是案件描述的特征，忽略了罪名标签本身具有一定的语义信息,从而使得在罪名预测方面准确度总是不尽人意。

发明内容

为了克服上述现有技术中存在的缺陷，本发明的目的是提供一种基于标签增强表示的罪名预测方法及系统。

为了实现本发明的上述目的，本发明提供了一种基于标签增强表示的罪名预测方法，包括以下步骤：

选定案件作为样本集，给定样本集中每个案件输入描述；给定每个案件对应的罪名的标签输入描述；

对每个案件描述进行编码，并得到每个案件描述中每个字的上下文相关的嵌入表示，记为案情文本表示X

对每个罪名标签描述进行编码，并得到每个罪名标签的嵌入表示，将包含所有罪名标签的嵌入表示的标签集记为E

对编码后的罪名标签融合所述案情文本表示交替使用自注意力机制和交叉注意力机制，得到罪名增强标签表示

将所述案情文本表示X

将需预测的案件于训练完成的罪名预测模型中进行预测，得到预测罪名。

本方法通过对罪名标签的嵌入表示实现将罪名标签映射到潜在的语义空间，并融合案件事实描述的重要信息到罪名增强标签表示中，并基于此训练一个分类器，完成对案情描述的罪名预测任务。在小样本的情况下，该模型能够获得较高的预测精度，并在低频罪名上具有一定的泛化能力。

该基于标签增强表示的罪名预测方法的优选方案，给定样本集中每个案件输入描述，对每个案件输入描述S

对每个罪名标签输入描述进行字粒度处理，得到罪名标签

分别对案件事实描述

这能以文本特征形式最大程度还原的对案件事实以及罪名标签的描述，提高了罪名预测的准确性。

该基于标签增强表示的罪名预测方法的优选方案，将案件事实描述

将罪名标签

这能将案情描述与罪名标签映射在同一语义空间中，将预训练模型学习到的信息同时应用于案情描述与罪名标签中，将罪名标签的语义信息纳入了模型的训练过程中，使训练数据具有更好的解释性，从而获得较高的预测精度。

该基于标签增强表示的罪名预测方法的优选方案，对编码后的罪名标签交替使用自注意力机制和交叉注意力机制时，根据transformer模型，采用具有Q-K-V的注意力模型：

令键矩阵为

在向前反馈时进行残差连接，将得到最终输出作为罪名增强标签表示：

将罪名标签融合案情文本表示实现罪名标签的增强表示，模型在分类器之前就已经实现了初步的案情与罪名的融合，使得训练数据对于模型具有更好的解释性，提高了罪名预测的准确性。

本发明还提出了一种罪名预测系统，包括处理模块和存储模块，所述处理模块和存储模块相互通信连接，所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述的基于标签增强表示的罪名预测方法对应的操作。

所述处理模块包括案情描述编码器、标签特征增强器和分类器；

所述案情描述编码器将每个案件描述编码，得到案情文本表示；

所述标签特征增强器将罪名标签映射到潜在的语义空间得到罪名标签的嵌入表示，并和案情文本表示进行融合得到罪名增强标签表示；

所述分类器将所述案情文本表示和经过罪名增强标签表示融合后训练一个分类模型进行分类预测，得到预测结果。

该罪名预测系统具备上述罪名预测方法的所有优点。

本发明通过罪名增强标签表示所包含的语义信息使训练数据具有更好的解释性，从而获得较高的预测精度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是罪名预测系统的原理框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供了一种基于标签增强表示的罪名预测方法，主要是通过融合案件事实描述的重要信息到对应子任务的标签表示中，并基于此训练一个分类器，完成对案情事实描述的罪名预测任务。具体步骤如下：

选定案件作为样本集。样本集中包含大量的案件，案件所对应的罪名种类尽可能的多。

本实施例所使用样本集为CAIL2018数据集，该数据集中每个样本均是法律案件，每个案件都有着相同的结构，包括以下几个部分，案件的事实描述，相关的法条、罪名和刑期等结果。CAIL2018数据集由两部分组成：CAIL-small与CAil-big，详细信息如表1所示。

表1数据集介绍

其中，CAIL-small额外提供了17131条数据作为验证集。在CAIL-big数据集中，存在少量事实描述对应了多个罪名，因为我们的目标只是验证标签语义能否提升罪名预测的性能，且由于多罪名标签的训练样本数量稀少，为了降低模型的复杂度，删除CAIL-big数据集中多罪名标签的数据样本，仅保留单罪名标签的数据样本。

给定样本集中每个案件输入描述，对每个案件输入描述S

同样的，每个案件对应有相应的罪名，不同案件对应的相应罪名有的相同，有的不同，给定每个案件对应的罪名的标签输入描述，对每个罪名标签输入描述进行字粒度处理，得到罪名标签

然后分别对上述案件事实描述

本实施例中，优选但不限于选用Bert作为基本编码器来对案件事实描述、罪名标签进行编码。具体如下：

将案件事实描述

将罪名标签

然后对罪名标签进行增强处理，本实施例中，对编码后的罪名标签融合所述案情文本表示交替使用自注意力机制和交叉注意力机制，实现对罪名标签进行增强处理，得到罪名增强标签表示。

具体地，本实施例中对transformer模型中解码器中多头注意力进行了改进，创新的提出了增强标签表示的方法。交替使用自注意力机制和交叉注意力机制实现罪名标签特征增强器，根据transformer模型，采用具有Q-K-V的注意力模型：

令键矩阵为

最后在向前反馈时进行残差连接，将得到最终输出作为罪名增强标签表示：

本实施例中，在卷积神经网络模型CNN中使用DPCNN模型作为模型中的分类器，将H输入DPCNN分类器得到融合了罪名标签特征的文本特征表示Z

预测值

定义损失函数

本实施例在训练过程中，词嵌入维度D大小优选但不限于设置为128，transformer中多头注意力的个数优选但不限于为8，优选但不限于使用AdamW优化器，优选但不限于设置学习率为0.001，优选但不限于正则化参数为10

要对案件进行罪名预测时，将需预测的案件于训练完成的罪名预测模型中进行预测，得到预测罪名。

为体现本方法的优越性，将方法与BiLSTM+ATT、TextCNN、DPCNN、BERT+微调模型进行比较，比较时采用相同的样本集。

BiLSTM+ATT：是经典的文本分类模型，它采用具有注意机制的双向LSTM捕获上下文语义，并在训练过程中通过注意力自动选择重要特征，是基于注意力机制的神经网络的一种变体。

TextCNN：CNN模型在图像处理领域有广泛的应用，TextCNN则是将CNN模型应用于处理文本数据，在文本分类上有显著的效果。

DPCNN：常用的文本分类模型，是CNN模型的一种变体。

BERT+微调：将预训练模型与下游任务模型组合，并细微调整预训练模型的参数。微调是目前将预训练模型应用于具体任务的最常见的方式，通过与各类下游任务模型进行结合，能够完成多种的NLP任务。

我们通过测试准确率accuracy(Acc),宏观精度macro-precision(MP),宏观召回率macro-recall(MR),宏观F1 macro-F1(F1),预测结果排名前五accuracy at top 5(Acc@5)作为测试指标。

测试结果如下所示：

表1 CAIL-small数据集上的罪名预测

表2 CAIL-big数据集上的罪名预测

表3在低频罪名上的表现

如表1所示，在CAIL-small数据集上，本申请较BiLSTM+ATT、TextCNN以及DPCNN相比，本申请的测试结果均取得了最高分数，其准确率均提升在6％以上。本申请与Bert+FineTune相差不大，但是由于本申请在训练过程中冻结了预训练模型的参数，在反向更新过程中不需要更新预训练模型的参数，因此本申请于微调相比训练时间显著减少，模型能够更快地收敛。

如表2所示，在CAIL-big数据集上，由于数据集十分庞大，baseline模型以及我们提出的方法都趋近于100％，准确率差异不超过3％。

在CAIL-small中存在部分罪名训练数据小于100条，我们针对该部分数据进行了测试，测试结果如表3所示，本申请在低频罪名上的表现较BiLSTM+ATT、TextCNN以及DPCNN均有较大提升，其准确率分别相差26.0％、16.1％、25.3％，虽然Bert+Fine Tune准确率与本模型相差不大，但是在ACC@5指标上，本申请提升了14.8％，说明低频罪名的语义信息能够被本申请捕捉到，进而利用在罪名预测任务中。

其中，所述处理模块如图1所示，包括案情描述编码器、标签特征增强器和分类器；

所述案情描述编码器将每个案件描述编码，得到案情文本表示；

所述标签特征增强器将罪名标签映射到潜在的语义空间得到罪名标签的嵌入表示，并和案情文本表示进行融合得到罪名增强标签表示；

所述分类器将所述案情文本表示和罪名增强标签表示融合后训练一个分类模型进行分类预测，得到预测结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：但静培;胥岚林;廖晓爽;
专利申请人：重庆大学;