一种基于案情标签提取的法条推荐方法和装置

文献发布时间：2024-04-18 20:02:40

技术领域

本申请属于自然语言处理技术领域，涉及一种基于案情标签提取的法条推荐方法和装置。

背景技术

准确快速的法条推荐是法官审理案件的依据，而法官在审理案件过程中往往针对不同案由和案情结合当事人的诉讼请求要在浩繁的成文法中查阅所需相关的法律法规条文，占据了法官案件审理过程中的大量时间和精力。所以，帮助法官在名目繁多的法律法规条文中迅速准确地找到适用于在审案件的法条，能大大减少法官的审理时间提高工作效率，而且针对不同案由和案情准确找到有针对性的适用法条也有利于实现同案同判。

同时对当事人而言，案情相关法条推荐也能使当事人了解案件的裁判依据和适用法条，减少高昂的法律咨询费用，了解案件基本情况和预知可能的裁判结果。

发明内容

有鉴于此，本发明提供了一种基于案情标签提取的法条推荐方法和装置。实现了由计算机系统自动执行的摆脱法官人工查阅的法条自动推荐功能。

本发明第一方面提供了一种基于案情标签提取的法条推荐方法，其步骤包括：

第一步，模型训练数据获取。从中国裁判文书网中获取10000篇裁判文书，构成文书集合W＝{W

表1为解析规则

第二步，将第一步得到的司法情节标签(即与法条有关的情节关键词，如自首、未遂、累犯等)输入领域内预训练的BERT模型，使用从裁判文书解析出的文书详情集合N和文书情节集合P作为训练样本，输入该BERT分类模型进行训练，调整epoch、BatchSize、Learning Rate等参数经过多轮训练获得最优模型A。将上述文书详情集合N和文书情节集合P输入体积小速度快的TinyBERT模型继续训练得到模型B，但模型B预测准确率低于模型A。

第三步，进一步为提高预测速度且保证准确率，达到工业实际使用的目标，采用半监督学习方法中的主动学习策略建立伪标签的方法，对新10000篇文书进行按照第二步解析出经审理查明段得到文书详情集合D＝{D

第四步，由于案件审理过程系“依法审判”，所以法律情节都有对应法条。如《中华人民共和国刑法》中的“自首”、《民法典》中的“代理权”、“合同效力”等，所以根据法律人员梳理出的法律情节体系关键词用规则或命名实体识别等技术建立法律情节和对应法律法规中的法条之间的映射关系，并进一步用上述第二步文书情节集合P＝{P1，P2，...，P10000}和法条集合L人工校验修正后保存为情节-法条映射关系。

第五步，目标审理案件录入和预处理。将目标审理案件录入，格式主要支持doc、docx及txt格式，其它格式的文书，需要进行格式转换到doc、docx及txt格式。将在审案件文书的经审理查明段和裁判说理段输入模型C，输出预测情节，将预测情节输入情节—法条映射关系即可得到当前在审文书推荐适用法条。

进一步，司法情节标签库建立。获取途径包括：1)从法律词典和法律词库中获取法律词汇。2)统计司法文书中每一分词的词频，将词频大于设定阈值v1的分词作为常规词加入司法情节标签库。

进一步，模型训练数据获取。从中国裁判文书网中获取10000篇裁判文书，构成文书集合W＝{W

进一步，由于不同法律情节及对应法条在实际情况中数量分布不均匀，正样本数量少的案情输出预测阈值往往低于0.5，所以训练模型A和模型B时均采用阈值移动方法提高模型预测准确性，对每一案情用F1分数作为筛选阈值，根据在测试数据集上的预测结果确定每一案情最合适阈值。

本发明实施例的第二方面提供了一种基于案情标签提取的法条推荐模型的装置，包括：

模型训练数据获取模块。从中国裁判文书网中获取10000篇裁判文书，构成文书集合W＝{W

法条推荐模型建立模块。使用从裁判文书解析出的文书详情集合N和文书情节集合P作为训练样本，输入基于领域内预训练的BERT分类模型进行训练，调整epoch、BatchSize、Learning Rate等参数经过多轮训练获得最优模型A。将上述文书详情集合N和文书情节集合P输入体积小速度快的TinyBERT模型继续训练得到模型B，采用半监督学习方法中的主动学习策略建立伪标签的方法，对新10000篇文书进行按照第二步解析出经审理查明段得到文书详情集合D＝{D

目标审理案件处理模块。将目标审理案件录入，格式主要支持doc、docx及txt格式，其它格式的文书，需要进行格式转换到doc、docx及txt格式。从目标审理案件的起诉书中提取经审理查明段并输入到所述法条推荐模型，输出预测的适用法条。

本发明的优点如下：

通过建立基于案情标签提取的法条推荐模型；建立文书案件详情和案件情节训练数据，进行BERT模型、TinyBERT模型、主动学习策略等训练，获取法条推荐相关情节数据；建立基于案件情节的法条推荐模型，对输入的目标裁判文书进行预处理后输入法条推荐模型推荐适用法条。该法通过计算机系统自动化运行实现了对针对案件不同情节的法条推荐的方法。其不仅可以准确推送文书相关情节的援引法条，而且在节约人力成本同时，对法条推荐的时效性得到大大提高。

附图说明

图1是每篇文书引用法条解析流程图。

图2是本发明实施例提供的基于案情标签提取的法条推荐的方法的实现流程示意图。

图3是本发明实施例提供的基于案情标签提取的法条推荐的装置的组成框图。

具体实施方式

下面结合附图对本发明进行进一步详细描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图2是本发明实施例提供的一种基于案情标签提取的法条推荐评测的方法的实现流程示意图，详述如下：

S101，模型训练数据获取。

从中国裁判文书网中获取100000篇裁判文书，构成文书集合W＝{W

S102，目标审理案件录入和预处理。

将目标审理案件录入，格式主要支持doc、docx及txt格式，其它格式的文书，需要进行格式转换到doc、docx及txt格式。

S103，法条推荐模型建立。

使用从裁判文书解析出的文书详情集合N和文书情节集合P作为训练样本，输入基于领域内预训练的BERT分类模型进行训练，调整epoch、BatchSize、Learning Rate等参数经过多轮训练获得最优模型A。将上述文书详情集合N和文书情节集合P输入体积小速度快的TinyBERT模型继续训练得到模型B。采用半监督学习方法中的主动学习策略建立伪标签的方法，对新10000篇文书进行按照S102步解析出经审理查明段构成文书详情集合，将其作为预测集用模型A进行预测出对应伪标签数据，经人工校对后，输入模型B进行多轮训练，得到最优模型C。训练模型A、模型B和模型C过程中采用阈值移动方法对每一案情用F1分数作为筛选阈值，根据在测试数据集上的预测结果确定每一案情最合适阈值。法律人员梳理出的法律情节体系关键词用规则或命名实体识别等技术和对应法律法规中的法条建立映射关系，并进一步用模型训练数据获取模块文书情节集合和法条集合L校验修正后得到情节—法条映射关系，接入模型C得到基于案件情节的法条推荐模型。

综上，建立基于案件情节的法条推荐模型，先训练得到文书案件详情与案情的领域BERT模型，再利用其预测能力获取更多包含更丰富信息的数据训练出小而快的TinyBERT模型，基于情节—法条映射关系得到适用法条推荐模型。训练数据采用阈值移动方法提高法条推荐模型预测准确性，对每一案情用F1分数作为筛选阈值，根据在测试数据集上的预测结果确定每一案情最合适阈值。对输入的目标裁判文书进行预处理后推荐适用法条。

图3是本发明实施例提供的一种基于案情标签提取的法条推荐装置的组成框图，包括：

S201，模型训练数据获取模块。从中国裁判文书网中获取10000篇裁判文书，构成文书集合。采用规则解析出每篇文书的经审理查明段和裁判说理段。将经审理查明段构成案件文书详情集合}。法律专业人员整理出每篇文书经审理查明段与法条有关的情节关键词，如自首、未遂、累犯等，构成文书对应情节集合。裁判说理段解析出文书中引用法条，得到对应文书法条，从而得到文书对应法条集合。

S202，法条推荐模型建立模块。使用从裁判文书解析出的文书详情集合N和文书情节集合P作为训练样本，输入基于领域内预训练的BERT分类模型进行训练，调整epoch、BatchSize、Learning Rate等参数经过多轮训练获得最优模型A。将上述文书详情集合N和文书情节集合P输入体积小速度快的TinyBERT模型继续训练得到模型B，采用半监督学习方法中的主动学习策略建立伪标签的方法，对新10000篇文书进行按照第二步解析出经审理查明段得到文书详情集合，将其作为预测集用模型A进行预测出对应伪标签数据，经人工校对后，输入模型B进行多轮训练，得到最优模型C。训练模型A、模型B和模型C过程中采用阈值移动方法对每一案情用F1分数作为筛选阈值，根据在测试数据集上的预测结果确定每一案情最合适阈值。法律人员梳理出的法律情节体系关键词用规则或命名实体识别等技术建立法律情节和对应法律法规中的法条之间的映射关系，并进一步用模型训练数据获取模块文书情节集合和法条集合L校验修正后得到情节—法条映射关系，接入模型C得到基于案件情节的法条推荐模型模块。

S203，目标审理案件处理模块，用于从目标审理案件的审裁判文书中提取经审理查明段和裁判说理段并输入到所述法条推荐模型，输出预测的适用法条。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：其对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，而这些修改或者替换，并没有从本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国司法大数据研究院有限公司;

上一篇：包括莱赛尔丝束的香烟过滤嘴
下一篇：一种基于容器化云环境异常场景的故障确定方法及装置