掌桥专利:专业的专利平台
掌桥专利
首页

案件分类方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 16:04:54



技术领域

本发明涉及人工智能和司法领域,尤其涉及一种案件分类方法、装置、计算机设备及存储介质。

背景技术

目前,在法院对案件审理和判决的过程中,既需要法律相关人员的专业法律知识与技能,也有许多繁重和重复性的工作,如对案件文书的理解、相关法条与类似案件的检索工作等,这些工作会消耗大量的时间和判案人员的精力,即便让专业人员来同样如此。

由于大部分案件具有涉及领域广,违法行为多样等特点,导致对案件进行分类时容易出现漏掉类别的情况,准确率低以及审案效率低。

现在针对上述问题,主要采用的是法院立案智能辅助系统。针对案件的识别,主要通过立案法庭审理人员人工筛选后,填入案件特征栏中,在进行案件审理,造成了案件立案审理时处理的效率低。

因此,针对涉及领域广的案件,存在处理效率低的问题。

发明内容

本发明实施例提供一种案件分类方法、装置、计算机设备和存储介质,以提高对案件分类的处理效率。

为了解决上述技术问题,本申请实施例提供一种案件分类方法,包括:

获取待预测案件数据;

将所述待预测案件数据输入ERNIE-CNN分类模型,其中,所述ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,所述ERNIE-CNN分类模型包括CNN层;

基于所述ERNIE-CNN分类模型,对所述待预测案件数据进行文本向量化,得到词向量矩阵;

基于所述CNN层,对所述词向量矩阵进行局部特征提取,得到局部特征矩阵;

基于所述ERNIE-CNN分类模型的全连接层,对所述局部特征矩阵进行全连接和分类处理,得到所述待预测案件数据对应的分类结果。

为了解决上述技术问题,本申请实施例还提供一种案件分类装置,包括:

数据获取模块,用于获取待预测案件数据;

输入模块,用于将所述待预测案件数据输入ERNIE-CNN分类模型,其中,所述ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,所述ERNIE-CNN分类模型包括CNN层;

文本向量化模块,用于基于所述ERNIE-CNN分类模型,对所述待预测案件数据进行文本向量化,得到词向量矩阵;

特征提取模块,用于基于所述CNN层,对所述词向量矩阵进行局部特征提取,得到局部特征矩阵;

分类结果获取模块,用于基于所述ERNIE-CNN分类模型的全连接层,对所述局部特征矩阵进行全连接和分类处理,得到所述待预测案件数据对应的分类结果。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述案件分类方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述案件分类方法的步骤。

本发明实施例提供的案件分类方法、装置、计算机设备及存储介质,通过获取待预测案件数据。将待预测案件数据输入ERNIE-CNN分类模型,其中,ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,ERNIE-CNN分类模型包括CNN层。基于ERNIE-CNN分类模型,对待预测案件数据进行文本向量化,得到词向量矩阵。基于CNN层,对词向量矩阵进行局部特征提取,得到局部特征矩阵。基于ERNIE-CNN分类模型的全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。通过采用ERNIE-CNN分类模型提取待预测案件数据的深层次信息,同时,基于CNN层提取待预测案件数据局部信息,使得待预测案件数据的深层次信息与局部信息相结合,提高了模型分类效果,在提高对案件分类的准确率同时提高对案件分类的处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是本申请的案件分类方法的一个实施例的流程图;

图3是根据本申请ERNIE-CNN分类模型的一示例图;

图4是根据本申请的案件分类装置的一个实施例的结构示意图;

图5是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的案件分类方法由服务器执行,相应地,案件分类装置设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。

请参阅图2,图2示出本发明实施例提供的一种案件分类方法,以该方法应用在图1中的服务端为例进行说明,详述如下:

S201、获取待预测案件数据。

在步骤S201中,上述待预测案件数据是指案件类型未知的案件数据。

此处需要说明的是,上述待预测案件数据包括但不限于生态环保类案件、行政诉讼案件。本申请实施例以生态环保类案件为示例进行解释说明。

当待预测案件数据为生态环保类型案件时,案件类型包括污染环境罪,滥伐林木罪,环境监管失职罪,盗伐林木罪,非法占用农用地罪,非法捕捞水产品罪,非法收购、运输盗伐、滥伐的林木罪,非法狩猎罪,非法猎捕、杀害珍贵、濒危野生动物罪,非法采伐、毁坏国家重点保护植物罪,非法采矿罪。

上述获取待预测案件数据的方式包括但不限于经典案件获取、中国裁判文书网获取。

其中,当待预测案件数据为生态环保类型案件时,上述经典案件获取待预测案件数据可为通过获取CAIL2018(法研杯)数据确认待预测案件数据。上述中国裁判文书网获取判决书文本数据。

通过获取待预测案件数据,以便于后续对待预测案件数据进行类型预测,从而在提高对案件分类的准确率同时提高对案件分类的处理效率。

S202、将待预测案件数据输入ERNIE-CNN分类模型,其中,ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,ERNIE-CNN分类模型包括CNN层。

在步骤S202中,如图3所示,上述ERNIE-CNN分类模型包括ERNIE、CNN层、dropout层和全连接层。图中的事实描述信息为待预测案件数据对应的预处理数据。

其中,ERNIE用于对待预测案件数据进行文本向量化,提取待预测案件数据的深层次信息。CNN层用于对词向量矩阵进行局部特征提取,提取待预测案件数据的局部特征,dropout层和全连接层对局部特征矩阵进行全连接和分类处理,得到待预测案件数据的分类结果。

通过将待预测案件数据输入ERNIE-CNN分类模型,以便于ERNIE-CNN分类模型对待预测数据进行文本向量化、局部特征抽取、全连接和分类处理,进而预测待预测案件数据对应的案件类型,在提高对案件分类的准确率同时提高对案件分类的处理效率。

S203、基于ERNIE-CNN分类模型,对待预测案件数据进行文本向量化,得到词向量矩阵。

在步骤S203中,上述文本向量化是指对待预测案件数据进行语义提取,得到语义信息,并将所述语义信息进行向量化,词向量矩阵的计算方式。

上述词向量矩阵包括了待预测案件数据的深层次信息。

此处需要说明的是,ERNIE结构由多个双向Tramsformer层构建而成,采用ERNIE-CNN分类模型对待预测案件数据进行文本向量化,对比传统的LSTM和CNN能够进一步地提取词之间更深层次的信息,从而提高对案件分类的准确率。

通过采用ERNIE-CNN分类模型,提取待预测案件数据深层次信息,从而提高对案件分类的准确率。

S204、基于CNN层,对词向量矩阵进行局部特征提取,得到局部特征矩阵。

在步骤S204中,上述局部特征提取是指提取词向量矩阵中局部特征,以加强预测准确率的过程。

上述局部特征提取的过程具体为,将词向量矩阵进行卷积核计算,得到至少一个卷积结果,将所有卷积结果输入对应的池化层进行池化处理,得到每一个池化层对应池化结果,将所有池化结果按照预设顺序进行拼接处理,得到局部特征矩阵。

如图3所示,CNN层包括卷积核、池化层。通过上述卷积核计算和池化处理,得到局部特征矩阵。

通过采用CNN层中的卷积核计算和池化处理,提取词向量矩阵中的局部特征,从而提高对案件分类的准确率。

S205、基于ERNIE-CNN分类模型的全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。

在步骤S205中,其具体是,

将局部特征矩阵依次输入ERNIE-CNN分类模型的dropout层和全连接层。

基于ERNIE-CNN分类模型的dropout层和全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。

其中,上述全连接层和dropout层用于进行特征降维和得到待预测案件数据对应的分类结果,dropout层用于防止模型训练过拟合。

上述分类结果是指待预测案件数据对应的案件类型。

通过ERNIE-CNN分类模型的全连接层,对局部特征矩阵进行全连接和分类处理,不仅提高对案件分类的准确率,同时提高对案件分类的处理效率。

在本实施例中,获取待预测案件数据。将待预测案件数据输入ERNIE-CNN分类模型,其中,ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,ERNIE-CNN分类模型包括CNN层。基于ERNIE-CNN分类模型,对待预测案件数据进行文本向量化,得到词向量矩阵。基于CNN层,对词向量矩阵进行局部特征提取,得到局部特征矩阵。基于ERNIE-CNN分类模型的全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。通过采用ERNIE-CNN分类模型提取待预测案件数据的深层次信息,同时,基于CNN层提取待预测案件数据局部信息,使得待预测案件数据的深层次信息与局部信息相结合,提高了模型分类效果,在提高对案件分类的准确率同时提高对案件分类的处理效率。

在本实施例的一些可选的实现方式中,步骤S201包括如下步骤S101至步骤S104:

S101、获取案件文档和案件文档对应的文本模板。

S102、基于预设的要素抽取方式,对文本模板进行要素抽取,得到抽取规则。

S103、基于抽取规则,对案件文档进行字段提取,得到关键字段。

S104、对关键字段进行预处理,得到待预测案件数据。

在步骤S101中,上述案件文档是指案件对应的判决书。

此处需要说明的是,案件对应的判决书包括一审案件判决书、二审案件判决书。上述案件文档需要经过预处理,进行数据去重和数据清洗、去除停用词等。

优选地,本申请实施例采用的是一审案件判决书。

上述案件文档的获取方式包括但不限于数据爬取、经典案例。

例如,通过网络爬虫技术在中国裁判文书网上获取大量的判决书文本数据,将其和CAIL2018法研杯数据结合成案件文档。

上述案件文档对应的文本模板是指案件文档对应的固定格式。

例如,判决书中的事实描述文段的固定格式为:首词特征是“经审理查明”、“***人民检察院指控”和“***查明事实”等,结尾词特征是“上述指控”、“上述事实”和“本院意见”等。判决文中的罪名信息的固定格式是“被告人***犯***罪”。

在步骤S102中,上述预测的要素抽取方式是指抽取文本模板中的某段要素。例如,在训练模型时,抽取的是事实描述文段和罪名信息。在进行案件类型预测时,抽取的要素是指事实描述文段。

上述预测的要素抽取方式的实现方式为python语言环境中的re模块。

当抽取的要素为事实描述文段时,得到的抽取规则为抽取首句和结尾词之间的文段。

当抽取的要素为罪名信息时,得到的抽取规则为“被告人***犯***罪”。

此处需要说明的是,具体抽取规则根据实际应用场景而调整。

在步骤S103中,上述关键字段是指根据抽取规则从案件文档中抽取出来的关键字段。

在步骤S104中,上述预处理包括但不限于去重、数据清洗、数据标注。

在本实施例中,通过获取案件文档和案件文档对应的文本模板,基于预设的要素抽取方式,对文本模板进行要素抽取,得到抽取规则,基于抽取规则,对案件文档进行字段提取,得到关键字段,对关键字段进行预处理,得到待预测案件数据,获取待预测案件数据,以便于后续对待预测案件数据进行类型预测,从而在提高对案件分类的准确率同时提高对案件分类的处理效率。

在本实施例的一些可选的实现方式中,在步骤S202之前,案件分类方法还包括:

基于DiceLoss损失函数,训练ERNIE-CNN分类模型。

按照以下公式计算DiceLoss损失函数:

其中,|A|表示样本预测值中元素的个数,|B|表示样本真实值中元素的个数,|A∩B|表示样本预测值和样本真实值之间的共同元素。

此处需要说明的是,|A∩B|其结果近似于预测值和真实值点乘后将矩阵中的结果相加。

此处需要说明的是,针对模型分类效果进行评估,评估分为两个部分,分别是损失函数和评估指标。损失函数是用来评价模型分类的结果和实际结果一样的程度,损失函数对模型训练的影响很大。

由于本申请实施例针对的是生态环保类型案件,该类案件在训练模型时,存在正负样本不均衡问题。对此类案件进行分析时,非生态环保类刑事案件即负样本数量较多,因此采用DiceLoss损失函数,DiceLoss损失函数常用于图像分割领域,通过在训练中调整不同类别的权重,进而缓解正负样本不平衡问题。同时,本发明采用评估指标是文本分类领域常见的Macro-Precision(宏平均准确率)、Macro-Recall(宏平均召回率)和Macro-F1值(宏平均F1),以上三种评价指标常用于多分类任务,对比简单的F1值更具客观性。

在本实施例中,通过选用了Diceloss损失函数,以此来解决正负样本不平衡的案件分类问题,提高模型分类精确度,同时提高对案件分类的处理效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

图4示出与上述实施例案件分类方法一一对应的案件分类装置的原理框图。如图4所示,该案件分类装置包括数据获取模块31、输入模块32、文本向量化模块33、特征提取模块34和分类结果获取模块35。各功能模块详细说明如下:

数据获取模块31,用于获取待预测案件数据。

输入模块32,用于将待预测案件数据输入ERNIE-CNN分类模型,其中,ERNIE-CNN分类模型是指基于ERNIE算法对案件进行分类的模型,ERNIE-CNN分类模型包括CNN层。

文本向量化模块33,用于基于ERNIE-CNN分类模型,对待预测案件数据进行文本向量化,得到词向量矩阵。

特征提取模块34,用于基于CNN层,对词向量矩阵进行局部特征提取,得到局部特征矩阵。

分类结果获取模块35,用于基于ERNIE-CNN分类模型的全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。

可选地,数据获取模块31包括:

案件文档获取单元,用于获取案件文档和案件文档对应的文本模板。

抽取规则获取单元,用于基于预设的要素抽取方式,对文本模板进行要素抽取,得到抽取规则。

关键字段获取单元,用于基于抽取规则,对案件文档进行字段提取,得到关键字段。

预处理单元,用于对关键字段进行预处理,得到待预测案件数据。

可选地,分类结果获取模块35包括:

输入单元,用于将局部特征矩阵依次输入ERNIE-CNN分类模型的dropout层和全连接层。

分类单元,用于基于ERNIE-CNN分类模型的dropout层和全连接层,对局部特征矩阵进行全连接和分类处理,得到待预测案件数据对应的分类结果。

可选地,在输入模块32之前,案件分类装置还包括:

训练模块,用于基于DiceLoss损失函数,训练ERNIE-CNN分类模型。

按照以下公式计算DiceLoss损失函数:

其中,|A|表示样本预测值中元素的个数,|B|表示样本真实值中元素的个数,|A∩B|表示样本预测值和样本真实值之间的共同元素。

关于案件分类装置的具体限定可以参见上文中对于案件分类方法的限定,在此不再赘述。上述案件分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的案件分类方法的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 一种案件分类预测方法、装置、计算机设备及存储介质
  • 案件分类方法、装置、计算机设备及存储介质
技术分类

06120114697137