掌桥专利:专业的专利平台
掌桥专利
首页

司法文书信息提取和关联展示方法、装置及存储介质

文献发布时间:2023-06-19 10:27:30


司法文书信息提取和关联展示方法、装置及存储介质

技术领域

本发明涉及自然语言处理技术领域中的实体识别技术,具体涉及一种司法文书信息提取和关联展示方法。此外,本申请还涉及一种司法文书信息提取和关联展示装置,以及一种计算机可读存储介质。

背景技术

司法文书是指公安机关和法院、检察院等政法机关在办理案件时使用的具有特定结构和一定效力的文书,例如公安机关制作的《起诉意见书》《询问/讯问笔录》侦查文书以及检察院制作的《起诉书》检察文书。

这些司法文书中包含许多重要的关键信息,例如《起诉意见书》中经侦查查明的内容中包含许多段犯罪事实,这些犯罪事实又包含许多时间、地点和人物多种法律的实体属性信息等,为了能够辅助办案人员直观获悉司法文书中的重要要素,提高办案效率,首先,可以使用自然语言处理技术从这些文书中提取出信息,然后,再通过直观的表现样式呈现给办案人员,帮助他们快速了解案件信息。

然而,在实现本发明的过程中,发明人发现现有技术存在以下问题:起诉意见书中的数据信息仅仅是通过提取得到的段落片段,没有具体到字词级别,想直接获悉数据还需要进一步阅读,同时以往技术获得展示的信息不够直观,在帮助办案人员获取信息时的效率还是不够高。除此之外,若办案人员想根据起诉意见书中抽取得到的信息,快速定位匹配到原文书中的位置,以往的技术是无法提供帮助的,这些问题的存在,导致办案人员在办案过程中费时又费力,增加了办案成本。

发明内容

为了克服现有技术中存在的不足,本发明的目的是提供一种司法文书信息提取和关联展示方法、装置及存储介质。本发明的一种司法文书信息提取和关联展示方法不仅保证了获取信息的准确性还简化了获取信息步骤。克服了以往的办案人员获取信息准确率低的问题,降低了办案成本。

为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种司法文书信息提取和关联展示方法,包括:

利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合,所述实体识别规则为用于识别时间、地点和人物三种实体属性的规则,所述犯罪事实为司法文书中犯罪事实的陈述段落,所述实体集合包括至少一种实体属性;

利用轴生成规则将实体集合进行时间轴展示,所述轴生成规则为用于确定时间轴样式的规则,所述时间轴样式包括时间轴中事件框的分布布局;

利用关联规则实现时间轴与司法文书之间的关联展示,所述关联规则为用于犯罪事实与事件框之间信息联动的规则,所述信息联动唯一且对应;

按照司法文书中犯罪事实的实体属性和时间轴样式,对应存储从所述犯罪事实中提取出的实体集合以及犯罪事实与时间轴之间的关联关系。

所述的实体识别规则,包括时间表达式、地点表达式和人物表达式,所述时间表达式用于识别抽取犯罪事实中的时间实体,所述地点表达式用于识别抽取犯罪事实中的地点实体,所述人物表达式用于识别抽取犯罪事实中的人物实体;

利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合的步骤,包括:

将时间表达式、地点表达式和人物表达式分别与第i犯罪事实匹配,识别出第i犯罪事实的时间、地点和人物实体属性;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量;

将识别出第i犯罪事实的时间、地点和人物实体属性作为第i犯罪事实的实体集合。

所述轴生成规则,包括与时间轴样式对应的样式表达式;

利用轴生成规则将实体集合进行时间轴展示的步骤,包括:

将样式表达式与每个犯罪事实的实体集合进行匹配,根据司法文书中犯罪事实的总数量m生成具有m个事件框的时间轴,所述事件框展示的内容为对应犯罪事实的实体集合,即第i事件框展示的内容为第i犯罪事实的实体集合,其中i=1,2,……,m-1,m;

所述关联规则,包括第一类关联表达式和第二类关联表达式,所述第一类关联表达式用于实现从犯罪事实到事件框的关联展示,所述第二类关联表达式用于实现从事件框到犯罪事实的关联展示;

利用关联规则实现时间轴与司法文书之间的关联展示的步骤,包括:

将点击选取的第i犯罪事实与第一类关联表达式匹配,高亮司法文书中第i犯罪事实,同时关联高亮时间轴第i事件框;

将点击选取的第i事件框与第二类关联表达式匹配,高亮时间轴中第i事件框,同时关联高亮司法文书中第i犯罪事实。

一种司法文书信息提取和关联展示装置,包括:

第一处理单元,用于利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合;利用轴生成规则将实体集合进行时间轴展示;其中,所述实体识别规则为用于识别时间、地点和人物三种实体属性的规则,所述犯罪事实为司法文书中犯罪事实的陈述段落,所述实体集合包括至少一种实体属性,所述轴生成规则为用于确定时间轴样式的规则,所述时间轴样式包括时间轴中事件框的分布布局;

第二处理单元,用于利用关联规则实现时间轴与司法文书之间的关联展示;所述关联规则为用于犯罪事实与事件框之间信息联动的规则,所述信息联动唯一且对应;

存储单元,按照司法文书中犯罪事实的实体属性和时间轴样式,对应存储从所述犯罪事实中提取出的实体集合以及犯罪事实与时间轴之间的关联关系。

所述的实体识别规则,包括时间表达式、地点表达式和人物表达式;所述时间表达式用于识别抽取犯罪事实中的时间实体,所述地点表达式用于识别抽取犯罪事实中的地点实体,所述人物表达式用于识别抽取犯罪事实中的人物实体;

所述第一处理单元包括:

实体识别模块,将时间表达式、地点表达式和人物表达式分别与第i犯罪事实匹配,识别出第i犯罪事实的时间、地点和人物实体属性;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量;将识别出第i犯罪事实的时间、地点和人物实体属性作为第i犯罪事实的实体集合。

所述轴生成规则,包括与时间轴样式对应的样式表达式;

所述第一处理单元还包括:

轴生成模块,将样式表达式与每个犯罪事实的实体集合进行匹配,根据犯罪事实的数量m生成具有m个事件框的时间轴,所述事件框展示的内容为对应犯罪事实的实体集合,即第i事件框展示的内容为第i犯罪事实的实体集合;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量。

所述关联规则,包括第一类关联表达式和第二类关联表达式,所述第一类关联表达式用于实现从犯罪事实到事件框的关联展示,所述第二类关联表达式用于实现从事件框到犯罪事实的关联展示;

所述第二处理单元包括:

第1关联模块,将点击选取的第i犯罪事实与第一类关联表达式匹配,高亮司法文书中第i犯罪事实,同时关联高亮时间轴第i事件框;

第2关联模块,将点击选取的第i事件框与第二类关联表达式匹配,高亮时间轴中第i事件框,同时关联高亮司法文书中第i犯罪事实。

一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行任一项所述的方法。

本发明有益效果是:一种司法文书信息提取和关联展示方法、装置及存储介质。其中方法,包括:利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合,利用轴生成规则将实体集合进行时间轴展示,利用关联规则实现时间轴与司法文书之间的关联展示。装置,包括第一处理单元、第二处理单元及存储单元。可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行任一项所述的方法。与已有技术相比,上述方法采用自然语言处理领域中的实体识别技术,能够更准确的获取犯罪事实的属性信息,此外,为了更直观方便的获取信息,采用时间轴对实体集合进行了展示,更重要的是,为了增强关联交互,设计发明了关联展示方法,可实现信息的定位关联,本发明的一种司法文书信息提取和关联展示方法不仅保证了获取信息的准确性还简化了获取信息步骤,克服了以往的办案人员获取信息准确率低的问题,降低了办案成本。

附图说明

图1为本申请司法文书信息提取和关联展示方法的第一个实施例的流程图。

图2为本申请第一个实施例中,司法文书中犯罪事实的展示内容图。

图3为本申请第一个实施例中,利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合的示意图。

图4为本申请第一个实施例中,利用轴生成规则将实体集合进行时间轴展示的示意图。

图5为本申请第一个实施例中,犯罪事实与第一类关联表达式匹配的示意图。

图6为本申请第一个实施例中,事件框与第二类关联表达式匹配的示意图。

图7为本申请第二个实施例中,提供与前述的第一个实施例对应的司法文书信息提取和关联展示装置结构框图。

具体实施方式

司法文书是按照一定的规则规律进行撰写的。例如,在起诉文书的首部需要写明相应的文书名、机构名和文号等,正文内容需要包括犯罪嫌疑人的户籍证明信息,以及最重要的犯罪事实陈述内容,但当文书中出现大量的犯罪事实,以往的抽取方法是进行段落级的切分,很难捕获抽取事实中的要素信息,同时,以往将段落片段直接抽取生成文本的展示方式不够直观,需要办案人员的进一步阅读,此外,若办案人员想根据抽取的信息做文本的定位,以往的方法就显得捉襟见肘,但这些问题往往是办案人员迫切需要解决的,所以司法文书信息提取和关联展示方法的研究是非常有必要的。

为此,本申请提出一种新的应用于司法文书的信息提取和关联展示方法,方便办案人员快速的解析电子卷宗,获悉文书中的案件信息,更重要的是为办案人员提供信息的关联定位查询,提高办案效率。

具体地,如图1所示,一种司法文书信息提取和关联展示方法,包括以下步骤。

第一步:利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合。

在本申请中,实体识别规则为用于识别时间、地点和人物三种实体属性的规则,所述犯罪事实为司法文书中犯罪事实的陈述段落,所述实体集合包括至少一种实体属性。

更具体地,实体识别规则包括时间表达式、地点表达式和人物表达式。

在这种情况下,如图2所示的司法文书中的《起诉意见书》局部。起诉意见书,是指监察机关、公安机关、国家安全机关以及检察机关的侦查部门依法将侦査终结的案件移请检察机关的起诉部门审査、建议的司法文书,在图2中展示出了司法文书中的犯罪事实部分,首先可根据“经审查查明”快速定位到事实陈述部分,然后按照段落进行切分,直至“认定上述事实”为止,所切分得到的段落组成该文书的犯罪事实。

如图3所示,对于第i个犯罪事实,要提取其中的时间、地点和人物实体属性,包括如下步骤:

将时间表达式、地点表达式和人物表达式分别与第i犯罪事实匹配,识别出第i犯罪事实的时间、地点和人物实体属性;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量;

将识别出第i犯罪事实的时间、地点和人物实体属性作为第i犯罪事实的实体集合,实体识别规则部分示例,如表1所示。

表1

表1中,将犯罪事实与实体识别规则匹配,首先犯罪事实与时间表达式匹配,在时间的前后位置插入符号“#”进行隔开,表示该区间的内容为该犯罪事实的时间;然后犯罪事实与地点表达式匹配,在地点的前后位置使用符号“*”进行隔开,表示该区间的内容为该犯罪事实的地点;最后犯罪事实与人物表达式匹配,由于犯罪事实中人物属性不是唯一存在的,可能会存在多个,因此在抽取过程中,会进行多次抽取匹配,生成多个由符号“&”隔开的内容,隔开的内容共同组成该犯罪事实的人物信息。

这样的抽取方式是基于自然语言处理技术当中实体识别技术完成的,一方面,在该项技术中,会很准确的能够对每个词进行标签分类,获取每个词是什么类型的可能性,从而可以形成对犯罪事实中属性信息的判别,可以很大程度上降低抽取错误的情况。

另一方面,该项技术中使用的判别模型是在大量的起诉意见书基础上训练得到的,不仅具有通用性,可适用于大多数罪名类型的起诉意见书,保证了方法的有效实用性,还具有很高的事实依据,保证识别抽取的准确率。

第二步:利用轴生成规则将实体集合进行时间轴展示。

本申请中,轴生成规则为用于确定时间轴样式的规则,所述时间轴样式包括时间轴中事件框的分布布局。

更具体地,所述轴生成规则包括与时间轴样式对应的样式表达式。

如图4所示,利用轴生成规则将实体集合进行时间轴展示的步骤,包括:

将样式表达式与每个犯罪事实的实体集合进行匹配,根据犯罪事实的总数量m生成具有m个事件框的时间轴,所述事件框展示的内容为对应犯罪事实的实体集合,即第i事件框展示的内容为第i犯罪事实的实体集合;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量。

在样式表达式与犯罪事实匹配过程中,首先根据犯罪事实的数量确定时间轴中应该具有多少数量的时间框,然后根据犯罪事实的叙述顺序对应时间框,并在每个时间框中展示相应的犯罪事实的实体集合。

第三步:利用关联规则实现时间轴与司法文书之间的关联展示。

本发明中,关联规则为用于犯罪事实与事件框之间信息联动的规则,所述信息联动唯一且对应。

更具体地,所述关联规则包括第一类关联表达式和第二类关联表达式,所述第一类关联表达式用于实现从犯罪事实到事件框的关联展示,所述第二类关联表达式用于实现从事件框到犯罪事实的关联展示。

利用关联规则实现时间轴与司法文书之间的关联展示的步骤,包括:

将点击选取的第i犯罪事实与第一类关联表达式匹配,高亮司法文书中第i犯罪事实,同时关联高亮时间轴第i事件框;

将点击选取的第i事件框与第二类关联表达式匹配,高亮时间轴中第i事件框,同时关联高亮司法文书中第i犯罪事实。

首先,将点击选取的第i犯罪事实与第一类关联表达式匹配,如图5所示,选取某个犯罪事实,由于犯罪事实中的实体信息与时间轴中事件框的展示内容是唯一匹配对应的,因此可以关联高亮对应的事件框。

其次,将点击选取的第i事件框与第二类关联表达式匹配,如图6所示,选取某个犯罪事实,由于时间轴中事件框的展示内容与犯罪事实中的实体信息是唯一匹配对应的,因此可以关联高亮对应的犯罪事实。

如图7所示,在本申请第二个实施例中,提供与前述的第一个实施例对应的司法文书信息提取和关联展示装置,包括:

第一处理单元,用于利用实体识别规则分别从司法文书的每个犯罪事实中识别抽取出对应的实体集合;利用轴生成规则将实体集合进行时间轴展示;其中,所述实体识别规则为用于识别时间、地点和人物三种实体属性的规则,所述犯罪事实为司法文书中犯罪事实的陈述段落,所述实体集合包括至少一种实体属性,所述轴生成规则为用于确定时间轴样式的规则,所述时间轴样式包括时间轴中事件框的分布布局;

第二处理单元,用于利用关联规则实现时间轴与司法文书之间的关联展示;所述关联规则为用于犯罪事实与事件框之间信息联动的规则,所述信息联动唯一且对应;

存储单元,按照司法文书中犯罪事实的实体属性和时间轴样式,对应存储从所述犯罪事实中提取出的实体集合以及犯罪事实与时间轴之间的关联关系。

可选地,所述的实体识别规则包括与时间表达式、地点表达式和人物表达式;所述时间表达式用于识别抽取犯罪事实中的时间实体,所述地点表达式用于识别抽取犯罪事实中的地点实体,所述人物表达式用于识别抽取犯罪事实中的人物实体。

所述第一处理单元包括:

实体识别模块:将时间表达式、地点表达式和人物表达式分别与第i犯罪事实匹配,识别出第i犯罪事实的时间、地点和人物实体属性;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量;将识别出第i犯罪事实的时间、地点和人物实体属性作为第i犯罪事实的实体集合。

可选地,所述轴生成规则包括与时间轴样式对应的样式表达式。

所述第一处理单元还包括:

轴生成模块:将样式表达式与每个犯罪事实的实体集合进行匹配,根据犯罪事实的数量m生成具有m个事件框的时间轴,所述事件框展示的内容为对应犯罪事实的实体集合,即第i事件框展示的内容为第i犯罪事实的实体集合;其中i=1,2,……,m-1,m;m表示司法文书中犯罪事实的总数量。

可选地,所述关联规则包括第一类关联表达式和第二类关联表达式,所述第一类关联表达式用于实现从犯罪事实到事件框的关联展示,所述第二类关联表达式用于实现从事件框到犯罪事实的关联展示。

所述第二处理单元包括:

第1关联模块:将点击选取的第i犯罪事实与第一类关联表达式匹配,高亮司法文书中第i犯罪事实,同时关联高亮时间轴第i事件框;

第2关联模块:将点击选取的第i事件框与第二类关联表达式匹配,高亮时间轴中第i事件框,同时关联高亮司法文书中第i犯罪事实。

此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述第一个实施例中的任一项所述的方法步骤。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等存储设备。

相关技术
  • 司法文书信息提取和关联展示方法、装置及存储介质
  • 司法文书段落分类方法、装置、计算机设备及存储介质
技术分类

06120112553320