掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习与模式匹配的人案物关联关系抽取方法

文献发布时间:2023-06-19 11:32:36


一种基于深度学习与模式匹配的人案物关联关系抽取方法

技术领域

本发明涉及一种司法数据处理技术,特别涉及一种基于深度学习与模式匹配的人案物关联关系抽取方法。

背景技术

随着数据规模的不断增长、人工智能和大数据处理在实际生活中应用的不断落地。人们对于智慧司法领域相关应用的落地有着更为迫切的需求。对于经常同法律接触的法官、律师等司法人员便是其中之一。司法领域的工作人员为了获取所需信息时,往往需要阅读大量的法律文书,依靠人力从法律文书中提取所需关系结构信息,这个过程十分低效和繁琐,严重影响其工作效率。即使中国裁判文书网提供关键词检索的功能,仍无法解决将法律文书关系结构清晰、凝练展示出来的问题。因此对于司法领域如何从海量的法律文书中快速、准确的挖掘文书关系结构信息十分迫切。

为了促进法律智能领域的快速发展,再过去的几十年中,人们在相关方面付出了巨大的努力。早期由于计算机算力的限制,人们往往是采用手工编写大量的规则或者是特征,进行关系抽取,我们称之为规则派。随着计算机技术的不断发展与计算机算力的不断提升,人们开始尝试使用机器学习和深度学习技术来挖掘文本信息,我们称之为统计派。

规则派,首先由相关领域专家定义关系集合,再由其制定抽取规范,针对每一条关系制定若干抽取规则。规则派事先需要对大量的语言现象进行研究,归纳并总结出一系列语言规则,再通过这些规则对文本进行解析。规则派的重点在于定义规则,虽然实现方式看起来简单粗暴,但是效果十分不错,可以细粒度的对抽取结果进行调整。并且在对于数据关系抽取结果的可解释性方面也十分友好。

统计派:是以统计学为基础,输入大量文本和对应的分类,通过有监督、半监督或无监督学习,从文中抽取重要特征并将分类的概率输出。有监督学习的方法就是给训练语料数据集中的实体和关系标注上标签,构造训练集、校验集和测试集,再用机器学习算法(LR,SVM,Kmeans等)或神经网络训练分类器。半监督学习是对比监督学习提出的概念,是为了解决有监督学习成本太大的问题。半监督学习有两种算法方案,分别是:Bootstrapping和Distant Supervision。 Bootstrapping的特点是不需要标注好的实体和关系的句子作为训练集,不需要训练分类器;Distant Supervision也称为远程监督,它假设对于一个已有的知识图谱中的三元组(实体,关系,实体),假设外部文档库中包含这对实体的句子,在一定程度上都反应了这种关系。基于该这个假设,远程监督算法可以算是一个标注好的小型的知识图谱,因此称为半监督的算法。

项目难点:司法案件人案物关系分析面临复杂人案物关联关系追溯困难的问题,具体体现在关系构建成本高、深度关系挖掘难、关联关系精度低、关系展示不直观,该问题在涉众型案件或多被告人案件中尤为突出。

规则派缺陷描述:规则派的理论基础是语言学理论,它实现需要专家对大量文本进行规则的准确分析,总结出文本结构信息。其缺陷也就十分明显,规则的定义需要大量的人工专家去整理,每当有新的关系出现时,便需要专家重新对相关规则进行修整。

统计派缺陷描述:统计派的基础是统计学理论,依赖数据驱动,当数据量充足且分布均匀时效果较好。其缺陷同样也十分明显,由于以来数据驱动,当数据量不充足或者数据分布不均匀时,精确度将会很低。并且数据需要大量人工标注,成本高,结果的可解释性差。

发明内容

本发明的目的在于提供一种基于深度学习与模式匹配的人案物关联关系抽取方法,用于解决上述现有技术的问题。

本发明一种基于深度学习与模式匹配的人案物关联关系抽取方法,其中,包括:对法律文书进行分析,将法律文书化分成文书基本信息、指控内容、辩护意见、证据相关以及判决内容五大部分;进行关系定义以及实体定义,总结出所有需要抽取出的关系集合以及实体集合,根据定义的关系集合和实体集合,对法律文书进行关系标注和实体标注,将标注好的实体集分成80%训练集和20%测试集,训练集通过Bert-BiLSTM-CRF模型进行实体识别模型训练,测试集通过训练好的模型进行精确率和召回率计算;进行依存句法分析任务,在定义好关系集和实体集之后,对需要的实体、关系以及实体三元组关系进行模式匹配定义;通过将实体位置信息加句子以对应关系为标签输入基于句子的注意力机制结合CNN网络,训练深度学习模型,实现对法律文书相对三元组关系抽取。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,法律文书进行分析具体包括:将法律文书按照其文本结构划分成文书基本信息、指控内容、辩护意见、证据相关以及判决内容五大部分,将这五大部分按顺序连接;根据文本结构划分的五大部分相互独立互不干扰,并且每一部分在头部和尾部都有明显的触发词,总结触发词作为文书结构分割重点。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,文书基本信息包含被告人姓名、性别、出生日期、民族、文化水平以及户籍显式文书信息,采用模式匹配方法抽取关系;指控内容、辩护意见以及证据相关这三部分由于所要抽取关系为隐式关系,采用泛化能力更强的深度学习算法;判决部分既包含显示关系信息又包含隐式关系信息,采用模式匹配和深度学习算法结合的方式。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,对于每一篇法律文书,抽取的三元组关系。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,Bert-BiLSTM-CRF模型包含法律领域预训练语言模型Bert、Bi-LSTM层双向长短期记忆网络以及CRF层条件随机场。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,进行实体标注方式包括:在输入的每一条训练语句时,在句子的开头加上[CLS]标识,当遇到需要定义的实体时,将实体的第一个字标记为“B-实体英文标签”,实体中其它字标记为“I-实体英文标签”,非实体字标记为“O”。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,进行BERT预训练语言模型:BERT模型输入是由Token Embeddings、SegmentEmbeddings以及Position Embeddings拼接而成;每个句子开头都有[CLS]标识,表示句子起点, Token Embeddings表示词向量信息,Segment Embeddings用来唯一标识句子,每个句子都有不同的Segment Embeddings,句子中每个词的 Segment Embeddings均相同,Position Embedding用来标识句子的位置信息,拼接完成之后便可将结果输入Transformer中。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,进行BiLSTM层构建:BiLSTM层是由前向LSTM和后向LSTM组合而成;LSTM由1个记忆单元和3个不同的控制门来帮助记忆单元输入、遗忘以及输出;进行CRF层构建,CRF 层连接到BiLSTM层之后预测输出序列并求出使目标函数最优化的序列;进行命名实体识别评估指标:评估指标采用评估算法有效性的三个指标,分别是精确率、召回率和F1-measure。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,模式匹配包括:法律文书预处理,采用字符串拼接的方法将被分割的句子首尾进行拼接,通过下标索引的方式做第二次字符串拼接,使得拼接后的内容包含抽取部分;根据首尾部出发关键词进行匹配规则定义,将法律文书中文书基本信息部分和判决部分抽出;命名实体识别关键词;依存句法分析;根据法律领域的关系集和实体集,总结定义出关系抽取模板;模式匹配关系抽取结果校对:首先将抽取结果重复的部分删除掉,在抽取被告人姓名时结合正则匹配的方式,抽取出被告人姓名,再与三元组关系对应保证结果的准确率。

根据本发明所述的基于深度学习与模式匹配的人案物关联关系抽取方法的一实施例,其中,通过将实体位置信息加句子以对应关系为标签输入基于句子的注意力机制结合CNN网络,训练深度学习模型,实现对法律文书相对三元组关系抽取包括:模型输入数据准备,基于word2vec算法进行文本预处理,将原始句子中的每个单词转换为对应词向量,然后将词向量拼接来表示整个句子向量,将每个句子中实体信息在上下文中的位置信息与句子向量信息拼接;CNN模型准备:将准备好的数据输入CNN模型中,首先输入卷积层,通过句子向量滑动的方式,将文本以多个词的数量作为卷积核的大小,学习句子中不同的信息,将卷积层输出数据输入池化层,在滑动窗口的时候将特征向量中最大的特征向量筛选出来,然后拼接构成向量表示,池化层的功能是不断降低维数,以减少网络中的参数和计算此时,缩短训练时间防止过拟合;引入注意力机制,将CNN层输入的向量几何;关系抽取,使用softmax分类器来预测关系标签。

本发明预期研究成果主要对法律文书信息进行提取及挖掘,主要针对涉案人员、案件情节、涉案物品等三个维度以文本为单位抽取关联关系。在此基础上进行多维度、全方位的关联关系分析,从而挖掘出隐含的网络诈骗犯罪特征。为相关机构等提供有效的数据支撑。

附图说明

图1为关联关系抽取流程图;

图2为数据预处理流程;

图3为抽取关系汇总;

图4为命名实体识别示例图;

图5为改进的Bert-BiLSTM-CRF模型;

图6为BERT模型的主体结构示意图;

图7为Embedding示意图;

图8为HanLP依存句法分析图;

图9为分析输出结果图;

图10为可视化效果展示图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

以裁判文书文本内容为数据基础,针对这类半结构化的文本信息,研究并使用自然语言处理的相关技术,在解决文本数据中存在的指代不明、描述不清、定义重复、语言歧义等问题的同时,完成对文本的分析及信息的挖掘,进而从海量的文本内容中提取出涉案人员、涉案物品、案件情节之间的关联关系,形成“人,案,物”关联关系三元组。

本发明主要设计一种基于命名实体识别、依存句法分析等自然语言处理技术以及模式匹配、数据分析的关系抽取的方法。一种基于深度学习与模式匹配的人案物关联关系抽取。发明的输入及输出流程如下图1所示:

关联关系抽取发明方案总共包含五个主要步骤,分别是步骤1:数据预处理、步骤2:命名实体识别、步骤3:依存句法分析、步骤4:模式匹配、步骤5:深度学习。

首先法律领域专家,通过阅读大量法律文书,并对其进行分析,最后将法律文书化分成文书基本信息、指控内容、辩护意见、证据相关、判决内容五大部分。接着法律领域专家进行关系定义、实体定义,总结出所有需要抽取出的关系集合以及实体集合。根据专家定义的关系集合和实体集合组织标注人员对600万篇法律文书进行关系标注和实体标注,将标注好的实体集分成80%训练集和20%测试集,训练集通过Bert-BiLSTM-CRF模型进行实体识别模型训练,测试集通过训练好的模型进行精确率和召回率计算。接下来进行依存句法分析任务,由于标注依存句法分析的数据集需要极高的领域知识,标注成本十分昂贵,为解决此问题,可以通过调用HanLP包(一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用) 解决此问题。在定义好关系集和实体集之后,法律领域专家需要通过大量的文书阅读并结合专业知识,对需要的三元组(实体、关系、实体)关系进行模式匹配定义。最后通过将实体位置信息加句子以对应关系为标签输入基于句子的注意力机制结合CNN网络,训练深度学习模型,实现对法律文书相对三元组关系抽取。

其中步骤2和步骤3为步骤4和步骤5的前期工作,步骤4和步骤5 对步骤1中法律文书五大不同部分进行针对性关系抽取。

步骤1:数据预处理流程

数据预处理详细步骤如图2所示:

步骤1.1法律文书结构处理:法律领域专家通过阅读大量法律判决文书,并从文本结构角度出发,总结出以下处理步骤:

步骤1.1.1不同案由之间在文书内容描述上虽然存在着一定的差异,但是其组织结构是相同的,因此可以将法律文书按照其文本结构划分成文书基本信息、指控内容、辩护意见、证据相关、判决内容五大部分。这五大部分按顺序连接,少部分法律文书可能不包含辩护意见部分,但是不影响抽取结果。

步骤1.1.2根据文本结构划分的五大部分相互独立互不干扰,并且每一部分在头部和尾部都有明显的触发词,总结触发词可作为文书结构分割重点。

步骤1.1.3文书基本信息主要包含被告人姓名、性别、出生日期、民族、文化水平、户籍等显式文书信息,因此此部分采用模式匹配方法抽取关系。

步骤1.1.4指控内容、辩护意见、证据相关这三部分由于所要抽取关系为隐式关系,因此此步骤采用泛化能力更强的深度学习算法。

步骤1.1.5判决部分既包含显示关系信息又包含隐式关系信息,因此此步骤采用模式匹配和深度学习算法结合的方式。

法律文书结构划分触发词下如表1:

表1法律文书结构划分触发词

各部分内容可提取主要要素如下表2:

表2各部分内容可提取主要要素

步骤1.2法律文书内容分析:法律领域专家通过阅读大量法律判决文书,并从文本内容角度出发,总结出以下规律本文标题人案物分别对应涉案人员、司法案件、涉案物品。对于每一篇法律文书,抽取的三元组关系均属于这三者之间的关系。图3以单向导图的方式展示各部分所要抽取关系的汇总,如图3所示:

步骤1.3关系集定义:

根据文书内容分析结果,我们在此处展示部分抽取关系集如下表 3所示:

表3部分抽取关系集

步骤1.4实体集定义:

根据文书内容分析结果,我们在此处展示部分抽取实体集如下表 4所示:

表4部分抽取实体集

二、步骤2:命名实体识别流程

命名实体识别(Named Entity Recognition,NER)是NLP领域的基础任务,在本实验中是很重要的前期工作环节。命名实体识别常用来识别指代性强的实体,例如人名、地名、机构组织名等等如图4所示,在本发明中还指代法律文书结构分析中的实体集。该实体集的定义是根据业务需求所定义。

步骤2.1 Bert-BiLSTM-CRF模型:

本发明在进行命名实体识别流程时采用的是改进的 Bert-BiLSTM-CRF模型如图5所示,此模型包含法律领域预训练语言模型Bert、Bi-LSTM层(Bi-directional LongShort-Term Memory)双向长短期记忆网络、CRF层(Conditional Random Field)条件随机场。

骤2.2进行实体标注方式:

实体标注属于序列标注问题,在此任务中我们采用工业界常用的 BIO标注方式,在输入的每一条训练语句时,在句子的开头加上[CLS] 标识,当遇到需要定义的实体时,将实体的第一个字标记为“B-(实体英文标签)”,实体中其它字标记为“I-(实体英文标签)”,非实体字标记为“O”。以走私、贩卖、运输、制造毒品罪为例如表5所示:

表5走私、贩卖、运输、制造毒品罪BIO标注方式

步骤2.3进行BERT预训练语言模型:

BERT(Bidirectional Encoder Representation from Transformers),是一个预训练的语言表征模型,能够将左右上下文信息的深层语言特征进行融合,比起之前的预训练语言模型,BERT是真正意义上的将上下文信息进行捕捉。由于BERT模型对于计算机算力要求较高,我们采用清华大学人工智能研究院推出的一个多领域中文与训练模型仓库中的刑事文书BERT,训练数据大小有663万篇文书,十分符合本发明中BERT预训练语言模型。

图6为BERT模型的主体结构示意图,如图6所示。

其中Trm表示注意力机制(Transformer)特征抽取器,E1,E2... 表述模型的输入,此处为上述使用BIO编码标注带有实体信息的中文句子词向量。T1,T2...表示模型的输出,下游任务是单词所属实体类别的分类。

BERT模型输入是由Token Embeddings、Segment Embeddings、 PositionEmbeddings拼接而成,如图7所示,

其中,每个句子开头都有[CLS]标识,表示句子起点,Token Embeddings表示词向量信息,Segment Embeddings用来唯一标识句子,因此每个句子都有不同的SegmentEmbeddings,句子中每个词的 Segment Embeddings均相同。Position Embedding用来标识句子的位置信息。拼接完成之后便可将结果输入Transformer中。

步骤2.4进行BiLSTM层构建:

BiLSTM(Bi-directional Long Short-Term Memory)双向长短期记忆网络,是由前向LSTM和后向LSTM组合而成。BiLSTM充分利用上下文关系,通过向前向后同时编码,更好的捕捉较长距离的依赖关系,能够在一定程度上弥补循环神经网络在梯度消失、梯度爆炸等问题上的缺陷。LSTM主要由1个记忆单元(cell state)和3个不同的控制门 (inputgate、forget gate、output gate)来帮助记忆单元输入、遗忘、输出。

通过构建遗忘门(forget gate):输入当前时刻的x

通过构建输入门(input gate),决定将要更新的信息 i

将上一时刻c

再构建输出门(output gate)决定要出的信息o

步骤2.5进行CRF层构建:

CRF(Condition Random Fields)条件随机场,是处理序列标注任务中常用的概率图模型。其对应公式为: P(Y

步骤2.6进行命名实体识别评估指标:

评估指标采用评估算法有效性的三个指标,分别是精确率 (Precision)、召回率(Recall)和F1-measure,具体数学定义如下:

其中N

通过验证分析,基于Bert-BiLSTM-CRF的命名实体别在通过对比 HMM(隐马尔可夫模型)、CRF(条件随机场模型)、BiLSTM-CRF 模型,Bert-BiLSTM-CRF模型在精确率、召回率、F1值都有不错的水平。通过实验测试,结合上述计算公式计算得出如下表6所示:

表6 Bert-BiLSTM-CRF模型在精确率、召回率、F1值

三、步骤3:依存句法分析流程

步骤3为依存句法分析,首先构建词语此之间存在的主从关系。在构造句子中,如果有一个词修饰另一个词,那么我们就把修饰词称为从属词,被修饰的词成为支配词,两个单词之间的语法关系称为依存关系。

由于依存句法分析树构建任务十分庞大,这里我们采用句法分析工具HanLP,分析结果如图8所示。

步骤3.1将需要句法分析的句子输入程序中。例如走私、贩卖、运输、制造毒品罪中某法律文书中一句话:“被告人辛某某,2015年 11月12日因涉嫌贩卖毒品罪被甘州区公安局刑事拘留。”

步骤3.2分析输出结果,如图9所示:

可视化效果展示如图10所示:

四、步骤4:模式匹配模型:

前三步骤为第:4、第5步骤的前期准备工作,第4步模式匹配模型实现步骤如下。

步骤4.1法律文书预处理:部分法律文书书写格式有错误,多余的空格或者特殊符号等问题对文书关系抽取有较大的影响。例如“审判长”,中间的空格对于审判长关键词的识别有阻碍作用。我们设定每个句子输入限定在1024字符数以内,这样能加快数据处理速度,但同时限定句子的字符数会导致信息丢失,因此我们采用字符串拼接的方法将被分割的句子首尾进行拼接,通过下标索引的方式做第二次字符串拼接,这样便使得拼接后的内容包含抽取部分。

步骤4.2文书分割:根据步骤1定义的首尾部出发关键词进行匹配规则定义,将法律文书中文书基本信息部分和判决部分抽出。抽取匹配规则定义如下表7所示:

表7抽取匹配规则定义

步骤4.3命名实体识别关键词使用:正是由于文书基本信息部分和判决部分往往由显式信息构成,因此使用模式匹配十分方便,效果也十分出色。以文书基本信息部分抽取为例:

被告人“姓名”、“出生日期”、“籍贯”在第2步命名实体识别流程中抽出,由显示关键词“男”,“汉族”,“文化程度”可直接抽取出: (被告人是贾某某)、(贾某某性别男)(贾某某民族汉族)(贾某某文化程度初中)(贾某某出生日期1991年8月20日)(贾某某籍贯陕西兴平)等等

步骤4.4依存句法分析使用:我们还以贾某某例子为例,通过依存句法分析结果显示如下:

由依存句法分析抽取结果结合,命名实体识别,我们可以直接抽出(贾某某行政拘留日期2016年7月21日)(贾某某行政拘留15天) (贾某某行政拘留原因吸食毒品)等等关系。

步骤4.5定义案由模板:根据法律领域专家定义的关系集和实体集,总结定义出关系抽取模板。举例如下表8:

表8定义案由模板

其中“刑事通用”,代表所有案由均可使用该抽取规则;“@@@”为自定义分隔符;“1”代表文书结构只抽取1部分,然后下面紧接着抽取的是文书基本信息部分;“pattern”代表用正则匹配的方式,“keyword”代表用关键词抽取;“7”代表方法+方法参数的数量,紧跟着就是抽取方法名和抽取方法的参数。每个参数根据抽取方法定义的不同由不同的涵义。

步骤4.6模式匹配关系抽取结果校对:首先将抽取结果重复的部分删除掉,另外根据实验测试,在命名实体识别人名部分可能会出现人名“贾某某”识别成“贾某”的情况,因此,我们在抽取被告人姓名时结合正则匹配的方式,抽取出被告人姓名,再与三元组关系对应保证结果的准确率。

五、步骤五:基于句子的注意力机制模型:

前三步骤为第四、第五步骤的前期准备工作,第五步模式匹配模型实现步骤如下。基于句子注意力机制的关系抽取主要实现文书结构中指控内容、辩护意见、证据相关以及部分判决部分中的关系抽取。主要包括以下步骤:

步骤5.1模型输入数据准备:基于word2vec算法进行文本预处理,将原始句子中的每个单词转换为对应词向量,然后将词向量拼接来表示整个句子向量。将每个句子中实体信息在上下文中的位置信息与句子向量信息拼接,完成模型输入数据的准备。

步骤5.2 CNN模型准备:将步骤5.1准备好的数据输入CNN模型中。首先输入Convoltion Layer(卷积层),通过句子向量滑动的方式,将文本以3,4,5个词的数量作为卷积核的大小,学习句子中不同的信息。接下来将卷积层输出数据输入Pooling Layer(池化层),在滑动窗口的时候将特征向量中最大的特征向量筛选出来,然后拼接构成向量表示。池化层的功能是不断降低维数,以减少网络中的参数和计算此时,缩短训练时间防止过拟合。

步骤5.3引入Attention(注意力)机制,将CNN层输入的向量几何表示为

X:[x

其由Attention层的权重矩阵由以下公式得到:

R=tanh(X)

其中,

x

步骤5.4关系抽取,使用softmax分类器来预测关系标签。

对目前司法领域中缺乏统一的人案物分类标准与明确的人案物关联关系模型问题,结合司法领域知识和深度学习等技术定义人案物分类标准,进行关系抽取,以此为基础对人案物关联关系进行深入挖掘。

通过分析法律文书文本特征,将文书按照文本结构分为文书基本信息、指控内容、辩护意见、证据相关、判决部分五大部分。由专家分析定义实体集合关系集作为关系抽取前期数据部分。由于文书关系抽取的复杂性,将文书不同部分按照显示信息和隐式信息划分的方式,分别采用模式抽取和深度学习算法进行关系抽取。最终完成法律文书关系抽取。

本发明预期研究成果主要对网络诈骗相关的法律文书信息进行提取及挖掘,主要针对网络诈骗中的涉案人员、案件情节、涉案物品等三个维度以文本为单位抽取关联关系。在此基础上进行多维度、全方位的关联关系分析,从而挖掘出隐含的网络诈骗犯罪特征。为相关机构等提供有效的数据支撑。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

相关技术
  • 一种基于深度学习与模式匹配的人案物关联关系抽取方法
  • 一种基于深度学习的实体关系抽取方法
技术分类

06120112965289