掌桥专利:专业的专利平台
掌桥专利
首页

司法领域命名实体及关系联合抽取方法

文献发布时间:2023-06-19 12:07:15


司法领域命名实体及关系联合抽取方法

技术领域

本发明涉及信息提取技术领域,更具体的说是涉及司法领域命名实体及关系联合抽取方法。

背景技术

随着互联网的快速发展,在信息爆炸式增长的今天,如何高效获取所需信息是一个热门研究问题,信息抽取技术应运而生。信息抽取可细分为命名实体识别、实体关系抽取和事件抽取3个子任务,其中通过实体识别和实体关系抽取来获取语义三元组,是构建知识图谱、理解自然语言的重要前提。司法领域是典型的知识密集型行业,信息爆炸的大数据时代,在司法工作中涌现出了法律法规、指导案例、法律文书等,对于公众、当事人、司法机关具有实质意义的海量司法资料。司法领域文本主要是法律人员对被告人或嫌疑人的作案经过的专业性描述,其中包含了大量案件细节相关的实体及实体关系。而传统仅靠人力手动提取、整合、管理信息已经远远无法满足目前信息抽取的需求。因此,设计模型自动抽取信息已成为目前司法行业的热点问题,如何从海量的司法资料中有效识别其中的命名实体和关系分类,是实现自动化审判的关键一步。现有相关研究通常把实体抽取和关系抽取两个子任务分开,即通过流水线(pipeline)模式来进行的,尽管流水线框架具有集成不同数据源和学习算法的灵活性,但也存在一定的问题:丢失了两个任务间的联系,导致误差传播,并且没有考虑司法实体间常见的重叠关系的存在。

因此,如何考虑任务间的联系和司法命名实体之间的重叠关系,消除误差传播,抽取司法命名实体及关系是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提供了一种司法领域命名实体及关系联合抽取方法,是一种基于BERT预训练语言模型的BILSTM网络与注意力机制结合的实体关系抽取方法,共享底层BILSTM网络抽取的文本特征参数,通过参数共享实现两个任务联合学习,充分利用任务间联系来优化结果,在不割裂的情况下利用其交互信息提升模型实体识别和关系抽取的性能。

为了实现上述目的,本发明采用如下技术方案:

一种司法领域命名实体及关系联合抽取方法,包括以下步骤:

步骤1:选取司法领域资料,设定标注策略,根据所述标注策略对所述司法领域资料进行标签标注,构建关系抽取数据集;

步骤2:将所述关系抽取数据集输入BERT预训练语言模型,获得所述关系抽取数据集中每个字符的向量表示,生成字向量序列;

步骤3:将所述字向量序列输入BILSTM网络中提取特征信息,获得语义向量;

步骤4:采用softmax分类器对所述语义向量进行分类,获得所述字符的实体标签;从而实现实现实体识别;

步骤5:采用注意力机制根据所述语义向量抽取实体之间的关系标签,从而实现实体关系抽取。

优选的,所述标签策略设定实体标签由四部分组成,包括实体边界、实体类别、关系类别和实体位置;所述实体边界采用“BIO”标注原则;所述实体类别包括法律文献、法律主体、法律客体和法律事实;所述司法关系包括施事关系、受事关系、原因关系、结果关系、工具关系、方式关系、处所关系、时间关系、目的关系、从事关系、领有关系和并列关系;所述实体位置表示为1、2和M,其中1表示字符是关系中的第1个实体,2表示字符是关系中的第2个实体,M表示字符存在重叠关系且分别位于不同位置。

优选的,所述BERT预训练语言模型采用双向Transformer为编码器,根据上下文的语义关系,表征字符在上下文中的具体语义,并加入残差网络和层归一化;具体的,

注意力单元计算公式为:

其中Q、K和V分别为输入字向量矩阵,分别表示Query矩阵、Keys矩阵和Value矩阵;d

采用MultiHead模式,扩展模型专注于不同位置的能力,公式为:

MultiHead(Q,K,V)=Concat(head

head

其中W

加入了残差网络和层归一化,以改善退化问题:

FNN=max(0,xW

其中,α和β是需要学习的参数;μ和σ是输入层的均值和方差;W

优选的,所述BILSTM网络中的编码层和解码层都采用双向LSTM结构,对每个句子分别采用顺序和逆序计算得到两套不同的隐层表示,再通过向量拼接得到最终的隐层表示;

其中,h

将顺序隐层表示

优选的,使用softmax分类器从法律文献、法律主体、法律客体和法律事实的4种实体类别标签集合中分类出字符对应的标签,标签概率y

其中,

优选的,所述步骤5中,对t时刻输入的字符抽取关系时,将对应的语义向量

其中,

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种司法领域命名实体及关系联合抽取方法,是一种基于基于BERT预训练语言模型的BILSTM网络与注意力机制结合的实体关系抽取算法,通过参数共享实现两个任务联合学习,充分利用任务间联系来优化结果。选取BERT预训练语言模型训练词向量完成对数据集词向量的转化工作;然后使用BILSTM神经网络获取更为完整的上下文特征信息,从而提取出文本深度词向量特征;最后通过softmax分类器获取字符的类别标签实现实体识别的同时,利用注意力机制判断当前字符与之前字符之间存在的关联关系,实现了实体与多关系的联合抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的本发明方法结构示意图;

图2附图为本发明提供的示例标注示意图;

图3附图为本发明提供的BERT预训练语言模型示意图;

图4附图为本发明提供的Transformer编码单元示意图;

图5附图为本发明提供的数据采集与预处理流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种司法领域命名实体及关系联合抽取方法。

1、在标注实体时标签由4个部分组成,分别为:实体边界、实体类别、关系类别和实体位置。

1)实体边界。实体边界采用“BIO”标注原则,其中B表示每个实体的初始字,I表示实体的中间或者末尾字,对于文本中非实体字符统一标记为O;

2)实体类别和关系类别标签。按照相关从业人员的设计,将需要抽取的实体分为:法律文献、法律主体、法律客体、法律事实共四类,分别使用{DOC,SUB,OBJ,FAC}作为这4类实体名称的类型标签。标注的实体类别如下表1所示:

表1实体类别

关系类别标签细分为12种,分别是:施事关系(agent)、受事关系(patient)、原因关系(cause)、结果关系(outcome)、工具关系(tool)、方式关系(means)、处所关系(place)、时间关系(time)、目的关系(purpose)、从事关系(engage)、领有关系(possess)、并列关系(juxtapsition),如下表2所示:

表2司法概念关系分类及描述

3)实体位置。实体位置表示实体在关系中的位置,由1、2、M定义,1表示该词是关系中的第1个实体,2表示第2个实体,M表示该词存在重叠关系中且分别是不同位置。最后关系抽取结果能被表示为三元组{实体1,关系类别,实体2},如图2为标注的例句展示,为司法实体和关系标注实例。

2、BERT预训练语言模型

为了最大程度上避免边界切分出错,选择字标注的方式,即以字为基本单位进行输入,为有效地融入语义信息的引入BERT预训练语言模型。

BERT预训练语言模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。结构如图3所示,为了融合字左右两侧的上下文,BERT采用双向Transformer作为编码器,其中“双向”意味着模型在处理一个词时,其可以根据上下文的语义关系,表征字在上下文中的具体语义。

Transformer编码单元如图4所示,这是BERT最重要的部分,Transformer完全基于注意力机制来对一段文本进行建模。编码单元最重要的模块是自注意力部分,计算公式为:

其中Q、K和V分别为输入字向量矩阵,d

采用MultiHead模式,扩展模型专注于不同位置的能力,公式为:

MultiHead(Q,K,V)=Concat(head

head

其中W

加入了残差网络和层归一化,以改善退化问题:

FNN=max(0,xW

其中,α和β是需要学习的参数,μ和σ是输入层的均值和方差;W

BERT预训练语言模型能够充分利用词左右两边的信息来获得更好的词分布式表示。

3、BILSTM网络

在编码层和解码层都采用双向LSTM(BLSTM)结构。双向LSTM对每个句子分别采用顺序(从第一个词开始,从左往右递归)和逆序(从最后一个词开始,从右向左递归)计算得到两套不同的隐层表示,然后通过向量拼接得到最终的隐层表示。

其中,h

将顺序隐层表示

4、实体识别和关系抽取

在实体识别中,如图2在编码过程中,记文本序列为S=(x

式中

关系抽取中,使用注意力机制实现司法领域实体之间的关系抽取。对第t个字符抽取关系时(即对t时刻输入的字符抽取关系时),以BILSTM神经网络解码后得到

如图2中,当t=6时只需要判断当前时刻字符“持”与“张”“三”字符之间存在关系,对于“在”“某”“地”等O标签不需要判断。在关系抽取中具体计算公式如下:

式中

5、验证分析

选用的司法领域语料库来源于两部分,第一部分为用网络爬虫技术获取司法领域网站信息,包括人民检察院案件信息公开网、裁判文书网、最高人民法院审判业务指导案例、最高人民法院公报发布的公开案例,共计选取294篇文章,共计16万余字;第二部分为司法领域词典《中国现行法律汇编》,包括200万字法律条文,内容涵盖宪法、刑法、国旗法等。在进行适当的数据预处理并手工标注后构建财产纠纷的语料库(数据预处理阶段包括去除文本内的特殊字符如空格,空数据等;去除了一些训练意义不大的部分文本,以及过短的文本;采用jieba分词工具对文本进行分词;使用中国科学院的中文分词工具NLPIR和百度的停用词列表来执行名称识别、文本分割、词性标记和预处理以删除停用词等等),最终选取10000个句子进行实验。抽取5种司法关系并对其进行了分类,分别为:施-受事、时间、工具、方式、结果关系,每种关系获取了2000条数据。其中一半作为训练集进行模型训练,另一半则作为测试集用于评价本发明方法的性能。数据采集与预处理过程如图5所示。

(1)评价指标

命名实体识别及关系抽取的评价指标有精确率P、召回率R和F值。准确率和召回率分别从查准率和查全率两种不同的角度对实体关系抽取效果进行评估。对于实体关系抽取任务来说,准确率P和召回率R是相互影响的,二者存在互补关系,因此采用F1值综合考虑准确率和召回率的信息。具体计算公式如下:T

4.3实验比较

为了有效验证本发明方法的合理性并证明方法中每个模块的必要性,在仿真实验中得到本发明方法的相关数据后,设置的对比试验如下:

1)流水线CNN模型:用CNN进行关系抽取,利用卷积深度神经网络(CDNN)来提取词汇和句子层次的特征,将所有的单词标记作为输入;

2)流水线LSTMAttention模型:该模型采用双向LSTM神经网络模型并加入Attention机制,从而避免了传统工作中复杂的特征工程,并在该任务中取得比较优秀的效果;

3)联合模型:共享编码层.实体识别部分由LSTM-decode层加上一个softmax输出,关系抽取部分由一个CNN层,一个Max Pooling层组成;

4)多头联合模型:与基础模型相差一共享的BERT层。

分别在测试集上进行性能评价实验,并通过整合三次实验的结果,进行数据对比,对比结果如下表3所示。

表3司法实体关系抽取结果

通过表3的实验结果可以看出,总体上看,其精确率、召回率和F1值三方面均有提高:

1.对比联合模型和流水线模型,联合模型均高于流水线模型,说明联合模型优于流水线模型。

2.对比联合模型和多头联合模型,多头联合的F值高于1.61,说明多头联合模型中多头的设计具有一定的优势。

3.对比本发明命名实体识别部分,比多头联合模型的F1值高0.94,关系抽取部分,比多头联合模型的F1值高3.72,说明在在实体识别和关系抽取两任务中均具有较好的效果。

本发明方法有效的解决了一词多义导致的无法构建词向量的问题,并在此数据集上取得了较好的效果;关系抽取阶段,通过对比和调研关系抽取的流水线模型和联合模型的优缺点,构建了新的联合模型,可同时抽取实体和关系,并解决了流水线模型的错误传延和忽略两项子任务间关系的问题。本发明的技术方案得到了中国国家重点研发计划(2018YFC0832200;2018YFC0832201)的部分支持与指导。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 司法领域命名实体及关系联合抽取方法
  • 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置
技术分类

06120113177188