掌桥专利:专业的专利平台
掌桥专利
首页

基于实体关系联合抽取的法律知识图谱构建方法及设备

文献发布时间:2023-06-19 12:05:39


基于实体关系联合抽取的法律知识图谱构建方法及设备

技术领域

本发明属于电子信息领域,具体涉及一种基于实体关系联合抽取的法律知识图谱构建方法及设备。

背景技术

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论,能为学科研究提供切实的、有价值的参考。

知识图谱分为通用知识图谱与领域知识图谱两类。这两种知识图谱主要存在覆盖范围和使用方式上的差异。通用知识图谱面向通用领域,主要包含了大量现实世界中的常识性知识,覆盖面广。领域知识图谱又称为行业知识图谱或垂直知识图谱,是面向某一特定领域的,是由该领域的专业数据构成的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。领域知识图谱是面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱的知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。

面向法律领域的知识图谱构建与研究现今仍然较为匮乏,在法律发展较为快速全面的如今,法律领域知识图谱的需求也渐渐浮现。领域知识图谱的构建需要大量该领域的信息,如何从海量的无结构或半结构中抽取出有价值的信息,引起了众多学者的关注,信息抽取技术应运而生。其中构建知识图谱主要用到信息抽取中的实体抽取和关系抽取子任务。实体抽取技术,又称命名实体识别技术,是指识别抽取文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。关系抽取的主要任务是抽取文本中实体之间的关系。通常将实体和实体之间的关系形式化地描述为三元组的关系,其中h,t表示头实体和尾实体,r表示实体之间的关系。例如,在“《霸王别姬》的导演是陈凯歌”这句话中,“《霸王别姬》”和“陈凯歌”都是实体,两个实体之间的关系是“导演”关系,用三元组就可以表示为<《霸王别姬》,导演,陈凯歌>,信息抽取的主要目的就是在大量无结构或半结构文本中抽取出三元组形式的数据,最终由大量的三元组构成知识图谱。然而,传统的信息抽取技术采用的是一种pipeline的方式,对于非结构化的文本,先进行实体抽取,然后在实体抽取结果的基础上进行关系抽取,这样做有一个很大的弊端,一旦实体抽取的结果出错,将会很大程度上影响关系抽取的准确率,这样就会导致错误的传递。

发明内容

本发明目的在于针对现有技术中法律领域知识图谱构建准确率不能保证的问题,提供一种基于实体关系联合抽取的法律知识图谱构建方法及设备,得到准确率较高的知识图谱。

为了实现上述目的,本发明有以下的技术方案:

一种基于实体关系联合抽取的法律知识图谱构建方法,包括以下步骤:

-三元组数据集的构建;

将法律文本语句拆分成短句的形式;

将短句中缺省的主语补全;

从短句中抽取三元组,构建三元组数据集;

-模型架构的设计和模型的训练;

模型架构包括模型编码层、头实体抽取层以及关系-尾实体抽取层;

具体的,模型编码层使用bert预训练模型;

头实体抽取层使用两个BiLSTM作为二分类器,将文本的编码作为分类器的输入,输出信息中,第一个BiLSTM二分类器对应的实体起始位置输出为1,其余位置输出都为0,第二个BiLSTM二分类器对应的实体结束位置输出为1,其余位置输出都为0;

关系-尾实体抽取层,将头实体的编码信息与句子的编码相结合作为输入,对于每个头实体,找到每个关系下可能存在的尾实体,最终得到完整的三元组;

-文本句间关系判断;

对于未进行短句拆分的法律文本语句,判断各个短句之间的关系;

-三元组复合与图谱可视化;

根据模型抽取出的三元组结合文本句间关系,得到法律文本对应的复合三元组;

法律知识图谱的可视化。

作为本发明基于实体关系联合抽取的法律知识图谱构建方法的一种优选方案,构建三元组数据集时将主语和宾语分别作为头实体和尾实体,将谓语作为关系。

作为本发明基于实体关系联合抽取的法律知识图谱构建方法的一种优选方案,根据标注的关系确定关系集合,合并语义相同或相似的关系。

作为本发明基于实体关系联合抽取的法律知识图谱构建方法的一种优选方案,头实体抽取层以bert编码层输出的特征向量x

其中x

作为本发明基于实体关系联合抽取的法律知识图谱构建方法的一种优选方案,关系-尾实体抽取层采用两个结构相同的BiLSTM组成,该层模型的输入包括句子的特征向量h

其中,向量h

本发明还提供一种基于实体关系联合抽取的法律知识图谱构建系统,包括:

三元组数据集构建模块,用于将法律文本语句拆分成短句的形式,并能够将短句中缺省的主语补全,最终从短句中抽取三元组,构建三元组数据集;

模型建立和训练模块,用于对模型架构中的模型编码层、头实体抽取层以及关系-尾实体抽取层分别构建,经过训练得到能够抽取出三元组的模型;

句间关系判断模块,用于对未进行短句拆分的法律文本语句,判断各个短句之间的关系;

知识图谱可视化模块,用于根据模型抽取出的三元组结合文本句间关系,得到法律文本对应的复合三元组,并实现法律知识图谱的可视化。

本发明还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于实体关系联合抽取的法律知识图谱构建方法的步骤。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于实体关系联合抽取的法律知识图谱构建方法的步骤。

相较于现有技术,本发明有如下的有益效果:

现有的知识图谱构建方法往往采用的是pipeline的思想,先进行实体抽取,并以实体抽取的结果进行关系抽取,这样会导致错误的累计。本发明利用一种基于实体关系联合抽取的模型,对合同法领域的非结构化文本进行三元组抽取,最终构建出法律领域的知识图谱,本发明能够避免pipeline方法导致的错误传递,准确率高。本发明模型架构的设计采用了中文bert预训练模型作为编码器,对中文的文本编码效果好。由于法律领域的实体是短语形式,因此,实体抽取部分采用两个BiLSTM二分类器来判别实体的起始位置和结束位置,可以有效地抽取出文本中短语形式的实体。本发明给定一段文本,先抽取头实体,再由抽取到的头实体抽取对应实体关系的尾实体。抽取实体关系和尾实体时不仅用到了句子的编码信息,还融入了头实体的编码信息。本发明能够得到准确率较高的法律知识图谱,构建完成的知识图谱可以结合深度学习技术实现合同法领域的问答推理及相关推荐等功能。

附图说明

图1是本发明实施例合同法知识图谱构建方法流程图;

图2是本发明实施例模型训练构建的数据集样例图;

图3是本发明实施例从文本抽取三元组的模型架构图;

图4是本发明实施例抽取三元组模型的训练和使用示意图;

图5是本发明实施例构建的知识图谱可视化示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

本发明提出一种基于实体关系联合抽取的法律知识图谱构建方法,实施例以合同法为例进行说明,本发明可以利用给定的合同法文本,同时进行实体抽取和关系抽取,最终得到完整的三元组信息。由抽取到的三元组首尾连接即可构成合同法知识图谱。构建完成的知识图谱可以结合深度学习技术实现合同法领域的问答推理及相关推荐等功能。

实体抽取:对于任何一个完整的合同法文本语句,都可以将其分解为(h,r,t)的形式,h表示头实体,r表示实体关系,t表示尾实体。实体抽取表示抽取出文本中的头实体和尾实体。

关系抽取:这里的关系指的是实体之间的关系或实体的属性,这一步通常在头实体和尾实体抽取完成后抽取对应的实体关系。

联合抽取:不同于以往的实体抽取和关系抽取各自独立分别进行,联合抽取所抽取到的实体和关系互相影响,采用联合抽取可以减少由实体抽取导致的错误传递问题。

参见图1,本发明实施例基于实体关系联合抽取的合同法图谱构建方法,包括以下步骤:

步骤一、合同法三元组数据集的构建,包括:

1.1)将复杂的合同法文本语句拆分成简单短句的形式。

根据合同法文本语句本身特点,绝大部分合同法文本都是由两个及以上短句构成,且短句之间都存在一定的逻辑关系。如合同法第九条“当事人订立合同,应当具有相应的民事权利能力和民事行为能力”。为了准确抽取出文本中的三元组,需要将其拆分成多个短句的形式。本例可以得到两个短句“当事人订立合同”和“应当具有相应的民事权利能力和民事行为能力”。

1.2)利用零指代消解方面的技术解决因短句拆分导致的主语缺失问题。

经过第1步得到的拆分后的文本短句会存在部分短句中主语缺失的现象,这会影响后续三元组的抽取工作,因此需要将缺省的主语补全。本方法采用开源工具pyltp结合依存句法分析的方法对缺省部分进行句法分析,并补全缺省的主语。第1步中的例子经过主语补全后的结果为短句“当事人订立合同”和“(当事人)应当具有相应的民事权利能力和民事行为能力”。

1.3)合同法三元组数据集的构建;

对于进行主语补全的短句,可以从中抽取出需要的三元组。为了保证三元组抽取模型的性能,需要人工标注三元组数据以训练模型。一个完整的句子通常由主语、谓语和宾语三部分构成,因此在标注数据时,将句子的主语和宾语分别作为头实体和尾实体,将谓语作为关系初步标注。标注部分三元组后,根据标注的关系确定关系集合,合并语义相同或相似的关系,如关系“概念”和关系“定义”语义相似,将关系“定义”统一化为关系“概念”。图2是部分标注的三元组示例。最终得到人工标定的三元组798个,实体关系集合中包含25个关系。

步骤二、模型架构的设计和模型的训练,包括:

2.1)模型架构的设计;

三元组训练数据标注完成后,下面进行实验模型的设计,本模型的设计主要考虑以下几个方面:第一,bert预训练模型使用了双向Transformer,同时在预训练过程中使用Masked Language Model(MLM)捕获词语级别的表示,这使得词向量从先前只包含前文信息变成了可以学习上下文的信息,在预训练过程中使用Next Sentence Prediction(NSP)捕获句子级别的表示。因此在编码层使用bert预训练模型可以更好地表征句子的深层含义。第二,合同法法条文本中的实体与通用领域的实体有所不同,不仅包含词语实体,还包含短语实体,这样再用传统的NER方法无法准确抽取出短语实体。因此考虑使用两个BiLSTM作为二分类器,将文本的编码作为分类器的输入,输出信息中,第一个BiLSTM二分类器对应的实体起始位置输出为1其余位置输出都为0,第二个BiLSTM二分类器对应的实体结束位置输出为1,其余位置输出都为0。分别提取实体的起始位置和结束位置的位置编码,这样可以根据需要很好地抽取出短语实体。第三,为了使得实体关系和尾实体的抽取充分利用头实体的编码信息,对于模型的实体关系和尾实体抽取部分的输入不只是整个句子的编码信息,而是将头实体的编码信息与句子的编码相结合,这对于实体关系和尾实体的抽取有很好的效果提升。

通过以上的分析,设计了合同法领域实体关系联合抽取的算法模型,模型框架图如图所示。该模型共分为三个部分,分别是模型编码层,头实体抽取层,关系-尾实体抽取层,模型架构图参考图3,各个部分的具体内容如下:

(a)模型编码层

本发明的模型编码层采用的是哈工大讯飞联合实验室在更大规模语料上基于全词Mask的中文预训练模型BERT-wwm-ext,该模型在多项基准测试上获得了进一步的性能提升。利用该模型可以将输入的文本转化为特征向量的形式。

(b)头实体抽取层

该层主要由两个结构相同的BiLSTM组成,以bert编码层输出的特征向量x

其中x

(c)关系-尾实体抽取层

该层的与头实体抽取层相似,也是由两个结构相同的BiLSTM组成,该层模型的输入不再只是句子的特征向量h

其中,向量h

2.2)模型的使用;

参见图4,中间部分为模型的训练过程,模型的输入为合同法法条文本,分别经过bert编码层,头实体抽取层,关系-尾实体抽取层得到模型输出的三元组,然后利用给定的损失函数不断地进行迭代优化,当损失函数值趋于稳定时停止迭代,完成模型的训练,保存训练完成的模型。

对于未包含在测试集中的合同法文本三元组的抽取,利用训练好的模型,将其作为模型的输入,模型的输出即为文本对应的三元组。

步骤三、文本句间关系的判断。

对于未进行短句拆分的合同法文本,利用开源工具pyltp结合规则匹配的方法判断各个短句之间的关系。句间关系包含“条件”、“转折”、“并列”、“因果”四种关系,其中共得到因果关系85例,条件关系194例,转折关系34例,并列关系8例。例如,对于合同法文本“当事人订立合同,应当具有相应的民事权利能力和民事行为能力”,两个短句中抽取到的句间关系的“条件关系”。

步骤四、三元组复合与图谱可视化,包括:

4.1)三元组的整合;

将模型抽取出的三元组,结合过程3得到的句间关系,可以得到合同法文本对应的复合三元组。对于例子“当事人订立合同,应当具有相应的民事权利能力和民事行为能力”,最终可以得到的三元组形式为((当事人,订立,合同),条件,(当事人,应当,具有相应的民事权利能力和民事行为能力))。由此将抽取到的所有三元组进行整合拼接,可以得到完整的合同法知识图谱。

4.2)合同法知识图谱的可视化;

参见图5,是合同法知识图谱可视化后的部分示意图。构建完成的合同法知识图谱可以结合深度学习技术实现合同法领域的问答推理及相关推荐等功能。

一种基于实体关系联合抽取的法律知识图谱构建系统,包括:

三元组数据集构建模块,用于将法律文本语句拆分成短句的形式,并能够将短句中缺省的主语补全,最终从短句中抽取三元组,构建三元组数据集;

模型建立和训练模块,用于对模型架构中的模型编码层、头实体抽取层以及关系-尾实体抽取层分别构建,经过训练得到能够抽取出三元组的模型;

句间关系判断模块,用于对未进行短句拆分的法律文本语句,判断各个短句之间的关系;

知识图谱可视化模块,用于根据模型抽取出的三元组结合文本句间关系,得到法律文本对应的复合三元组,并实现法律知识图谱的可视化。

一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于实体关系联合抽取的法律知识图谱构建方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于实体关系联合抽取的法律知识图谱构建方法的步骤。

所述的计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明的知识图谱构建方法。

处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。存储器可用于存储计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现本发明知识图谱构建系统的各种功能。

以上所述的仅仅是本发明的较佳实施例,并不用以对本发明的技术方案进行任何限制,本领域技术人员应当理解的是,在不脱离本发明精神和原则的前提下,该技术方案还可以进行若干简单的修改和替换,这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

相关技术
  • 基于实体关系联合抽取的法律知识图谱构建方法及设备
  • 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
技术分类

06120113162156