掌桥专利:专业的专利平台
掌桥专利
首页

事理因果关系抽取方法和系统

文献发布时间:2023-06-19 13:46:35


事理因果关系抽取方法和系统

技术领域

本申请涉及自然语言识别技术领域,特别是涉及事理因果关系抽取方法和系统。

背景技术

特定行业的领域图谱构建往往需要对事件以及事件之间的因果关系进行识别,该任务也被称为事理因果关系抽取。传统方法在“在对正24号跑道过程中,前轮转向故障指示器响起,机长指出他忘了按压油门杆上的前轮转向电门。”这个句子抽取因果时,由于原因“忘按压油门杆上的前轮转向电门”在句子的最后,而传统方法往往会抽取“前因后果”的因果关系,导致原因无法抽取。

现有技术中,一般采用,基于依存句法分析器的抽取方法、基于统计机器学习的抽取方法,或者是以上两者混合使用的集成方法。上述基于依存句法分析的方法无法判断两个事件中哪个事件是因,哪个事件是果,而,现有的统计机器学习方法以及集成方法,需要准备大量的标注数据。

目前针对相关技术中无法准确的判断出具体的原因和结果的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种事理因果关系抽取方法和系统,以至少解决相关技术中无法准确的判断出具体的原因和结果的问题。

第一方面,本申请实施例提供了一种事理因果关系抽取方法,包括以下步骤;

切分句子步骤,对待处理文本通过标点进行断句,获得至少一个子句;

第一因果集合获取步骤,根据子句以及预先定义因果连词,判断子句之间是否存在因果关系,生成第一因果集合,并将对应子句分别定义为因片段和果片段;

第二因果集合获取步骤,根据因片段和果片段利用依存语法分别划分为至少一个候选事件,并判断对应候选事件之间的因果关系,生成第二因果集合,得到因片段和果片段对应的子因片段和子果片段;

因果关系抽取步骤,抽取因片段中的子果片段作为文本核心关系的因,并抽取果片段中的子因片段作为文本核心关系中的果。

在其中一些实施例中,第二因果集合获取步骤还包括,

判断候选事件之间是否存在弱后置因果连词,若存在则判定为其关系为后置因果关系,直接生成第二因果集合,若不存在,则利用依存语法再次判断是否存在因果关系,若存在,则生成第二因果集合。

上述弱后置因果连词至少包括指出、大概、发源、可能是、估计、取决于、出于以及立足。

在其中一些实施例中,获取候选事件的步骤具体包括:

利用依存句法分析子句并获得一依存句法树,查看依存句法树中的节点并判断相邻节点上对应词的词性标注,若为名词和动词,则将其组合为候选事件。

在其中一些实施例中,第二因果集合获取步骤中当不存在弱后置因果连词时,利用依存语法再次判断是否存在因果关系的步骤具体包括:

通过查询依存句法树中的依存路径,描述各个节点之间的依存关系,基于特定领域语法库,判断各个候选事件之间是否存在因果关系。

在其中一些实施例中,预先定义因果连词包括高优先级因果连词和低优先级因果连词,采用高优先级因果连词和低优先级因果连词依次判断所述子句是否存在因果关系,其中,

高优先级因果连词至少包括造成和导致,低优先级因果连词至少包括挟带、触发、关系、渗入、诱惑、波及以及诱使。

第二方面,本申请实施例提供了一种事理因果关系抽取系统,包括:

切分句子模块,对待处理文本通过标点进行断句,获得至少一个子句;

第一因果集合获取模块,根据子句以及预先定义因果连词,判断子句之间是否存在因果关系,生成第一因果集合,并将对应子句分别定义为因片段和果片段;

第二因果集合获取模块,根据因片段和果片段利用依存语法分别划分为至少一个候选事件,并判断对应候选事件之间的因果关系,生成第二因果集合,得到因片段和果片段对应的子因片段和子果片段;

因果关系抽取模块,抽取因片段中的子果片段作为文本核心关系的因,并抽取果片段中的子因片段作为文本核心关系中的果。

在其中一些实施例中,第二因果集合获取模块还可以判断候选事件之间是否存在弱后置因果连词,若存在则判定为其关系为后置因果关系,直接生成第二因果集合,若不存在,则利用依存语法再次判断是否存在因果关系,若存在,则生成第二因果集合。

在其中一些实施例中,当不存在弱后置因果连词时,利用依存语法再次判断是否存在因果关系时,第二因果集合获取模块通过查询依存路径,描述各个节点之间的依存关系,基于特定领域语法库,判断各个候选事件之间是否存在因果关系。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的事理因果关系抽取方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的事理因果关系抽取方法。

相比于相关技术,本申请实施例提供的事理因果关系抽取方法和系统,本申请实施例可以应用于知识图谱技术领域,还可以应用于知识推理技术领域,通过对子句和候选事件进行分析,分别构建第一因果集合和第二因果集合,得到文本的核心关系,可以识别出后因前果的因果关系,并将原因和结果进行准确抽取,从而提升事理因果关系识别的有效性。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的事理因果关系抽取方法的流程图;

图2是根据本申请实施例的另一种事理因果关系抽取方法的流程图;

图3是根据本申请优选实施例的事理因果关系抽取方法的流程图;

图4是根据本申请实施例的事理因果关系抽取系统的结构框图;

图5为根据本申请实施例的计算机设备的硬件结构示意图。

其中:

切分句子模块1;第一因果集合获取模块2;

第二因果集合获取模块3;因果关系抽取模块4;处理器81;存储器82;

通信接口83;总线80。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本申请实施例中,事理因果关系是指对事件以及其进行识别,得到由存在因果关系的事件A和事件B构成的三元组。

原因后置是指,句子先描述事件的结果,在指出导致结果的原因。前因后果是指句子先描述原因,在描述结果。

本实施例还提供了一种事理因果关系抽取方法。图1是根据本申请实施例的事理因果关系抽取方法的流程图,如图1所示,该流程包括如下步骤:

切分句子步骤S1,对待处理文本通过标点进行断句,获得至少一个子句;

第一因果集合获取步骤S2,根据子句以及预先定义因果连词,判断子句之间是否存在因果关系,生成第一因果集合,并将对应子句分别定义为因片段和果片段;

第二因果集合获取步骤S3,根据因片段和果片段利用依存语法分别划分为至少一个候选事件,并判断对应候选事件之间的因果关系,生成第二因果集合,得到因片段和果片段对应的子因片段和子果片段;

因果关系抽取步骤S4,抽取因片段中的子果片段作为文本核心关系的因,并抽取果片段中的子因片段作为文本核心关系中的果。

通过上述步骤,通过对子句和候选事件进行分析,分别构建第一因果集合和第二因果集合,得到文本的核心关系,可以识别出后因前果的因果关系,并将原因和结果进行准确抽取,从而提升事理因果关系识别的有效性。

上述的依存句法是由法国语言学家L.Tesniere最先提出,它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。

在其中一些实施例中,预先定义因果连词包括高优先级因果连词和低优先级因果连词,采用高优先级因果连词和低优先级因果连词依次判断所述子句是否存在因果关系,其中,高优先级因果连词至少包括造成和导致,低优先级因果连词至少包括挟带、触发、关系、渗入、诱惑、波及以及诱使。

上述步骤中,首先使用高优先级连词匹配强因果关系,然后再使用低优先级因果连词匹配次强因果关系,这样更有利于匹配到更重要的文本核心关系,后续的因果关系的抽取也是围绕文本核心关系进行的,还可以有效提高抽取的效率和准确性。

在其中一些实施例中,第二因果集合获取步骤S3还包括,

判断候选事件之间是否存在弱后置因果连词,若存在则判定为其关系为后置因果关系,直接生成第二因果集合,若不存在,则利用依存语法再次判断是否存在因果关系,若存在,则生成第二因果集合。

通过上述步骤,可以有效的判定候选事件之间是否存在因果关系。

上述弱后置因果连词包括指出、大概、发源、可能是、估计、取决于、出于以及立足等。反之若存在其他因果连词即为前因后果。

在其中一些实施例中,获取候选事件的步骤具体包括:

利用依存句法分析子句并获得一依存句法树,查看依存句法树中的节点并判断相邻节点上对应词的词性标注,若为名词和动词,则将其组合为候选事件。

需要说明的是,使用依存句法抽取因果片段时,查看依存句法树上的节点,若为名词和动词词组(VP,NP),则它们可以组合为一个候选事件,同时如果一个子句中若存在多个(VP,NP)的组合,可以按照(VP,NP)和(VV,(NP,NP)拆解为多个候选事件。

在其中一些实施例中,第二因果集合获取步骤中当不存在弱后置因果连词时,利用依存语法再次判断是否存在因果关系的步骤具体包括:

通过查询依存路径,描述各个节点之间的依存关系,基于特定领域语法库,判断各个候选事件之间是否存在因果关系。

在某些子句或候选事件之间缺乏高优先级的因果连词时,通过上述步骤,可以得到前置因果和后置因果。既能抽取后置因果,也不会在强行抽取后置因果时,影响其他前置因果的表达。

需要说明的是,在得到后置原因的因果后,再将该因果合并为一个事件,此时的线性构建要以后因前果来构建,不能按照事件出现但顺序构建。

本实施例还提供了一种事理因果关系抽取方法。图2是根据本申请实施例的另一种事理因果关系抽取方法的流程图,如图2所示,该流程包括如下步骤:

S201,首先输入句子,使用关键字抽取因果关系,并切分句子,得到若干个子句,并生成第一因果集合;

S202,根据子句使用依存语法划分候选事件;

S203,判断候选事件是否存在弱后置因果连词,若存在则判定构成后置因果,直接生成第二因果集合,若不存在执行S204;

S204,使用依存语法判断候选事件之间是否存在因果关系,并根据识别到的因果关系生成第二因果集合;

S205,将第二因果集合合并到第一因果集合,第一因果集合中的一些因果字句被拆解因果关系,并将最终的因果关系以及具体的因果进行输出。

通过上述步骤,第二因果集合辅助第一因果集合中的因果关系,确定最终的因果关系和具体的因果,提高了因果识别的效率以及有效性。

下面通过优选实施例对本申请实施例进行描述和说明。

图3是根据本申请优选实施例的事理因果关系抽取方法的流程图。

S301,初步判断子句之间是否存在因果关系。

对于待处理的文本,使用逗号断句后使用预先定义的高优先级因果连词判断子句之间是否存在因果关系,比如“造成,导致”这类是表示了语句存在明显的原因,而“挟带、触发、关系、渗入、诱惑、波及、诱使”这类词表现的是优先级不高的因果连词。

优先使用高优先级连词匹配,然后再使用低优先级连词匹配其他因果关系,这样更有利于匹配到更重要的核心关系,后续因果关系的抽取围绕该核心关系进行。

S3021,当缺乏有效关键词抽取因果关系时,判定没有核心关系,若无核心关系,使用依存句法分析切分语句后,将有关联的候选事件按照前因后果构造因果关系,当使用依存句法分析仍无法切分,则判定该文本代表一个事件。

S3022,在抽取核心关系后使用依存句法分析进一步得到因果片段,并构建关系集合。

因果片段围绕核心关系构建,核心关系会将语句切分为因果两段;在两段内分别构建线性因果,并将因片段中抽取的果作为核心关系的因,核心关系的果则由果片段的因获得。

上述过程,使用依存句法抽取因果片段时,查看依存句法树上的节点,若为名词和动词词组(VP,NP),则它们可以组合为一个候选事件,同时如果一个子句中若存在多个(VP,NP)的组合,可以按照(VP,NP)和(VV,(NP,NP)拆解为多个候选事件。进而使用以下方法判断候选事件之间是否存在因果关系。

因果关系(包括前置原因和后置原因)抽取:查看两个候选事件之间是否存在低优先级的因果连词,如是否存在“指出,大概,发源,可能是,估计,取决于,出于,立足”等关键字表明因果后置,反之若存在其他因果连词即为前因后果。

在某些子句或候选事件之间缺乏高优先级的因果连词时,通过上述步骤,可以得到前置因果和后置因果。既能抽取后置因果,也不会在强行抽取后置因果时,影响其他前置因果的表达。

但在得到后置原因的因果后,再将该因果合并为一个事件,此时的线性构建要以后因前果来构建,不能按照事件出现的顺序构建。这样做的目的是,后置原因的因果关系按照后因前果构建;将后因前果关系合并为一个事件,是逻辑上当作一个事件处理,如B为合并后的事件(其中C和D构成因果关系,C导致D),此时若有A导致C和A导致D的两个因果关系,则判断A导致D是错误的,完整的应为:A导致C,C再导致D。

线性因果关系建模方法是常用分析方法之一,包括回归分析、路径分析和结构方程模型。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种事理因果关系抽取系统,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的事理因果关系抽取系统的结构框图,如图4所示,该系统包括:

切分句子模块1,对待处理文本通过标点进行断句,获得至少一个子句;

第一因果集合获取模块2,根据子句以及预先定义因果连词,判断子句之间是否存在因果关系,生成第一因果集合,并将对应子句分别定义为因片段和果片段;

第二因果集合获取模块3,根据因片段和果片段利用依存语法分别划分为至少一个候选事件,并判断对应候选事件之间的因果关系,生成第二因果集合,得到因片段和果片段对应的子因片段和子果片段;

因果关系抽取模块4,抽取因片段中的子果片段作为文本核心关系的因,并抽取果片段中的子因片段作为文本核心关系中的果。

在其中一些实施例中,第二因果集合获取模块3还可以判断候选事件之间是否存在弱后置因果连词,若存在则判定为其关系为后置因果关系,直接生成第二因果集合,若不存在,则利用依存语法再次判断是否存在因果关系,若存在,则生成第二因果集合。

在其中一些实施例中,第二因果集合获取模块3还可以获取候选事件,具体为,利用依存句法分析子句并获得一依存句法树,查看依存句法树中的节点并判断相邻节点上对应词的词性标注,若为名词和动词,则将其组合为候选事件。

在其中一些实施例中,当不存在弱后置因果连词时,利用依存语法再次判断是否存在因果关系时,第二因果集合获取模块通过查询依存路径,描述各个节点之间的依存关系,基于特定领域语法库,判断各个候选事件之间是否存在因果关系。

预先定义因果连词包括高优先级因果连词和低优先级因果连词,采用高优先级因果连词和低优先级因果连词依次判断子句是否存在因果关系,其中,高优先级因果连词至少包括造成和导致,低优先级因果连词至少包括挟带、触发、关系、渗入、诱惑、波及以及诱使。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外,结合图1描述的本申请实施例事理因果关系抽取方法可以由计算机设备来实现。图5为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种事理因果关系抽取方法。

在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该计算机设备可以基于待处理文本通过断句处理获取到的子句,执行本申请实施例中的事理因果关系抽取方法,从而实现结合图1描述的事理因果关系抽取方法。

另外,结合上述实施例中的事理因果关系抽取方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种事理因果关系抽取方法。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 事理因果关系抽取方法和系统
  • 基于大数据的动态系统事理灾变因果推断方法和系统
技术分类

06120113807396