一种面向用户的多轮问答法律文书实体关系抽取方法

文献发布时间：2023-06-19 10:48:02

技术领域

本发明涉及文本处理技术领域，尤其涉及一种面向用户的多轮问答法律文书实体关系抽取方法。

背景技术

信息抽取是从自然语言文本中，抽取出特定的事件或事实信息，帮助人们将海量内容自动分类、提取和重构。这些信息通常包括实体、关系、事件。例如从法律文本中案件时间、案发地点、关键人物等。

实体抽取和关系抽取是信息抽取中两个关键的子任务，这两个任务合并到一起，就是所谓的实体关系抽取，其主要目的是抽取句子中已标记实体对之间的语义关系，即在实体识别的基础上确定无结构文本中实体对间的关系类别，并形成结构化的数据以便存储和取用。实体关系抽取在机器翻译、机器阅读理解方面具有重要的研究意义。

现有法律文本实体关系抽取技术还有诸多不足之处：难以抽取文本中存在层级性的依赖关系、对实体间距较远的关系抽取效果不好、难以处理实体与关系交叉重叠的一句话。

鉴于此，如何高效合理地抽取法律文本的实体关系，并且这些信息是用户所感兴趣的，从而对法律案件进一步理解与分析，成为法律文本处理领域亟需处理的问题，本发明提供一种面向用户的多轮问答法律文书实体关系抽取方法。

发明内容

本发明的目的在于，提供了一种面向用户的多轮问答法律文书实体关系抽取方法，共同完成满足用户查询需求的实体关系抽取任务。

为实现上述目的，本发明提供如下技术方案：

一种面向用户的多轮问答法律文书实体关系抽取方法，其特征在于：问题模板引擎提供的问题展示给用户，在获取用到户选择的问题后，判断是否存储过该文书的该问题，若有，直接输出答案；若无，将其问题分析，对该问题进行分析处理，得到答案，输出并存储该文书的问题及答案；将输出的答案传入到前端进行显示，根据答案动态选择之后的问题模板序列；之后重复上述过程直到用户无输入为止；其中，分析处理的方法步骤包括：

通过卷积和注意力把问题编码为一个固定的向量，将其拼接到文书的每个词向量中；在词向量中拼接位置向量、人工特征，得到一个混合了问题、文书信息的特征序列；接多层卷积进行编码处理，然后使用BEMO的序列标注方法直接对序列进行标注；每个词的表示反馈给sigmoid层来输出BMEO标签，获得答案的位置标记。

与现有技术相比，本发明一种面向用户的多轮问答法律文书实体关系抽取方法有益效果在于，在实体关系抽取的任务上，将其转换为一个问答的任务，用一种自然且交互友好的方式完成了信息抽取的任务，以多轮问答的形式进行迭代信息抽取的方式能很好地捕捉层级化的依赖关系，通过分析处理方法实现对法律文书实体的关系处理，满足对法律问答更加贴合用户的需求。

附图说明

图1为本发明面向用户的多轮问答法律文书实体关系抽取方法的流程示意图；

图2为本发明面向用户的多轮问答法律文书实体关系抽取方法中分析处理的方法的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为一种面向用户的多轮问答法律文书实体的关系抽取方法的流程图，本发明提供一种面向用户的多轮问答法律文书实体的关系抽取方法包括如下：

问题模板引擎提供的问题展示给用户，在获取用到户选择的问题后，判断是否存储过该文书的该问题，若有，直接输出答案；若无，对其问题分析，对该问题进行分析处理，得到答案，输出并存储该文书的问题及答案；将输出的答案传入到前端进行显示，根据答案动态选择之后的问题模板序列；之后重复上述过程直到用户无输入为止。

详细的，其抽取方法步骤如下：

S1：为用户展示问题列表以及针对用户提出的问题系统提供的回答结果；

具体的，为用户展示法律文书相关问题列表以及针对用户提出的问题系统提供的回答，这个答案同时也是法律文书实体关系的抽取结果。问题列表中的第一条问题通常包含一个实体，比如“案件被害人是谁？”

S2：根据不同案件类型预设的不同问题模板序列，其中问题模板序列中除了第一条问题模板之外，序列中剩余的问题模板都留有至少一个内容嵌入槽，前一问答案的部分内容将会填入这个内容嵌入槽中，从而生成一个新的问题；

除第一条问题外，剩余的问题都和之前问题的答案相关，用户可在界面中根据自己的需要选择下一个问题，系统提供并显示的答案即为用户所希望得到的实体或关系。

具体的，问题模板序列中除了第一条问题模板之外，序列中剩余的问题模板都留有至少一个内容嵌入槽，前一道问题答案的部分内容将会填入这个内容嵌入槽中，从而生成一个新的问题。

问题模板序列将会根据用户与系统的每一轮问答进行动态调整以满足实体关系间的层次联系。

S3：根据用户输入的问题在给定的文本段中抽取输入问题的答案并将其输出，其中答案段的选取是根据序列标注模型及深度神经网络模型来预测答案起始位置和终止位置的索引；

其中，机器阅读分析模块的主要功能是根据用户输入的问题在给定的文本段中抽取输入问题的答案并将其输出。机器阅读分析模块内部的序列标注模型基于BEMO的序列标注方法，即标注这4个标签beginning(表示起始)，inside(表示内部)，ending(表示终止)，outside(表示外部)。如果机器阅读分析模块对于给定的问题没有答案，说明问题所涉及的实体或关系不存在。

答案段的选取是根据机器阅读分析内序列标注模型及深度神经网络模型来预测答案起始位置和终止位置的索引。

S4：为了利用多轮问答的答案对后续的问题及答案都会产生影响这一特性的辅助作用，使用强化学习的方法定义了行为、策略和奖励来进一步提升实体关系抽取的性能；

S5：存储给定的法律文书中用户提出的问题及系统的答案，以针对不同用户对同一法律文本提出同一问题的情况，系统将会提取使用内容。

每一段的多轮问答流程都由一个实体触发，实体关系抽取的顺序是根据问题模板引擎生成的问题模板序列预定义的，每种实体都和一个由问题模板引擎生成的特定类型的问题相联系。

图2为本发明面向用户的多轮问答法律文书实体关系抽取方法中分析处理的方法的流程示意图。在上式步骤3中的分析处理方法包括以下步骤：

步骤31.通过卷积和注意力把问题编码为一个固定的向量，将其拼接到文书的每个词向量中；

卷积方法是基于如下模型的卷积过程完成的：

其中，X＝[x

注意力方法是通过如下的卷积过程完成的：

其中，α，W是可训练参数，Act是激活函数。一般会取tanh函数，也可以考虑swish函数。

步骤32：在词向量中拼接位置向量、人工特征，得到一个混合了问题、文书信息的特征序列；

位置向量构造方法为：

上式表示将id为p的位置映射成一个dpos维的位置向量，这个向量的第i个元素的数值记为PE

步骤33：接多层卷积进行编码处理，然后使用BEMO的序列标注方法直接对序列进行标注；

步骤34：每个词的表示反馈给sigmoid层来输出BMEO标签，得到答案的位置标记。

S4步骤中，训练过程中，共同训练了提取头部实体和提取尾部实体及关系这两个阶段的目标函数：

其中，λ∈[0，1]是控制两个目标函数之间权衡的参数，这个值的大小是在验证集上调整的。

其中w

S4步骤的强化学习的主要功能是利用多轮问答的答案对后续的问题及答案都会产生影响这一特性利用强化学习辅助机器阅读分析模块的性能提升。

强化学习中，行为定义为每轮问答选择一个文本段，策略定义为在给定问题和上下文后选择该文本段后的概率。

进一步地，对于基于BEMO标注输出的方法，策略即选择一个文本段{w

其中，B，E，M为BEMO标记。

强化学习并非从头开始初始化策略网络，而是利用S3步骤内中预训练的头部实体和尾部实体抽取模型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李参宏;
专利申请人：江苏网进科技股份有限公司;

上一篇：一种自动生成法律文本标记事件的方法
下一篇：一种用于确认法律案件相似关系的方法