掌桥专利:专业的专利平台
掌桥专利
首页

一种个案图谱创建生成方法及系统

文献发布时间:2024-04-18 19:59:31


一种个案图谱创建生成方法及系统

技术领域

本发明涉及知识图谱技术领域,特别是涉及一种个案图谱创建生成方法及系统。

背景技术

传统的案件想要创建关于个案的知识图谱非常困难,因为案件的数字化是一件相当困难的工作,工作的难点在两方面。一方面,案件的情况千差万别,每个案件都可能有其特殊性,对其数字化会产生不同的数据结构;二是大量的材料都存在于卷宗之中,从这些非标材料中提取有效的信息本身就是一个需要非常耗时的工作。其中,数字化的核心目标是能对所有的案件用计算机进行整体的分析和处理,又要求不同案件之间的数据结构是有一致性的。

发明内容

本发明针对现有技术存在的问题和不足,提供一种个案图谱创建生成方法及系统。

本发明是通过下述技术方案来解决上述技术问题的:

本发明提供一种个案图谱创建生成方法,其特点在于,其包括以下步骤:

S1、获取某一个案的案件类型,根据案件类型从案由模版库中匹配出对应的案由模版;

S2、基于匹配出的案由模版创建个案图谱;

S3、对个案图谱进行实体填充:

针对个案图谱中的基本信息,基于预定义的抽取规则和对应的抽取策略生成对应的数据抽取任务,根据数据抽取任务从信息数据库中抽取该个案的基本信息填充至个案图谱的对应基本信息处;

针对个案图谱中的每一要件,行业专用大模型利用匹配出的案由模版中包含的要件信息自动生成的行为筛选提示词,确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取,在确定好该要件所涉及的实体/三元组对应的待提取行为图谱后,判断待提取行为图谱中关于某一实体的名称或描述与个案图谱中该要件所涉及的对应实体的名称或描述是否完全一致,若完全一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不完全一致则进一步利用行业专用大模型判断待提取行为图谱中该实体的名称或描述与该要件所涉及的对应实体的名称或描述是否一致,若一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不一致则不填充该要件所涉及的对应实体;

其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;

S4、对个案图谱进行补全填充:

针对个案图谱中未能在行为图谱中找到对应的实体信息的待补全实体,依托行业大模型将对应的行为图谱库中所有行为图谱的结构化信息生成对于行为的描述性文字,描述性文字内容包括所有行为图谱中的实体信息,再通过行业专用大模型抽取该描述性文字内容,从中抽取出的实体信息填充补全至个案图谱中对应的待补全实体处;

S5、该个案的个案图谱生成。

本发明还提供一种个案图谱创建生成系统,其特点在于,其包括获取匹配模块、创建模块、实体填充模块和补全填充模块;

所述获取匹配模块用于获取某一个案的案件类型,根据案件类型从案由模版库中匹配出对应的案由模版;

所述创建模块用于基于匹配出的案由模版创建个案图谱;

所述实体填充模块用于对个案图谱进行实体填充:

针对个案图谱中的基本信息,基于预定义的抽取规则和对应的抽取策略生成对应的数据抽取任务,根据数据抽取任务从信息数据库中抽取该个案的基本信息填充至个案图谱的对应基本信息处;

针对个案图谱中的每一要件,行业专用大模型利用匹配出的案由模版中包含的要件信息自动生成的行为筛选提示词,确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取,在确定好该要件所涉及的实体/三元组对应的待提取行为图谱后,判断待提取行为图谱中关于某一实体的名称或描述与个案图谱中该要件所涉及的对应实体的名称或描述是否完全一致,若完全一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不完全一致则进一步利用行业专用大模型判断待提取行为图谱中该实体的名称或描述与该要件所涉及的对应实体的名称或描述是否一致,若一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不一致则不填充该要件所涉及的对应实体;

其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的;

所述补全填充模块用于对个案图谱进行补全填充,从而获得该个案的个案图谱生成:针对个案图谱中未能在行为图谱中找到对应的实体信息的待补全实体,依托行业大模型将对应的行为图谱库中所有行为图谱的结构化信息生成对于行为的描述性文字,描述性文字内容包括所有行为图谱中的实体信息,再通过行业专用大模型抽取该描述性文字内容,从中抽取出的实体信息填充补全至个案图谱中对应的待补全实体处。

本发明的积极进步效果在于:

本发明以案由模板和行为图谱为基础,能够实现个案图谱的创建生成,根据不同案由模板的结构,从行为图谱中提取所需的数据,实现个案图谱的冷启动生成。该方法和系统提供了一套完整的流程,以实现从案由模板到个案图谱的高效生成,为个案分析和知识管理提供了强大工具。

在构建一个全新的个案图谱的过程中,至少一个案由模板和一个或多个行为图谱,通过协同抽取和整合数据,以满足个案图谱的生成需求。

附图说明

图1为本发明较佳实施例的个案图谱创建生成方法的流程图。

图2为本发明较佳实施例的个案图谱创建生成系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本实施例提供一种个案图谱创建生成方法,其包括以下步骤:

步骤101、获取某一个案的案件类型,根据案件类型从案由模版库中匹配出对应的案由模版。

在步骤101中,行业专用大模型分析该个案的案件材料以识别出该个案的案件类型或是以人工指定方式直接指定该个案的案件类型。

其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的。

模型基座是可以选择和切换的,模型基座的设计和训练不在本发明的设计范围内,本发明假定可以在不同的模型基座之间自由切换,并根据应用的效果评估结论对基座模型进行取舍,这有助于保障可以随时切换到更新、更好、能力更强大的模型基座。

步骤102、基于匹配出的案由模版创建个案图谱。案由模版为知识图谱框架,个案图谱为案由模版的实例化。

步骤103、对个案图谱进行实体填充:

针对个案图谱中的基本信息,基于预定义的抽取规则和对应的抽取策略生成对应的数据抽取任务,根据数据抽取任务从信息数据库中抽取该个案的基本信息填充至个案图谱的对应基本信息处。

例如该个案的基本信息包括案件编号、案件的名称、创建时间、创建部门等。

针对个案图谱中的每一要件,行业专用大模型利用匹配出的案由模版中包含的要件信息自动生成的行为筛选提示词,确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取,在确定好该要件所涉及的实体/三元组对应的待提取行为图谱后,判断待提取行为图谱中关于某一实体的名称或描述与个案图谱中该要件所涉及的对应实体的名称或描述是否完全一致,若完全一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不完全一致则进一步利用行业专用大模型判断待提取行为图谱中该实体的名称或描述与该要件所涉及的对应实体的名称或描述是否一致,若一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不一致则不填充该要件所涉及的对应实体。

行为图谱的创建生成参考申请号为2023113165552、发明名称为一种行为图谱创建生成方法及系统的发明专利。

根据案由模版中包含的要件信息,自动生成相应的行为筛选提示词,可以人工进行验证和优化。每个案由模版都应至少包含一个预定义的行为筛选提示词,以确保能够在初始阶段就有足够的信息来筛选行为图谱中的数据。这些提示词的生成过程是自动化的,根据案由模版的内容和要求,能够灵活地生成适用于不同案由的筛选提示词。生成的筛选提示词将在后续的流程中被提交给行业专用大模型,用于指导行为图谱的筛选和个案图谱的生成。

当选定案由模版之后,将会根据案由模版确定行为筛选提示词,生成的行为筛选提示词将被提交给行业专用大模型并指向行为图谱库,行业专用大模型将根据这些行为筛选提示词来寻找符合要求的行为图谱。

根据案由模版可以查询到的行为图谱将不会有数量上的限制。

在步骤103中,确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取的三种策略:

第一种:对对应的行为图谱库进行全局遍历,遍历所有行为图谱,以确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取。

第二种:依托历史数据的积累来确定该要件与对应的行为图谱库中哪一/哪些行为图谱存在关系。

第三种:依托行业专用大模型,提取对应的行为图谱库中行为图谱的关键信息,转换成向量并存储至向量数据库中,然后通过要件与向量的相似度匹配方式来获取该要件对应的行为图谱。

所有通过行为图谱填充的个案图谱实体,都需要保留其来源是哪个行为图谱、哪个实体等关联信息,方便对于数据的来源进行管理。

步骤104、对个案图谱进行补全填充:

针对个案图谱中未能在行为图谱中找到对应的实体信息的待补全实体,依托行业大模型将对应的行为图谱库中所有行为图谱的结构化信息生成对于行为的描述性文字,描述性文字内容包括所有行为图谱中的实体信息,再通过行业专用大模型抽取该描述性文字内容,从中抽取出的实体信息填充补全至个案图谱中对应的待补全实体处。

在步骤104中,针对某一抽取到实体信息的待补全实体,待补全实体为单独的实体或为一个三元组(第一实体—关系—第二实体)中的第一实体,直接将抽取出的实体信息填充补全至该待补全实体处。

待补全实体为一个三元组(第一实体—关系—第二实体)中的第二实体,抽取到的实体信息为第二实体信息,自动再反向提取一次第二实体信息—关系—第一实体信息’,利用行业专用大模型判断第一实体信息’和第一实体信息是否一致,在第一实体信息’和第一实体信息一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体信息,若否则将提取出的第二实体信息填充至该待补全实体处,若是则判断提取出的第二实体信息与第二实体已填充实体信息是否一致,在一致时则表明没有重叠冲突,提取出的第二实体信息无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体信息填充至该待补全实体处并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体信息’和第一实体信息不一致时则表明出现自检冲突,将提取出的第二实体信息填充至该待补全实体处并发出一自检冲突处理任务传给上层应用以待人工处理。

步骤105、该个案的个案图谱生成。

步骤106、判断自动生成的个案图谱是否具有仍未填充的实体,若是则通知采用人工补全机制进行补全操作。

人工补全机制是指在经历实体及关系的抽取后,生成了个案图谱,但是个案图谱依旧存在没有填充的实体,那么可以在页面上通过人工的方式,从行为图谱中选择对应的信息,补充至个案图谱当中,并且保留行为图谱与个案图谱之间的关联关系。

如图2所示,本实施例还提供一种个案图谱创建生成系统,其包括获取匹配模块1、创建模块2、实体填充模块3、补全填充模块4和人工补全通知模块5。

获取匹配模块1用于获取某一个案的案件类型,根据案件类型从案由模版库中匹配出对应的案由模版。

其中获取匹配模块1用于利用行业专用大模型分析该个案的案件材料以识别出该个案的案件类型或是以人工指定方式直接指定该个案的案件类型。

创建模块2用于基于匹配出的案由模版创建个案图谱。

实体填充模块3用于对个案图谱进行实体填充:

针对个案图谱中的基本信息,基于预定义的抽取规则和对应的抽取策略生成对应的数据抽取任务,根据数据抽取任务从信息数据库中抽取该个案的基本信息填充至个案图谱的对应基本信息处。

针对个案图谱中的每一要件,行业专用大模型利用匹配出的案由模版中包含的要件信息自动生成的行为筛选提示词,确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取,在确定好该要件所涉及的实体/三元组对应的待提取行为图谱后,判断待提取行为图谱中关于某一实体的名称或描述与个案图谱中该要件所涉及的对应实体的名称或描述是否完全一致,若完全一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不完全一致则进一步利用行业专用大模型判断待提取行为图谱中该实体的名称或描述与该要件所涉及的对应实体的名称或描述是否一致,若一致则直接将待提取行为图谱中该实体的实体信息填充至该要件所涉及的对应实体处,若不一致则不填充该要件所涉及的对应实体。

其中,行业专用大模型为基于优选的模型基座并使用行业专有的任务设计和相关数据集进行微调和强化学习得到的大语言模型,模型基座为可切换的。

其中实体填充模块3用于确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取的三种策略:

第一种:对对应的行为图谱库进行全局遍历,遍历所有行为图谱,以确定该要件所涉及的实体/三元组从对应的行为图谱库中哪一/哪些行为图谱中提取。

第二种:依托历史数据的积累来确定该要件与对应的行为图谱库中哪一/哪些行为图谱存在关系。

第三种:依托行业专用大模型,提取对应的行为图谱库中行为图谱的关键信息,转换成向量并存储至向量数据库中,然后通过要件与向量的相似度匹配方式来获取该要件对应的行为图谱。

补全填充模块4用于对个案图谱进行补全填充,从而获得该个案的个案图谱生成:针对个案图谱中未能在行为图谱中找到对应的实体信息的待补全实体,依托行业大模型将对应的行为图谱库中所有行为图谱的结构化信息生成对于行为的描述性文字,描述性文字内容包括所有行为图谱中的实体信息,再通过行业专用大模型抽取该描述性文字内容,从中抽取出的实体信息填充补全至个案图谱中对应的待补全实体处。

其中,补全填充模块4用于针对某一抽取到实体信息的待补全实体,待补全实体为单独的实体或为一个三元组即第一实体—关系—第二实体中的第一实体,直接将抽取出的实体信息填充补全至该待补全实体处。

待补全实体为一个三元组即第一实体—关系—第二实体中的第二实体,抽取到的实体信息为第二实体信息,自动再反向提取一次第二实体信息—关系—第一实体信息’,利用行业专用大模型判断第一实体信息’和第一实体信息是否一致,在第一实体信息’和第一实体信息一致时则表明没有自检冲突,再判断第二实体是否在其它三元组中被已填充实体信息,若否则将提取出的第二实体信息填充至该待补全实体处,若是则判断提取出的第二实体信息与第二实体已填充实体信息是否一致,在一致时则表明没有重叠冲突,提取出的第二实体信息无需填充,在不一致时则表明出现重叠冲突,将提取出的第二实体信息填充至该待补全实体处并生成一重叠冲突处理任务传给上层应用以待人工处理;在第一实体信息’和第一实体信息不一致时则表明出现自检冲突,将提取出的第二实体信息填充至该待补全实体处并发出一自检冲突处理任务传给上层应用以待人工处理。

人工补全通知模块5用于判断自动生成的个案图谱是否具有仍未填充的实体,在为是时通知采用人工补全机制进行补全操作。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

相关技术
  • 一种基于随机森林算法的FBG定位识别方法
  • 一种基于随机森林算法的钻井工况识别方法
技术分类

06120116521726