掌桥专利:专业的专利平台
掌桥专利
首页

知识驱动的大语言模型推理方法、装置、设备及介质

文献发布时间:2024-07-23 01:35:21


知识驱动的大语言模型推理方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种知识驱动的大语言模型推理方法、装置、设备及介质。

背景技术

随着人工智能技术在自然语言处理领域的发展,大语言模型(Large Langu-ageModels,LLM)作为一种先进的深度学习架构,在理解和生成人类语言方面取得了重大进步,在指令理解和知识响应生成方面表现出卓越的性能应。

大语言模型利用思维链、思维树等技术强化了推理机制,扩展了模型在推理过程中的中间步骤,在一定程度上提升了大型模型的推理能力,但却无法提高模型的可解释性,因为它们主要依赖于模型自身的知识,缺乏对特定主题的深度理解和实时更新的能力,因此在一定程度上限制了其推理效能的进一步提升。

现有技术中的大语言模型在处理涉及预训练阶段未涵盖的专业领域或时效性强的知识时,由于其依赖于预训练文本数据进行推理和生成,容易出现知识覆盖不全或过时的情况,从而影响其在特定场景下提供准确信息的能力。在缺少足够相关知识的情况下,有可能生成看似合理实则虚构的“幻觉性文本”,以及潜在的有害信息,用户会因为无法准确理解模型生成文本的具体原因或逻辑而感到困惑,可能导致误解或不当解读,对用户来说带来了不可忽视的风险。

而大语言模型的知识更新是一项既耗资又耗时的过程,使得模型在面对快速变化的知识环境时难以实现及时且经济有效的更新,进而降低了其对最新知识和信息的反应速度。

发明人所知的相关技术中,专利号为CN117575026A的申请文件公开了一种“基于外部知识增强的大模型推理分析方法系统及产品”,通过结合大语言模型与知识图谱进行推理以改善模型的知识完备性和准确性,大语言模型用于从非结构化文本中抽取实体信息并转换成适合知识图谱查询的形式,但并未真正参与到推理流程的核心环节,一旦知识图谱本身的结构完整性不足或包含的知识点有所遗漏,即使利用这样的组合方法,大语言模型依然难以确保推理结果的精确性,因此过度依赖于知识图谱质量。

发明内容

本发明提供一种知识驱动的大语言模型推理方法、装置、设备及介质,解决了相关技术中大语言模型可解释性不足、特定领域知识不足、知识更新难度大以及对知识图谱质量高度依赖的问题。

为达到上述目的,本申请采用如下技术方案:

第一方面,提供一种知识驱动的大语言模型推理方法,包括如下步骤:

推理子图生成:通过大语言模型抽取主实体,在外部数据库中匹配关联信息、构建并优化知识结构,生成可查询子图;

子图搜索推理:构建具备将自然语言问题转换为Cypher查询能力的大语言模型,并在所述外部数据库中进行子图检索;

联合图推理:若所述子图搜索推理未检索出答案,则将问题的上一跳知识作为输入在所述外部数据库中获取最相关知识,通过所述大语言模型根据所述最相关知识和所述问题进行联合推理,并生成最终答案。

在第一方面的第一种可能的实现方式中,所述推理子图生成步骤具体包括如下步骤:

主实体抽取:通过大语言模型对给定的问题进行识别和分析关键词或短语,对所述关键词或短语进行语义理解,确定与所述问题最相关的实体;

实体关系匹配:使用预先定义的查询语言与所述外部数据库进行交互,获取与所述问题相关的知识三元组集合;

推理子图生成:通过所述大语言模型基于所述知识三元组集合生成子图结构描述,将所述子图结构描述转换为图形查询语言表达式;同时,将所述知识三元组集合导入图数据库中构建对应的节点和关系,生成推理子图。

基于第一方面的上述任意一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述实体关系匹配步骤具体包括如下步骤:

将所述主实体分别作为主语和宾语进行关系查询,分别获得对应的关系并形成关系集合;

进行尾实体查询,获得尾实体元素;

基于所述主实体、关系集合和尾实体元素构建所述知识三元组集合。

基于第一方面的上述任意一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述子图搜索推理步骤具体包括如下步骤:

种子数据集生成:根据原始数据源提取出领域相关的问题并筛选,生成种子数据集;

粗糙数据集生成:使用所述大语言模型对所述种子数据集中的问题进行泛化,生成Cypher数据并生成粗糙数据集;其中,根据生成的泛化问题,构建相应的领域数据结构,用于生成所述种子数据集;

精选数据集生成:对所述粗糙数据集中的问题进行Cypher验证,对验证后的数据进行人工判断,并结合其他类型Cypher数据生成精选数据集;

使用指令数据集对基座模型进行监督学习微调,获得CypherLLM,并通过人类反馈优化所述CypherLLM;其中,所述指令数据集包括所述精选数据集;

基于所述CypherLLM,将所述问题转化为图数据库能够理解的查询语句,并在图数据库的子图中进行检索。

基于第一方面的上述任意一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述联合图推理步骤具体包括如下步骤:

若所述子图搜索推理未检索出答案,则生成所述问题上一跳知识的Cypher查询语句并在图数据库中获取最相关知识;结合所述大语言模型本身的知识进行联合推理,生成最终答案。

第二方面,提供一种知识驱动的大语言模型推理装置,包括:

推理子图生成模块,用于通过大语言模型抽取主实体,在外部数据库中匹配关联信息、构建并优化知识结构,生成可查询子图;

子图搜索推理模块,用于构建具备将自然语言问题转换为Cypher查询能力的大语言模型,并在所述外部数据库中进行子图检索;

联合图推理模块,用于当所述子图搜索推理未检索出答案时,将问题的上一跳知识作为输入在所述外部数据库中获取最相关知识,通过所述大语言模型根据所述最相关知识和所述问题进行联合推理,并生成最终答案。

在第二方面的第一种可能的实现方式中,所述推理子图生成模块包括:

主实体抽取模块,用于通过大语言模型对给定的问题进行识别和分析关键词或短语,对所述关键词或短语进行语义理解,确定与所述问题最相关的实体;

实体关系匹配模块,用于使用预先定义的查询语言与所述外部数据库进行交互,获取与所述问题相关的知识三元组集合;

推理子图生成模块,用于通过所述大语言模型基于所述知识三元组集合生成子图结构描述,将所述子图结构描述转换为图形查询语言表达式;同时,将所述知识三元组集合导入图数据库中构建对应的节点和关系,生成推理子图。

基于第二方面的上述任意一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述实体关系匹配模块具体用于:

将所述主实体分别作为主语和宾语进行关系查询,分别获得对应的关系并形成关系集合;

进行尾实体查询,获得尾实体元素;

基于所述主实体、关系集合和尾实体元素构建所述知识三元组集合。

基于第二方面的上述任意一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述子图搜索推理模块包括:

种子数据集生成模块,用于根据原始数据源提取出领域相关的问题并筛选,生成种子数据集;

粗糙数据集生成模块,用于使用所述大语言模型对所述种子数据集中的问题进行泛化,生成Cypher数据并生成粗糙数据集;其中,根据生成的泛化问题,构建相应的领域数据结构,用于生成所述种子数据集;

精选数据集生成模块,用于对所述粗糙数据集中的问题进行Cypher验证,对验证后的数据进行人工判断,并结合其他类型Cypher数据生成精选数据集;

微调模块,用于使用指令数据集对基座模型进行监督学习微调,获得Cypher LLM,并通过人类反馈优化所述Cypher LLM;其中,所述指令数据集包括所述精选数据集;

检索模块,用于基于所述Cypher LLM,将所述问题转化为图数据库能够理解的查询语句,并在图数据库的子图中进行检索。

第三方面,提出一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述知识驱动的大语言模型推理方法的步骤。

第四方面,提出一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现如第一方面所述知识驱动的大语言模型推理方法的步骤。

本申请解决了大语言模型在推理过程中存在的特定知识匮乏、幻觉及有害文本生成、知识更新成本高以及推理结果过度依赖知识图谱质量等问题。通过引入外部知识,本申请能够为大语言模型提供充足的知识支撑,使其在特定知识的推理方面更加全面和准确。同时,通过结合知识图谱与大语言模型共同进行推理,提高了推理的透明度和可解释性,增强了推理的准确性,并降低了知识更新的成本。本申请为大语言模型的推理提供了有力的支持,推动了人工智能技术的发展和应用。

附图说明

图1为本申请实施例提供的一种知识驱动的大语言模型推理方法的示意性流程图;

图2为本申请实施例提供的另一种知识驱动的大语言模型推理方法的示意性流程图;

图3为本申请实施例提供的一种推理子图生成的示意性流程图;

图4为本申请实施例提供的一种实体关系匹配的示意性流程图;

图5为本申请实施例提供的另一种实体关系匹配的示意性流程图;

图6为本申请实施例提供的另一种推理子图生成的示意性流程图;

图7为本申请实施例提供的一种子图搜索推理的示意性流程图;

图8为本申请实施例提供的一种数据集构建的示意性流程图;

图9为本申请实施例提供的一种模型微调的示意性流程图;

图10为本申请实施例的提供的一种联合图推理图的示意性流程图;

图11为本申请实施例提供的一种知识驱动的大语言模型推理装置的结构示意图;

图12为本申请实施例提供的一种推理子图生成模块的结构示意图;

图13为本申请实施例提供的一种子图搜索推理模块的结构示意图;

图14为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

本申请中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

以下结合附图及较佳实施例,对申请明实施例提供的一种知识驱动的大语言模型推理方法及装置进行详细说明如后。

大语言模型相对于参数量较小的语言模型,大语言模型在各种自然语言处理任务中展现出了更强大的泛化能力。然而,当前大型模型的推理主要侧重于开发思维链、思维树和思维图等技术,这些方法扩展了模型在推理过程中的中间步骤,虽然在一定程度上提升了大型模型的推理能力,但却无法提高模型的可解释性,因为它们主要依赖于模型自身的知识,因此在一定程度上限制了大型模型的推理能力。

首先,大语言模型通常无法准确回答需要预训练阶段以外的专业知识的问题,尤其是涉及到过时的知识,因为它们只能依赖于预先学习的文本数据进行推理和生成。其次,大语言模型缺乏可解释性和透明度,增加了用户对“幻觉性文本”和“有害文本”风险的担忧。最后,大语言模型的训练过程通常既昂贵又耗时,使得它们很难保持最新的知识。

发明人所知的知识图谱辅助大语言模型进行推理的方法中,如专利号为CN117575026A的申请文件公开的“基于外部知识增强的大模型推理分析方法系统及产品”,通过大模型对待分析语句中蕴含的知识进行提取,得到内部知识图谱三元组;将所述待分析语句输入知识检索模块,得到外部知识图谱三元组;根据所述内部知识图谱三元组和所述外部知识图谱三元组,得到上下文子图,将所述上下文子图输入预先训练好的图神经网络推理分析模块,得到语句分析结果。可见,该方法中大语言模型仅扮演着知识抽取和知识翻译的角色,即实体抽取及参与知识图谱查询语言的翻译,但它并不直接参与知识图谱的推理过程,这种方法在搜索大规模数据库时由于推理路径或者知识欠缺将搜索不到答案,造成错误的推理。

也就是说,(1)大语言模型存在特定知识匮乏的问题:即大语言模型主要依赖于预先学习的文本数据进行推理和生成,在这种情况下,模型会提供相关的信息,但可能不够全面或准确,因为它缺乏对特定主题的深度理解和实时更新的能力。

(2)大语言模型存在幻觉、有害文本生成的问题:即大语言模型会由于自身相应知识匮乏而不受控制地生成带有幻觉的答案,用户会因为无法准确理解模型生成文本的具体原因或逻辑而感到困惑,可能导致误解或不当解读,而且,模型缺乏特定行为的规范,可能会生成不准确或有害的信息,而用户无法理解或辨别。

(3)大语言模型存在知识更新成本高的问题:即大语言模型知识更新往往需要进行预训练或微调,该过程既昂贵又耗时。

(4)大语言模型存在在推理结果过度依赖于知识图谱质量的问题:即大语言模型结合知识图谱推理的推理方法中,大语言模型往往只担当知识抽取和知识翻译的工作,不参与到推理过程中去,因此如果知识图谱推理路径或者知识欠缺,将不能推理出正确答案。

因此,针对上述(1)至(4)方面的不足,本申请实施例提供了一种知识驱动的大语言模型推理方法及装置,为大语言模型提供外部知识,使其在特定知识的推理方面能有充足的知识作为支撑;使大语言模型在推理时有据可循,增强其透明度和可解释性;引入外部知识对大模型推理知识进行更新,大大节约时间和成本;同时,知识图谱与大语言模型共同进行推理,利用大语言模型将知识构造成具备有效推理路径的知识子图并结合知识图谱知识和大语言模型本身的知识进行联合推理,大大提高了推理准确性。

请参见图1-12,本申请实施例提供了一种知识驱动的大语言模型推理方法,如图2所示,本申请实施例的知识驱动的大语言模型推理方法包括如下步骤:

步骤110,推理子图生成:通过大语言模型抽取主实体,在外部数据库库中匹配关联信息、构建并优化知识结构,生成可查询子图。

在对问题进行深度推理时,抽取主实体是至关重要的一步。主实体是指问题中最核心、最具代表性的实体或概念,通过它可以在外部知识库中检索到相关的知识,从而构建推理子图。利用大语言模型执行这一操作可以高效而准确地完成主实体的抽取。

参见图3,上述推理子图生成具体包括如下步骤:

步骤111,主实体抽取:通过大语言模型对给定的问题进行识别和分析关键词或短语,对关键词或短语进行语义理解,确定与问题最相关的实体。

具体来说,首先,模型需要深入理解给定的问题,包括识别问题的关键信息、主题和上下文,以确定可能的主实体。其次,模型可以通过识别问题中的关键词或短语来确定可能的主实体,该关键词或短语通常与问题的主题和焦点相关联。最后,在确定关键词后,模型需要对这些关键词进行语义理解,以确定它们在特定上下文中的含义和重要性,用于排除不相关的实体,并找到与问题最相关的主实体。

步骤112,实体关系匹配:使用预先定义的查询语言与外部数据库进行交互,获取与问题相关的知识三元组集合。

在确定主实体之后,检索与主实体相关的知识,从而有效地从数据库中提取出相关的实体和关系。

参见图4-5,具体来说,可以通过将其输入到外部的RDF数据库中,以执行知识检索并获取相关信息。例如,使用预先定义的SPARQL查询语言来与数据库进行交互,以检索与主实体相关的知识,具体可以包括如下步骤:

112a,将主实体分别作为主语和宾语进行关系查询,分别获得对应的关系并形成关系集合;

112b,进行尾实体查询,获得尾实体元素;

112c,基于主实体、关系集合和尾实体元素构建知识三元组集合。

通过上述实体关系匹配流程和步骤,能够有效地从数据库中提取出相关的实体和关系,从而支持更深入的知识挖掘和分析。

步骤113,推理子图生成:通过大语言模型基于知识三元组集合生成子图结构描述,将子图结构描述转换为图形查询语言表达式;同时,将知识三元组集合导入图数据库中构建对应的节点和关系,生成推理子图。

参见图6,也就是说,在获取与问题相关知识三元组集合后,运用大语言模型对获取的三元组进行专业的子图化处理。该子图化处理过程主要涵盖两个核心方面。

首先,利用大语言模型生成子图结构的详细描述,子图结构描述不仅精准地反映了三元组之间的逻辑关系,还提供了足够的上下文信息及推理路径,以便后续能够顺利完成对应子图的NL2Cypher转换(见下文说明)。通过这一步骤确保了子图结构在逻辑上的连贯性和准确性,为后续的图查询奠定了坚实基础。

同时,进行子图入库操作,即将经过处理的知识三元组集合导入图数据库中。在这一过程中,能够充分利用图数据库的高效存储和查询能力,将三元组转化为图数据库中的节点和关系,从而构建出可查询的子图,不仅提高了数据的可访问性,还使得能够利用图数据库的查询语言对子图进行高效检索。通过上述两个方面的处理,在外部数据库检索相关三元组知识进而利用大语言模型生成具备清晰推理路径的查询子图并且导入图数据库,为后续的问题解答提供了有力的数据支持。

步骤120,子图搜索推理:构建具备将自然语言问题转换为Cypher查询能力的大语言模型,并在外部数据库中进行子图检索。

在获得可查询子图后,我们首先进行K跳的子图搜索推理。如果检索出答案,推理流程结束,输出相关检索结果。

参见图7-9,具体来说,该步骤为了确保推理的准确性和效率,采用NL2Cypher技术。该技术是一种将自然语言转换为Cypher查询语句的方法,而Cypher是Neo4j图数据库所使用的查询语言。基于此,能够将用户输入的问题转化为Neo4j图数据库能够理解的查询语句,进而在子图中进行精确的检索。

进一步地,为了实现NL2Cypher技术的高效应用,本申请实施例的知识驱动的大语言模型推理方法对通用大语言模型进行了微调,主要包括数据构建和模型微调两个关键环节。

示例性的,首先是数据集的构建,参见图7-8,具体包括如下步骤:

步骤121,种子数据集生成:根据原始数据源提取出领域相关的问题并筛选,生成种子数据集。

从原始数据源加载数据,根据加载的数据,提出领域相关的问题,经问题筛选,生成初步的种子数据集,Prompt可以为这些问题创建提示或引导语句。

步骤122,粗糙数据集生成:使用大语言模型对种子数据集中的问题进行泛化,生成Cypher数据并生成粗糙数据集。其中,根据生成的泛化问题,可以构建相应的领域数据结构,用于加载数据,进一步生成种子数据集。

步骤123,精选数据集生成:对粗糙数据集中的问题进行Cypher验证,对验证后的数据进行人工判断,并结合其他类型Cypher数据生成精选数据集。最终得到精选的数据集,用于训练模型。

在上述数据构建的过程中,是在2万条12345数据的基础上,对生成的训练数据进行筛选和检查,以选取高质量的数据作为训练集,包括3000个NL2Cypher问答对(12345领域数据:其他类型数据=7:3),确保最终得到的数据集具有高质量。其中,Cypher数据为12345领域的数据,其他类型Cypher数据为除了12345领域的数据外,还包括的其他类型的Cypher数据。

接着,参见图7、图9,在获得上述精选数据集后,通过lora微调方式对开源模型进行微调,以下是具体的步骤:

步骤124,使用指令数据集对基座模型进行监督学习微调,获得CypherLLM,并通过人类反馈优化CypherLLM。其中,指令数据集包括精选数据集。

基于一个预训练的基座模型,如通义千问开源模型,该模型已经在大量的文本数据上进行了预训练,具有一定的通用语言理解能力。为了微调模型以执行特定任务,需要一个包含指令和对应目标输出的指令数据集。在本实施例中,指令数据集包含了自然语言问题和对应的Cypher查询语句。使用指令数据集对基座模型进行监督学习微调。通过该步骤及过程,模型会学习将输入的自然语言问题映射到正确的Cypher查询语句。微调通常涉及在指令数据集上运行多个训练迭代,调整模型参数以最小化预测输出与目标输出之间的差异。经过微调后,获得微调后的模型,可以称为CypherLLM(Large Language Model),表示该模型已经具备了将自然语言问题转换为Cypher查询的能力。最后,在实际应用中,CypherLLM的性能可以通过人类反馈进行评估和改进。用户可以提供关于模型生成的Cypher查询是否准确以及是否满足需求的反馈,进一步用于模型的持续改进和优化。

步骤125,基于CypherLLM,将问题转化为图数据库能够理解的查询语句,并在图数据库的子图中进行检索。也就是将输入问题转换为cypher语句并在图数据库中进行子图检索。

通过上述微调步骤及过程,大语言模型被定制化以适应特定的任务,即经过微调后的大语言模型具备了NL2Cypher能力,可通过其将问题转换为Cypher查询语句对数据库进行检索完成推理,在Neo4j图形数据库中执行查询和推理,可以更有效地处理特定类型的问题,如果检索出答案,推理流程结束,输出相关检索结果,否则,进行下一步联合推理,联合推理说明如下。

步骤130,联合图推理:若子图搜索推理未检索出答案,则将问题的上一跳知识作为输入在外部数据库中获取最相关知识,通过大语言模型根据该最相关知识和问题进行联合推理,并生成最终答案。

子图检索在寻找问题答案时,若未能匹配到预期结果,意味着所构建的知识子图在某些方面存在知识缺失。此时,单纯依赖知识图谱进行推理可能无法达到满意的效果,因此我们需要结合大语言模型自身的丰富知识来进行联合推理。

参见图10,考虑到问题是K跳的,即问题的答案可能需要跨越多个知识节点才能找到,具备有效推理路径的知识图谱中与其最相关的知识很可能分布在问题的上一跳或下一跳知识里。因此,本申请实施例关注与问题直接相关或间接相关的知识节点,以寻找潜在的答案线索。为了有效利用大语言模型进行联合推理,本申请实施例选择将问题的上一跳知识作为输入。

具体实施过程中,若子图搜索推理未检索出答案,则生成所查询问题上一跳知识的Cypher查询语句并在图数据库中获取最相关知识,进而结合大语言模型本身的知识进行联合推理,生成最终答案。

这样做的原理在于,上一跳知识通常与问题有更直接的联系,它可能包含了问题的背景信息、前提条件或相关概念,这些信息对于大语言模型理解问题并给出准确回答至关重要。通过将上一跳知识输入大语言模型,并结合知识图谱中的其他相关信息,可以构建一个完整的推理环境。大语言模型可以在这个环境中进行深度推理,生成与问题相关的答案或解释。基于此,就能够弥补知识图谱的不足,提供更全面、准确的回答。

与发明人所知的相关技术相比,本申请实施例知识驱动的大语言模型推理方法通过集成问题主实体提取、实体关系匹配、可查询子图生成、子图搜索推理以及联合推理等多个环节,形成了一套完整且连贯的外部知识驱动推理流程,显著提升了推理准确率:

本申请实施例通过构建与问题紧密相关的知识子图,该子图使模型能够结合具体知识,更精准地理解问题背景、分析逻辑关系,并解决无法回答的问题。同时,知识子图还为模型提供了真实可靠的知识来源,有效避免了幻觉问题的产生,并提升了生成文本的质量和安全性。

本申请实施例将推理过程划分为两个关键步骤。首先,进行子图的直接搜索推理,当知识子图所包含的信息足够充分时,此步骤即可直接推导出答案。然而,若所构建的知识子图存在信息缺失或不足的情况,仅依赖子图搜索推理将无法得出准确的结论,可能导致推理错误。在这种情况下,本申请实施例引入第二步推理过程,即检索与问题相关的上一层级知识,并将其与大语言模型内部的知识库相结合,进行联合推理。通过这种方式,不仅能弥补知识子图的信息不足,还能利用大语言模型强大的语义理解和推理能力,提升整体推理的准确性和鲁棒性。

请参见图11,本申请实施例提供了一种知识驱动的大语言模型推理装置,该装置与本申请实施例提供的知识驱动的大语言模型推理方法对应,如图

所示,本申请实施例的知识驱动的大语言模型推理装置实现上述方法实施例的各个过程,且能达到相同的技术效果,包括:

推理子图生成模块1,用于通过大语言模型抽取主实体,在外部数据库中匹配关联信息、构建并优化知识结构,生成可查询子图;

子图搜索推理模块2,用于构建具备将自然语言问题转换为Cypher查询能力的大语言模型,并在所述外部数据库中进行子图检索;

联合图推理模块3,用于当所述子图搜索推理未检索出答案时,将问题的上一跳知识作为输入在所述外部数据库中获取最相关知识,通过所述大语言模型根据所述最相关知识和所述问题进行联合推理,并生成最终答案。

参见图12,所述推理子图生成模块1包括:

主实体抽取模块11,用于通过大语言模型对给定的问题进行识别和分析关键词或短语,对所述关键词或短语进行语义理解,确定与所述问题最相关的实体;

实体关系匹配模块12,用于使用预先定义的查询语言与所述外部数据库进行交互,获取与所述问题相关的知识三元组集合;

推理子图生成模块13,用于通过所述大语言模型基于所述知识三元组集合生成子图结构描述,将所述子图结构描述转换为图形查询语言表达式;同时,将所述知识三元组集合导入图数据库中构建对应的节点和关系,生成推理子图。

所述实体关系匹配模块12具体用于:

将所述主实体分别作为主语和宾语进行关系查询,分别获得对应的关系并形成关系集合;

进行尾实体查询,获得尾实体元素;

基于所述主实体、关系集合和尾实体元素构建所述知识三元组集合。

参见图13,所述子图搜索推理模块2包括:

种子数据集生成模块21,用于根据原始数据源提取出领域相关的问题并筛选,生成种子数据集;

粗糙数据集生成模块22,用于使用所述大语言模型对所述种子数据集中的问题进行泛化,生成Cypher数据并生成粗糙数据集;其中,根据生成的泛化问题,构建相应的领域数据结构,用于生成所述种子数据集;

精选数据集生成模块23,用于对所述粗糙数据集中的问题进行Cypher验证,对验证后的数据进行人工判断,并结合其他类型Cypher数据生成精选数据集;

微调模块24,用于使用指令数据集对基座模型进行监督学习微调,获得CypherLLM,并通过人类反馈优化所述Cypher LLM;其中,所述指令数据集包括所述精选数据集;

检索模块25,用于基于所述Cypher LLM,将所述问题转化为图数据库能够理解的查询语句,并在图数据库的子图中进行检索。

请参见图14,本申请实施例提供一种电子设备,该电子设备与本申请实施例提供的知识驱动的大语言模型推理方法对应,本申请实施例的电子设备实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。如图14所示,该电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述实施例的知识驱动的大语言模型推理方法的步骤。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1009可以包括易失性存储器或非易失性存储器,或者,存储器1009可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元;可选的,处理器1010集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质,该可读存储介质与本申请实施例提供的知识驱动的大语言模型推理方法对应,本申请实施例的可读存储介质实现上述方法实施例的各个过程,如图

所示,该可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述实施例的可读存储介质实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

其中,所述处理器为上述本申请实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

综上所述,本申请解决了大语言模型在推理过程中存在的特定知识匮乏、幻觉及有害文本生成、知识更新成本高以及推理结果过度依赖知识图谱质量等问题。通过引入外部知识,本申请能够为大语言模型提供充足的知识支撑,使其在特定知识的推理方面更加全面和准确。同时,通过结合知识图谱与大语言模型共同进行推理,提高了推理的透明度和可解释性,增强了推理的准确性,并降低了知识更新的成本。本申请为大语言模型的推理提供了有力的支持,推动了人工智能技术的发展和应用。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 一种基于知识图谱的数据推理方法、装置、服务器和介质
  • 基金知识推理方法、系统、计算机设备和存储介质
  • 一种知识图谱推理方法、电子设备、存储介质及系统
  • 界面显示驱动方法、装置、电子设备和存储介质
  • 一种数据的知识谱图构建方法、装置、设备及存储介质
  • 一种基于大语言模型和知识图谱的多模态推理方法及装置
  • 大语言模型的量化方法及推理方法、装置、设备和介质
技术分类

06120116678679