掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大模型的知识图谱构建方法、装置及介质

文献发布时间:2024-04-18 20:01:23


一种基于大模型的知识图谱构建方法、装置及介质

技术领域

本申请涉及智慧家庭技术领域,具体而言,涉及一种基于大模型的知识图谱构建方法、装置及介质。

背景技术

领域知识图谱是一个领域内最直接、最大程度展现其特有知识的一种形式,在基于知识图谱的问答、关系探索等方面也得到了广泛的应用,是当下最准确而且知识网络化的最佳形式。但是由于领域内知识比较多而杂乱,靠人工梳理知识比较困难,比如家电领域内,知识形式是文本形式的,想要形成有效的知识就需要归纳总结,然后得到整洁干净、结构化的知识。因此如何解决低效提取有效知识是知识图谱形成的重要一环,也是一项很大的挑战。

针对相关技术中,通过人工提取原始文本中的知识,进而根据提取的知识生成知识图谱,导致生成知识图谱的效率较低等问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于大模型的知识图谱构建方法、装置及介质,以至少解决相关技术中,通过人工提取原始文本中的知识,进而根据提取的知识生成知识图谱,导致生成知识图谱的效率较低等问题。

根据本申请实施例的一个实施例,提供了一种基于大模型的知识图谱构建方法,包括:将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

在一个示例性实施例中,在所述判别规则为第一判别规则、第二判别规则和第三判别规则的情况下,将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,包括:将所述原始文本、所述第一元组信息、所述第一判别规则、所述第二判别规则和所述第三判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述第一判别规则对所述第一元组信息进行判断,得到所述第一评分、所述第一元组信息中的错误元组信息以及所述错误元组信息对应的正确元组信息;以及以使所述大模型根据所述原始文本和所述第二判别规则对所述第一元组信息进行判断,得到所述第二评分,以及以使所述大模型根据所述原始文本和所述第三判别规则对所述第一元组信息进行判断,得到第二元组信息,其中,所述第一判别规则用于指示所述大模型对所述第一元组信息的准确性进行评分、确定所述第一元组信息中的错误元组信息以及确定所述错误元组信息对应的正确元组信息;所述第二判别规则用于指示所述大模型对所述第一元组信息的完整性进行评分;所述第三判别规则用于指示所述大模型对所述原始文本中除所述第一元组信息之外的信息再次根据所述提示信息进行信息抽取;所述第二元组信息为所述原始文本中除所述第一元组信息之外的元组信息。

在一个示例性实施例中,根据所述第一元组信息的目标评分对所述第一元组信息进行调整,包括:确定所述第一元组信息的目标评分与第一预设阈值的第一大小关系;在所述第一大小关系指示所述第一元组信息的目标评分大于或者等于所述第一预设阈值的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;在所述第一大小关系指示所述第一元组信息的目标评分小于所述第一预设阈值的情况下,确定所述第一元组信息中的正确元组信息和所述第二元组信息的并集。

在一个示例性实施例中,基于第一公式对所述第一评分和所述第二评分进行计算之前,所述方法还包括:确定所述第一评分是否位于第一数值范围,和/或,所述第二评分位于第二数值范围;在所述第一评分位于所述第一数值范围,和/或,所述第二评分位于所述第二数值范围的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;将所述原始文本、所述调整后的第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述判别规则对所述调整后的第一元组信息进行判断,得到第二评价信息,其中,所述第二评价信息至少包括:第三评分和第四评分,所述第三评分为指示所述第二元组信息的准确性的评分,所述第四评分为指示所述第二元组信息的完整性的评分;基于第二公式对所述第三评分和所述第四评分进行计算,以确定所述第二元组信息的目标评分,其中,所述第二公式为:

在一个示例性实施例中,根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整,包括:在所述第二元组信息的目标评分小于第一预设阈值的情况下,确定对所述原始文本进行信息抽取的次数;在所述次数大于或者等于预设次数的情况下,禁止根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整;在所述次数小于所述预设次数的情况下,根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整。

在一个示例性实施例中,基于第一公式对所述第一评分和所述第二评分进行计算之前,所述方法还包括:确定所述第一评分是否位于第三数值范围,且所述第二评分位于第四数值范围,其中,所述第三数值范围的最小值大于第一数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;在所述第一评分位于所述第三数值范围,且第二评分位于所述第四数值范围的情况下,将所述第一元组信息中的错误元组信息更新为所述正确元组信息,以得到第四元组信息;根据所述第四元组信息构建所述原始文本对应的知识图谱。

在一个示例性实施例中,基于第一公式对所述第一评分和所述第二评分进行计算之前,所述方法还包括:确定所述第一评分是否位于第五数值范围,且所述第二评分位于第四数值范围,其中,所述第五数值范围的最小值大于第三数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;在所述第一评分位于所述第五数值范围,且所述第二评分位于所述第四数值范围的情况下,确定所述正确元组信息和所述第二元组信息的并集;根据所述并集构建所述原始文本对应的知识图谱。

在一个示例性实施例中,基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,包括:确定所述第一评分是否位于第一数值范围,且所述第二评分位于第六数值范围,其中,所述第六数值范围的最小值大于第二数值范围的最大值,所述第六数值范围的最大值小于第四数值范围的最小值;在所述第一评分不位于所述第一数值范围,且所述第二评分位于所述第六数值范围的情况下,确定所述第一评分与第一预设数值的第一差值,以及所述第二评分与第二预设数值的第二差值;将所述第一差值和所述第二差值输入至第一公式,以确定第一元组信息的目标评分,其中,所述第一公式为:

在一个示例性实施例中,将原始文本和提示信息输入至所述大模型中,包括:确定所述原始文本对应的领域类型,以及确定所述领域类型对应的训练数据; 确定所述大模型的损失函数,根据所述损失函数和所述训练数据对所述大模型进行训练,以得到训练后的大模型;将所述原始文本和提示信息输入至所述训练后的大模型中。

在一个示例性实施例中,根据损失函数和所述训练数据对所述大模型进行训练,包括:确定所述训练数据的数据量,以及确定所述数据量与第二预设阈值的第二大小关系;在所述第二大小关系指示所述数据量大于或者等于所述第二预设阈值的情况下,根据所述损失函数和所述训练数据对所述大模型的每个神经网络层中的参数进行训练;在所述第二大小关系指示所述数据量小于所述第二预设阈值的情况下,冻结所述大模型中的目标神经网络层,并根据所述损失函数和所述训练数据对所述大模型的其他神经网络层中的参数进行训练,其中,所述其他神经网络层为所述大模型中除所述目标神经网络层之外的其他神经网络模型。

在一个示例性实施例中,将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,包括:将所述原始文本信息和所述提示信息输入至所述大模型中,以使所述大模型学习样例数据的数据格式,以及根据所述数据格式和输出指示对所述原始文本信息进行信息抽取,得到所述第一元组信息,其中,所述提示信息包括:所述样例数据和所述输出指示。

在一个示例性实施例中,根据调整后的第一元组信息构建所述原始文本对应的知识图谱,至少包括以下之一:在调整后的第一元组信息中包括:所述第一信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;在调整后的第一元组信息中包括:所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征;在调整后的第一元组信息中包括:所述第一信息和所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息进行建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;以及,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征。

根据本申请实施例的另一个实施例,还提供了一种基于大模型的知识图谱构建装置,包括:第一输入模块,用于将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;第二输入模块,用于将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;计算模块,用于基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

根据本申请实施例的又一方面,还提供了一种计算机可读的介质,该计算机可读的介质中存储有程序,其中,该程序被设置为运行时执行上述基于大模型的知识图谱构建方法。

根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的基于大模型的知识图谱构建方法。

在本申请实施例中,将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种基于大模型的知识图谱构建方法的硬件环境示意图;

图2是根据本申请实施例的基于大模型的知识图谱构建方法的流程图;

图3是根据本申请实施例的基于大模型的知识图谱构建方法的整体架构图;

图4是根据本申请实施例的基于大模型的知识图谱构建方法的应用示意图;

图5是根据本申请实施例的一种基于大模型的知识图谱构建装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请所引用的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面,提供了一种基于大模型的知识图谱构建方法。该基于大模型的知识图谱构建方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述基于大模型的知识图谱构建方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

在本实施例中提供了一种基于大模型的知识图谱构建方法,应用于上述终端设备,上述终端设备包括:上述大模型,图2是根据本申请实施例的基于大模型的知识图谱构建方法的流程图,该流程包括如下步骤:

步骤S202,将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;

需要说明的是,上述大模型可以理解为复杂的机器学习模型或深度学习模型;或者,上述大模型也可以理解为基于大规模语料库(包括例如句子、段落等语言训练素材),设计语言模型训练任务,训练大规模神经网络算法结构来学习实现,最终得到的大规模神经网络算法结构及参数,上述最终得到的大规模神经网络算法结构及参数就是大模型。

举例来讲,在属性信息为红色,目标对象为冰箱的情况下,属性信息和所述目标对象的关系为:颜色;在属性信息为xxx型号,目标对象为冰箱的情况下,属性信息和所述目标对象的关系为:型号。

在使用信息为将冷藏室的温度设置为0-5℃之间,目标对象为冰箱的情况下,属性信息和所述目标对象的关系为:使用方式;在使用信息为禁止将冰箱放在潮湿的环境中,目标对象为冰箱的情况下,属性信息和所述目标对象的关系为:注意事项。

可选地,将原始文本和提示信息输入至所述大模型中之前,所述方法还包括:接收目标对象输入的原始文本;对所述原始文本进行词语拆分,得到所述原始文本对应的多个词语;对所述多个词语的进行语义理解,以确定所述原始文本对应的领域;在多个提示信息集合中确定所述原始文本的领域对应的目标提示信息集合,其中,所述多个提示信息集合分别对应不同的原始文本的领域;将所述目标提示信息集合中确定所述提示信息。

步骤S204,将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;

步骤S206,基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

步骤S208,根据所述第一元组信息的目标评分对所述第一元组信息进行调整,以及根据调整后的第一元组信息构建所述原始文本对应的知识图谱。

本申请实施例中,通过大模型根据输入的提示信息对原始文本进行信息抽取,得到元组信息,并将元组信息、原始文本和判别规则再次输入至大模型中,以使大模型对生成的元组信息进行评价,并根据评价信息对元组信息进行调整,最后根据调整后的元组信息生成知识图谱;采用上述技术方案,解决了通过人工提取原始文本中的知识,进而根据提取的知识生成知识图谱,导致生成知识图谱的效率较低等问题,进而提高了知识的提取速率,以及提高了生成知识图谱的效率。

可选地,上述步骤S202可以通过以下方式实现:

将所述原始文本信息和所述提示信息输入至所述大模型中,以使所述大模型学习样例数据的数据格式,以及根据所述数据格式和输出指示对所述原始文本信息进行信息抽取,得到所述第一元组信息,其中,所述提示信息包括:所述样例数据和所述输出指示。

可选地,提示信息还包含以下几个信息:

角色:指定模型要输出的类型或格式,例如:现在大模型是文本抽取专家;

指令:下达给模型需要执行的特定任务或指令。例如,基于输入的文本信息抽取的知识。

上下文信息(相当于上述实施例中的样例数据):提供背景信息,上下文信息比如样例数据和对应的输出格式,有助于引导模型更好的按照样例数据进行处理,以及输出指定格式的结果。例如,下边是一个例子:

文本:s型号的空调颜色为白色,重量为50kg,三年保养期,功能包括:制冷、制热、除湿;

返回:[(空调,颜色,白色),(空调,型号,s),(空调,保养时间,三年),(冰箱,功能,制冷、制热、除湿)]。

待处理数据(相当于上述实施例中的原始文本):需要模型需要处理的数据。例如:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情。

输出指示:让模型按照给定的样例或者给定的格式进行返回结果。例如,请提取文本信息中的所有的三元组,里边涉及属性、功能、保养、售后、价格、参数等内容,请直接返回三元组即可。

在本申请实施例中,在生成三元组过程中使用了角色、上下文信息、待处理数据、指令和输出指示,大模型是有较大规模的数据训练而成,进而根据提示信息对原始文本做出处理并返回结果。

可选地,在所述判别规则为第一判别规则、第二判别规则和第三判别规则的情况下,上述步骤S204还可以通过以下方式实现:

将所述原始文本、所述第一元组信息、所述第一判别规则、所述第二判别规则和所述第三判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述第一判别规则对所述第一元组信息进行判断,得到所述第一评分、所述第一元组信息中的错误元组信息以及所述错误元组信息对应的正确元组信息;以及,以使所述大模型根据所述原始文本和所述第二判别规则对所述第一元组信息进行判断,得到所述第二评分,以及;以使所述大模型根据所述原始文本和所述第三判别规则对所述第一元组信息进行判断,得到第二元组信息,其中,所述第一判别规则用于指示所述大模型对所述第一元组信息的准确性进行评分、确定所述第一元组信息中的错误元组信息以及确定所述错误元组信息对应的正确元组信息;所述第二判别规则用于指示所述大模型对所述第一元组信息的完整性进行评分;所述第三判别规则用于指示所述大模型对所述原始文本中除所述第一元组信息之外的信息再次根据所述提示信息进行信息抽取;所述第二元组信息为所述原始文本中除所述第一元组信息之外的元组信息。

本申请实施例中,通过向大模型输入三个判别规则,使得大模型根据三个判别规则输出对第一元组信息的评价信息,其中,评价信息具体包括:对所述第一元组信息的准确性进行评价的第一评分、对所述第一元组信息的完整性进行评价的第二评分、所述第一元组信息中的错误元组信息、所述错误元组信息对应的正确元组信息、所述原始文本中除所述第一元组信息之外的第二元组信息;进而根据评价信息确定对所述第一元组信息的调整方式。

举例来讲,第一判别规则可以如下:

现在大模型是知识评判专家,能够根据文本和给定的三元组,去评判,是否符合三元组的要求,三元组的知识是否来源自原始文本,如果某个三元组的内容和原始文本不符,请给出三元组及分数和修改后的内容比如((冰箱,颜色,蓝色):0,(冰箱,颜色,红色)),如果整体三元组知识够准确,请采用百分制给出分数。

以此,返回的内容有以下两点:1.错误三元组和修改后的内容;2.整体打分。

其中,三元组是指(实体,关系,实体)。举例如下:

例子一:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,红色),(冰箱,型号,s),(冰箱,保养时间,三年),(冰箱,制冷功能),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]。

返回:1:空,2:100分。

例子二:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,蓝色),(冰箱,型号,s),(冰箱,保养时间,三年),(冰箱,功能,制冷功能),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)。

返回:1:((冰箱,颜色,蓝色):0,(冰箱,颜色,红色))2:80分。

例子三:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,蓝色)];

返回:1:((冰箱,颜色,蓝色):0,(冰箱,颜色,红色))2:20分。

现有以下原始文本和三元组:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,红色),(冰箱,型号,s),(冰箱,保养时间,三年),(冰箱,制冷功能),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]。

请直接给出评判结果即可。

第二判别规则可以如下:

现在大模型是知识评判专家,能够根据文本和给定的三元组,去评判三元组的内容是否概况了所有的知识,如果不能概况请给出分数,采用百分制。

举例如下:

例子1:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,红色),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]。

返回:30分。

现有下边的原始文本和三元组请进行打分:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,红色),(冰箱,型号,s),(冰箱,保养时间,三年),(冰箱,制冷功能),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]。

请直接返回评分即可。

第三判别规则可以如下:

现在大模型是知识再生成专家,根据给定的原始文本,和已有的三元组进行分析和总结,对没有抽取出的三元组进行再次抽取,并一起返回抽取后的三元组内容。

举例如下:

例子1:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,颜色,红色),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]。

返回:[(冰箱,型号,s),(冰箱,保养时间,三年),(冰箱,功能,制冷功能)]。

有以下文本和三元组请进行分析并直接返回结果:

原始文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;

三元组:[(冰箱,功能,制冷功能)]。

需要说明的是,上述第一评判规则、第二评判规则和第三评判规则仅是示例。

根据评价信息确定对所述第一元组信息的调整方式,具体存在以下几种情况:

1)确定所述第一评分是否位于第一数值范围,和/或,所述第二评分位于第二数值范围;在所述第一评分位于所述第一数值范围,和/或,所述第二评分位于所述第二数值范围的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;将所述原始文本、所述调整后的第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述判别规则对所述调整后的第一元组信息进行判断,得到第二评价信息,其中,所述第二评价信息至少包括:第三评分和第四评分,所述第三评分为指示所述第二元组信息的准确性的评分,所述第四评分为指示所述第二元组信息的完整性的评分;基于第二公式对所述第三评分和所述第四评分进行计算,以确定所述第二元组信息的目标评分,其中,所述第二公式为:

本申请实施例中,针对准确性的评分,预先划分了三个数值范围,分别为:第一数值范围、第三数值范围和第五数值范围,其中,第一数值范围的最大值小于第三数值范围的最小值,第三数值范围的最大值小于第五数值范围的最小值,举例来讲,第一数值范围为[0,70);第二数值范围为[70,90),第三数值范围为[90,100],需要说明的是,上述数值仅是为了更好的理解本申请实施例,本申请实施对上述第一数值范围、第二数值范围和第三数值范围中的具体数值不作具体限定。

本申请实施例中,针对完整性的评分,也预先划分了三个数值范围,分别为:第二数值范围、第四数值范围和第六数值范围,其中,第二数值范围的最大值小于第六数值范围的最小值,第六数值范围的最大值小于第四数值范围的最小值,举例来讲,第二数值范围为[0,70);第六数值范围为[70,90),第四数值范围为[90,100],需要说明的是,上述数值仅是为了更好的理解本申请实施例,本申请实施对上述第二数值范围、第四数值范围和第六数值范围中的具体数值不作具体限定。

在第一评分位于第一数值范围,和/或,第二评分位于第二数值范围的情况下,说明大模型中输出的第一元组信息的准确性,和/或,完整性较低,在这种情况下,直接再次将原始文本、所述调整后的第一元组信息和判别规则输入至所述大模型中,以使大模型再次对原始文本中的元组信息进行提取,得到调整后的第一元组信息。

需要说明的是,在大模型对调整后的第一元组信息进行评价,得到第二评价信息之后,确定所述第二元组信息的目标评分小于第一预设阈值之后,还需要进行如下步骤:

确定对所述原始文本进行信息抽取的次数;在所述次数大于或者等于预设次数的情况下,禁止根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整;在所述次数小于所述预设次数的情况下,根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整。

在本申请实施例中,预先设置对第一元组信息进行调整的预设次数,在大模型抽取的元组信息的评分多次小于第一预设阈值的情况下,认为大模型无法抽取出准确的元组信息,进而停止对第一元组信息进行调整,因此,通过上述实施例可以避免大模型无限循环的情况,进而避免了不必要的资源浪费。

2)确定所述第一评分是否位于第三数值范围,且所述第二评分位于第四数值范围,其中,所述第三数值范围的最小值大于第一数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;在所述第一评分位于所述第三数值范围,且第二评分位于所述第四数值范围的情况下,将所述第一元组信息中的错误元组信息更新为所述正确元组信息,以得到第四元组信息;根据所述第四元组信息构建所述原始文本对应的知识图谱。

在第一评分位于第三数值范围,且第二评分位于第四数值范围的情况下,说明大模型抽取的元组信息的准确性一般,完整性较高,因此,将第一元组信息中的错误元组信息更新为所述正确元组信息,即可以得到完整性和准确性均较高的第四元组信息。

3)确定所述第一评分是否位于第五数值范围,且所述第二评分位于第四数值范围,其中,所述第五数值范围的最小值大于第三数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;在所述第一评分位于所述第五数值范围,且所述第二评分位于所述第四数值范围的情况下,确定所述正确元组信息和所述第二元组信息的并集;根据所述并集构建所述原始文本对应的知识图谱。

在第一评分位于第五数值范围,且第二评分位于第四数值范围的情况下,说明大模型抽取的元组信息的准确性较高,完整性较高,因此,确定第一元组信息中正确元组信息和所述第二元组信息的并集。

4)确定所述第一评分是否位于第一数值范围,且所述第二评分位于第六数值范围,其中,所述第六数值范围的最小值大于第二数值范围的最大值,所述第六数值范围的最大值小于第四数值范围的最小值;在所述第一评分不位于所述第一数值范围,且所述第二评分位于所述第六数值范围的情况下,确定所述第一评分与第一预设数值的第一差值,以及所述第二评分与第二预设数值的第二差值;将所述第一差值和所述第二差值输入至第一公式,以确定第一元组信息的目标评分,其中,所述第一公式为:

具体的,确定所述第一元组信息的目标评分与第一预设阈值的第一大小关系;在所述第一大小关系指示所述第一元组信息的目标评分大于或者等于所述第一预设阈值的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;在所述第一大小关系指示所述第一元组的目标评分小于所述第一预设阈值的情况下,确定所述第一元组信息中的正确元组信息和所述第二元组信息的并集。

在本申请实施例中,在所述第一评分不位于所述第一数值范围,且所述第二评分位于所述第六数值范围的情况下,基于以下公式确定所述第一元组的目标评分:

如果p

进一步地,为了得到更加准确的元组信息,在将原始文本和提示信息输入至所述大模型之前,本申请实施例对大模型进行了微调操作:确定所述原始文本对应的领域类型,以及确定所述领域类型对应的训练数据;确定所述大模型的损失函数,根据所述损失函数和所述训练数据对所述大模型进行训练,以得到训练后的大模型;将所述原始文本和提示信息输入至所述训练后的大模型中。

在对大模型进行微调操作时,还可以通过对训练数据进行随机旋转、裁剪、缩放、翻转等操作,增加训练数据的多样性,提高模型的泛化能力;以及根据大模型在验证集上的表现来动态调整学习率,以加快收敛速度或避免过拟合。

本申请实施例中,根据任务的特性选择合适的损失函数,或者调整损失函数的权重,以提高模型的性能。

具体的,根据损失函数和所述训练数据对所述大模型进行训练,包括:确定所述训练数据的数据量,以及确定所述数据量与第二预设阈值的第二大小关系;在所述第二大小关系指示所述数据量大于或者等于所述第二预设阈值的情况下,根据所述损失函数和所述训练数据对所述大模型的每个神经网络层中的参数进行训练;在所述第二大小关系指示所述数据量小于所述第二预设阈值的情况下,冻结所述大模型中的目标神经网络层,并根据所述损失函数和所述训练数据对所述大模型的其他神经网络层中的参数进行训练,其中,所述其他神经网络层为所述大模型中除所述目标神经网络层之外的其他神经网络模型。

在模型训练过程中,冻结大模型的神经网络层是为了保持这些层的参数不变,从而避免它们在训练过程中被更新。在一般情况下,由于卷积层通常会学习到通用的特征,而顶部的全连接层则会学习到特定任务的特征,因此,冻结大模型的通常会冻结卷积基的所有层,即所有预训练的卷积层和部分顶部的全连接层。冻结大模型的层可以通过以下几种方式实现:

1.在创建模型时,可以通过设置每一层的`trainable`属性来决定是否冻结该层。将需要冻结的层的`trainable`属性设置为False即可。

2.在训练过程中,可以使用`tf.stop_gradient`函数来冻结大模型中的某些层,该函数会阻止梯度在被应用到指定层的参数上。

冻结大模型的部分神经网络层都可以帮助加快训练速度,并且能够更好地利用预训练模型的知识。

需要说明的是,还可以通过以下方式触发冻结大模型的部分神经网络层:

在训练时间和计算资源小于预设训练时间和预设计算资源的情况下,可以选择冻结一部分层,以减少训练时间和资源消耗;

在大模型的性能符合预设性能的情况下,可以选择冻结全部或部分层,避免过拟合和损坏模型性能;

根据实验结果,选择冻结部分层,以获得最佳的性能和泛化能力。

上述步骤S208还可以通过以下方式实现:

根据调整后的第一元组信息构建所述原始文本对应的知识图谱,至少包括以下之一:在调整后的第一元组信息中包括:所述第一信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;在调整后的第一元组信息中包括:所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征;在调整后的第一元组信息中包括:所述第一信息和所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息进行建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;以及,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征。

在本申请实施例中的第一元组信息中包含:1)所述属性信息,以及所述属性信息和所述目标对象的关系;2)所述使用说明,以及所述使用说明和所述目标对象的关系;因此,可以基于第一元组信息建立指示图谱中的节点,以及节点之间的边的边特征。

为了更好的理解上述基于大模型的知识图谱构建方法的过程,以下再结合可选实施例对上述基于大模型的知识图谱构建的实现方法流程进行说明,但不用于限定本申请实施例的技术方案。

在本实施例中提供了一种基于大模型的知识图谱构建方法,图3是根据本申请实施例的基于大模型的知识图谱构建方法的整体架构图,如图3所示,具体如下:

知识提取服务器,将原始文本结合提取规则(可以理解为提取规则)(相当于上述实施例中的提示信息)输入至大模型服务;

大模型服务,根据提取规则输出所需要的结构的知识,并对输出的知识进行判别。

知识监督服务,输出的知识送入到知识监督服务,知识监督服务将判别规则和原始文本送入到大模型进行分析,以使大模型盘判断是否能够符合判别规则,比如:抽取的知识是否在原始材料中、抽取的知识是否匹配、抽取的知识是否结构上符合规则等,对符合的知识送入到图谱服务,不符合的可以根据评判分数进行再次生成(比如,分数较低可用完全重新生成;分数中等可用有大模型配合原始资料进行修改)。

存储服务,用于存储输出的知识。

图谱服务,用于图谱生成、管理等任务,让知识更加合理的生成所需要的知识网络。

需要说明的是,大模型服务中大模型除了上述采用规则通用技术外还可以加强领域内知识抽取技术,使用领域知识对大模型进行微调,准备训练数据,所有样本放到一个列表中并存入json文件中。每个样本对应一个字典,包含id和conversation,其中后者为一个列表。示例如下所示:

[

{

"id": "0",

"conversations": [

{

"from": "user",

"value": "现有源文本:s型号的冰箱颜色为红色,重量为100kg,三年保养期,制冷功能可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情;"

},

{

"from": "assistant",

"value": "生成三元组有:[(冰箱,颜色,红色),(制冷功能,描述,制冷可用到达30匹,能够覆盖面积30平,能够让人保持健康和愉悦的心情)]"

}

]

}

]。

需要说明的是,对大模型微调的方式可以选择:全参数微调、LoRA、Q-LoRA,p-tuning等方式,资源充足的情况下可以选择全参微调,否则可以选取其他的方式进行微调。经过大量数据微调后的模型,只要输入源文本,就可以得到三元组;虽采用微调技术,但是也要结合规则技术和监督服务,防止生成的三元组过于发散和不准确。

综上,根据原始领域文本和规则,进行大模型知识生成,并对生成的知识进行判定,生成的可用知识有图谱服务形成图谱,并有监督程序进行知识的管理,从而形成一套闭环的知识生成、管理、再生成的绿色架构,从而大大提高了知识图谱的生成效率。

在本实施例中还提供了一种基于大模型的知识图谱构建方法,图4是根据本申请实施例的基于大模型的知识图谱构建方法的应用示意图,如图4所示,根据大模型的规则和微调后的大模型进行分析给定的领域内文本,进行生成图谱所需要的知识结构,由监督服务让大模型服务根据规则去评判产生的知识是否符合预期,并打分,根据评定分数进行不同的动作。

通过本申请实施例,使得知识提取更加便捷和方便,提升了领域内知识加工的效率。从整体来看,实现了复杂知识到结构化的转化过程,真正做到文本转知识的自由化,满足知识再生产的需求。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。

图5是根据本申请实施例的一种基于大模型的知识图谱构建装置的结构框图;如图5所示,包括:

第一输入模块52,用于将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;

第二输入模块54,用于将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;

计算模块56,用于基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

构建模块58,用于根据所述第一元组信息的目标评分对所述第一元组信息进行调整,以及根据调整后的第一元组信息构建所述原始文本对应的知识图谱。

通过上述装置,通过大模型根据输入的提示信息对原始文本进行信息抽取,得到元组信息,并将元组信息、原始文本和判别规则再次输入至大模型中,以使大模型对生成的元组信息进行评价,并根据评价信息对元组信息进行调整,最后根据调整后的元组信息生成知识图谱;采用上述技术方案,解决了通过人工提取原始文本中的知识,进而根据提取的知识生成知识图谱,导致生成知识图谱的效率较低等问题,进而提高了知识的提取速率,以及提高了生成知识图谱的效率。

在一个示例性实施例中,在所述判别规则为第一判别规则、第二判别规则和第三判别规则的情况下,第二输入模块54,用于将所述原始文本、所述第一元组信息、所述第一判别规则、所述第二判别规则和所述第三判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述第一判别规则对所述第一元组信息进行判断,得到所述第一评分、所述第一元组信息中的错误元组信息以及所述错误元组信息对应的正确元组信息;以及以使所述大模型根据所述原始文本和所述第二判别规则对所述第一元组信息进行判断,得到所述第二评分,以及以使所述大模型根据所述原始文本和所述第三判别规则对所述第一元组信息进行判断,得到第二元组信息,其中,所述第一判别规则用于指示所述大模型对所述第一元组信息的准确性进行评分、确定所述第一元组信息中的错误元组信息以及确定所述错误元组信息对应的正确元组信息;所述第二判别规则用于指示所述大模型对所述第一元组信息的完整性进行评分;所述第三判别规则用于指示所述大模型对所述原始文本中除所述第一元组信息之外的信息再次根据所述提示信息进行信息抽取;所述第二元组信息为所述原始文本中除所述第一元组信息之外的元组信息。

在一个示例性实施例中,构建模块58,用于确定所述第一元组信息的目标评分与第一预设阈值的第一大小关系;在所述第一大小关系指示所述第一元组信息的目标评分大于或者等于所述第一预设阈值的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;在所述第一大小关系指示所述第一元组信息的目标评分小于所述第一预设阈值的情况下,确定所述第一元组信息中的正确元组信息和所述第二元组信息的并集。

在一个示例性实施例中,上述装置还包括:

确定模块,用于确定所述第一评分是否位于第一数值范围,和/或,所述第二评分位于第二数值范围;

第一输入模块,用于在所述第一评分位于所述第一数值范围,和/或,所述第二评分位于所述第二数值范围的情况下,将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中,以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取,得到所述调整后的第一元组信息;

第二输入模块,用于将所述原始文本、所述调整后的第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和所述判别规则对所述调整后的第一元组信息进行判断,得到第二评价信息,其中,所述第二评价信息至少包括:第三评分和第四评分,所述第三评分为指示所述第二元组信息的准确性的评分,所述第四评分为指示所述第二元组信息的完整性的评分;

计算模块,用于基于第二公式对所述第三评分和所述第四评分进行计算,以确定所述第二元组信息的目标评分,其中,所述第二公式为:所述第二公式为:

构建模块,用于根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整,得到第三元组信息;根据所述第三元组信息构建所述原始文本对应的知识图谱。

在一个示例性实施例中,构建模块,用于在所述第二元组信息的目标评分小于第一预设阈值的情况下,确定对所述原始文本进行信息抽取的次数;在所述次数大于或者等于预设次数的情况下,禁止根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整;在所述次数小于所述预设次数的情况下,根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整。

在一个示例性实施例中,确定模块,用于确定所述第一评分是否位于第三数值范围,且所述第二评分位于第四数值范围,其中,所述第三数值范围的最小值大于第一数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;

构建模块,用于在所述第一评分位于所述第三数值范围,且第二评分位于所述第四数值范围的情况下,将所述第一元组信息中的错误元组信息更新为所述正确元组信息,以得到第四元组信息;根据所述第四元组信息构建所述原始文本对应的知识图谱。

在一个示例性实施例中,确定模块,用于确定所述第一评分是否位于第五数值范围,且所述第二评分位于第四数值范围,其中,所述第五数值范围的最小值大于第三数值范围的最大值,所述第四数值范围的最小值大于第二数值范围的最大值;

构建模块,用于在所述第一评分位于所述第五数值范围,且所述第二评分位于所述第四数值范围的情况下,确定所述正确元组信息和所述第二元组信息的并集;根据所述并集构建所述原始文本对应的知识图谱。

在一个示例性实施例中,确定模块,用于确定所述第一评分是否位于第一数值范围,且所述第二评分位于第六数值范围,其中,所述第六数值范围的最小值大于第二数值范围的最大值,所述第六数值范围的最大值小于第四数值范围的最小值;

计算模块,用于在所述第一评分不位于所述第一数值范围,且所述第二评分位于所述第六数值范围的情况下,确定所述第一评分与第一预设数值的第一差值,以及所述第二评分与第二预设数值的第二差值;将所述第一差值和所述第二差值输入至第一公式,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

在一个示例性实施例中,上述装置还包括:

训练模块,用于确定所述原始文本对应的领域类型,以及确定所述领域类型对应的训练数据;确定所述大模型的损失函数,根据所述损失函数和所述训练数据对所述大模型进行训练,以得到训练后的大模型;

第一输入模块,用于将所述原始文本和提示信息输入至所述训练后的大模型中。

在一个示例性实施例中,训练模块,用于确定所述训练数据的数据量,以及确定所述数据量与第二预设阈值的第二大小关系;在所述第二大小关系指示所述数据量大于或者等于所述第二预设阈值的情况下,根据所述损失函数和所述训练数据对所述大模型的每个神经网络层中的参数进行训练;在所述第二大小关系指示所述数据量小于所述第二预设阈值的情况下,冻结所述大模型中的目标神经网络层,并根据所述损失函数和所述训练数据对所述大模型的其他神经网络层中的参数进行训练,其中,所述其他神经网络层为所述大模型中除所述目标神经网络层之外的其他神经网络模型。

在一个示例性实施例中,第一输入模块,用于将所述原始文本信息和所述提示信息输入至所述大模型中,以使所述大模型学习样例数据的数据格式,以及根据所述数据格式和输出指示对所述原始文本信息进行信息抽取,得到所述第一元组信息,其中,所述提示信息包括:所述样例数据和所述输出指示。

在一个示例性实施例中,构建模块,至少用于以下之一:在调整后的第一元组信息中包括:所述第一信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;在调整后的第一元组信息中包括:所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征;在调整后的第一元组信息中包括:所述第一信息和所述第二信息的情况下,根据所述目标对象的标识信息和所述目标对象的属性信息进行建立所述知识图谱中的第一节点和第二节点,以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征;以及,根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点,以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征。

本申请的实施例还提供了一种介质,该介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。

需要说明的是,上述介质为存储介质。

可选地,在本实施例中,上述介质可以被设置为存储用于执行以下步骤的程序代码:

S1,将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;

S2,将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;

S3,基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

S4,根据所述第一元组信息的目标评分对所述第一元组信息进行调整,以及根据调整后的第一元组信息构建所述原始文本对应的知识图谱。

本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,将原始文本和提示信息输入至所述大模型中,以使所述大模型根据所述提示信息对所述原始文本进行信息抽取,得到第一元组信息,其中,所述原始文本至少用于描述目标对象的属性信息和使用说明;所述第一元组信息包括:第一信息和/或第二信息;所述第一信息包括:所述属性信息,以及所述属性信息和所述目标对象的关系,所述第二信息包括:所述使用说明,以及所述使用说明和所述目标对象的关系;

S2,将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中,以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断,得到第一评价信息,其中,所述第一评价信息至少包括:第一评分和第二评分,所述第一评分为指示所述第一元组信息的准确性的评分,所述第二评分为指示所述第一元组信息的完整性的评分;

S3,基于第一公式对所述第一评分和所述第二评分进行计算,以确定所述第一元组信息的目标评分,其中,所述第一公式为:

S4,根据所述第一元组信息的目标评分对所述第一元组信息进行调整,以及根据调整后的第一元组信息构建所述原始文本对应的知识图谱。

可选地,在本实施例中,上述介质可以包括但不限于:U盘、只读存储器(Read-OnlyMemory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

技术分类

06120116546331