导航：首页> 水、废水、污水或污泥的处理>一种基于大模型的知识图谱构建方法、装置及介质

一种基于大模型的知识图谱构建方法、装置及介质

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及智慧家庭技术领域，具体而言，涉及一种基于大模型的知识图谱构建方法、装置及介质。

背景技术

领域知识图谱是一个领域内最直接、最大程度展现其特有知识的一种形式，在基于知识图谱的问答、关系探索等方面也得到了广泛的应用，是当下最准确而且知识网络化的最佳形式。但是由于领域内知识比较多而杂乱，靠人工梳理知识比较困难，比如家电领域内，知识形式是文本形式的，想要形成有效的知识就需要归纳总结，然后得到整洁干净、结构化的知识。因此如何解决低效提取有效知识是知识图谱形成的重要一环，也是一项很大的挑战。

针对相关技术中，通过人工提取原始文本中的知识，进而根据提取的知识生成知识图谱，导致生成知识图谱的效率较低等问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于大模型的知识图谱构建方法、装置及介质，以至少解决相关技术中，通过人工提取原始文本中的知识，进而根据提取的知识生成知识图谱，导致生成知识图谱的效率较低等问题。

根据本申请实施例的一个实施例，提供了一种基于大模型的知识图谱构建方法，包括：将原始文本和提示信息输入至所述大模型中，以使所述大模型根据所述提示信息对所述原始文本进行信息抽取，得到第一元组信息，其中，所述原始文本至少用于描述目标对象的属性信息和使用说明；所述第一元组信息包括：第一信息和/或第二信息；所述第一信息包括：所述属性信息，以及所述属性信息和所述目标对象的关系，所述第二信息包括：所述使用说明，以及所述使用说明和所述目标对象的关系；将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断，得到第一评价信息，其中，所述第一评价信息至少包括：第一评分和第二评分，所述第一评分为指示所述第一元组信息的准确性的评分，所述第二评分为指示所述第一元组信息的完整性的评分；基于第一公式对所述第一评分和所述第二评分进行计算，以确定所述第一元组信息的目标评分，其中，所述第一公式为：

在一个示例性实施例中，在所述判别规则为第一判别规则、第二判别规则和第三判别规则的情况下，将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断，得到第一评价信息，包括：将所述原始文本、所述第一元组信息、所述第一判别规则、所述第二判别规则和所述第三判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和所述第一判别规则对所述第一元组信息进行判断，得到所述第一评分、所述第一元组信息中的错误元组信息以及所述错误元组信息对应的正确元组信息；以及以使所述大模型根据所述原始文本和所述第二判别规则对所述第一元组信息进行判断，得到所述第二评分，以及以使所述大模型根据所述原始文本和所述第三判别规则对所述第一元组信息进行判断，得到第二元组信息，其中，所述第一判别规则用于指示所述大模型对所述第一元组信息的准确性进行评分、确定所述第一元组信息中的错误元组信息以及确定所述错误元组信息对应的正确元组信息；所述第二判别规则用于指示所述大模型对所述第一元组信息的完整性进行评分；所述第三判别规则用于指示所述大模型对所述原始文本中除所述第一元组信息之外的信息再次根据所述提示信息进行信息抽取；所述第二元组信息为所述原始文本中除所述第一元组信息之外的元组信息。

在一个示例性实施例中，根据所述第一元组信息的目标评分对所述第一元组信息进行调整，包括：确定所述第一元组信息的目标评分与第一预设阈值的第一大小关系；在所述第一大小关系指示所述第一元组信息的目标评分大于或者等于所述第一预设阈值的情况下，将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中，以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取，得到所述调整后的第一元组信息；在所述第一大小关系指示所述第一元组信息的目标评分小于所述第一预设阈值的情况下，确定所述第一元组信息中的正确元组信息和所述第二元组信息的并集。

在一个示例性实施例中，基于第一公式对所述第一评分和所述第二评分进行计算之前，所述方法还包括：确定所述第一评分是否位于第一数值范围，和/或，所述第二评分位于第二数值范围；在所述第一评分位于所述第一数值范围，和/或，所述第二评分位于所述第二数值范围的情况下，将所述原始文本、所述第一元组信息和所述提示信息再次输入至所述大模型中，以使所述大模型根据所述原始文本、所述第一元组信息和提示信息再次对所述原始文本进行信息抽取，得到所述调整后的第一元组信息；将所述原始文本、所述调整后的第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和所述判别规则对所述调整后的第一元组信息进行判断，得到第二评价信息，其中，所述第二评价信息至少包括：第三评分和第四评分，所述第三评分为指示所述第二元组信息的准确性的评分，所述第四评分为指示所述第二元组信息的完整性的评分；基于第二公式对所述第三评分和所述第四评分进行计算，以确定所述第二元组信息的目标评分，其中，所述第二公式为：

在一个示例性实施例中，根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整，包括：在所述第二元组信息的目标评分小于第一预设阈值的情况下，确定对所述原始文本进行信息抽取的次数；在所述次数大于或者等于预设次数的情况下，禁止根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整；在所述次数小于所述预设次数的情况下，根据所述第二元组信息的目标评分对所述调整后的第一元组信息再次进行调整。

在一个示例性实施例中，基于第一公式对所述第一评分和所述第二评分进行计算之前，所述方法还包括：确定所述第一评分是否位于第三数值范围，且所述第二评分位于第四数值范围，其中，所述第三数值范围的最小值大于第一数值范围的最大值，所述第四数值范围的最小值大于第二数值范围的最大值；在所述第一评分位于所述第三数值范围，且第二评分位于所述第四数值范围的情况下，将所述第一元组信息中的错误元组信息更新为所述正确元组信息，以得到第四元组信息；根据所述第四元组信息构建所述原始文本对应的知识图谱。

在一个示例性实施例中，基于第一公式对所述第一评分和所述第二评分进行计算之前，所述方法还包括：确定所述第一评分是否位于第五数值范围，且所述第二评分位于第四数值范围，其中，所述第五数值范围的最小值大于第三数值范围的最大值，所述第四数值范围的最小值大于第二数值范围的最大值；在所述第一评分位于所述第五数值范围，且所述第二评分位于所述第四数值范围的情况下，确定所述正确元组信息和所述第二元组信息的并集；根据所述并集构建所述原始文本对应的知识图谱。

在一个示例性实施例中，基于第一公式对所述第一评分和所述第二评分进行计算，以确定所述第一元组信息的目标评分，包括：确定所述第一评分是否位于第一数值范围，且所述第二评分位于第六数值范围，其中，所述第六数值范围的最小值大于第二数值范围的最大值，所述第六数值范围的最大值小于第四数值范围的最小值；在所述第一评分不位于所述第一数值范围，且所述第二评分位于所述第六数值范围的情况下，确定所述第一评分与第一预设数值的第一差值，以及所述第二评分与第二预设数值的第二差值；将所述第一差值和所述第二差值输入至第一公式，以确定第一元组信息的目标评分，其中，所述第一公式为：

在一个示例性实施例中，将原始文本和提示信息输入至所述大模型中，包括：确定所述原始文本对应的领域类型，以及确定所述领域类型对应的训练数据；确定所述大模型的损失函数，根据所述损失函数和所述训练数据对所述大模型进行训练，以得到训练后的大模型；将所述原始文本和提示信息输入至所述训练后的大模型中。

在一个示例性实施例中，根据损失函数和所述训练数据对所述大模型进行训练，包括：确定所述训练数据的数据量，以及确定所述数据量与第二预设阈值的第二大小关系；在所述第二大小关系指示所述数据量大于或者等于所述第二预设阈值的情况下，根据所述损失函数和所述训练数据对所述大模型的每个神经网络层中的参数进行训练；在所述第二大小关系指示所述数据量小于所述第二预设阈值的情况下，冻结所述大模型中的目标神经网络层，并根据所述损失函数和所述训练数据对所述大模型的其他神经网络层中的参数进行训练，其中，所述其他神经网络层为所述大模型中除所述目标神经网络层之外的其他神经网络模型。

在一个示例性实施例中，将原始文本和提示信息输入至所述大模型中，以使所述大模型根据所述提示信息对所述原始文本进行信息抽取，得到第一元组信息，包括：将所述原始文本信息和所述提示信息输入至所述大模型中，以使所述大模型学习样例数据的数据格式，以及根据所述数据格式和输出指示对所述原始文本信息进行信息抽取，得到所述第一元组信息，其中，所述提示信息包括：所述样例数据和所述输出指示。

在一个示例性实施例中，根据调整后的第一元组信息构建所述原始文本对应的知识图谱，至少包括以下之一：在调整后的第一元组信息中包括：所述第一信息的情况下，根据所述目标对象的标识信息和所述目标对象的属性信息建立所述知识图谱中的第一节点和第二节点，以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征；在调整后的第一元组信息中包括：所述第二信息的情况下，根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点，以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征；在调整后的第一元组信息中包括：所述第一信息和所述第二信息的情况下，根据所述目标对象的标识信息和所述目标对象的属性信息进行建立所述知识图谱中的第一节点和第二节点，以及根据所述属性信息和所述目标对象的关系确定所述第一节点和所述第二节点之间的边特征；以及，根据所述目标对象的标识信息和所述目标对象的使用说明进行建立所述知识图谱中的第三节点和第四节点，以及根据所述使用说明和所述目标对象的关系确定所述第三节点和所述第四节点之间的边特征。

根据本申请实施例的另一个实施例，还提供了一种基于大模型的知识图谱构建装置，包括：第一输入模块，用于将原始文本和提示信息输入至所述大模型中，以使所述大模型根据所述提示信息对所述原始文本进行信息抽取，得到第一元组信息，其中，所述原始文本至少用于描述目标对象的属性信息和使用说明；所述第一元组信息包括：第一信息和/或第二信息；所述第一信息包括：所述属性信息，以及所述属性信息和所述目标对象的关系，所述第二信息包括：所述使用说明，以及所述使用说明和所述目标对象的关系；第二输入模块，用于将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断，得到第一评价信息，其中，所述第一评价信息至少包括：第一评分和第二评分，所述第一评分为指示所述第一元组信息的准确性的评分，所述第二评分为指示所述第一元组信息的完整性的评分；计算模块，用于基于第一公式对所述第一评分和所述第二评分进行计算，以确定所述第一元组信息的目标评分，其中，所述第一公式为：

根据本申请实施例的又一方面，还提供了一种计算机可读的介质，该计算机可读的介质中存储有程序，其中，该程序被设置为运行时执行上述基于大模型的知识图谱构建方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于大模型的知识图谱构建方法。

在本申请实施例中，将原始文本和提示信息输入至所述大模型中，以使所述大模型根据所述提示信息对所述原始文本进行信息抽取，得到第一元组信息，其中，所述原始文本至少用于描述目标对象的属性信息和使用说明；所述第一元组信息包括：第一信息和/或第二信息；所述第一信息包括：所述属性信息，以及所述属性信息和所述目标对象的关系，所述第二信息包括：所述使用说明，以及所述使用说明和所述目标对象的关系；将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断，得到第一评价信息，其中，所述第一评价信息至少包括：第一评分和第二评分，所述第一评分为指示所述第一元组信息的准确性的评分，所述第二评分为指示所述第一元组信息的完整性的评分；基于第一公式对所述第一评分和所述第二评分进行计算，以确定所述第一元组信息的目标评分，其中，所述第一公式为：

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种基于大模型的知识图谱构建方法的硬件环境示意图；

图2是根据本申请实施例的基于大模型的知识图谱构建方法的流程图；

图3是根据本申请实施例的基于大模型的知识图谱构建方法的整体架构图；

图4是根据本申请实施例的基于大模型的知识图谱构建方法的应用示意图；

图5是根据本申请实施例的一种基于大模型的知识图谱构建装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请所引用的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种基于大模型的知识图谱构建方法。该基于大模型的知识图谱构建方法广泛应用于智慧家庭（Smart Home）、智能家居、智能家用设备生态、智慧住宅（Intelligence House）生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述基于大模型的知识图谱构建方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

在本实施例中提供了一种基于大模型的知识图谱构建方法，应用于上述终端设备，上述终端设备包括：上述大模型，图2是根据本申请实施例的基于大模型的知识图谱构建方法的流程图，该流程包括如下步骤：

步骤S202，将原始文本和提示信息输入至所述大模型中，以使所述大模型根据所述提示信息对所述原始文本进行信息抽取，得到第一元组信息，其中，所述原始文本至少用于描述目标对象的属性信息和使用说明；所述第一元组信息包括：第一信息和/或第二信息；所述第一信息包括：所述属性信息，以及所述属性信息和所述目标对象的关系，所述第二信息包括：所述使用说明，以及所述使用说明和所述目标对象的关系；

需要说明的是，上述大模型可以理解为复杂的机器学习模型或深度学习模型；或者，上述大模型也可以理解为基于大规模语料库(包括例如句子、段落等语言训练素材)，设计语言模型训练任务，训练大规模神经网络算法结构来学习实现，最终得到的大规模神经网络算法结构及参数，上述最终得到的大规模神经网络算法结构及参数就是大模型。

举例来讲，在属性信息为红色，目标对象为冰箱的情况下，属性信息和所述目标对象的关系为：颜色；在属性信息为xxx型号，目标对象为冰箱的情况下，属性信息和所述目标对象的关系为：型号。

在使用信息为将冷藏室的温度设置为0-5℃之间，目标对象为冰箱的情况下，属性信息和所述目标对象的关系为：使用方式；在使用信息为禁止将冰箱放在潮湿的环境中，目标对象为冰箱的情况下，属性信息和所述目标对象的关系为：注意事项。

可选地，将原始文本和提示信息输入至所述大模型中之前，所述方法还包括：接收目标对象输入的原始文本；对所述原始文本进行词语拆分，得到所述原始文本对应的多个词语；对所述多个词语的进行语义理解，以确定所述原始文本对应的领域；在多个提示信息集合中确定所述原始文本的领域对应的目标提示信息集合，其中，所述多个提示信息集合分别对应不同的原始文本的领域；将所述目标提示信息集合中确定所述提示信息。

步骤S204，将所述原始文本、所述第一元组信息和判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和判别规则对所述第一元组信息进行判断，得到第一评价信息，其中，所述第一评价信息至少包括：第一评分和第二评分，所述第一评分为指示所述第一元组信息的准确性的评分，所述第二评分为指示所述第一元组信息的完整性的评分；

步骤S206，基于第一公式对所述第一评分和所述第二评分进行计算，以确定所述第一元组信息的目标评分，其中，所述第一公式为：

步骤S208，根据所述第一元组信息的目标评分对所述第一元组信息进行调整，以及根据调整后的第一元组信息构建所述原始文本对应的知识图谱。

本申请实施例中，通过大模型根据输入的提示信息对原始文本进行信息抽取，得到元组信息，并将元组信息、原始文本和判别规则再次输入至大模型中，以使大模型对生成的元组信息进行评价，并根据评价信息对元组信息进行调整，最后根据调整后的元组信息生成知识图谱；采用上述技术方案，解决了通过人工提取原始文本中的知识，进而根据提取的知识生成知识图谱，导致生成知识图谱的效率较低等问题，进而提高了知识的提取速率，以及提高了生成知识图谱的效率。

可选地，上述步骤S202可以通过以下方式实现：

将所述原始文本信息和所述提示信息输入至所述大模型中，以使所述大模型学习样例数据的数据格式，以及根据所述数据格式和输出指示对所述原始文本信息进行信息抽取，得到所述第一元组信息，其中，所述提示信息包括：所述样例数据和所述输出指示。

可选地，提示信息还包含以下几个信息：

角色：指定模型要输出的类型或格式，例如：现在大模型是文本抽取专家；

指令：下达给模型需要执行的特定任务或指令。例如，基于输入的文本信息抽取的知识。

上下文信息（相当于上述实施例中的样例数据）：提供背景信息，上下文信息比如样例数据和对应的输出格式，有助于引导模型更好的按照样例数据进行处理，以及输出指定格式的结果。例如，下边是一个例子：

文本：s型号的空调颜色为白色，重量为50kg，三年保养期，功能包括：制冷、制热、除湿；

返回：[（空调，颜色，白色），（空调，型号，s），（空调，保养时间，三年），（冰箱，功能，制冷、制热、除湿）]。

待处理数据（相当于上述实施例中的原始文本）：需要模型需要处理的数据。例如：s型号的冰箱颜色为红色，重量为100kg，三年保养期，制冷功能可用到达30匹，能够覆盖面积30平，能够让人保持健康和愉悦的心情。

输出指示：让模型按照给定的样例或者给定的格式进行返回结果。例如，请提取文本信息中的所有的三元组，里边涉及属性、功能、保养、售后、价格、参数等内容，请直接返回三元组即可。

在本申请实施例中，在生成三元组过程中使用了角色、上下文信息、待处理数据、指令和输出指示，大模型是有较大规模的数据训练而成，进而根据提示信息对原始文本做出处理并返回结果。

可选地，在所述判别规则为第一判别规则、第二判别规则和第三判别规则的情况下，上述步骤S204还可以通过以下方式实现：

将所述原始文本、所述第一元组信息、所述第一判别规则、所述第二判别规则和所述第三判别规则输入至所述大模型中，以使所述大模型根据所述原始文本和所述第一判别规则对所述第一元组信息进行判断，得到所述第一评分、所述第一元组信息中的错误元组信息以及所述错误元组信息对应的正确元组信息；以及，以使所述大模型根据所述原始文本和所述第二判别规则对所述第一元组信息进行判断，得到所述第二评分，以及；以使所述大模型根据所述原始文本和所述第三判别规则对所述第一元组信息进行判断，得到第二元组信息，其中，所述第一判别规则用于指示所述大模型对所述第一元组信息的准确性进行评分、确定所述第一元组信息中的错误元组信息以及确定所述错误元组信息对应的正确元组信息；所述第二判别规则用于指示所述大模型对所述第一元组信息的完整性进行评分；所述第三判别规则用于指示所述大模型对所述原始文本中除所述第一元组信息之外的信息再次根据所述提示信息进行信息抽取；所述第二元组信息为所述原始文本中除所述第一元组信息之外的元组信息。

本申请实施例中，通过向大模型输入三个判别规则，使得大模型根据三个判别规则输出对第一元组信息的评价信息，其中，评价信息具体包括：对所述第一元组信息的准确性进行评价的第一评分、对所述第一元组信息的完整性进行评价的第二评分、所述第一元组信息中的错误元组信息、所述错误元组信息对应的正确元组信息、所述原始文本中除所述第一元组信息之外的第二元组信息；进而根据评价信息确定对所述第一元组信息的调整方式。

举例来讲，第一判别规则可以如下：

现在大模型是知识评判专家，能够根据文本和给定的三元组，去评判，是否符合三元组的要求，三元组的知识是否来源自原始文本，如果某个三元组的内容和原始文本不符，请给出三元组及分数和修改后的内容比如（（冰箱，颜色，蓝色）：0，（冰箱，颜色，红色）），如果整体三元组知识够准确，请采用百分制给出分数。

以此，返回的内容有以下两点：1.错误三元组和修改后的内容；2.整体打分。

其中，三元组是指（实体，关系，实体）。举例如下：

例子一：