电网大语言模型知识问答可信度评价方法、存储介质、设备

文献发布时间：2024-04-18 19:58:30

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种电网大语言模型知识问答可信度评价方法、存储介质、设备。

背景技术

在电力领域，专业术语非常繁琐和复杂，对于非专业人士来说很难理解。然而，随着人工智能技术的发展，大语言模型的出现为解决这一问题提供了新的技术方案。大语言模型是一种基于深度学习技术的语言模型，它可以通过对大量电力领域专业文献和数据的学习，快速理解和解释电力领域的专业术语，从而应用于问答系统等领域。

但现有的大语言模型仍然存在结果不可靠的问题，亟需一种能够对大语言模型的输出结果进行评价并有助力提高大语言模型应用质量的方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可靠性高的基于知识图谱的电网大语言模型知识问答可信度评价方法、存储介质、设备。

本发明的目的可以通过以下技术方案来实现：

一种基于知识图谱的电网大语言模型知识问答可信度评价方法，包括以下步骤：

基于某个电力领域问题获取电网大语言模型的答案，同时基于所述电力领域问题生成相应的知识图谱；

抽取所述答案中的实体关系，将该实体关系与知识图谱中的实体关系进行比对，计算所述答案与知识图谱的相似度；

基于所述相似度生成可信度评分。

进一步地，所述相似度为余弦相似度。

进一步地，所述相似度采用皮尔逊相关系数计算获得。

进一步地，所述电网大语言模型以ChatGLM-6b为基础构建。

进一步地，所述生成相应的知识图谱具体为：

提取所述电力领域问题中的关键词，将所述关键词与本地知识库进行匹配，获取需要进行关系抽取的文档；

对所述文档进行分句处理，并进行表征主谓宾短语的三元组抽取；

将抽取到的三元组结果存储于一列表中；

基于Neo4j数据库，将所述列表绘制获得具有节点和关系的知识图谱。

进一步地，进行所述分句处理时，标记切分标识，所述切分标识包括冒号、分号和/或感叹号。

进一步地，所述三元组抽取利用语义角色标注信息进行或利用依存句法分析结果进行。

进一步地，该方法还包括：

进一步地，基于所述可信度评分对多个答案进行排序和过滤。

本发明提供一种基于知识图谱的电网大语言模型知识问答可信度评价设备，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上所述的基于知识图谱的电网大语言模型知识问答可信度评价方法。

本发明提供一种存储介质，其上存储有程序，所述程序被执行时实现如上所述的基于知识图谱的电网大语言模型知识问答可信度评价方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过将知识图谱与大型语言模型相结合，将大型语言模型获得的实体关系与知识图谱中的实体关系进行比对，能够有效地评价知识问答的准确性和可信度，不仅可以帮助用户更快速地获取所需信息，还可以减少用户在获取信息过程中的误解和错误。

2、本发明可基于获取的可信度评分对多个答案进行排序和过滤，进而提升大语言模型回答的质量。

附图说明

图1为本发明的流程示意图；

图2为本发明知识图谱的生成过程示意图；

图3为实施例中电网大语言模型对电力领域知识问答结果图；

图4为实施例中抽取回答中的实体关系图；

图5为实施例中构建的知识图谱结果图；

图6为实施例中抽取的知识图谱的实体关系图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

知识图谱是一种基于语义网络的知识表示模型，它可以将各种不同的知识点以及它们之间的关系进行统一的表示和管理。知识图谱的出现是为了解决传统搜索引擎的局限性，即无法理解查询意图和上下文，无法进行精准的语义匹配。目前的知识图谱作用非常广泛，在搜索引擎、问答系统、智能推荐、智能决策、数据分析、医疗健康等方面都有广泛的应用。本发明即基于知识图谱实现。

实施例1

如图1所示，本实施例提供一种基于知识图谱的电网大语言模型知识问答可信度评价方法，包括以下步骤：基于某个电力领域问题获取电网大语言模型的答案，同时基于电力领域问题生成相应的知识图谱；抽取答案中的实体关系，将该实体关系与知识图谱中的实体关系进行比对，计算答案与知识图谱的相似度；基于相似度生成可信度评分。上述方法通过将电网大语言模型与知识图谱相结合，实现对电力领域的知识问答的可信度评价，从而提高电力领域知识问答的准确性和可靠性。

在本实施方式中，相似度为余弦相似度，使用的计算公式为：

在优选的实施方式中，电网大语言模型以ChatGLM-6b为基础构建，并基于历史电网领域知识数据训练实现微调后进行后续知识问答的应用。

如图2所示，生成相应的知识图谱具体为：

a)提取电力领域问题中的关键词，将关键词与本地知识库进行匹配，获取需要进行关系抽取的文档。

b)对文档进行分句处理，并进行表征主谓宾短语的三元组抽取。

具体地，分句处理主要是切分长句，并对冒号、分号、感叹号等做切分标识。

三元组抽取利用语义角色标注信息进行或利用依存句法分析结果进行。首先利用语义角色标注信息进行主谓宾短语抽取，如果抽取到了三元组，则将其添加到svos列表中；如果没有抽取到三元组，则利用依存句法分析结果进行事实三元组抽取：遍历句子中的每个单词，找到每个单词所有的子节点和其依存关系，提取依存关系列表中的依存父节点的索引和依存关系，匹配依存父节点的词语，将这些信息保存在格式化的依存句法分析结果的列表中。

c)将抽取到的三元组结果存储于一列表中。在本实施例中，所述列表为一Excel表。

d)基于Neo4j数据库，将列表绘制获得具有节点和关系的知识图谱。具体地，读取Excel文件中的数据，并将其转换为Pandas DataFrame格式，连接Neo4j数据库，遍历data数据创建节点和关系，合并相同节点，绘制图谱。

在优选的实施方式中，可以基于获得的可信度评分对多个答案进行排序和过滤，以排序和过滤后的数据作为大语言模型优化训练的样本，进而提升大语言模型回答的质量。

本实施例基于知识图谱的电网大语言模型知识问答可信度评价方法的具体应用过程包括：利用电网大语言模型进行提问，并获得如图3所示的答案结果；抽取回答中的实体关系，如图4所示；同步依据问题构建知识图谱，如图5所示；从知识图谱中抽取对应的实体关系，如图6所示；将回答中的实体关系与知识图谱的实体关系做比对，计算相似度，本实施例经过计算，“智能电网”的余弦相似度为0.563；通过得到的相似度，可以对大模型回答进行排序和过滤。

在另一实施例中，还提供一种基于知识图谱的电网大语言模型知识问答可信度评价装置，包括存储器、处理器，以及存储于存储器中的程序，处理器执行程序时实现如上的基于知识图谱的电网大语言模型知识问答可信度评价方法。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例2

本实施例提供一种基于知识图谱的电网大语言模型知识问答可信度评价方法，包括以下步骤：基于某个电力领域问题获取电网大语言模型的答案，同时基于电力领域问题生成相应的知识图谱；抽取答案中的实体关系，将该实体关系与知识图谱中的实体关系进行比对，计算答案与知识图谱的相似度；基于相似度生成可信度评分。上述方法通过将电网大语言模型与知识图谱相结合，实现对电力领域的知识问答的可信度评价，从而提高电力领域知识问答的准确性和可靠性。

在本实施方式中，相似度可采用皮尔逊相关系数计算获得，计算公式为：

其余同实施例1。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：国网上海市电力公司;华东电力试验研究院有限公司;东华大学;

上一篇：通信方法、装置、电子设备及存储介质
下一篇：一种发动机喷油器的喷嘴状态监测方法、设备及介质