掌桥专利:专业的专利平台
掌桥专利
首页

基于后解码可信增强的大模型知识补全方法及系统

文献发布时间:2024-04-18 19:57:31


基于后解码可信增强的大模型知识补全方法及系统

技术领域

本发明实施例涉及知识补全技术领域,尤其涉及一种基于后解码可信增强的大模型知识补全方法及系统。

背景技术

知识图谱知识补全是利用人工智能技术来自动填充知识图谱中的缺失信息或关系的过程。知识图谱是一种结构化的知识表示方式,它将现实世界中的实体、属性和关系以图的形式进行建模,使得计算机可以更好地理解和推理这些知识。然而,现实世界的知识是庞大而复杂的,构建一个完整的知识图谱是一项艰巨的任务。即使已经建立了一个初始的知识图谱,其中仍然会存在大量的缺失信息或不完整的关系。这时,知识图谱知识补全就发挥了作用。通过分析已有的知识,结合自然语言处理、机器学习和图神经网络等技术,可以预测出可能的实体、属性或关系,从而填补知识图谱的空白部分。

基于大模型的知识补全系统采用大模型作为知识补全的基础框架,利用大模型中存储的知识来补全知识图谱中缺失的三元组,具有很多优点,大模型能够利用自身丰富的训练数据与参数量,快速补全缺失内容。然而大模型输出的内容会存在“幻觉”问题,导致所补全的三元组可能会存在一定的错误。

因此,目前亟需一种新的大模型知识补全系统。

发明内容

本发明实施例提供一种基于后解码可信增强的大模型知识补全方法及系统,以至少部分解决相关技术中存在的问题。

本发明实施例第一方面提供了一种基于后解码可信增强的大模型知识补全方法,所述方法包括:

基于目标知识领域内待补全的三元组,构造提示文本prompt;

通过大模型基于prompt进行逐层推理得到隐层状态

通过基于多层感知机的后解码模块对

通过融合模块对所述大模型输出的

根据所述最终结果G对所述待补全的三元组进行补全。

可选地,所述方法还包括:

获取所述目标知识领域内的已知三元组;

对所述已知三元组中的任一实体进行隐藏,基于隐藏任一实体后的三元组构造训练样本;

基于所述训练样本,对待训练的后解码模块和待训练的融合模块进行训练。

可选地,对已知三元组中的任一实体进行隐藏,基于隐藏任一实体后的三元组构造训练样本,包括:

确定已知三元组中各个实体的出现频率;

对所述已知三元组中出现频率低的低频实体进行隐藏;

基于隐藏低频实体后的三元组构造训练样本。

可选地,基于所述训练样本,对待训练的大模型、待训练的后解码模块和待训练的融合模块进行训练,包括:

将所述训练样本输入大模型,将所述大模型输出的样本隐层状态输入待训练的后解码模块,通过所述待训练的后解码模块对所述大模型输出的样本隐层状态进行调整修正,生成样本解码后状态,将样本隐层状态和样本解码后状态输入待训练的融合模块,得到样本最终结果;

以最小化所述样本最终结果和被隐藏的实体的差异为目标,保持所述大模型的参数不变,对所述待训练的后解码模块和所述待训练的融合模块的参数进行更新。

可选地,所述大模型的模型结构基于Transformer架构,所述大模型通过以下公式基于prompt逐层推理得到隐层状态

其中

可选地,后解码模块为神经网络结构,所述后解码模块通过以下公式对

……;

其中

可选地,所述融合模块基于以下公式计算得到最终结果G:

其中

本发明实施例第二方面提供了一种基于后解码可信增强的大模型知识补全系统,所述大模型知识补全系统包括:大模型、基于多层感知机的后解码模块和融合模块,所述大模型知识补全系统用于执行本发明第一方面所述的方法中的步骤。

本发明实施例第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述的方法中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面所述的方法中的步骤。

本发明实施例中,针对目标知识领域,在大模型输出答案之前,使用后解码模块来对大模型的输出的隐层状态进行后解码处理,基于目标知识领域相对应的后解码模块,对大模型输出的隐层状态进行适当调整,可对错误内容进行修正,再基于融合模块对大模型输出的

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的基于后解码可信增强的大模型知识补全方法的流程图;

图2是本发明实施例的基于后解码可信增强的大模型知识补全方法的示例性流程示意图;

图3是本发明实施例的基于后解码可信增强的大模型知识补全方法中涉及的大模型的模型结构示意图;

图4是本发明实施例的基于后解码可信增强的大模型知识补全方法中涉及的后解码模块的模型结构示意图;

图5是本发明实施例的基于后解码可信增强的大模型知识补全方法中涉及的融合模块的模型结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,示出了本发明实施例的一种基于后解码可信增强的大模型知识补全方法的流程图,本发明实施例提供的基于后解码可信增强的大模型知识补全方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法可以包括以下步骤:

S101,基于目标知识领域内待补全的三元组,构造提示文本prompt。

S102,通过大模型基于prompt进行逐层推理得到隐层状态

S103,通过基于多层感知机的后解码模块对

S104,通过融合模块对所述大模型输出的

S105,根据所述最终结果G对所述待补全的三元组进行补全。

本发明实施例中,所述后解码模块和所述融合模块的参数是基于目标知识领域内的已知三元组构造的样本prompt和最终结果标签训练得到的,训练过程中,所述大模型模块的参数不变。

本发明实施例中,可以将大模型最后预设数量层输出的隐层状态输入后解码模块,例如:最后一层,最后两层等。

本发明实施例中,具体可以将大模型最后一层输出的隐层状态

知识图谱是一种结构化的知识表示方法,用于将实体、属性和它们之间的关系进行建模。知识图谱是一个大规模的语义网络,能够存储和呈现各种领域的知识,并提供可视化的方式进行查询和推理。知识图谱通常由三个要素构成:实体、属性和关系。实体代表现实世界中的具体事物或概念,而属性描述了实体的特征或性质。关系则表示实体之间的连接或依赖关系。通过知识图谱,可以以结构化的方式组织和管理知识,并从中获取有用的信息。知识图谱可以应用于多个领域,如搜索引擎、智能问答、自然语言处理、数据分析等。本发明实施例中,对进行知识补全后得到的知识图谱,可以进一步应用于多个领域。

为了便于理解,以下结合图2对本发明实施例提供的基于后解码可信增强的大模型知识补全方法进行解释,图2示出了本发明实施例提供的基于后解码可信增强的大模型知识补全方法的示例性流程示意图。

本发明实施例中,知识图谱中的三元组包括头实体、关系和尾实体,在步骤S101中,可以基于待补全的三元组中的关系所属的关系类型,从目标知识领域内的预设关系模版确定目标关系模版,再基于该目标关系模版针对待补全的三元组构造提示文本。本发明实施例中,目标知识领域内的预设关系模版是根据目标知识领域内的常见关系构建得到的。示例的,以三元组(巴黎,作为首都,法国)为例,关系类型为“作为首都”,其关系模版可以为“(尾实体)的首都是(头实体)”如果待补全的是头实体,即(?,作为首都,法国),可将其转化为:1、法国的首都是哪?2、法国的首都是哪个城市?3、哪个城市是法国的首都?如果待补全的是尾实体,即(巴黎, 作为首都,?),可将其转化为:1、巴黎是哪个国家的首都?2、哪个国家的首都是巴黎?3、有没有哪个国家的首都是巴黎?

本发明实施例中,所述大模型的模型结构基于Transformer架构,如图3所示,其示出了本发明实施例的一种基于后解码可信增强的大模型知识补全方法涉及的大模型的模型结构示意图。具体的,所述大模型通过以下公式基于prompt逐层推理得到隐层状态

其中

其中,省略部分指代S

Transformer是一种基于自注意力机制的深度学习模型,用于处理序列数据,在自然语言处理领域广泛应用。Transformer的核心是多头自注意力机制,它通过对输入序列的每个位置进行自注意力计算,从而捕捉到全局的上下文关系。Transformer中包含编码器和解码器两部分,隐层状态主要存在于编码器中。编码器由多个相同的层组成,每个层都包含自注意力子层和前馈神经网络子层。在每个子层中,输入序列经过线性变换后,通过自注意力机制计算得到每个位置对所有位置的权重,进而生成每个位置的上下文向量。随后,这些上下文向量会通过前馈神经网络进行一次非线性变换,得到最终的隐层状态。也就是说,Transformer的隐层状态可以理解为输入序列经过多个层的自注意力计算和非线性变换后所得到的每个位置的表示。它包含了输入序列的全局上下文信息,可以被用于后续任务,如机器翻译、文本生成等。

本发明实施例中,考虑到大模型的“幻觉”输出问题,提出在大模型输出答案之前,使用后解码模块来对大模型的输出的隐层状态进行后解码处理,基于目标知识领域相对应的后解码模块,对大模型输出的隐层状态进行适当调整。

本发明实施例中,基于多层感知机的后解码模块为多层神经网络结构,如图4所示,其示出了本发明实施例的一种基于后解码可信增强的大模型知识补全方法涉及的后解码模块的模型结构示意图。所述后解码模块通过以下公式对

……;

其中

其中,省略部分指代R

多层感知机(Multilayer Perceptron,简称MLP)是一种经典的前馈人工神经网络模型,由多个神经元层构成。多层感知机的结构包括输入层、隐藏层和输出层。每一层都由多个神经元组成,神经元之间通过权重连接,并经过激活函数的非线性变换。在多层感知机中,信息流从输入层进入,依次经过隐藏层的处理,最终通过输出层得到预测结果。每个神经元会将输入进行加权求和,并经过激活函数的处理,将输出传递给下一层。多层感知机的训练过程通常使用反向传播算法(Backpropagation)来优化模型参数。该算法通过计算损失函数对各个参数的梯度,然后根据梯度的反方向更新参数,以最小化损失函数。多层感知机可以用于解决分类和回归问题。它能够学习到复杂的非线性关系,并具有较强的表达能力。

本发明实施例中,基于多层感知机的后解码模块的模型参数经过目标知识领域的训练样本优化,其可以对大模型输出的隐层状态进行适当调整,可以对大模型输出的错误内容进行修正。

本发明实施例中,融合模块与大模型和后解码模块相连,结合大模型输出的状态和后解码模块输出的状态,并计算新的知识补全结果。

本发明实施例中,融合模块可以通过门控机制实现状态融合,如图5所示,其示出了本发明实施例的一种基于后解码可信增强的大模型知识补全方法涉及的融合模块的模型结构示意图。具体的,融合模块接收基于Transformer的大模型产生的输出状态和基于多层感知机的后解码模块产生的解码状态作为输入,将两个状态通过门控机制融合在一起生成最终的结果,进而可以预测出新的事实三元组。具体的,所述融合模块基于以下公式计算得到最终结果G:

其中

本发明实施例中,基于融合模块输出的最终结果G可以对待补全的三元组进行补全,丰富现有的知识图谱,为下游任务奠定基础。

本发明实施例中,针对目标知识领域,在大模型输出答案之前,使用后解码模块来对大模型的输出的隐层状态进行后解码处理,基于目标知识领域相对应的后解码模块,对大模型输出的隐层状态进行适当调整,可对错误内容进行修正,再基于融合模块对大模型输出的

在本发明实施例的一种基于后解码可信增强的大模型知识补全方法中,结合上述实施例,所述方法还可以包括以下步骤:

S201,获取所述目标知识领域内的已知三元组。

S202,对所述已知三元组中的任一实体进行隐藏,基于隐藏任一实体后的三元组构造训练样本。

S203,基于所述训练样本,对待训练的后解码模块和待训练的融合模块进行训练。

本发明实施例中,目标知识领域是实际应用时需要进行的知识补全的待补全三元组所属的知识领域。本发明实施例中,知识领域是在知识图谱中对各种三元组按照所属领域进行划分得到的。本发明实施例中,可以从已有的知识图谱中获取目标知识领域内已知的完整三元组。

本发明实施例中,上述步骤S202中,训练样本包括:样本prompt和最终结果标签,其中样本prompt的构造方法和上述步骤S101提供的prompt构造方法类似。具体的,可以随机隐藏已知三元组中的头实体或者尾实体,再基于关系模版构造得到样本prompt。示例的,以已知三元组(巴黎,作为首都,法国)为例,关系类型为“作为首都”,其关系模版可以为“(尾实体)的首都是(头实体)”如果隐藏头实体,即(?,作为首都,法国),可将其转化为:1、法国的首都是哪?2、法国的首都是哪个城市?3、哪个城市是法国的首都?如果隐藏尾实体,即(巴黎, 作为首都,?),可将其转化为:1、巴黎是哪个国家的首都?2、哪个国家的首都是巴黎?3、有没有哪个国家的首都是巴黎?

具体的,上述步骤S202包括以下子步骤:

S2021,确定已知三元组中各个实体的出现频率。

S2022,对所述已知三元组中出现频率低的低频实体进行隐藏。

S2023,基于隐藏低频实体后的三元组构造训练样本。

本发明实施例中,在训练样本的构建过程中,考虑大模型倾向于输出高频出现的内容,为了让大模型更多地关注到低频出现的知识,在对隐藏实体的选择的时候,可以优先选择低频出现的实体,参与更多地训练。具体而言,对于实体

具体的,上述步骤S203包括以下子步骤:

S2031,将所述训练样本输入大模型,将所述大模型输出的样本隐层状态输入待训练的后解码模块,通过所述待训练的后解码模块对所述大模型输出的样本隐层状态进行调整修正,生成样本解码后状态,将样本隐层状态和样本解码后状态输入待训练的融合模块,得到样本最终结果。

S2032,以最小化所述样本最终结果和被隐藏的实体的差异为目标,保持所述大模型的参数不变,对所述待训练的后解码模块和所述待训练的融合模块的参数进行更新。

本发明实施例中,可以基于上述步骤S201~S203训练得到后解码模块和融合模块。

本发明实施例中,可以分别针对不同的目标知识领域训练得到对应的后解码模块和融合模块,从而本发明实施例提供的知识补全方法可以在不同知识领域的知识补全任务中高效扩展,能够准确地补全知识的缺失部分。本发明实施例中,使用目标知识领域对应的后解码模块可对大模型输出内容进行适当调整,对错误内容进行修正,降低了大模型出现“幻觉”的可能性,增强大模型的可信度。

在一种可选的实施方式中,本发明实施例中,还可以利用全部隐藏头实体的训练样本,训练得到针对头实体进行补全的后解码模块和融合模块,还利用全部隐藏尾实体的训练样本,训练得到针对尾实体进行补全的后解码模块和融合模块,从而可以进一步提高知识补全的准确率。

基于同一发明构思,本发明实施例还提供了一种基于后解码可信增强的大模型知识补全系统,所述大模型知识补全系统包括:大模型、基于多层感知机的后解码模块和融合模块,所述大模型知识补全系统用于执行上述任一实施例所述的方法中的步骤。

本发明实施例中,所述大模型知识补全系统中还可以包括:输入模块,该输入模块,可以基于待补全的三元组所属的关系类型,从目标知识领域内的预设关系模版确定目标关系模版,再基于该目标关系模版针对待补全的三元组构造提示文本prompt。

基于同一发明构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的方法中的步骤。

基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理器以产生一个机器,使得通过计算机或其他可编程终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于后解码可信增强的大模型知识补全方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120116459061