掌桥专利:专业的专利平台
掌桥专利
首页

一种联合学习内外部知识的预训练语言模型知识增强方法

文献发布时间:2024-04-18 19:58:26


一种联合学习内外部知识的预训练语言模型知识增强方法

技术领域

本发明涉及自然语言处理技术领域,具体涉及一种联合学习内外部知识的预训练语言模型知识增强方法。

背景技术

预训练语言模型是一种利用大规模无标注文本数据来学习语言知识和技能的机器学习方法,它可以提高下游自然语言处理任务的性能和泛化能力。预训练语言模型的代表性工作有ELMo、BERT、GPT-2等,它们都是基于神经网络和深度学习的技术,如Transformer、LSTM、CNN等,或者是基于这些技术的变体或组合。

知识增强预训练语言模型是一种在预训练语言模型的基础上,引入外部知识来提升模型的语言理解和生成能力的机器学习方法,它可以解决预训练语言模型的一些局限性,如缺乏常识知识、推理能力、多样性等。知识增强预训练语言模型的代表性工作有KEPLER、ERNIE、K-BERT等,它们都是利用知识图谱或其他形式的结构化或半结构化知识,来增强预训练语言模型的表示能力或生成能力。知识增强预训练语言模型的研究方法主要有两类:一类是在预训练阶段就将知识融合到模型中,如通过掩码知识预测、知识对齐、知识蒸馏等方式,来使模型在无标注文本上学习到更多的知识信息。另一类是在微调阶段才将知识融合到模型中,如通过知识检索、知识编码、知识融合等方式,来使模型在特定任务上利用到更多的相关知识。

除了掩码知识预测方法外,其他大部分方法都存在没有根本上解决文本和知识图谱嵌入在特征空间上的不匹配问题。为此,提出一种联合学习内外部知识的预训练语言模型知识增强方法。

发明内容

本发明所要解决的技术问题在于:如何解决现有技术中内部知识和外部知识无法平滑融合的问题,提供了一种联合学习内外部知识的预训练语言模型知识增强方法,通过联合学习内外部知识来对预训练语言模型进行知识注入的方式,成功解决了结构化的知识图谱与擅长非结构化的预训练模型结合的问题,以及文本和知识图谱嵌入在特征空间上的不匹配问题。

本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:

S1:知识感知屏蔽策略处理

根据词频和语义利用重要词过滤器可替换性将原始训练语料中重要单词过滤出来,并引入新的屏蔽策略;

S2:确定预测任务

在下一句预测任务、屏蔽语言建模任务的基础上,添加尾部实体预测任务,使预训练语言模型能够在学习上下文内部知识的同时学习相关联的外部知识图谱的知识;

S3:设计损失函数并对模型进行训练

设计模型训练时的损失函数,基于下一句预测任务、屏蔽语言建模任务、尾部实体预测任务,利用设计的损失函数对预训练语言模型进行训练,得到训练后的预训练语言模型,即知识增强预训练语言模型。

更进一步地,在所述步骤S1中,根据词频和语义利用重要词过滤器可替换性将原始训练语料中最重要的词语过滤出来的具体过程为:

S11:确定高频词

对于原始训练语料C,通过分词统计得到原始训练语料C相对应的词汇表W,选择选择频率最高的T个单词作为W

W

其中,f(w)表示单词的频率;

S12:从原始训练语料中过滤掉高频词:

将原始训练语料C中任意原始句子序列定义为s

S13:语义表示

对于候选关键词w

S14:重要词过滤

设计评分函数Score(w

更进一步地,在所述步骤S14中,评分函数Score(w

更进一步地,在所述步骤S1中,新的屏蔽策略为用特殊标记[IW]在知识相关的关键词前后进行标识,并且在输入序列中提供与该关键词相关的三元组中的关系词。

更进一步地,在所述步骤S2中,尾部实体预测任务的执行过程如下:

S21:根据索引提取重要词的嵌入和关系词的嵌入;

S22:使用全连接层作为解码器,生成预测尾部实体嵌入t′,定义如下:

t′=FF(h+r)

其中,h表示头实体嵌入,r表示关系实体嵌入,FF(·)表示解码器;

S23:计算预测尾部实体嵌入t′与真实尾部实体嵌入t的L1损失L

其中,n代表词向量的维度,t

更进一步地,在所述步骤S2中,屏蔽语言建模任务用于训练预训练语言模型通过预测单词的掩码来理解上下文信息。

更进一步地,在所述步骤S2中,下一句预测任务训练预训练语言模型理解两个句子之间的关系。

更进一步地,在所述步骤S3中,设计的损失函数如下:

L=L

其中,L

本发明相比现有技术具有以下优点:该联合学习内外部知识的预训练语言模型知识增强方法,通过引入知识相关预训练任务以及设计了相应的掩码策略使模型能够将结构化的知识图谱和非结构化的输入文本在一个表征空间中训练;此外,增加的重要词过滤处理,使模型既能够从词频的角度过滤掉停用词,又能够从语义可替换性的角度过滤掉对文本影响小的词;在多个中文公开数据集上微调训练准确率均有提升。

附图说明

图1是本发明实施例一种联合学习内外部知识的预训练语言模型知识增强方法的流程示意图;

图2是本发明实施例二中的联合学习内外部知识的知识增强预训练语言模型(UniPLM模型)的框架示意图。

具体实施方式

下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例一

如图1所示,本实施例提供一种技术方案:一种联合学习内外部知识的预训练语言模型知识增强方法,包括以下步骤:

S1:知识感知屏蔽策略处理

根据词频和语义利用重要词过滤器可替换性将原始训练语料中重要单词过滤出来,并引入新的屏蔽策略;

S2:确定预测任务

在下一句预测任务、屏蔽语言建模任务的基础上,添加尾部实体预测任务,使预训练语言模型能够在学习上下文内部知识的同时学习相关联的外部知识图谱的知识;

S3:设计损失函数并对模型进行训练

设计模型训练时的损失函数,基于下一句预测任务、屏蔽语言建模任务、尾部实体预测任务,利用设计的损失函数对预训练语言模型进行训练,得到训练后的预训练语言模型,即知识增强预训练语言模型。

在本实施例中,在所述步骤S1中,根据词频和语义利用重要词过滤器可替换性将原始训练语料中最重要的词语过滤出来的具体过程为:

S11:确定高频词

对于原始训练语料C,通过分词统计得到原始训练语料C相对应的词汇表W,选择选择频率最高的T个单词作为W

W

其中,f(w)表示单词的频率;

S12:从原始训练语料中过滤掉高频词:

将原始训练语料C中任意原始句子序列定义为s

S13:语义表示

对于候选关键词w

S14:重要词过滤

设计评分函数Score(w

在本实施例中,在所述步骤S14中,评分函数Score(w

在本实施例中,在所述步骤S1中,新的屏蔽策略为用特殊标记[IW]在知识相关的关键词前后进行标识,并且在输入序列中提供与该关键词相关的三元组中的关系词。

在本实施例中,在所述步骤S2中,尾部实体预测任务的执行过程如下:

S21:根据索引提取重要词的嵌入和关系词的嵌入;

S22:使用全连接层作为解码器,生成尾部实体预测嵌入t′,定义如下:

t′=FF(h+r)

其中,h表示头实体嵌入,r表示关系实体嵌入,FF(·)表示解码器;

S23:计算预测尾部实体嵌入t′与真实尾部实体嵌入t的L1损失L

其中,n代表词向量的维度,t

在本实施例中,在所述步骤S2中,屏蔽语言建模任务用于训练预训练语言模型通过预测单词的掩码来理解上下文信息。

在本实施例中,在所述步骤S2中,下一句预测任务训练预训练语言模型理解两个句子之间的关系。

在本实施例中,在所述步骤S3中,设计的损失函数如下:

L=L

其中,L

实施例二

如图2所示,本实施例提出了一种联合学习内外部知识的知识增强预训练语言模型,通过实施例一中联合学习内外部知识的预训练语言模型知识增强方法处理得到。

在本实施例中,针对文本和知识图谱嵌入在特征空间上的不匹配问题,本实施例添加了一个知识图谱相关的预训练任务——尾部实体预测任务,以得到一个注入了外部知识的语言表征空间;然后为了适配该任务,本实施例先将输入文本最重要的词利用一个重要词过滤器筛选出来,然后对输入序列应用新的知识相关的掩蔽策略,如表1所示。

表1本实施例提出的掩码策略和传统掩码策略的对比表

其中MLM表示屏蔽语言建模(Masked language model),TEP表示尾部实体预测(Tail Entity Prediction)。

下面对本实施例中的主要内容进行更进一步地说明。

1、预训练任务

(1)外部知识训练任务:尾部实体预测任务

屏蔽语言建模(Masked language model,MLM)任务和下一句预测(Next sentenceprediction,NSP)任务分别从token-level和sentence-level帮助模型学习了输入序列的内部知识,但是,这两个任务都无法直接且合理利用外部知识,具体来说,MLM任务会将内部知识和外部知识一视同仁地掩盖,这可能会误导模型的理解;对于NSP任务,直接修改输入序列会破坏句子的完整性。

为了解决以上问题,本实施例提出了将尾部实体预测任务(Tail EntityPrediction,TEP)作为预训练任务,结果表明该任务在注入外部知识方面比MLM和NSP更有效。具体来说,首先根据索引提取重要词的嵌入和关系词的嵌入。接下来,本实施例按照TransE的原理,即对于知识图谱中的三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体,如果这个三元组成立,那么在向量空间中,头实体向量h加上关系向量r应该接近尾实体向量t,受此启发使用全连接层作为解码器,生成尾部实体预测嵌入t′,定义如下:

t′=FF(h+r) (1)

其中,h表示头实体嵌入,r表示关系实体嵌入,FF(·)表示全连接解码层。

尾部实体预测任务会将预测尾部实体嵌入t′与真实尾部实体嵌入t进行比较。

最后,计算预测尾部实体嵌入t′与真实尾部实体嵌入t的L1损失L

其中,n代表词向量的维度,t

(2)内部知识训练任务:屏蔽语言建模和下一句预测任务

MLM任务继承自BERT和RoBERTa。在预训练阶段,MLM任务会随机选择一些被屏蔽的词组。这项任务的目的是训练语言模型通过预测单词的掩码来理解上下文信息。模型必须学会利用上下文信息来推断缺失的信息。具体来说,MLM随机选取15%的标记,每个被选中的标记都有80%的概率被[MASK]替代,10%的概率被其他标记替代,10%的概率不被替代。关于网络结构,MLM任务将对每个标记执行V(词汇大小)道路多重分类。最后,计算这些选定位置的负对数似然损失L

NSP任务继承自BERT。在预训练阶段,NSP任务训练模型理解两个句子之间的关系。具体来说,对于每一对句子,除了保留正确的原始上下文句子外,还有50%的概率会随机选择另一个句子作为后续句子,从而形成负样本。关于网络结构,MLM任务将对每个句子向量进行分类。最后,计算这些句子对的负对数概率损失L

2、预训练目标

为了顺利整合预训练语言模型中的外部知识表示空间和内部知识表示空间,设计了图2中的多任务损失。具体损失L定义如下所示:

L=L

其中,L

3、知识相关掩码策略

为了适应尾部实体预测(TEP)任务,本实施例设计了一种知识感知屏蔽策略。该策略允许模型将外部知识与输入序列的内部上下文知识区分开来。具体包括2个部分,分别是重要词过滤器和知识掩码策略。

(1)重要词过滤器

根据齐普夫定律(Zipf's Law),句子中出现频率较低的词往往携带更多信息。因此除了词频,本实施例还考虑了可替代性作为语义贡献来衡量词的重要性。可替代性就是在文本序列中将某一词语掩盖,然后通过语义向量计算句子遮掩该词前后的语义相似度,如果语义相似度高,说明该词语具有可替代性,如果相似度低,说明该词语对句子语义表达很重要,不能被替换。上述两个因素可以筛选出最重要的词,而注入这些词可以使模型有选择地学习所需的外部知识。

首先进行高频词过滤。在原始训练语料C中,通过分词统计得到原始训练语料C相对应的词汇表W。本实施例选择频率最高的T个单词作为W

W

其中,f(w)表示单词的频率。

然后,从原始训练语料C中过滤掉高频词W

其次,本实施例考虑词的语义贡献。如果单词w

最后,设计一个评分函数Score(w

最终,相似度值与单词的重要性成反比,得分最高的单词将被屏蔽为重要单词。

(2)知识相关掩码策略

假设知识被附加到输入序列中。在这种情况下,外部知识和输入标记同样被[MASK]屏蔽,因此模型无法区分外部知识和输入标记。如果使用其他模型将知识训练到一个表示空间,然后直接将知识表示空间与内部上下文表示空间融合,则很难将两者更好地融合。因此,本实施例中提出了同时学习内容和外部知识的统一空间。

为了解决这些问题,本实施例修改现有的屏蔽策略,用唯一的标记"[IW]"屏蔽与知识相关的词语。这样可以确保模型看不到重要的词。为了弥补信息损失,本实施例在输入序列中提供了与该关键词相关的三元组中的关系词,如图2所示。通过引入这种屏蔽策略,本实施例让模型使用知识信息,增加了理解原始输入序列的难度。

在本实施例的知识增强预训练语言模型中,先利用重要词过滤器,根据词频和语义可替代性在原始输入序列中筛选出一些候选重要词;然后采用本实施例中的屏蔽策略,在重要词前后用[IW]作为标识符,并在输入序列后添加相应三元组中的关系词;最后进行预训练,在预训练过程中,增加尾部实体预测的预训练任务。

实施例三

本实施例中采用的数据来自多个不同领域的公开数据集,共计465万条,为了进行模型训练,本实施例中将按照8:1:1分为训练集、测试集和验证集。本实施例中通过与其他主流中文知识增强预训练语言模型在多个中文基准任务上相比较,结果如表2所示:

文本分类任务(Text Classification):基本思路给定一个文本段落,从预定义的类别中选择一个或多个合适的类别来标注文本。本实施例主要在AFQMC,TNEWS,IFLYTEK,OCNLI,WSC数据集上测试这些模型。AFQMC是一个中文句子对语义相似度判断数据集,包含了来自不同领域的句子对。TNEWS是一个中文新闻标题分类数据集,包含了15个新闻类别。IFLYTEK是一个中文长文本分类数据集,包含了119个应用领域。OCNLI是一个中文自然语言推理数据集,包含了三种逻辑关系:蕴含、矛盾和中立。WSC是一个中文指代消解数据集,包含了一些有歧义的代词和它们的先行词。

问答任务(Question Answering):给定一个问题和一个文本段落,从文本段落中抽取出问题的答案。本实施例主要在CMRC2018,ChID,C3数据集上测试这些模型。CMRC2018是一个中文机器阅读理解数据集,包含了跨段落的抽取式问答。ChID是一个中文成语阅读理解填空数据集,包含了从现代文学作品中选取的句子和段落。C3是一个跨领域的多选式中文机器阅读理解数据集,包含了对话和文章两种类型的文本。

表2UniPLM模型在通用数据集上的准确率表

由表2中结果可以看出:

(1)UniPLM可以在TNEWS和OCNLI中取得显著的优势,因为这些数据集除了上下文知识外还需要模型对世界知识有基本的理解。在IFLYTEK中,可以看到本发明的UniPLM(经过本发明知识增强方式处理后的预训练语言模型)通过有效地注入了外部知识带来了一定程度的提升。在AFQMC和WSC中,UniPLM没有带来显著的提升,这是因为句子相似度计算主要依赖上下文内部知识,而指代消解更多的需要模型理解句子结构。

(2)UniPLM在CMRC2018和ChID中没有明显提高性能,因为这些数据集的源文本较长信息蕴含丰富,UniPLM引入的外部知识没有带来显著的增强。在C3中,可以看到本发明的UniPLM在不同领域和问题类型上都有略微的改进,这是因为C3数据集多是口语化问答文本,本身蕴含的信息量并不大,因此外部知识的注入能够带来帮助。

综上所述,上述实施例的联合学习内外部知识的预训练语言模型知识增强方法,在预训练阶段,根据词频和语义可替换性将文本中最重要的词语过滤出来,引入新的掩码策略,然后加入了尾部实体预测任务使模型能够在学习上下文内部知识的同时学习相关联的外部知识图谱的知识,提高了通用预训练语言模型的语义理解能力。通过引入知识相关预训练任务以及设计了相应的掩码策略使模型能够将结构化的知识图谱和非结构化的输入文本在一个表征空间中训练。此外,增加的重要词过滤处理,使模型既能够从词频的角度过滤掉停用词又能够从语义可替换性的角度过滤掉对文本影响小的词。最终本发明的方法在多个中文公开数据集上微调训练准确率均有提升,在TNEWS、OCNLI、C3数据集上提升了2%-4%,在其他数据集也有略微提升。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 知识增强预训练语言模型的训练方法、应用方法及装置
  • 一种基于预训练语言模型的开放域科学知识发现方法和装置
技术分类

06120116488938