掌桥专利:专业的专利平台
掌桥专利
首页

一种基于遮蔽语言模型的两阶段情感迁移方法和系统

文献发布时间:2023-06-19 11:45:49


一种基于遮蔽语言模型的两阶段情感迁移方法和系统

技术领域

本发明涉及深度学习与自然语言处理技术,具体涉及基于遮蔽语言模型的两阶段情感迁移方法和系统。

背景技术

近年来,互联网信息技术高速发展,新闻网站、社交媒体每天都会产生海量的文本数据。文本数据包含着各种各样的风格,比如写作风格、主题风格、情感极性等。对文本风格进行迁移,即在不改变文本主体内容的前提下,重新组织文本让文本有着具体的风格属性,可以用于生成标签文本数据、更好地理解文本数据。情感迁移作为风格迁移的一个例子,目标在于转写文本的情感极性,能够运用于海量情感数据,如餐饮点评、商品评价,已经成为了一项极具实用价值、受到关注的研究课题。

情感迁移主要面临两个挑战,一是缺乏平行语料,二是情感信息和文本内容信息的杂糅。缺乏平行语料使得模型难以实现对海量数据的监督学习,信息杂糅使得情感和内容难以分割从而对情感信息进行替换。情感迁移逻辑上分为两个步骤,一是确定文本中的情感信息部分,二是将情感信息替换为期望的带有目标情感的文本表达。现有方法对这两个步骤进行统一建模,即希望模型能够在识别情感信息的同时进行替换。具体来说,现有方法通常使用序列到序列的建模方法,将文本先编码为一个特征向量,通过施加不同的限制来让该特征向量只包含内容信息,在此基础上将情感属性也编码为一个特征向量,两个向量拼接后执行解码过程得到文本。由于缺乏平行语料,上述模型过程通常使用无监督学习完成,导致模型难以学习到较好的特征编码方式,难以生成令人满意的文本。

发明内容

针对上述技术问题,本发明提出一种基于遮蔽语言模型的两阶段情感迁移方法和系统,利用先遮蔽再填空的方式,借助预训练的遮蔽语言模型,来解决信息杂糅、平行语料缺乏的问题。

为了解决上述技术问题,本发明的技术方案如下:

一种基于遮蔽语言模型的两阶段情感迁移方法,包括如下步骤:

利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;

利用情感标记词的词库,对语料进行遮蔽处理,得到遮蔽语料;

将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;

将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。

进一步地,先找出不同情感极性所对应的情感标记词,构成每个情感极性的情感标记词库,包括:

预训练基于注意力机制的情感分类器,包括:使用word2vec在大规模非标注语料上得到传统词向量,把词向量表征的句子输入到双向长短时记忆网络(BiLSTM)来学习句子层级的上下文信息表示,对该表示使用注意力机制来提取不同词的位置特征的重要性权重,使用权重和上下文信息得到加权的文本信息表示,输入到softmax层进行类别概率预测;

使用情感分类器对语料中的所有词组进行打分,即把词组输入到情感分类器中,将softmax层输出的类别置信度当做该词组的情感得分;

统计语料中所有词组在不同情感极性语料中的频率,进而计算相对频率;

用情感得分和相对频率相乘,作为词组的最终得分,最终得分高于设定阈值的词组加入到情感标记词库中。

进一步地,根据情感标记词库,对语料中所有句子的情感标记词部分进行遮蔽,即将对应部分替换为特殊标记[MASK],遮蔽的部分和未遮蔽的部分一起构成遮蔽语料。

进一步地,使用遮蔽语言模型对语料中被遮蔽的部分进行填空,达到情感迁移的目的,包括:

使用在大规模维基百科语料库上预训练的遮蔽语言模型,在遮蔽语料上进行训练,目标是根据句子中未遮蔽的部分来推测被遮蔽部分。该训练步骤是为了消除遮蔽语言模型的预训练维基百科数据和当前情感数据之间存在的分布偏差,让遮蔽语言模型更熟悉情感语料。

进一步地,由于遮蔽语言模型是在无监督环境下训练的,而情感迁移需要迁移句子满足对应情感极性,于是将标签信息加入到遮蔽语言模型的输入中,使得遮蔽语言模型的推测能够满足情感属性的要求。

进一步地,为了增加迁移句子的情感极性迁移准确度,引入预训练判别器辅助训练,根据目标情感类别标签来对迁移语料中的句子进行监督判别,计算迁移准确率。

进一步地,由于文本生成过程中的离散采样,导致梯度无法从预训练判别器回传到遮蔽语言模型。引入软采样的方法解决该问题,即在文本生成中不是使用argmax操作来得到词表中最大可能性对应的索引来在词向量表中取词,而是使用输入到argmax的softmax打分向量来乘以词向量矩阵,得到加权的词向量表示。该过程没有离散采样所导致的不可导问题,使得梯度能够回传,即能够利用预训练判别器的监督信号来优化遮蔽语言模型。

基于同一发明构思,本发明还提供一种基于遮蔽语言模型的两阶段情感迁移系统,其包括:

遮蔽模块,负责利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;

填空模块,负责将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型,在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。

本发明的有益效果在于:

针对情感风格迁移中的两个问题:一是,信息杂糅导致情感信息和内容信息难以分宜,二是,缺乏平行语料来进行监督学习;提出了基于遮蔽语言模型的两阶段情感迁移方法,具体为:显式地将情感迁移变为两阶段建模,先利用基于预训练基于注意力的情感分类器打分与基于相对频率的融合方法,找出文本中情感信息所对应的情感词;遮蔽掉这些词,在遮蔽语料上使用遮蔽语言模型进行填空。为了保证填入词能够使迁移句子满足目标情感极性,引入预训练判别器辅助训练,约束遮蔽语言模型生成与目标情感极性一致的句子。

本发明通过显式分割情感迁移任务,先找出句子中的情感信息进行遮蔽,再填入能代表目标情感信息的情感词,相比于同时建模情感信息和内容信息的方法,本发明通过分解任务降低难度,达到更好的效果。本发明引入预训练遮蔽语言模型来填入情感信息,利用预训练带来的先验知识,能够实现对句子特征的高效编码,有效地缓解了平行语料缺乏所导致的模型训练问题。

附图说明

图1为本发明实施例提供的基于遮蔽语言模型的两阶段情感迁移方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施案例并结合附图,对本发明做进一步详细说明。

图1为本实施例中基于遮蔽语言模型的两阶段情感迁移方法流程图方法的流程图,如图所示,该方法主要包括两个阶段,分别是:基于融合方法的情感标记词遮蔽阶段,基于预训练遮蔽语言模型考虑上下文信息和目标情感的情感标记词填空阶段。

(一)遮蔽阶段

步骤1,预训练基于注意力的情感分类器。给定包含N个词的输入句子S=

α=softmax(w·tanh(WH

根据重要性权重来得到加权的特征表示c,将其输入到输出层得到分类输出y:

c=α·H

y=softmax(W

其中w,W,W

训练完毕后,将句子输入情感分类器,抽取对应的注意力权重a,作为情感得分p;

步骤2,计算词组u在某情感极性a对应语料D

其中λ表示平滑因子;A表示所有情感极性;D

步骤3,将情感得分和相对频率相乘得到最终得分:

s(u,a)=s

最终得分超过阈值γ,则加入情感标记词库;

步骤4,使用情感标记词库对情感语料中的表示情感信息的情感标记词进行遮蔽,得到遮蔽语料。

(二)填空阶段

步骤1,给定包含N个词的输入句子S=

步骤2,使用预训练的双向Transformer表示编码(Bidirectional EncoderRepresentation from Transformer)模型的权重,初始化和预训练遮蔽语言模型。

步骤3,使用遮蔽语言模型在情感语料上进行遮蔽词推测的训练,缓解遮蔽语言模型预训练的维基百科语料和情感语料的数据分布偏差,使得遮蔽语言模型能够在情感语料上进行合理的上下文编码,对遮蔽位置进行填空预测。

步骤4,将遮蔽语言模型输入层的片段词向量改为类别标签词向量,从而能使遮蔽语言模型在推测遮蔽时同时考虑目标情感类别和上下文信息。

步骤5,使用修改后的考虑类别的遮蔽语言模型在情感语料上进行遮蔽词推测的训练,使得遮蔽语言模型能考量类别标签词向量的作用:

其中,

步骤6,使用遮蔽语言模型得到迁移句子,构成迁移语料:

其中

步骤7,使用预训练判别器对遮蔽语言模型输出的迁移句子

其中,

步骤8,使用软采样解决文本生成导致的梯度中断问题,即在文本生成中不是使用argmax操作来得到词表中最大可能性对应的索引来在词向量表中取词,而是使用输入到argmax的softmax打分向量来乘以词向量矩阵,得到加权的词向量表示。软采样使得梯度信号能从预训练判别器回传到遮蔽语言模型。

步骤9,综合考虑两类目标函数进行训练:

其中,

由上述方案可以看出,本方案针对情感风格迁移中的两个问题:一是信息杂糅导致情感信息和内容信息难以分离,二是缺乏平行语料来进行监督学习,提出基于遮蔽语言模型的两阶段情感迁移方法,可以提高生成句子的质量,具有良好的实用性。

基于同一发明构思,本发明的另一个实施例提供一种基于遮蔽语言模型的两阶段情感迁移系统,其包括:

遮蔽模块,负责利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;

填空模块,负责将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。

其中各模块的具体实施过程参加前文对本发明方法的描述。

基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

相关技术
  • 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
  • 一种基于遮蔽语言模型的金融领域多重关系抽取方法
技术分类

06120113046960