掌桥专利:专业的专利平台
掌桥专利
首页

一种基于VAE和Attention的主题增强文本情感分类方法

文献发布时间:2024-04-18 19:52:40


一种基于VAE和Attention的主题增强文本情感分类方法

技术领域

本发明属于自然语言处理领域,涉及一种基于VAE和Attention的主题增强文本情感分类方法。

背景技术

近年来,由于互联网技术的不断发展,越来越多的人在网上通过各种平台发表自己的感受,同时网络评论的数量也呈爆炸式增长,越来越多的人愿意在网络上表达自己的态度和情感,而非单纯地浏览与接受。大量的网络评论数据往往伴随着评论者的情感信息,如“开心”“愤怒”“沮丧”等。社交网络中的节点都是人类。情感是人类的重要特征之一。用户的情绪在理解个人活动中起着重要的作用。个人情感有助于探索社交网络及其应用,如推荐和信息传播。个体情感会深刻地影响用户的行为和决策。个人情感信息可以帮助我们理解如何影响用户的偏好,并做出准确的推荐。个人情感的状态不仅会影响他们的行为和决策,甚至会影响经济的波动。所以如何提取出用户情感并进行预测非常重要。现有的情感分析技术仍然存在许多不足,大多数工作主要是根据文本特征信息利用监督学习的方式多情感进行分类,忽略了文本潜在主题对于情感的影响,而常规的主题生成方法例如LDA不能以联合的方式直接集成到神经网络中。

发明内容

有鉴于此,本发明的目的在于提供一种基于VAE(变分自编码器)和Attention(注意力机制)的通过捕获主题信息来进行文本情感分类的方法,通过VAE获取文本潜在的主题向量,再通过注意力机制将CNN-Bi-LSTM处理后得到的句子结构信息相结合,充分利用文本的潜在主题信息,提高情感分类的准确性。

为达到上述目的,本发明提供如下技术方案:

一种基于VAE和Attention的主题增强文本情感分类方法,包括以下步骤:

S1:将预处理后的文本数据转化为词向量;

S2:使用变分自编码器VAE重建BoW输入来学习潜在主题和关键字;

S3:通过CNN-Bi-LSTM提取句子特征信息;

S4:利用注意力机制Attention计算CNN-Bi-LSTM层最后一个时序输出的向量与潜在主题向量的权重进行加权求和作为特征向量,再进行softmax分类。

进一步,步骤S1中所述预处理包括:将原始文本数据去除标点符号和停用词,再进行分词处理,最后进行word2vec词嵌入处理。

进一步,步骤S2所述的VAE由一个编码器和一个解码器组成,其中:

编码器的输入是句子的词袋特征,给定句子S={s

解码器通过变分推理来近似后验分布Z,并利用前馈神经网络将Z重构为

/>

其中M∈R

M跟随每个主题t=(0,......T)进行规范化:

其中,M

模型学习:通过最大化特征边际对数似然的变分下限来学习VAE的参数:

其中φ和θ分别是编码器和解码器的参数,以及KL-发散项确保q

更进一步,编码器f

定义潜在变量Z=μ+σ·∈,∈是从

更进一步,对编码器采用KL成本退火和断字,以削弱自回归解码器并退火KL散度项。

进一步,步骤S3所述的CNN-Bi-LSTM包括CNN层和Bi-LSTM层,其中:

所述CNN层的处理步骤为:用不同尺寸的卷积核提取特征,再进行最大池化,最后将不同尺寸的卷积核提取的特征拼接在一起作为输入到Bi-LSTM中的特征向量;

所述Bi-LSTM层用于获取句子双向的特征信息。

进一步,所述CNN层的处理步骤具体包括:

设x

其中

卷积运算包含一个滤波器

c

h为窗口,也就是滤波器的高度,b∈R是一个偏置项,w是权重,f是一个非线性函数;过滤器应用于句子{X

c=[c

然后在特征映射上应用max超时池操作,并将最大值

使用不同窗口大小的多个过滤器来获得多个特征,将这些特征形成倒数第二层,并传递给完全连接的Bi-LSTM层;

在倒数第二层使用dropout,使用三种feature size的卷积核对应3-gram,4-gram和5-gram。

进一步,所述Bi-LSTM层包括遗忘门、输入门、输出门;

遗忘门:以一定的概率控制是否遗忘上一层的隐藏细胞状态,表示为:

f

其中h

输入门:负责处理当前序列位置的输入,确定什么样的新信息被存放在细胞状态中,包括sigmoid层,用于决定更新什么值;tanh层,用于创建一个新的候选值向量

i

其中i

将当前的细胞状态,C

输出门:输出门的子结构如下:

o

h

输入门、遗忘门、输出门所对应的函数都是sigmoid函数,输出的结果是[0,1],当为0时,门完全关闭,当为1时,门完全打开。

进一步,步骤S4具体包括以下步骤:

S41:首先将CNN-Bi-LSTM层输出的最后一个时序向量与VAE中提取的潜在主题向量作为Attention层的输入向量,并通过词向量与三个矩阵W

S42:计算注意力分数,计算比较Q和K的相似度,用f(Q,K

f(Q,K

S43:将分数进行Softmax操作,Softmax将分数进行归一化处理,使得它们都为正数并且和为1,计算出权重α

S44:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量,再通过全连接层输出分类结果:

其中α

本发明的有益效果在于:通过VAE学习潜在主题和关键字,充分利用了文本的主题信息,通过注意力机制结合文本的结构信息,将主题对情感的影响加入到了情感分类模型中,提高了情感分类的准确性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为本发明实施例一种基于VAE和Attention的主题增强文本情感分类方法整体流程图;

图2为本发明实施例步骤S1中文本数据预处理流程图;

图3为本发明实施例步骤S2中VAE模型结构图;

图4为本发明实施例步骤S3中CNN-Bi-LSTM模型结构图;

图5为本发明实施例步骤S4中Attention层模型结构图;

图6为公开英文数据集SemEval 18分布图;

图7为微博中文数据集分布图;

图8为实验中的超参数设置图;

图9为本方法与传统情感分类模型在公开英文数据集SemEval 18上的实验结果对比图;

图10为本方法与传统情感分类模型在微博中文数据集上的实验结果对比图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

图1为本发明实施例一种基于VAE和Attention的主题增强文本情感分类方法流程图,如图1所示,所述方法包括:

S1、将预处理后的文本数据转化为词向量;

S2、使用VAE重建BoW输入来学习潜在主题和关键字;

S3、通过CNN-Bi-LSTM提取句子特征信息;

S4、Attention计算CNN-Bi-LSTM层最后一个时序输出的向量与潜在主题向量的权重进行加权求和作为特征向量,再进行softmax分类;

图2为数据预处理流程图,所述方法包括:去除标点符号,去除停用词,分词,进行word2vec词嵌入处理。

本发明所述VAE模型如图2所示,VAE由一个编码器和一个解码器组成。

编码器:编码器的输入是句子的词袋特征。给定句子S={s

特别地,编码器f

定义潜在变量Z=μ+σ·∈,∈是从

解码器:我们通过变分推理来近似后验分布Z,前馈神经网络用来将Z重构为

这里M∈R

其中,M

模型学习:通过最大化特征边际对数似然的变分下限来学习VAE的参数:

其中φ和θ分别是编码器和解码器的参数,以及KL-发散项确保q

由于解码器的训练目标是重建输入,因此可以直接访问源特征。当解码器被训练时,假定q(Z|x

本发明所述CNN-Bi-LSTM模型如图4所示,具体如下:

CNN层:设x

其中

c

h是窗口,也就是滤波器的高度,这里b∈R是一个偏置项,w是权重,f是一个非线性函数。这个过滤器应用于句子{X

c=[c

然后在特征映射上应用max超时池操作,并将最大值

倒数第二层使用了dropout,(解决过拟合问题,当模型参数太多而训练样本少的时候容易出现过拟合问题。)

使用三种feature size的卷积核可以认为是对应了3-gram,4-gram和5-gram。整体模型结构如下,先用不同尺寸(3,4,5)的卷积核去提取特征,在进行最大池化,最后将不同尺寸的卷积核提取的特征拼接在一起作为输入到Bi-LSTM(双向长短期记忆网络)中的特征向量。

其中LSTM包含3个模块,分别是遗忘门、输入门、输出门。

遗忘门以一定的概率控制是否遗忘上一层的隐藏细胞状态,可表示为:

f

在这里h

输入门(input gate)负责处理当前序列位置的输入,确定什么样的新信息被存放在细胞状态中。这里包含两个部分。第一,sigmoid层称“输入门层”决定什么值我们将要更新。然后一个tanh层创建一个新的候选值向量

i

我们希望增加新的主语的性别到细胞状态中,来替代旧的需要忘记的主语。所以在更新新的细胞状态时,主要要做的两件事就是决定哪些历史信息该流入当前细胞中(遗忘门控制),决定哪些新的信息该流入细胞中(输入门控制)。

在获得了输入门和遗忘门系数之后就可以更新当前的细胞状态,C

输出门:在得到了新的隐藏细胞状态C

o

h

隐藏状态h

本发明所述Attention层如图5所示,Attention计算CNN-Bi-LSTM层最后一个时序输出的向量与潜在主题向量进行加权求和作为特征向量,再进行softmax分类,具体如下:

(1)首先对CNN-Bi-LSTM层输出的最后一个时序向量与VAE中提取的潜在主题向量作为Attention层的输入向量,并为其创建三个向量,分别是Query向量、key向量、value向量。他们通过词向量与三个矩阵W

(2)计算注意力分数。计算比较Q和K的相似度,用f来表示。并且将每个分数除以

f(Q,K

(3)将这些分数进行Softmax操作。Softmax将分数进行归一化处理,使得它们都为正数并且和为1:

(4)针对计算出来的权重;,对V中所有的values进行加权求和计算,得到Attention向量,再通过全连接层输出分类结果。

对比实验:

在公开英文数据集SemEval 18与微博中文数据集上进行实验,数据集分布分别如图6和图7所示。

实验设置:

使用tensorflow框架来实现我们的模型,通过随机梯度下降来更新参数,由于为此任务使用多个评估指标,因此在训练过程中,使用作为F

评价指标:

使用AP、F

其中AP表示平均精度,表示排名高于给定标签的相关标签的平均比例。公式如下:

汉明损失(hamming loss)用于查看基于单个标签的样本错误分类,例如当黄金标签未出现在预期的标签集中或错误的标签存在时。此评估指标的值越小,系统的性能就越好。公式说明如下:

在这里,△代表两个集合之间的对称差。

F

这里|c|指类别的数量,F

相比之下,F

P

实验结果分析:

图9和图10分别为本方法所述整体模型与传统情感分类模型的在公开英文数据集SemEval 18和微博中文数据集上实验结果对比,可以看出,在多个指标中,本方法都优于传统分类模型,尤其是在AP和F

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术分类

06120116335344