掌桥专利:专业的专利平台
掌桥专利
首页

一种基于双图卷积网络的方面级情感分析方法

文献发布时间:2023-06-19 18:46:07


一种基于双图卷积网络的方面级情感分析方法

技术领域

本发明属于情感分析领域,具体涉及一种基于双图卷积网络的方面级情感分析方法。

背景技术

随着信息技术的迅猛发展,互联网已经成为人们日常生活中密不可分的一部分。显然,在互联网上发表评论已成为人们表达观点、传递经验的重要途径,越来越多的人愿意在网络上表达自己的态度和情感,同时网络评论的数量也开始呈爆炸式增长。互联网评论文本也逐渐成为人们寻找决策参考信息的重要来源,但如何从海量的信息中准确且迅速地提取有价值的信息成为人们亟待解决的难题。文本情感分析,也称为观点挖掘(OpinionMining),是针对人们对实体(包括产品、服务、组织等)表达的观点、评论和情感进行计算的研究。文本情感分析可以按分析粒度分三种不同的级别:篇章级情感分析、句子级情感分析和方面级情感分析。早期阶段,篇章级和句子级情感分析任务是研究的重点。然而,对文本进行整体情感分析会掩盖其细节,且整体情感并不能反映人们对意见目标的、细粒度的情感表达。用户在浏览评论时也更加关注细粒度信息,比如价格、质量、尺寸、味道等。因此,对评论进行方面级情感分析可以帮助用户做出更好的决策。对于商家或是其他组织来说,可以不再需要通过费时的问卷调查来收集公众对某方面的意见,因为公开的此类信息已经非常丰富了。综上所述,为了进行更加全面的情感分析,系统需要确定评论文本对每个方面所表达的情感信息,这就是方面级情感分析技术。

早期的工作传统方法主要侧重于人工特征工程。但是通常需要大量的词性极性标注工作和规则制定工作,还需要对数据进行人工特征筛选,因此人工成本极高。除此之外,由于在不同领域词性的极性和规则可能不同,导致模型泛化能力较差。近年来,深度学习已成为一种强大技术,并在许多应用领域产生了最先进的成果。此方法显示了强大的特征提取和文本表示能力,因此它具有良好的可扩展性。在方面级情感分析任务中,深度学习方法逐渐成为研究热点,研究人员提出了基于深度学习的各种模型来提高任务性能。深度学习的模型可以分为基于卷积神经网络(CNN)的方法、基于循环神经网络(RNN)的方法、基于记忆神经网络(Memory Networks)的方法和其它方法。以上的方法都只能从语义上提高方面级情感分析的准确率,但是从句法上提高方面级情感分析的准确率并没有得到解决。而结合句子的依赖树建立一个图卷积网络(GCN),可以利用句法信息和单词依赖,从而提高方面级情感分析的效率。

当前方面级情感分析技术还存在以下问题:

(1)上下文与方面之间缺少交互,一些研究认识到方面在情感分类中的重要性,通过生成特定方面表示来精确地对它们的上下文进行建模,但忽略了两者之间的相互影响,在一句话中,方面词和上下文词很可能不止一个,每个词对最终的分类都存在这不同程度的影响,只有协调好上下文与方面才能真正提高取语义分析的性能;

(2)单一的注意力机制(语义上)是不够的,虽然很多基于注意力的模型都一定程度上提高了方面级情感分析的效果,但基于注意力的模型不足以捕捉方面和上下文之间的句法依赖性,当前的注意力机制可能导致给定的方面错误地将句法上不相关的上下文词作为描述信息;

(3)可能会导致错误的关联,在句法分析树上构建图卷积网络,虽然它确实包含了有用的句法信息,但仍然可能通过图卷积传播的迭代将不相关的单词错误地关联到目标方面。

发明内容

为解决上述技术问题,本发明提出一种基于双图卷积网络的方面级情感分析方法,包括:

S1、获取待分析文本的上下文和方面,通过GloVe词向量模型分别将待分析文本的上下文和方面转化为词向量嵌入表示;

S2、利用双向长短期记忆网络对上下文和方面词向量嵌入表示进行特征提取,得到上下文和方面的隐藏状态表示;

S3、对上下文的隐藏状态表示进行位置编码,将编码后的上下文的隐藏状态表示输入句法图卷积网络,得到句法特征;

S4、对上下文和方面的隐藏状态求平均值,得到引导向量,利用引导向量对上下文和方面的隐藏状态表示进行编码,根据编码后的上下文和方面的隐藏状态表示得到交互矩阵,将交互矩阵输入语义图卷积网络,得到语义特征;

S5、通过平均池化操作屏蔽句法图卷积网络输出的句法特征和语义图卷积网络的输出的语义特征中非方面词的隐藏状态表示,得到最终的句法特征和语义特征,将最终的句法特征和语义特征连接起来作为最终特征,根据最终特征预测情感极性。

本发明的有益效果:

本发明通过将句法特征和语义特征连接起来作为最终特征,预测情感极性,能够从语义和句法这两个方面来提高方面级情感分析的准确率。

附图说明

图1是本发明的流程图;

图2是本发明的句法依赖关系图;

图3是本发明的邻接矩阵示意图;

图4是单层图卷积网络图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于双图卷积网络的方面级情感分析方法,如图1所示,包括:

S1、获取待分析文本的上下文和方面,通过GloVe词向量模型分别将待分析文本的上下文和方面转化为词向量嵌入表示;

S2、利用双向长短期记忆网络对上下文和方面词向量嵌入表示进行特征提取,得到上下文和方面的隐藏状态表示;

S3、对上下文的隐藏状态表示进行位置编码,将编码后的上下文的隐藏状态表示输入句法图卷积网络,得到句法特征;

S4、对上下文和方面的隐藏状态求平均值,得到引导向量,利用引导向量分别对上下文和方面的隐藏状态表示进行编码,得到融入方面的上下文表示和融入上下文的方面表示,根据融入方面的上下文表示和融入上下文的方面表示得到交互矩阵,将交互矩阵输入语义图卷积网络,得到语义特征;

S5、屏蔽句法图卷积网络输出的句法特征和语义图卷积网络的输出的语义特征中非方面词的隐藏状态表示,通过平均池化操作得到最终的句法特征和语义特征,将最终的句法特征和语义特征连接起来作为最终特征,根据最终特征预测情感极性。

对获取到的待分析文本进行预处理:(1)对文本进行分词处理;(2)去除噪声字符,保留数字、字母、连字符、标点符号,其他字符视为噪声字符;(3)将所有字母转换为小写字母。

待分析文本的单词集合表示为

对上下文的隐藏状态表示进行位置编码,包括:

其中,p

利用spaCy句法分析器给每个句子构建依赖树,然后根据图2所示的依赖关系获得每个句子的邻接矩阵A;如图3所示,如果两个词语在句法分析中存在依赖关系,则在两个词语之间建立一条边,若两个词语之间存在一条边,则边的权重为1,否则为0;再根据词性标准给不同的词性不同的权重。

将编码后的上下文的隐藏状态表示输入句法图卷积网络,单层图卷积网络如图4所示,得到句法特征,包括:

从句法图卷积网络得到的句法特征表示为:

其中,H

对上下文和方面的隐藏状态求平均值,得到引导向量,包括:

上下文的引导向量,表示为:

方面的引导向量,表示为:

其中,v

利用引导向量分别对上下文和方面的隐藏状态表示进行编码,得到融入方面的上下文表示和融入上下文的方面表示,包括:

利用引导向量对方面的隐藏状态表示进行编码,得到融入方面的上下文表示:

其中,s

同理,利用引导向量对上下文的隐藏状态表示进行编码,得到融入上下文的方面表示s

根据编码后的上下文和方面的隐藏状态表示得到交互矩阵,包括:

I

其中,I

将交互矩阵输入语义图卷积网络,得到语义特征;

从语义图卷积网络得到的语义特征表示为:

其中,H

屏蔽句法图卷积网络输出的句法特征和语义图卷积网络的输出的语义特征中非方面词的隐藏状态表示,通过平均池化操作得到最终的句法特征和语义特征,

包括:

其中,

将最终的句法特征和语义特征连接起来作为最终特征,包括:

其中,u表示句法特征和语义特征连接起来的最终特征,

根据最终特征预测情感极性,包括:

P=softmax(W

其中,P∈R

图卷积网络的训练策略为:选择为带有L

其中,C表示训练的数据集,

利用训练好的模型对待分析文本的方面词进行情感极性分类并对输出结果进行评估,使用准确率(Accuracy)和F1值(F1-Measure)作为评价指标。

其中,TP+TN表示预测正确的样本数,C表示样本总数。

其中,P为精确率,表示预测为真的样本中真正的真样本,它是针对预测结果而言的;R为召回率,样本中的真样本有多少被预测为真了,它是针对原来的样本而言的。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115686835