掌桥专利:专业的专利平台
掌桥专利
首页

基于方面级细粒度的商品评论情感分析方法和系统

文献发布时间:2023-06-19 12:25:57


基于方面级细粒度的商品评论情感分析方法和系统

技术领域

本发明涉及情感分析技术领域,具体涉及一种基于方面级细粒度的商品评论情感分析方法、系统、存储介质和电子设备。

背景技术

商品评论数据是电子商务交易完成后,客户对产品的质量、价格、服务等方面的评价。商品评论数据已成为商家获取客户消费偏好、开展精准营销的重要信息来源。这种评价集往往带有很强的情感倾向。研究客户的情感倾向既能度量客户对企业的认可度,也能挖掘客户的消费偏好。

目前,预测商品评价情感现主要通过两种技术:第一,基于传统的机器学习,其主要形式为获取商品评论数据集利用机器学习算法来进行情感预测;第二,基于序列神经网络模型,其主要形式为基于词向量利用时序序列神经网络获得句子级别的特征向量进行直接预测。

但是,构建传统机器学习模型相对困难,传统的机器学习算法通常需要复杂的特征工程(特征工程内容零散,定义方式较模糊,大致包括特征提取和特征选择两个方面。)即机器学习对于特征的提取和特征选择的实现方法比较复杂,深度学习是一种通过多层神经网络对信息进行抽取和表示。而序列神经网络模型不能处理具有图结构的数据类型,而句法甚至句子本身都可以看作是图结构的数据,并没有被序列神经网络模型有效利用,同时序列神经网络并不能有效处理存在长依赖的语法关系。因此,如何提供一种更简便、更全方位的商品评论情感分析方案成了目前亟需解决的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于方面级细粒度的商品评论情感分析方法、系统、存储介质和电子设备,解决了现有商品评论情感分析方案复杂且无法充分利用评论数据的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于方面级细粒度的商品评论情感分析方法,包括:

S1、获取并预处理商品评论数据;

S2、根据预处理后的商品评论数据,获取所述预处理后的商品评论数据包含的方面词;

S3、采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;

S4、根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;

S5、根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;

S6、根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。

优选的,所述步骤S1中预处理过程包括:

采用Stanford Parser解析器对所述商品评论数据进行解析,获取所述商品评论数据中的实体信息,并将实体标记为1,其余部分标记为0;并将所述商品评论数据解析后的各个词性标签分别映射为对应的向量,将所述向量与每个单词的获得的标记拼接,获取中间向量。

优选的,所述步骤S2具体包括:

S21、采用glove模型获取所述商品评论数据的嵌入向量矩阵,将所述嵌入向量矩阵与预处理步骤中获得的中间向量拼接,输入lstm网络,获取每个单词的最终向量;

S22、根据所述最终向量,采用深度学习方法获取所述商品评论数据中方面词的位置,并根据所述位置提取方面词。

优选的,所述步骤S3具体包括:

S31、将所述方面词设置为所述语法树的根节点;

S32、根据所述商品评论数据解析后得到的语法依赖树,以及所述方面词在所述语法依赖树中的语法依赖关系,确定所述根节点的下一层节点;

S33、根据该节点对应单词在所述语法依赖树中的语法依赖关系,确定下一层节点;

S34、重复执行步骤S33,直到遍历所述商品评论数据中所有单词,获取所述语法树,并以图像矩阵进行存储。

优选的,所述步骤S4具体包括:

S41、融合所述图像矩阵与嵌入向量矩阵,获取融合矩阵;

S42、根据所述语法树结构,平均所述融合矩阵每一层数值;

S43、根据平均后的融合矩阵,以及步长函数,获取修正矩阵。

S44、将所述修正矩阵输入lstm网络,获取根节点的初始特征表示。

优选的,所述步骤S5具体包括:

根据所述情感词典,查找所述语法树的直接孩子节点对应的情感标签得分,拼接所述根节点的初始特征表示与查找结果,获取根节点的最终特征表示;所述情感标签得分在-1~1的范围内,其中-1表示带有消极色彩的程度最高,1代表带有积极色彩程度最高。

优选的,所述情感倾向包括积极,消极,中性。

一种基于方面级细粒度的商品评论情感分析系统,包括:

评论获取模块,用于获取并预处理商品评论数据;

方面词获取模块,用于根据预处理后的商品评论数据,获取所述预处理后的商品评论数据包含的方面词;

语法树构建模块,用于采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;

初始特征表示模块,用于根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;

最终特征表示模块,用于根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;

情感分析模块,用于根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。

一种存储介质,其存储有用于基于方面级细粒度的商品评论情感分析的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的商品评论情感分析方法。

一种电子设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的商品评论情感分析方法。

(三)有益效果

本发明提供了一种基于方面级细粒度的商品评论情感分析方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:

本发明获取预处理后的商品评论数据包含的方面词;采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。本发明定位到商品评论数据中的每个方面词,构造出以方面词为根节点的依赖树算法,对每个方面词进行情感预测,打破评论只涵盖一个情感倾向的局限性,提高预测方面级别情感倾向的准确率;有助于商家准确了解信息进行管理;有助于客户进行更好的挑选商品。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于方面级细粒度的商品评论情感分析方法的流程示意图;

图2为本发明实施例提供的一种语法依赖树的示意图;

图3(a)为本发明实施例提供的一种以方面词为根节点的语法树示意图;

图3(b)为本发明实施例提供的另一种以方面词为根节点的语法树示意图;

图4为本发明实施例提供的一种基于方面级细粒度的商品评论情感分析系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种基于方面级细粒度的商品评论情感分析方法、系统、存储介质和电子设备,解决了现有商品评论情感分析方案复杂且无法充分利用评论数据的技术问题,实现打破评论只涵盖一个情感倾向的局限性,提高预测方面级别情感倾向的准确率;有助于商家准确了解信息进行管理;有助于客户进行更好的挑选商品。

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明实施例获取预处理后的商品评论数据包含的方面词;采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。本发明实施例定位到商品评论数据中的每个方面词,构造出以方面词为根节点的依赖树算法,对每个方面词进行情感预测,打破评论只涵盖一个情感倾向的局限性,提高预测方面级别情感倾向的准确率;有助于商家准确了解信息进行管理;有助于客户进行更好的挑选商品。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

第一方面,如图1所示,本发明实施例提供了一种基于方面级细粒度的商品评论情感分析方法,包括:

S1、获取并预处理商品评论数据;

S2、根据预处理后的商品评论数据,获取所述预处理后的商品评论数据包含的方面词;

S3、采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;

S4、根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;

S5、根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;

S6、根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。

本发明实施例定位到商品评论数据中的每个方面词,构造出以方面词为根节点的依赖树算法,对每个方面词进行情感预测,打破评论只涵盖一个情感倾向的局限性,提高预测方面级别情感倾向的准确率;有助于商家准确了解信息进行管理;有助于客户进行更好的挑选商品。

下面将结合具体内容对本发明实施例各步骤进行介绍:

S1、获取并预处理商品评论数据。

本发明实施例采用爬虫工具从电子商务平台获取商品评论数据集,所述数据集中包括“great food but the service was dreadful”这一条商品评论数据。

所述预处理过程包括:

采用Stanford Parser解析器对所述商品评论数据,即“great food but theservice was dreadful”进行解析,获取所述商品评论数据中的实体信息,并将实体标记为1,其余部分标记为0;并将所述商品评论数据解析后的各个词性标签分别映射为对应的向量,将所述向量与每个单词的获得的标记拼接,获取中间向量;同时获取如图2所示的语法依赖树。

此外,本发明实施例还可以构建关于商品评论数据方面的实体集,通过直接查询“great food but the service was dreadful”中的单词是否在该集合中,如果存在,将实体标记为1,其余部分标记为0。

S2、根据预处理后的商品评论数据,获取所述预处理后的商品评论数据包含的方面词。具体包括:

S21、采用glove模型获取所述商品评论数据的嵌入向量矩阵,将所述嵌入向量矩阵与预处理步骤中获得的中间向量拼接,输入lstm网络,获取每个单词的最终向量。

glove模型的原理:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。通过大量的文本海量的数据进行训练,把一个英文单词映射成一个向量。那么glove.840B.300d就是该模型把一个单词映射为300维的向量。本发明实施例直接引入该词向量预训练模型。

所述嵌入向量矩阵大小为7*300维,表示为:

S22、根据所述最终向量,采用深度学习方法获取所述商品评论数据中方面词的位置,并根据所述位置提取方面词。

S3、采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;具体包括:

S31、将所述方面词设置为所述语法树的根节点,例如以“food”为根节点,如图3(a)所示。

本发明实施例规定上述商品评论数据的索引从0开始,即0:great,1:food,……以“food”为根节点,则首先初始化graph[0][1]=1。

S32、如图2所示,根据所述商品评论数据解析后得到的语法依赖树,以及所述方面词在所述语法依赖树中的语法依赖关系,确定所述根节点“food”的下一层节点。

根据如图2所示的语法依赖树,首先找“food”指向的节点分别为“great”(index:0)和“dreadful”(index:6);再查找是否存在节点指向“food”,此处不存在;则graph[1][0]=1,graph[1][6]=1。

S33、根据该节点对应单词在所述语法依赖树中的语法依赖关系,确定下一层节点。

在剩下的单词“but,the,service,was”中寻找与访问过的单词存在语法依赖的单词,得到“but”(index:2)、“service”(index:4)、“was”(index:5)

S34、重复执行步骤S33,直到遍历所述商品评论数据中所有单词,获如图3(a)所示的语法树,并以图像矩阵进行存储。

所述图像矩阵大小为4*7维,表示为:

当然,构建以service为根节点的语法树,,如图3(b)所示,同样可以参照上述采用方面依赖树算法的构建方法,此处不再赘述。

S4、根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;具体包括:

S41、融合所述图像矩阵与嵌入向量矩阵,获取融合矩阵。

本步骤对得到的以方面词为根的语法树进行特征融合:在之前的步骤中,本发明实施例将语法树每一层映射成一个节点。以图3(a)为例,它将被映射成4层,每一层一个节点,通过以下公式和所述嵌入向量矩阵进行融合:

S42、根据所述语法树结构,平均所述融合矩阵每一层数值。

为了保留原始特征,本步骤对所述融合矩阵Node_Feature的每一层进行平均,通过下面方法实现:

S43、根据平均后的融合矩阵,以及步长函数,获取修正矩阵。

采用lstm网络进行递归更新时,本发明实施例的主要思想包括距离树根越远的节点,对于根节点的影响越小;相反,距离跟节点越近的节点对于根节点的影响越大。于是,本步骤于是我们提出了步长函数function=1/distance(distance为该层特征距离根节点的距离,从1,2,3…)。所述修正矩阵为:

S44、将所述修正矩阵输入lstm网络,获取根节点的初始特征表示。

S5、根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示。

为了更好的提高模型的效率和神经网络的可解释性,我们构建了一个情感词典,所述情感词典主要从商品评论数据集中挑选出一些包含感情色彩的词语。本发明实施例通过心理学,语言学等各方面的知识对这些词语进行科学的打分,对每个词语进行positive和negative两个标签进行打分,情感标签得分在-1~1的范围内,其中-1表示带有消极色彩的程度最高,1代表带有积极色彩程度最高。

利用上面构建的以方面为根的语法树,本发明实施例发现如果树根的孩子节点带有强烈的感情色彩,往往在很大程度上就决定了该商品该方面的情感色彩。

因此,本步骤先根据所述情感词典,查找所述语法树的直接孩子节点对应的情感标签得分;再拼接所述根节点的初始特征表示与查找结果;最后获取根节点的最终特征表示;

S6、根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。

具体的,本步骤中将所述根节点的最终特征表示,输入预先训练的情感分类模型中,获取所述商品评论数据的情感倾向。

情感分类模型是预先训练的,其训练过程可以包括如下步骤S110~S130:

S110、获取并预处理多条商品评论数据;

由于训练采用的数据量越大,训练得到的模型的分类能力越准确,因此商品评论数据的数量越多越好,例如,500条或者1000条等。

S120、确定所述多条商品评论数据中每一条数据对应的根节点的最终特征表示,并获取该条数据对应根节点的真实情感倾向。本发明实施例将所述真实情感倾向划分为积极,消极,中性。

该步骤中确定中每一条数据对应的根节点的最终特征表示的过程,可以参考上述步骤S2~S5,此处不再赘述。

S130、将所述多条商品评论数据中的每一条商品评论数据对应的根节点的最终特征表示作为一条第一训练样本,并将该条数据对应根节点的真实情感倾向作为所述第一训练样本的情感标签,构建情感分类训练数据库。

该步骤为构建情感分类训练数据库的过程,一条训练样本中包括一条商品评论数据对应的根节点的最终特征表示,一条第一训练样本具有一个情感标签。

S140、根据所述情感分类训练数据库,采用深度学习方法进行模型训练,获得所述情感分类模型。

第二方面,如图4所示,本发明实施例提供了一种基于方面级细粒度的商品评论情感分析系统,包括:

评论获取模块,用于获取并预处理商品评论数据;

方面词获取模块,用于根据预处理后的商品评论数据,获取所述预处理后的商品评论数据包含的方面词;

语法树构建模块,用于采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;

初始特征表示模块,用于根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;

最终特征表示模块,用于根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;

情感分析模块,用于根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。

可理解的是,本发明提供的商品评论情感分析系统与本发明提供的商品评论情感分析方法相对应,其有关内容的解释、举例和有益效果等部分可以参考商品评论情感分析方法中的相应部分,此处不再赘述。

第三方面,本发明实施例提供了一种存储介质,其存储有用于基于方面级细粒度的商品评论情感分析的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的商品评论情感分析方法。

第四方面,本发明实施例提供了一种电子设备,包括:

一个或多个处理器;

存储器;以及

一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的商品评论情感分析方法。

综上所述,与现有技术相比,具备以下有益效果:

本发明实施例获取预处理后的商品评论数据包含的方面词;采用方面依赖树算法构建以所述方面词为根节点的语法树,并以图像矩阵进行存储;根据所述图像矩阵,采用递归算法获取根节点的初始特征表示;根据所述语法树和根节点的初始特征表示,引入预先构建的情感词典,获取根节点的最终特征表示;根据所述根节点的最终特征表示,采用深度学习方法获取所述商品评论数据的情感倾向。本发明实施例定位到商品评论数据中的每个方面词,构造出以方面词为根节点的依赖树算法,对每个方面词进行情感预测,打破评论只涵盖一个情感倾向的局限性,提高预测方面级别情感倾向的准确率;有助于商家准确了解信息进行管理;有助于客户进行更好的挑选商品。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 基于方面级细粒度的商品评论情感分析方法和系统
  • 基于双重注意力机制的方面级情感分析方法、系统及模型
技术分类

06120113298439