意见挖掘方法、电子设备及计算机可读存储介质
文献发布时间:2023-06-19 19:37:02
技术领域
本发明涉及文本信息处理技术领域,尤其是指一种意见挖掘方法、电子设备及计算机可读存储介质。
背景技术
意见挖掘主要是运用自然语言处理、信息抽取、数据挖掘等技术方法对目标文本信息进行主客观分析,以及进一步对主观性文本进行情感分析, 从而帮助抽取出文本信息中有价值的意见信息或知识。
根据挖掘范围和程度的不同,总体上可以分为粗粒度意见挖掘和细粒度意见挖掘。
粗粒度意见挖掘主要是对文本进行整体的情感倾向性分类,一般分为褒义、中性和贬义等。但是不能深入挖掘用户对于具体评论对象及其相关属性的情感态度。
细粒度意见挖掘在粗粒度意见挖掘的基础上进一步深入,具体到产品的特征层面,运用信息抽取技术抽取出评论文本中的评论主体、评价词以及文本情感倾向等意见要素,为现实应用提供有价值的细节信息。目前的意见挖掘主要涉及评论主体、评价词搭配抽取、情感计算等方面研究内容。
在评论主体、评价词的联合抽取研究中,现有方法大多采用管道式模型,首先识别评论主体、评价词,然后采用笛卡尔积的形式进行分组,然后预测每组的评论主体、评价词是否具有关系。这种做法存在明显的缺点,一是存在误差传播,二是时间复杂度高。有的研究采用机器阅读理解的框架,将任务转换为多轮问答的形式。但这种方法训练成本高,训练速度慢。此外,在情感极性的分析中,大多是已有的方法均从单个粒度进行分析,没有进行全面的分析。
发明内容
为此,本发明所要解决的技术问题在于提供一种复杂度低、效率高、准确度高的意见挖掘方法。
为解决上述技术问题,本发明提供了一种意见挖掘方法,其包括以下步骤:
S1、获取评论文本,将评论文本转换为token(令牌)序列;
S2、对所述token序列进行编码,得到上下文表示;
S3、根据所述上下文表示获取评论主体位置的中间层表示,并通过分类器预测评论主体的位置;根据所述上下文表示获取评论词位置的中间层表示,并通过分类器预测评论词的位置;
S4、根据所述上下文表示获取评论主体位置的新的中间层表示和评论词位置的新的中间层表示;根据评论主体位置的新的中间层表示和评论词位置的新的中间层表示,捕捉评论主体和评论词组成的词对之间的依赖关系,得到词对关系的中间层表示,并选择概率值最大的关系作为词对关系;根据词对关系,通过预测的评论主体的位置得到对应的评论主体,通过预测的评论词的位置得到对应的评论词。
在本发明的一个实施例中,步骤S4包括:
S41、根据所述上下文表示获取评论主体位置的新的中间层表示R
R
R
其中,H为上下文表示;Relu为激活函数;W
S42、将评论主体和评论词组成的词对之间的关系定义为“正向”、“负向”、“中性”、“无关系”四种类别,利用双放射函数捕捉评论主体和评论词组成的词对之间的依赖关系,得到词对关系的中间层表示S
S
其中,W
并选择概率值最大的关系作为词对关系r,如下:
S
其中,S
S43、根据词对关系r,当r不属于“无关系”类别,通过预测的评论主体的位置得到对应的评论主体a,通过预测的评论词的位置得到对应的评论词o,得到一个三元组“评论主体a,评论词o,词对关系r”。
在本发明的一个实施例中,在步骤S3中,根据所述上下文表示获取评论主体位置的中间层表示R
R
其中,H为上下文表示;Relu为激活函数;W
并通过分类器预测评论主体的位置,如下:
R
其中,R
在本发明的一个实施例中,评论主体索引序列R
R
R
R
其中,w
在本发明的一个实施例中,在步骤S3中,根据所述上下文表示获取评论词位置的中间层表示R
R
其中,H为上下文表示;Relu为激活函数;W
并通过分类器预测评论词的位置,如下:
R
其中,R
在本发明的一个实施例中,评论词索引序列R
R
R
R
其中,w
在本发明的一个实施例中,还包括以下步骤:
根据所述上下文表示,通过分类器预测评论主体的类别。
在本发明的一个实施例中,还包括以下步骤:
根据所述上下文表示,通过平均池化得到评论文本的中间层表示,根据评论文本的中间层表示通过分类器预测句子级别的情感极性。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的意见挖掘方法可以快速、准确地挖掘出评论文本中的评论主体和对应的评论词,并从句子级、属性级、类别级三个粒度进行用户情感极性的分析,具有复杂度低、效率高的优点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明实施例中意见挖掘方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
参照图1所示,本实施例公开了一种意见挖掘方法,其包括以下步骤:
步骤S1、获取评论文本,将评论文本转换为token序列;可选地,步骤S1包括:
步骤S1.1、利用BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)预训练模型中的词典,将评论文本转换为数字token,无法匹配的字用
步骤S1.2、在token序列的前后加上[CLS]和[SEP]标记;
步骤S1.3、将token序列按照设定的长度进行截断和填充,填充的token为0。
步骤S2、对所述token序列进行编码,得到上下文表示;可选地,步骤S2包括:
步骤2.1、将步骤1.3得到的token序列作为输入,通过BERT中的Transformer(变换网络)计算句子的上下文表示。计算公式为:
H
步骤2.2、将最后一层Transformer的输出作为评论输入的最终上下文表示H。
步骤S3、根据所述上下文表示获取评论主体位置的中间层表示,并通过分类器预测评论主体的位置;根据所述上下文表示获取评论词位置的中间层表示,并通过分类器预测评论词的位置;
具体地,根据所述上下文表示获取评论主体位置的中间层表示R
R
其中,H为上下文表示;Relu为激活函数;W
并通过分类器预测评论主体的位置,如下:
R
其中,R
具体地,根据所述上下文表示获取评论词位置的中间层表示R
R
其中,H为上下文表示;Relu为激活函数;W
并通过分类器预测评论词的位置,如下:
R
其中,R
步骤S4、根据所述上下文表示获取评论主体位置的新的中间层表示和评论词位置的新的中间层表示;根据评论主体位置的新的中间层表示和评论词位置的新的中间层表示,捕捉评论主体和评论词组成的词对之间的依赖关系,得到词对关系的中间层表示,并选择概率值最大的关系作为词对关系;根据词对关系,通过预测的评论主体的位置得到对应的评论主体,通过预测的评论词的位置得到对应的评论词。可选地,步骤S4包括:
S41、根据所述上下文表示获取评论主体位置的新的中间层表示R
R
R
其中,H为上下文表示;Relu为激活函数;W
S42、将评论主体和评论词组成的词对之间的关系定义为“正向”、“负向”、“中性”、“无关系”四种类别,利用双放射函数捕捉评论主体和评论词组成的词对之间的依赖关系,得到词对关系的中间层表示S
S
其中,W
并选择概率值最大的关系作为词对关系r,如下:
S
其中,S
S43、根据词对关系r,当r不属于“无关系”类别,通过预测的评论主体的位置得到对应的评论主体a,通过预测的评论词的位置得到对应的评论词o,得到一个三元组“评论主体a,评论词o,词对关系r”。
在其中一实施例中,评论主体索引序列R
R
R
R
其中,w
在其中一实施例中,评论词索引序列R
R
R
R
其中,w
n个词对关系(w
在其中一实施例中,还包括以下步骤:
根据所述上下文表示,通过分类器预测意见解释的位置,如下:
R
其中,W
在其中一实施例中,还包括以下步骤:
根据所述上下文表示,通过分类器预测评论主体的类别,如下:
R
其中,softmax为分类函数;W
在其中一实施例中,还包括以下步骤:
根据所述上下文表示,通过平均池化得到评论文本的中间层表示H
H
R
其中,W
为了验证本发明中方法的有效性,在其中一实施例中,给定一条酒店评论文本:
“晚上睡觉噪音非常大,也没人管,停车位超级紧张;早餐种类单调;房间内无空调,建议不要三伏天去。”
以该评论文本作为输入,运用本发明的方法,将得到如下结果:
评论主体:噪音、停车位、早餐;
评价词:大、超级紧张、种类单调、房间内无空调;
评论主体、评价词、情感极性三元组:(噪音,大,负),(停车位,超级紧张,负),(早餐,种类单调,负);
如果评论主体和评价词可以成功匹配,则会搭配情感极性组成三元组。在情感极性中,“负”表示负向,“正”表示正向,“中”表示中性。
意见解释:建议不要三伏天去。
该结果是对评价词“房间内无空调”的补充说明。
句子级情感极性:负;
评论主体的类别以及情感极性,以(评论主体,一级类别,二级类别,情感极性)形式输出:
(噪音,整体舒适度,酒店环境及设施,负),(停车位,整体舒适度,酒店环境及设施,负),(早餐,酒店餐饮,早餐,负)。
本发明的意见挖掘方法可以快速、准确地挖掘出评论文本中的评论主体和对应的评论词,并从句子级、属性级、类别级三个粒度进行用户情感极性的分析,具有复杂度低、效率高的优点。
实施例二
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述方法的步骤。
实施例三
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一中所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。