掌桥专利:专业的专利平台
掌桥专利
首页

一种短文档情感原因对提取方法、系统、存储介质

文献发布时间:2023-06-19 09:52:39


一种短文档情感原因对提取方法、系统、存储介质

技术领域

本发明属于自然语言处理的情感分析技术领域,尤其涉及一种短文档情感原因对提取方法、系统、存储介质。

背景技术

目前,在传统短文档情感原因提取的研究中,通常是给定情感标签预测导致其情感的潜在的原因,给定情感标签限制了其在现实世界的应用,最近的研究提出直接预测出短文档的情感原因对,即不给定情感标签的前提下,预测文档潜在的情感以及导致其情感的潜在的原因。

由于最近的情感原因对提取的表现并不是很好,其F1只有0.6128,主要原因在于在情感/原因提取阶段,原因预测的准确率偏低,以及情感原因对提取阶段并未充分利用情感原因对的位置关系,以及使用的是200d的预训练词向量,导致其结果F1较低。通过就上面的三点进行优化,使其F1可以达到0.6816。

通过上述分析,现有技术存在的问题及缺陷为:现有的情感原因对提取过程中,在情感/原因提取阶段,原因预测的准确率偏低,以及情感原因对提取阶段并未充分利用情感原因对的位置关系,以及使用的是200d的预训练词向量,导致其结果F1较低。

发明内容

针对现有技术存在的问题,本发明提供了一种短文档情感原因对提取方法、系统、存储介质。

本发明是这样实现的,一种短文档情感原因对提取方法,所述短文档情感原因对提取方法,包括:

步骤一,第一词级别编码器模块将短文本中的每一子句送入词级别编码器,词级别注意力模块,通过注意力机制,引入了当前预测词对应输入词的上下文信息以及位置信息,计算句中的词的权重,并将每一句中词的权重和累加,得到新的文本向量;

步骤二,子句级别编码器模块将短文本的子句表达式送入子句级别编码器,情感/原因预测模块通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率;

步骤三,情感/原因笛卡尔乘积配对模块将上一阶段预测的情感/原因子句按笛卡尔乘积一一配对,得到一个只有情感与原因交替出现的文本,同时计算情感/原因所在句子的相对位置,得到位置向量;

步骤四,第二词级别编码器模块将通过笛卡尔积配对后文本的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息;位置编码器模块将位置向量送入位置编码器,用于得到在每一个短文本中情感子句与原因子句的位置信息;

步骤五,情感原因对预测模块,通过词级别编码器与位置编码器分别获取每个子句中词的上下文信息与每一个短文本中情感子句与原因子句的位置信息后,将其分别通过softmax函数得到情感或原因的分类概率。

进一步,所述步骤一中,第一词级别编码器模块采用BiLSTM作为最基础的词级别编码器,在每一个时间步,LSTM模型是由t时刻的输入词X

LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态h

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

进一步,所述步骤一中,词级别注意力模块通过注意力机制,该机制的本质其实就是引入了当前预测词对应输入词的上下文信息以及位置信息,即隐层状态序列{h

e

进一步,所述步骤二中,子句级别编码器模块将短文本的子句表达{s

进一步,所述步骤二中,情感/原因预测模块通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率;计算公式如下:

进一步,所述步骤四中,第二词级别编码器模块采用BiLSTM作为最基础的词级别编码器;在每一个时间步,隐状态h

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

进一步,所述步骤四中,位置编码器模块采用BiLSTM作为最基础的位置编码器。

本发明的另一目的在于提供一种实施所述短文档情感原因对提取方法的短文档情感原因对提取系统,所述短文档情感原因对提取系统包括:情感/原因提取模块和情感原因对提取模块。

进一步,所述情感/原因提取模块包括:

第一词级别编码器模块,将短文本中的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息;

词级别注意力模块,通过注意力机制,引入了当前预测词对应输入词的上下文信息以及位置信息,计算句中的词的权重,并将每一句中词的权重和累加,得到新的文本向量,即子句的表达,称为语境向量;

子句级别编码器模块,将短文本的子句表达式送入子句级别编码器,用于得到每个短文档中不同子句基于情感/原因的上下文信息;

情感/原因预测模块,通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率。

进一步,所述情感原因对提取模块包括:

情感/原因笛卡尔乘积配对模块,将上一阶段预测的情感/原因子句按笛卡尔乘积一一配对,得到一个只有情感与原因交替出现的文本,同时计算情感/原因所在句子的相对位置,得到位置向量;

第二词级别编码器模块,将通过笛卡尔积配对后文本的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息;

位置编码器模块,将位置向量送入位置编码器,用于得到在每一个短文本中情感子句与原因子句的位置信息;

情感原因对预测模块,通过词级别编码器与位置编码器分别获取每个子句中词的上下文信息与每一个短文本中情感子句与原因子句的位置信息后,将其分别通过softmax函数得到情感或原因的分类概率。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明首先针对目前情感/原因提取中,忽略情感预测时,子句在整个文档中的表达与原因的关系,提出了一种新的利用情感预测原因的结构,其次,在情感原因对提取时,对于位置信息的利用并不充分,因此提出了一种新的利用位置信息的结构,帮助机器更加精准的提取短文本的情感原因对。本发明可以帮助机器更加精准的提取短文本的情感原因对。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的短文档情感原因对提取方法流程图。

图2是本发明实施例提供的短文档情感原因对提取系统结构示意图。

图3是本发明实施例提供的短文本情感原因对提取框架图

图4是本发明实施例提供的情感/原因提取模型示意图。

图5是本发明实施例提供的情感原因对提取模型示意图。

图中:1、情感/原因提取模块;2、第一词级别编码器模块;3、词级别注意力模块;4、子句级别编码器模块;5、情感/原因预测模块;6、情感原因对提取模块;7、第二词级别编码器模块;8、位置编码器模块;9、情感原因对预测模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种短文档情感原因对提取方法、系统、存储介质,下面结合附图对本发明作详细的描述。

如图1所示,本发明实施例提供的短文档情感原因对提取方法,包括:

S101:第一词级别编码器模块将短文本中的每一子句送入词级别编码器,词级别注意力模块,通过注意力机制,引入了当前预测词对应输入词的上下文信息以及位置信息,计算句中的词的权重,并将每一句中词的权重和累加,得到新的文本向量。

S102:子句级别编码器模块将短文本的子句表达式送入子句级别编码器,情感/原因预测模块通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率。

S103:情感/原因笛卡尔乘积配对模块将上一阶段预测的情感/原因子句按笛卡尔乘积一一配对,得到一个只有情感与原因交替出现的文本,同时计算情感/原因所在句子的相对位置,得到位置向量。

S104:第二词级别编码器模块将通过笛卡尔积配对后文本的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息;位置编码器模块将位置向量送入位置编码器,用于得到在每一个短文本中情感子句与原因子句的位置信息。

S105:情感原因对预测模块,通过词级别编码器与位置编码器分别获取每个子句中词的上下文信息与每一个短文本中情感子句与原因子句的位置信息后,将其分别通过softmax函数得到情感或原因的分类概率。

本发明实施例提供的S101中,第一词级别编码器模块采用BiLSTM作为最基础的词级别编码器,在每一个时间步,LSTM模型是由t时刻的输入词x

LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态h

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

本发明实施例提供的S101中,词级别注意力模块通过注意力机制,该机制的本质其实就是引入了当前预测词对应输入词的上下文信息以及位置信息,即隐层状态序列{h

e

本发明实施例提供的S102中,子句级别编码器模块将短文本的子句表达{s

本发明实施例提供的S102中,情感/原因预测模块通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率。计算公式如下:

本发明实施例提供的S104中,第二词级别编码器模块采用BiLSTM作为最基础的词级别编码器。在每一个时间步,隐状态h

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

本发明实施例提供的S104中,位置编码器模块采用BiLSTM作为最基础的位置编码器。

如图2所示,本发明实施例提供的短文档情感原因对提取系统包括:情感/原因提取模块和情感原因对提取模块;

情感/原因提取模块包括:

第一词级别编码器模块,将短文本中的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息。

词级别注意力模块,通过注意力机制,引入了当前预测词对应输入词的上下文信息以及位置信息,计算句中的词的权重,并将每一句中词的权重和累加,得到新的文本向量,即子句的表达,称为语境向量。

子句级别编码器模块,将短文本的子句表达式送入子句级别编码器,用于得到每个短文档中不同子句基于情感/原因的上下文信息。

情感/原因预测模块,通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率。

情感原因对提取模块包括:

情感/原因笛卡尔乘积配对模块,将上一阶段预测的情感/原因子句按笛卡尔乘积一一配对,得到一个只有情感与原因交替出现的文本,同时计算情感/原因所在句子的相对位置,得到位置向量。

第二词级别编码器模块,将通过笛卡尔积配对后文本的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息。

位置编码器模块,将位置向量送入位置编码器,用于得到在每一个短文本中情感子句与原因子句的位置信息。

情感原因对预测模块,通过词级别编码器与位置编码器分别获取每个子句中词的上下文信息与每一个短文本中情感子句与原因子句的位置信息后,将其分别通过softmax函数得到情感或原因的分类概率。

下面结合具体实施例对本发明的技术方案作进一步的描述。

如图3所示,框架分为两部分:情感/原因提取,情感原因对提取。

如图4所示,情感/原因提取的模型,包含有4部分:词级别编码器、词级别注意力、子句级别编码器、情感/原因预测。

词级编码器:首先将短文本中的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息。本发明采用BiLSTM作为最基础的词级别编码器,在每一个时间步,LSTM模型是由t时刻的输入词X

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

词级别注意力:通过注意力机制,该机制的本质其实就是引入了当前预测词对应输入词的上下文信息以及位置信息,即隐层状态序列{h

e

子句级别编码器:将短文本的子句表达{s

情感/原因预测:通过子句级别编码器获取不同子句之间的结构性信息更新子句表示后,分别通过softmax函数得到情感或原因的分类概率。计算公式如下:

情感原因对提取的模型如图5,包含有4部分:情感/原因笛卡尔乘积配对,词级别编码器,位置编码器,情感原因对预测。

情感/原因笛卡尔乘积配对:将上一阶段预测的情感/原因子句按笛卡尔乘积一一配对,得到一个只有情感与原因交替出现的文本,同时计算情感/原因所在句子的相对位置,得到位置向量。

(1)词级别编码器:将通过笛卡尔积配对后文本的每一子句送入词级别编码器,用于得到每个子句中词的上下文信息。本发明采用BiLSTM作为最基础的词级别编码器。在每一个时间步,隐状态h

f

i

o

h

最终,可以得到与句子长度相同的隐层状态序列{h

(2)位置编码器:将位置向量送入位置编码器,用于得到在每一个短文本中情感子句与原因子句的位置信息d

(3)情感原因对预测:通过词级别编码器与位置编码器分别获取每个子句中词的上下文信息与每一个短文本中情感子句与原因子句的位置信息后,将其分别通过softmax函数得到情感或原因的分类概率。

原始F1为0.6128,原论文使用200d预训练词向量,选择300d词向量后F1为0.6605。经过第一阶段添加情感语境向量后,F1最高提升为0.6761,表格中EC20、EC40、EC60、EC80代表语境向量的长度,其中向量长度为60时,效果最好。经过第二阶段添加位置向量编码之后,F1提升为0.6816。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种短文档情感原因对提取方法、系统、存储介质
  • 一种EXCEL文档的文本提取方法、系统、终端及存储介质
技术分类

06120112337647