掌桥专利:专业的专利平台
掌桥专利
首页

文本情感内容分析方法、装置、设备及存储介质

文献发布时间:2023-06-19 10:57:17


文本情感内容分析方法、装置、设备及存储介质

技术领域

本发明涉及数据分析技术领域,尤其涉及一种文本情感内容分析方法、装置、设备及存储介质。

背景技术

随着社会的发展,对文本中所含有的情感内容的分析变得尤为重要。现有对于文本的情感内容分析技术中,对于评价语句较短,基于传统机器学习的技术需要复杂和繁琐的特征工程,可移植性差,且准确度低,不容易捕捉语义特征,且没有考虑情感要素和情感原因抽取任务之间的关系。同时基于深度学习技术的方法,没有充分考虑句子之间的关系,并缺乏对文档信息的利用。因此,如何结合文本信息对文本中所含有的情感原因对能够高效准确的抽取并对文本进行分析成为一个现有技术中急需解决的问题。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种文本情感内容分析方法、装置、设备及存储介质,旨在解决现有技术如何结合文本信息对文本中所含有的情感原因对能够高效准确的抽取并对文本进行分析的技术问题。

为实现上述目的,本发明提供了一种文本情感内容分析方法,所述方法包括以下步骤:

通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;

对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;

通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;

通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;

根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果。

可选地,所述通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息,包括:

通过双向长短期记忆网络对所述词向量对应的子句信息进行编码处理,获取所述子句信息中的情感特征词汇;

通过预设注意力机制对所述情感特征词汇进行分析,获得结合注意力信息的子句信息。

可选地,所述通过预设注意力机制对所述情感特征词汇进行分析,获得结合注意力信息的子句信息,包括:

根据所述情感特征词汇与对应子句的语义信息,得到所述情感特征词汇的级别权重;

根据所述情感特征词汇的级别权重与对应子句信息,获得结合注意力信息的子句信息。

可选地,所述通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本的步骤之前,还包括:

获取所述结合注意力信息的子句信息中的情感特征;

所述通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本,包括:

通过自注意力机制以及情感特征结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本。

可选地,所述通过自注意力机制以及情感特征结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本,包括:

根据自注意力机制对所述全局文本信息中的子句添加位置特征信息,得到所述子句和待分析文本之间的关系;

根据所述子句和待分析文本之间的关系编码所述全局文本信息中的子句之间的特征,得到编码后的子句;

对所述编码后的子句添加对应的情感特征,以得到结合所述全局文本信息和所述结合注意力信息的子句信息的目标文本。

可选地,所述获取所述结合注意力信息的子句信息中的情感特征之后,还包括:

通过全连接层连接所述待分析文本子句中包含的所述情感特征的信息;

根据所述情感特征信息通过分类器进行分类,得到所述待分析文本子句中的情感标签;

根据所述情感标签得到所述待分析文本的情感分析结果。

可选地,所述对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息之前,还包括:

通过卷积神经网络提取所述词向量中的短语特征,得到所述词向量对应的子句信息。

此外,为实现上述目的,本发明还提出一种文本情感内容分析装置,所述文本情感内容分析装置包括:

分析模块,用于通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;

添加模块,用于对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;

所述分析模块,还用于通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;

结合模块,通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;

所述分析模块,还用于根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果。

此外,为实现上述目的,本发明还提出一种文本情感内容分析设备,所述文本情感内容分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本情感内容分析程序,所述文本情感内容分析程序配置为实现如上文所述的文本情感内容分析方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有文本情感内容分析程序,所述文本情感内容分析程序被处理器执行时实现如上文所述的文本情感内容分析方法的步骤。

本发明提出的文本情感内容分析方法,通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果,通过上述方式,可以自动抽取含有情感原因子句的文本特征,利用文本全局信息来增强情感子句和原因子句的联合抽取效果,利用文本级别和子句级别的双重注意力机制,结合文本信息对子句中的情感原因对进行分析,得到的对待分析文本的情感分析结果更为准确且高效。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的文本情感内容分析设备的结构示意图;

图2为本发明文本情感内容分析方法第一实施例的流程示意图;

图3为本发明文本情感内容分析方法的一实施例的工作原理图;

图4为本发明文本情感内容分析方法的一实施例的整体流程图;

图5为本发明文本情感内容分析方法第二实施例的流程示意图;

图6为本发明文本情感内容分析装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的文本情感内容分析设备结构示意图。

如图1所示,该文本情感内容分析设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对文本情感内容分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本情感内容分析程序。

在图1所示的文本情感内容分析设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明文本情感内容分析设备中的处理器1001、存储器1005可以设置在文本情感内容分析设备中,所述文本情感内容分析设备通过处理器1001调用存储器1005中存储的文本情感内容分析程序,并执行本发明实施例提供的文本情感内容分析方法。

本发明实施例提供了一种文本情感内容分析方法,参照图2,图2为本发明一种文本情感内容分析方法第一实施例的流程示意图。

本实施例中,所述文本情感内容分析方法包括以下步骤:

步骤S10:通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量。

需要说明的是,所述BERT(Bidirectional Encoder Representations fromTransformers,BERT)模型指的是一种语言表示模型,BERT在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的BERT表示进行微调,从而为广泛的任务创建最先进的模型,比如回答问题和语言推断任务,而无需对特定于任务进行大量模型结构的修改。在本实施例中,所述BERT模型为预训练的中文BERT模型,也可以是其他语言的BERT模型,本实施例对此不加以限制。通过使用BERT中文预训练模型获得词向量,为本实施例中的情感分类任务和情感抽取任务提供更好的文本向量表示。

在具体实现中,将所述含有多个子句的待分析文本放入所述预训练的中文BERT模型中,将所述待分析文本进行拆解分析,得到所述待分析文本中所含有的词向量。

步骤S20:对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息。

可以理解的是,所述全局注意机制目的是为了生成上下文向量或句向量Ci时将所有的具有情感特征的词汇都考虑进去。注意力机制认为每个单词在一句话中的重要程度是不一样的,通过学习得到一句话中每个单词的权重。

在具体实现中,利用全局文档信息为所述词向量对应的子句添加全局文档注意力机制,即得到添加了全局文档注意力机制的子句

步骤S30:通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息。

需要说明的是,所述预设注意力机制基于自注意力神经网络建立,然后根据本实施例所述情感特征进行自适应修改,以提高对所述情感特征的识别度。

进一步地,所述通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息包括:通过双向长短期记忆网络对所述词向量对应的子句信息进行编码处理,获取所述子句信息中的情感特征词汇;通过预设注意力机制对所述情感特征词汇进行分析,获得结合注意力信息的子句信息。

需要说明的是,所述双向长短期记忆网络(Bi-directional Long Short-TermMemory,Bi-LSTM)根据本实施所述的情感特征作出适应性应用。

可以理解的是,在本实施例中通过预训练的中文BERT模型获得代表分析文本的词向量,即C

进一步地,所述通过预设注意力机制对所述情感特征词汇进行分析,获得结合注意力信息的子句信息,包括:根据所述情感特征词汇与对应子句的语义信息,得到所述情感特征词汇的级别权重;根据所述情感特征词汇的级别权重与对应子句信息,获得结合注意力信息的子句信息。

在具体实现中,将LSTM模型的最后的隐藏层输出,即所述情感特征

在本实施例中,通过双向长短期记忆网对所述词向量对应的子句信息进行编码处理,再通过注意力机制给词向量赋予不同的权重,得到子句的情感信息,准确且高效的获得了待分析文本中有情感特征的子句。

步骤S40:通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本。

需要说明的是,使自注意力机制计算待分析文本和所子句之间的关系,将所述全局文本和所述结合了注意力信息的子句信息通过自注意力机制相结合,以得到文本中具有情感特征分析的目标文本。

步骤S50:根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果。

应当说明的是,将文本中具有情感特征分析的目标文本通过分类器进行分析,在本实施例中采用softmax函数进行分类,也可采用分类方式其他方式,本实施例对此不加以限制,在本实施例中通过softmax函数进行分类得到所述目标文本中所有的情感原因对,将所述情感原因对中的情感要素和原因进行分析,得到所述待分析文本的情感分析结果。

如图3和图4所示,在一个包含多个子句的完整文本中抽取表达情感的子句以及其对应的原因的子句,BERT模型的输入为数据集中的一个待分析文本,经过模型处理和抽取特征后,可以获得每个子句所表达的情绪类别和文档中所包含的情感原因对,实现端到端的学习。例如Clause2表达为开心的情感,Clause3表达为开心的原因,情感分类任务则是分辨该子句所表达的情绪,即其中子句Clause2表达的情绪为开心。

在本实施例中,通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果,通过上述方式,可以自动抽取含有情感原因子句的文本特征,利用文本全局信息来增强情感子句和原因子句的联合抽取效果,并且可以同时分析文本子句中的情绪信息,利用文本级别和子句级别的双重注意力机制,融合情感分类任务使对于文本中情感原因对的抽取效率更高,且综合考虑了文本信息对情感子句和原因子句的影响,提高了对于文本中情感原因对的抽取的准确度,使待分析文本的情感分析结果更加全面准确且高效。

参考图5,图5为本发明一种文本情感内容分析方法第二实施例的流程示意图。

基于上述第一实施例,本实施例文本情感内容分析方法所述步骤S40之前,还包括:

步骤S00,获取所述结合注意力信息的子句信息中的情感特征。

所述步骤S40包括:

步骤S40',通过自注意力机制以及情感特征结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本。

需要说明的是,所述情感特征

可以理解的是,结合情绪分类任务中的情感特征,将子句信息和全局文本信息以自注意力的方式结合,融合情感信息特征和文本信息特征,提高了对情感原因对抽取的准确度。

进一步地,所述通过自注意力机制以及情感特征结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本,包括:根据自注意力机制对所述全局文本信息中的子句添加位置特征信息,得到所述子句和待分析文本之间的关系;根据所述子句和待分析文本之间的关系编码所述全局文本信息中的子句之间的特征,得到编码后的子句;对所述编码后的子句添加对应的情感特征,以得到结合所述全局文本信息和所述结合注意力信息的子句信息的目标文本。

需要说明的是,为所述添加了全局文档注意力机制的子句添加位置特征信息,即得到添加了位置特征信息的子句xp

进一步地,所述获取所述结合注意力信息的子句信息中的情感特征之后,还包括:通过全连接层连接所述待分析文本子句中包含的所述情感特征的信息;根据所述情感特征信息通过分类器进行分类,得到所述待分析文本子句中的情感标签;根据所述情感标签得到所述待分析文本的情感分析结果。

在本实施例中,情绪分类任务即通过全连接层获取待分析文本子句中的情感标签,得到待分析文本子句中所含有的情感要素和情感原因,可以使之后的情感原因对的抽取更加高效。

进一步地,所述对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息之前,还包括:通过卷积神经网络提取所述词向量中的短语特征,得到所述词向量对应的子句信息。

在具体实施中,在进行情感原因对的抽取之前,通过卷积神经网络进行卷积操作获取待分析文本中所述词向量的短语级别的特征

在本实施例中,通过获取所述结合注意力信息的子句信息中的情感特征;根据自注意力机制对所述全局文本信息中的子句添加位置特征信息,得到所述子句和待分析文本之间的关系;根据所述子句和待分析文本之间的关系编码所述全局文本信息中的子句之间的特征,得到编码后的子句;对所述编码后的子句添加对应的情感特征,以得到结合所述全局文本信息和所述结合注意力信息的子句信息的目标文本。通过上述方式,对文本句子中的情绪信息进行分析,融合情感信息特征和文本信息特征对待分析文本进行分析,得到的情感分析结果更为准确。

参照图6,图6为本发明文本情感内容分析装置第一实施例的结构框图。

如图6所示,本发明实施例提出的文本情感内容分析装置包括:

分析模块10,用于通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;

添加模块20,用于对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;

所述分析模块10,还用于通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;

结合模块30,通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;

所述分析模块10,还用于根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果。

本实施例通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;对所述词向量对应的子句信息添加全局注意力机制,得到全局文本信息;通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果,通过上述方式,可以自动抽取含有情感原因子句的文本特征,利用文本全局信息来增强情感子句和原因子句的联合抽取效果,利用文本级别和子句级别的双重注意力机制,结合文本信息对子句中的情感原因对进行分析,得到的对待分析文本的情感分析结果更为准确且高效。

在一实施例中,所述分析模块10,还用于通过双向长短期记忆网络对所述词向量对应的子句信息进行编码处理,获取所述子句信息中的情感特征词汇;

通过预设注意力机制对所述情感特征词汇进行分析,获得结合注意力信息的子句信息。

在一实施例中,所述分析模块10,还用于将所述情感特征词汇与对应子句的语义信息相乘,得到所述情感特征词汇的级别权重;

将所述情感特征词汇的级别权重与对应子句的所有信息相乘,获得结合注意力信息的子句信息。

在一实施例中,所述结合模块30,还用于获取所述结合注意力信息的子句信息中的情感特征;

所述通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本,包括:

通过自注意力机制以及情感特征结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本。

在一实施例中,所述结合模块30,还用于根据自注意力机制对所述全局文本信息中的子句添加位置特征信息,得到所述子句和待分析文本之间的关系;

根据所述子句和待分析文本之间的关系编码所述全局文本信息中的子句之间的特征,得到编码后的子句;

对所述编码后的子句添加对应的情感特征,以得到结合所述全局文本信息和所述结合注意力信息的子句信息的目标文本。

在一实施例中,所述分析模块10,还用于通过全连接层连接所述待分析文本子句中包含的所述情感特征的信息;

根据所述情感特征信息通过分类器进行分类,得到所述待分析文本子句中的情感标签;

根据所述情感标签得到所述待分析文本的情感分析结果。

在一实施例中,所述添加模块20,还用于通过卷积神经网络提取所述词向量中的短语特征,得到所述词向量对应的子句信息。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有文本情感内容分析程序,所述文本情感内容分析程序被处理器执行时实现如上文所述的文本情感内容分析方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。

需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。

另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的文本情感内容分析方法,此处不再赘述。

此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 文本情感内容分析方法、装置、设备及存储介质
  • 中文文本情感分析方法、装置、计算机设备和存储介质
技术分类

06120112740006