掌桥专利:专业的专利平台
掌桥专利
首页

句子文本的情感检测方法、装置及计算机可读存储介质

文献发布时间:2023-06-19 19:30:30


句子文本的情感检测方法、装置及计算机可读存储介质

技术领域

本申请涉及自然语言处理领域,特别是涉及句子文本的情感检测方法、装置及计算机可读存储介质。

背景技术

文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,可以对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究。

一些眼动信号的文本情感检测很大程度上依赖于具有眼动信号的数据集,并且仅基于眼动信号和文本特征构建注意力模型,眼动信号采集成本高,并且忽略了情感信息在眼动信号学习中的作用,导致情感检测偏离正确方向。

发明内容

本申请主要提供一种句子文本的情感检测方法、装置及计算机可读存储介质,解决了现有技术中句子文本情感检测准确度低的问题。

为解决上述技术问题,本申请第一方面提供了一种句子文本的情感检测方法,包括:获取待处理的句子文本;利用眼动特征提取模型预测所述句子文本中每个单词对应的首次注视点持续时间和总阅读时间;提取每个所述单词对应的情感极性值;将所述首次注视点持续时间和所述总阅读时间分别与情感极性值融合,得到每个所述单词对应的首次注视情感-眼动权重和总阅读情感-眼动权重;基于所述首次注视情感-眼动权重和所述总阅读情感-眼动权重对所述句子文本进行情感预测,得到情感预测结果。

为解决上述技术问题,本申请第二方面提供了句子文本的情感检测装置,包括相互耦接的处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如上述第一方面提供的句子文本的情感检测方法。

为解决上述技术问题,本申请第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有程序数据,所述程序数据被处理器执行时,实现上述第一方面提供的句子文本的情感检测方法。

本申请的有益效果是:区别于现有技术的情况,本申请获取待处理的句子文本,利用眼动特征提取模型预测句子文本中每个单词对应的首次注视点持续时间和总阅读时间,提取每个单词对应的情感极性值;将首次注视点持续时间和总阅读时间分别与情感极性值融合,得到每个单词对应的首次注视情感-眼动权重和总阅读情感-眼动权重,基于首次注视情感-眼动权重和总阅读情感-眼动权重对句子文本进行情感预测,得到情感预测结果。通过上述方式,本申请可通过预训练的眼动特征提取模型提取各单词对应的首次注视点持续时间和总阅读时间,并结合单词的情感极性值进行语义特征提取和情感预测,在减少情感预测所需信息的情况下,提高情感检测的准确度,情感预测结果可信度高。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请句子文本的情感检测方法一实施例的流程示意框图;

图2是本申请步骤S12一实施例的流程示意框图;

图3是本申请提取眼动特征一实施例的示意图;

图4是本申请获取情感-眼动权重一实施例的流程示意图;

图5是本申请步骤S15一实施例的流程示意框图;

图6是本申请步骤S51一实施例的流程示意框图;

图7是本申请提取语义特征一实施例的示意图;

图8是本申请步骤S52一实施例的示意图;

图9是本申请获得融合特征一实施例的示意图;

图10是本申请句子文本的情感检测装置一实施例的结构示意框图;

图11是本申请句子文本的情感检测装置另一实施例的结构示意框图;

图12是本申请计算机可读存储介质一实施例的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解是,本文所描述的实施例可以与其他实施例结合。

请参阅图1,图1是本申请句子文本的情感检测方法一实施例的流程示意框图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。本实施例包括以下步骤:

步骤S11:获取待处理的句子文本。

待处理的句子文本由至少一个单词文本构成。

其中,待处理的句子文本可以是通过互联网查询得到,例如是在社交网站上由网站用户发表的帖子中的句子文本;待处理的句子文本还可以是通过输入检测得到的,例如是通过键盘输入或语音输入转换得到的句子。此处仅为举例说明,并不限定待处理句子的获取方式。

步骤S12:利用眼动特征提取模型预测句子文本中每个单词对应的首次注视点持续时间和总阅读时间。

在其中一实施例中,眼动特征提取模型包括语言特征提取模块和映射模块。请结合参阅图2和图3,步骤S12可进一步包括以下实施步骤:

步骤S21:利用语言特征提取模块提取句子文本中各单词的语言特征。

述语言特征包括:字特征、词特征以及复杂特征;其中,字特征至少包括单词的字符数量信息和单词是否以大写字母开头的信息,词特征至少包括单词的词义数量信息和单词中是否存在实体关键词的信息,复杂特征至少包括支配节点数量信息、单词数信息以及最大依存距离信息。

具体来说,各语义特征及提取的相应的细分特征类型如下表所示:

步骤S22:利用映射模块中预设的映射关系将语言特征转换为首次注视点持续时间和总阅读时间。

本实施例考虑到眼动的早期和晚期两种眼动特征的测量,考虑了早期测量的首次注视点持续时间(First Fixation Duration,FFD)和后期测量的总阅读时间(TotalReading Time,TRT)。

首次注视点持续时间指在首次通过阅读中某兴趣区内的首个注视点的注视时间;总阅读时间指落在兴趣区的所有注视点的时间的总和。

其中,该映射关系可以是以语言特征为自变量的线性函数映射关系。

可选地,根据第一映射关系将单词的语言特征中的字特征和词特征转换为首次注视点持续时间,以及根据第二映射关系将单词中的字特征、词特征以及复杂特征转换为总阅读时间。

首次注视点持续时间与语言特征之间的第一映射关系可表示为下式:

总阅读时间与语言特征之间的第二映射关系可表示为下式:

其中,w

在步骤S22之前,可利用带有首次注视点持续时间真实值和总阅读时间真实值的眼动数据集对眼动特征提取模型进行预训练,以分别得到对应于各眼动数据的首次注视点持续时间预测值和总阅读时间预测值;基于首次注视点持续时间真实值、首次注视点持续时间预测值以及设定的第一正则化权重拟合得到对应于首次注视点持续时间的第一映射关系的第一权重向量;以及,基于总阅读时间真实值、总阅读时间预测值以及设定的第二正则化权重拟合得到对应于总阅读时间的第二映射关系的第二权重向量。

具体来说,根据下式拟合得到第一权重向量和第二权重向量。

其中,t

通过上两式对眼动特征模型不断拟合得到最合适的权重向量α和β,最终得到第一权重向量α

步骤S13:提取每个单词对应的情感极性值。

可选地,将每个单词分别输入情感词典,输出针对于每个单词的情感极性值。其中,情感极性值的范围为[-1,1],为方便计算,本实施例将结果加1,使得情感极性值的范围为[0,+2]。

其中,情感极性主要包括消极、中立和积极三种情感极性。

情感词典例如是SenticNet,SenticNet是一个知识库,情感指情感值从-1到+1之间的情感极性值(其中,-1表示极度负向,+1表示极度正向)。

情感词典还可以是英语情感语料词典(SentiWordNet)、评价词词典(GeneralInquirer)等,此处仅为示例性说明,并不限制情感极性值的取得方式。

步骤S14:将首次注视点持续时间和总阅读时间分别与情感极性值融合,得到每个单词对应的首次注视情感-眼动权重和总阅读情感-眼动权重。

请参阅图4,眼动特征包括首次注视点持续时间和总阅读时间。

对于每个单词而言,均有其对应的首次注视点持续时间和总阅读时间,将首次注视点持续时间与情感极性值通过权重策略融合,得到各单词对应的首次注视情感-眼动权重,将总阅读时间与情感极性值融合,得到各单词对应的总阅读情感-眼动权重。

可选地,将单个单词的首次注视点持续时间与情感极性值的和,与句子文本中所有单词的首次注视点持续时间与情感极性值的和之间的比例值,作为单个单词的首次注视情感-眼动权重;将单个单词的总阅读时间与情感极性值的和,与句子文本中所有单词的总阅读时间与情感极性值的和之间的比例值,作为总阅读情感-眼动权重。

首次注视情感-眼动权重具体可根据下式计算得到:

其中,W

总阅读情感-眼动权重具体可根据下式计算得到:

W

步骤S15:基于首次注视情感-眼动权重和总阅读情感-眼动权重对句子文本进行情感预测,得到情感预测结果。

请参阅图5,步骤S15具体可包括以下步骤:

步骤S51:利用首次注视情感-眼动权重提取句子文本的语义特征。

请结合参阅图6和图7,步骤S51具体可包括以下步骤:

步骤S511:构建句子文本的词共现网络图,获取词共现网络图对应的邻接矩阵。

在此之前,可利用BERT、Word2vec、Glove、FastText、Elmo等预训练的语言表征模型对句子文本进行分词嵌入处理,获得单词的向量表示,再在分词嵌入的基础上构建词共现网络,词共现网络图可表示为G=(v,e),其中,句子文本中每个唯一的单词v都由G中的顶点表示,图的无向边连接了在默认大小为3的滑动窗口中出现的两个单词。词共现网络图对应的邻接矩阵可表示为

步骤S512:将邻接矩阵、首次注视情感-眼动权重输入特征提取网络,输出语义特征,其中首次注视情感-眼动权重与特征提取网络的网络权重进行融合。

特征提取网络以门控循环神经网络为例,本步骤利用首次注视情感-眼动权重对前一隐藏状态和邻接矩阵进行加权,作为本次的输入,根据该输入和前一隐藏状态确定更新门和重置门的值,进一步更新候选隐藏状态和隐藏状态,具体可表示为下式:

I

R

Z

其中,I

充分更新单词节点后获得一个语义特征的矩阵

步骤S52:将语义特征和总阅读情感-眼动权重融合,以得到融合特征。

本步骤将语义特征和总阅读情感-眼动权重输入注意力层,基于注意力机制将总阅读时间情感极性信息与语义特征融合到一起,注意力层的隐藏层表示输出为融合特征。请参阅图8和图9,本步骤可进一步包括以下步骤:

步骤S521:利用激活函数对语义特征进行处理,得到语义特征的双曲正切值。

其中

步骤S522:将双曲正切值映射到0-1之间,得到软注意力权重。

本步骤可利用sigmoid函数将双曲正切值

步骤S523:利用软注意力权重和总阅读情感-眼动权重对双曲正切值进行加权,得到加权语义特征。

可选地,利用软注意力权重和总阅读情感-眼动权重对双曲正切值进行加权,具体可以是将软注意力权重和总阅读情感-眼动权重的和,与双曲正切值进行点乘操作,得到加权语义特征,具体可表示为下式:

其中,H

步骤S524:对加权语义特征求平均值,得到融合特征。

融合特征可通过下式计算得到:

可选地,还可采用最大化或求和方法对加权语义特征处理得到融合特征。

本实施例聚合节点特征以获得整个图的特征表示,考虑到总阅读时间和句子文本语义特征之间的联系来读出融合特征,使得句子文本的语义提取更加准确。

步骤S53:基于融合特征对句子文本进行情感预测,以得到情感预测结果。

将融合特征H

其中,

在训练阶段利用带有真实情感标签的数据对模型进行训练时,通过最小化交叉熵损失

区别于现有技术,本实施例结合句子文本中每个单词的情感极性值、首次注视点持续时间和总阅读时间,模拟人类阅读方式,提高句子文本的情感检测准确性,且首次注视点持续时间和总阅读时间根据具有首次注视点持续时间真实值和总阅读时间真实值的文本训练得到的模型来自动提取,不要求句子文本一定具有眼动信号,只需句子文本即可提取出相应的眼动信号,用最少的信息也可以预测句子的情感,方便应用。

本方案可应用于情感检测系统中,其主要应用场景包括社交网站情感检测系统,客户评价和推荐系统。

例如,传统的社交网站情感检测系统通常是通过获取情感词,然后判断情感词的极性完成情感检测的。通过引入本文方案,有望引入眼动信号更准确地完成情感检测。

在客户评价和推荐系统中,本方案可作为系统的子模块之一,在分析客户的评论文本时,评价和推荐系统可以调用本方法的语言探测眼动信号,更好地模拟人类阅读过程,从而更快更准确地为客户推荐更合适的产品。

请参阅图10,图10是本申请句子文本的情感检测装置一实施例的结构示意框图。情感检测装置100包括获取模块110、眼动信号提取模块120、情感极性提取模块130、融合模块140以及预测模块150。

其中,获取模块110用于获取待处理的句子文本;眼动信号提取模块120用于利用眼动特征提取模型预测句子文本中每个单词对应的首次注视点持续时间和总阅读时间;情感极性提取模块130用于提取每个单词对应的情感极性值;融合模块140用于将首次注视点持续时间和总阅读时间分别与情感极性值融合,得到每个单词对应的首次注视情感-眼动权重和总阅读情感-眼动权重;预测模块150用于基于首次注视情感-眼动权重和总阅读情感-眼动权重对句子文本进行情感预测,得到情感预测结果。

关于处理执行的各步骤的具体方式请参照上述本申请句子文本的情感检测方法实施例的各步骤的描述,在此不再赘述。

请参阅图11,图11是本申请句子文本的情感检测装置另一实施例的结构示意框图。该情感检测装置200包括相互耦接的处理器210和存储器220,存储器220中存储有计算机程序,处理器210用于执行计算机程序以实现上述各实施例所述的句子文本的情感检测方法。

关于处理执行的各步骤的描述请参照上述本申请句子文本的情感检测方法实施例的各步骤的描述,在此不再赘述。

存储器220可用于存储程序数据以及模块,处理器210通过运行存储在存储器220的程序数据以及模块,从而执行各种功能应用以及数据处理。存储器220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如特征提取功能、特征融合功能、情感预测功能等)等;存储数据区可存储根据该情感检测装置200的使用所创建的数据(比如文本数据、情感数据、预测结果等)等。此外,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器220还可以包括存储器控制器,以提供处理器210对存储器220的访问。

在本申请的各实施例中,所揭露的方法、装置,可以通过其它的方式实现。例如,以上所描述的该情感检测装置200的各实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中。

参阅图12,图12为本申请计算机可读存储介质一实施例的结构示意框图,计算机可读存储介质300存储有程序数据310,程序数据310被执行时实现如上述句子文本的情感检测方法各实施例的步骤。

关于处理执行的各步骤的描述请参照上述本申请句子文本的情感检测方法实施例的各步骤的描述,在此不再赘述。

计算机可读存储介质300可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 文本检测方法、装置、电子设备及计算机可读存储介质
  • 文本处理方法、装置、计算机可读存储介质和计算机设备
  • 段码液晶屏检测方法及装置、计算机装置及计算机可读存储介质
  • 线下文本挖掘方法、装置及计算机可读存储介质
  • 一种文本分类方法、装置、终端及计算机可读存储介质
  • 文本情感分析方法、装置、计算机装置及可读存储介质
  • 文本情感分析方法、装置及计算机可读存储介质
技术分类

06120115929482