掌桥专利:专业的专利平台
掌桥专利
首页

基于特征融合与注意力机制的医疗问答文本情感分析方法

文献发布时间:2023-06-19 19:30:30


基于特征融合与注意力机制的医疗问答文本情感分析方法

技术领域

本发明涉及医疗文本情感分析的技术领域,尤其涉及基于特征融合与注意力机制的医疗问答文本情感分析方法。

背景技术

医疗是人类生存的重要保障之一,而随着互联网和移动互联网的普及,越来越多的人选择通过网络咨询医生和搜索医疗信息来获取帮助和解决问题。医疗问答平台和应用已经成为了人们获取医疗知识和服务的主要渠道之一。但是,对于这些医疗问答数据,如何准确地对其情感进行分析,可以更好地理解患者的需求和情感倾向,有助于医生更好地回答问题、提供更好的服务,同时也可以帮助患者更好地了解和管理自己的健康状况。

情感分析是自然语言处理的一个重要应用领域,旨在对文本中所表达的情感进行分析和判断。在医疗问答领域中,情感分析可以帮助医生更好地了解患者的需求和情感状态,更好地进行诊断和治疗。同时,情感分析还可以帮助医疗平台和应用提供更好的推荐服务和个性化建议,从而提高患者的满意度和体验。因此,医疗问答文本情感分析的研究具有重要的意义和应用前景。

发明内容

鉴于上述现有存在的问题,提出了本发明。

因此,本发明目的是提供基于特征融合与双向注意力机制的医疗问答文本情感分析方法,解决现阶段对医疗问答文本语义完整复杂性缺乏研究以及对于医疗问答文本患者问题文本和医生答案文本之间存在情感交互信息缺乏考虑的问题。

为解决上述技术问题,本发明提供如下技术方案:

第一方面,本发明实施例提供了基于特征融合与双向注意力机制的问答文本情感分析,包括:

将医疗问答文本通过数据分割划分为患者问题文本和医生答案文本,并进行预处理;

将预处理后的患者问题文本和医生答案文本分别经过ALBERT预训练模型得到各自对应的文本表示向量;

将患者问题文本以及医生答案文本的文本表示向量分别输入到TextCNN和BiGRU中得到各自文本的局部特征向量和全局特征向量;

将局部特征向量和全局特征向量拼接得到患者问题文本和医生答案文本的综合语义表示向量并构建问答文本语义交互信息的匹配矩阵;

通过双向注意力机制结合所述匹配矩阵得到问题文本和答案文本的情感表示向量,将问题文本和答案文本的情感表示向量拼接得到最终医疗问答文本的情感表示向量;

将最终医疗问答文本情感表示向量输入到softmax分类器中进行情感分类,得到医疗问答文本的情感分类的概率。

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:将患者问题文本以及医生答案文本的文本表示向量输入到TextCNN中得到各自文本的局部特征向量包括,

嵌入层EmbeddingLayer:将输入的单词序列转换为单词向量表示;

卷积层ConvolutionLayer:使用多个不同大小的卷积核对单词向量序列进行卷积操作,提取局部的特征,对于每个卷积核,会生成一组卷积特征图,表示不同的局部特征,具体公式如下:

其中,

池化层PoolingLayer:对于每个卷积特征图,使用Max-Pooling操作对特征值进行汇总,得到一个固定长度的向量表示,具体公式如下:

V

其中,

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:将患者问题文本以及医生答案文本的文本表示向量输入到BiGRU中得到各自文本的全局特征向量包括,

输入序列中的每个单词向量经过BiGRU的正向传播和反向传播,得到正向和反向的隐藏状态向量;

将正向和反向的隐藏状态向量拼接,得到当前时间步的全局特征向量;

重复拼接正向和反向的隐藏状态向量直到处理完整个输入序列,得到所有时间步的全局特征向量。

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:所述匹配矩阵包括,

患者问题文本和医生答案文本之间的语义交互信息;

通过以下公式计算得到问题文本和答案文本的语义交互信息的匹配矩阵:

M

其中,M为包含了语义交互信息的匹配矩阵,

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:所述双向注意力机制包括答案-问题注意力机制以及问题-答案注意力机制。

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:所述答案-问题注意力机制包括,

所述答案-问题注意力机制的具体公式如下:

U

a

其中,

通过

作为本发明所述的基于特征融合与注意力机制的医疗问答文本情感分析方法,其中:所述问题-答案注意力机制包括,

所述问题-答案注意力机制的具体公式如下:

U

a

其中,

通过

第二方面,本发明实施例提供了一种基于特征融合与注意力机制的医疗问答文本情感分析系统,包括,

划分模块,用于将医疗问答文本通过数据分割划分为患者问题文本和医生答案文本,并进行预处理;

训练模块,用于将预处理后的患者问题文本和医生答案文本分别经过ALBERT预训练模型得到各自对应的文本表示向量;

特征融合模块,用于将患者问题文本以及医生答案文本的文本表示向量分别输入到TextCNN和BiGRU中得到各自文本的局部特征向量和全局特征向量,将局部特征向量和全局特征向量拼接得到患者问题文本和医生答案文本的综合语义表示向量,构建匹配矩阵,通过双向注意力机制结合所述匹配矩阵得到问题文本和答案文本的情感表示向量,将问题文本和答案文本的情感表示向量拼接得到最终医疗问答文本的情感表示向量;

输出模块,用于将最终医疗问答文本情感表示向量输入到softmax分类器中进行情感分类。得到医疗问答文本的情感分类的概率。

第三方面,本发明实施例提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的基于特征融合与双向注意力机制的问答文本情感分析。

第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于特征融合与双向注意力机制的问答文本情感分析。

本发明的有益效果:本发明提出的方法能够很好的解决现阶段对医疗问答文本复杂性研究缺乏,以及很好的捕抓医疗问答文本的全局特征和局部特征,极大的丰富了医疗问答文本的语义表示完整性,进一步的由于此前缺乏对于医疗问答文本患者问题文本和医生答案文本之间存在情感交互信息的考虑,通过构建患者问题文本和医生答案文本之间语义交互信息的匹配矩阵,并应用双向注意力机制即答案-问题注意力机制和问题-答案注意力机制,来捕抓问题文本和答案文本中词语的情感权重,得到医疗问答文本的情感表示向量,提高了医疗问答文本情感分类准确率,医疗问答文本的情感分析相比较于传统的文本存在很大差异,该方法能够很好的处理医疗问答文本的情感分类任务。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明基于特征融合与双向注意力机制的问答文本情感分析的流程图。

图2为本发明基于特征融合与双向注意力机制的问答文本情感分析的双通道特征融合示意图。

图3为本发明基于特征融合与双向注意力机制的问答文本情感分析的双向注意力机制结合匹配矩阵的情感分类示意图。

实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1~图2,为本发明的一个实施例,提供了基于特征融合与双向注意力机制的问答文本情感分析,包括:

如图1所示,本发明的具体流程如下:

S1:将医疗问答文本通过数据分割划分为患者问题文本和医生答案文本,并进行预处理。应说明的是:

将原始医疗问答文本分为患者问题文本以及医生答案文本,通过将原始医疗问答文本的数据进行数据清洗,即将数据中的噪声以及无关信息清洗掉,例如删除HTML标签、特殊字符以及数字等。进一步进行数据分割,将医疗问答文本数据集中的每条数据按照一定的方式划分为患者问题和医生答案。通常可以根据问句疑问词的位置来划分(对于医疗文本,通常问题文本会以疑问词作为开头,例如“什么是XXX?”、“怎么治疗XXX?”等等可以通过判断问句中疑问词的位置,将其前面的部分作为问题文本,后面的部分作为答案文本。)或者根据标志性的语句来划分(有些医疗问答文本中,问题和答案之间会有一些标志性的语句或者符号,例如“回答:”、“医生说:”、“解答:”等等。可以根据这些标志性语句来划分问题文本和答案文本。)

S2:将预处理后的患者问题文本和医生答案文本分别经过ALBERT预训练模型得到各自对应的文本表示向量。应说明的是:

将得到的问题文本和答案文本分别进行预处理并经过ALBERT预训练模型生成动态的词向量表示,由于以往的词向量表达多是静态词向量表示即同一单词在不同的上下文语境中词向量表示一样,而ALBERT可以解决这一问题,ALBERT是由GoogleResearch提出的一个轻量级BERT模型,通过对BERT模型架构进行改进,减少了参数量,并且通过参数共享和跨层参数共享进一步优化了模型效率和性能表现,减少了复杂度以及缩短了训练时间。

预处理操作包括分词处理、去除停用词。

S3:将患者问题文本以及医生答案文本的文本表示向量分别输入到TextCNN和BiGRU中得到各自文本的局部特征向量和全局特征向量,并将局部特征向量和全局特征向量拼接得到患者问题文本和医生答案文本的综合语义表示向量。应说明的是:

TextCNN是CNN在文本处理上的一种应用,是一种专门用于处理文本数据的CNN模型,TextCNN相对于普通的CNN,在文本处理上有更好的表现,可以更好地处理不同长度的文本,同时可以提取文本中的局部语义特征,从而提高模型的性能。TextCNN主要是通过卷积层和池化层来提取文本的局部语义特征,其中卷积层用于捕捉文本中的不同长度的n-gram特征,池化层用于提取全局最大特征,得到文本的特征表示。

具体的,嵌入层EmbeddingLayer:将输入的单词序列转换为单词向量表示,可以使用预训练的词向量进行初始化。

卷积层ConvolutionLayer:使用多个不同大小的卷积核对单词向量序列进行卷积操作,提取局部的特征,对于每个卷积核,会生成一组卷积特征图,用来表示不同的局部特征,具体公式如下:

其中,

池化层PoolingLayer:对于每个卷积特征图,使用Max-Pooling或Average-Pooling操作对特征值进行汇总,得到一个固定长度的向量表示,具体公式如下:

V

其中,

应说明的,BiGRU是一种常见的序列模型,可以用来提取文本的全局语义特征。其主要思路是通过双向循环神经网络(BiRNN)对文本进行建模,同时从前向和后向两个方向分别捕捉到文本序列中的语义信息,然后将这些信息进行融合,最终得到文本的全局语义特征表示。相对于RNN来说,它解决了RNN存在梯度消失或梯度爆炸的问题;相对于BiLSTM,它优势在于参数数量更少,计算速度更快,同时在一些文本分类任务中也表现出了较好的性能。

具体的,输入序列中的每个单词向量经过BiGRU的正向传播和反向传播,得到正向和反向的隐藏状态向量;

将正向和反向的隐藏状态向量拼接,得到当前时间步的全局特征向量;

重复拼接正向和反向的隐藏状态向量直到处理完整个输入序列,得到所有时间步的全局特征向量。

S4:构建患者问题文本和医生答案文本之间的语义交互信息的匹配矩阵,经由双向注意力机制得到问题文本和答案文本的情感表示向量,将问题文本和答案文本的情感表示向量拼接得到最终医疗问答文本的情感表示向量。应说明的是:

通过以下公式计算得到问题文本和答案文本的语义交互信息的匹配矩阵:

M

其中,M为包含了语义交互信息的匹配矩阵,

如图3所示,双向注意力机制包括答案-问题注意力机制以及问题-答案注意力机制。

答案-问题注意力机制以及问题-答案注意力机制包括,

答案-问题注意力机制的具体公式如下:

U

a

其中,

通过情感权重

V

其中,

问题-答案注意力机制的具体公式如下:

U

a

其中,

通过情感权重

V

其中,

S5:将最终医疗问答文本情感表示向量输入到softmax分类器中进行情感分类。得到医疗问答文本的情感分类的概率。应说明的是:

通过softmax函数进行情感分类的具体公式如下:

p

其中,

本实施例还提供基于特征融合与注意力机制的医疗问答文本情感分析系统,包括:

划分模块,用于将医疗问答文本通过数据分割划分为患者问题文本和医生答案文本,并进行预处理;

训练模块,用于将预处理后的患者问题文本和医生答案文本分别经过ALBERT预训练模型得到各自对应的文本表示向量;

特征融合模块,用于将患者问题文本以及医生答案文本的文本表示向量分别输入到TextCNN和BiGRU中得到各自文本的局部特征向量和全局特征向量,将局部特征向量和全局特征向量拼接得到患者问题文本和医生答案文本的综合语义表示向量,构建问答文本语义交互信息的匹配矩阵,并经由双向注意力机制得到问题文本和答案文本的情感表示向量,将问题文本和答案文本的情感表示向量拼接得到最终医疗问答文本的情感表示向量;

输出模块,用于将最终医疗问答文本情感表示向量输入到softmax分类器中进行情感分类。得到医疗问答文本的情感分类的概率。

本实施例还提供一种计算设备,适用于基于特征融合与注意力机制的医疗问答文本情感分析方法的情况,包括:

存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的基于特征融合与注意力机制的医疗问答文本情感分析方法。

该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现基于特征融合与注意力机制的医疗问答文本情感分析方法。

本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。

实施例2

为本发明的另一个实施例,该实施例不同于第一个实施例的是,提供了基于特征融合与双向注意力机制的医疗问答文本情感分析的验证测试,对本方法中采用的技术效果加以验证说明。

为了验证方法的性能,本发明实现了以下几个传统情感分类方法与之进行比较。这些方法介绍如下:

为了验证方法的性能,我们实现了以下几个情感分类方法与之进行比较,采用正确率和F值作为评价指标。比较方法如下:

SVM:将患者问题文本和医生答案拼接作为一个文本序列,使用word2vec词向量作为特征,支持向量机作为分类器。

CNN:基于卷积神经网络的神经网络模型,将患者问题文本和医生答案拼接作为一个文本序列,使用word2vec词向量作为特征。

BiLSTM:基于双向长短期记忆网络的神经网络模型,患者问题文本和医生答案拼接作为一个文本序列,使用word2vec词向量作为特征。

CNN-BiLSTM:基于串行搭建的卷积神经网络和双向LSTM组成的神经网络模型,使用word2vec词向量作为特征。

TextCNN-BiGRU:基于并行搭建的TextCNN和双向GRU组成的神经网络模型,使用ALBERT词向量作为特征,双向注意力机制改为统一的单向注意力机制。

本实例的方法相较于对比的一些情感分类方法在性能上都有所提升,各方法在中文医学问答数据集上的性能结果如表1。

表1:各方法在中文医学问答数据集上的性能结果

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 基于可形变自注意力机制的社交网络文本情感分析方法
  • 基于扰动改良的自注意力机制社交网络文本情感分析方法
技术分类

06120115937839