一种面向目标的多模态情感分类方法

文献发布时间：2023-06-19 11:42:32

技术领域

本发明涉及自然语言处理、计算机视觉以及多模态情感分析领域，主要用于提升多模态社交评论情感识别的准确率。

背景技术

微博为代表的新兴社交媒体，以其独特的开放性、实时性、互动性和低门槛性为人们进行意见表达和信息交流提供了平台，并且以极快的速度影响着社会的信息传播格局。考虑到当前社交平台评论中往往包含着多种模态的信息，对多模态信息进行情感分类已经变得越来越重要，然而与单一模态数据的情感分析相比，当前对于多模态评论的情感分析任务仍处于一个初步的研究阶段。

面向目标的情感分类意在识别出评论中每个观点目标的情感极性，目前的方法都存在一些不足。首先，之前的情感分类任务主要属于自然语言处理领域的研究内容，依赖处理文本内容，而没有考虑其他类型的信息源，例如图片，而其他数据可能潜在地补充文本内容并增强这些基于文本的模型，提高最终的分类准确率。其次，现有的大部分模型都只是随机初始化其模型参数，由于多模态情感分析数据集很少且往往规模比较小，这可能导致模型在小型数据集上训练后在验证集上效果不佳。近年来预训练的无监督语言模型参数应用在各种NLP任务上的成为了最新趋势，这些经过良好初始化的模型可以捕获每个单词在不同上下文中的语义和句法含义。在日常生活中，人们通常针对一个或多个目标对象发表观点，关联的图片则倾向于突出显示该焦点目标，由于评论文本的简短和非正式，有时很难仅凭文本就判断出目标对象的情绪，关联的图片很可能有助于反映评论者对目标对象的情绪，因此，探索如何构建意见目标与文本/视觉之间的对其方式以对同一模态内部不同维度的信息分配合理的权重是有意义的，目前现有的不同模态之间的融合方法相对来说比较简单，主要的特征融合方式主要分为早期融合和晚期融合两种，这类工作简单的将图片数据和文本数据结合起来，而忽略了图片和文本之间的结构化信息耦合，导致文本和图片融合后的最终特征向量输入到分类器进行情感极性预测的效果不佳。

目前在多模态情感分析的研究中存在四个难题，一是如何选取网络模型对不同模态的信息特征进行提取，二是如何对单模态中提取出来的特征进行进一步的重要性评估，选择出最有助于目标情感识别任务的特征，各个模态的信息之间可能存在一定的联系，如何发现并构建它们之间的关系，使得不同模态的信息可以相互作用。三是目前现有的不同模态间的融合方法相对来说比较简单，导致多模态的特征无法有效的融合，选择在何时将不同模态的特征进行结合以及如何更加有效的结合各个模态的特征去训练模型进行情感分类是多模态情感分类这个任务需要探究的关键问题，四是不同模态对于情感分类的贡献往往并不相同，如何根据情感分类的准确性来合理分配每种模态所占的比重也是个难题。

发明内容

本发明提出了一种面向目标的多模态情感分类方法，通过迁移学习，使用最新预训练模型对文本和图片进行初步特征提取，利用注意力机制分别实现突出图片关键区域和文本关键词的进一步特征提取，将单个模态特征进行早期融合后，输入到自注意力网络中学习各模态之间的交互作用，确定各模态的贡献程度，融合后的特征向量输入到分类器中得到情感分类的结果。本模型很好的融合了各个单模态特征，有效的挖掘了互联网社交媒体评论中所表达的情感信息，从而提高了多模态情感识别的准确率。

通过引入迁移学习，使用最新预训练模型对社交评论中的文本和图片进行初步特征提取可以解决单模态内部信息挖掘不充分的难题。现有的大部分模型都只是随机初始化其模型参数，由于多模态社交评论情感分析数据集很少且往往规模比较小，这可能导致模型在小型数据集上训练后在验证集上效果不佳。近年来预训练的无监督语言模型参数应用在各种NLP任务上成为了最新趋势，相比于随机初始化，预训练模型更不容易陷入局部最优，因为它是经过了海量的数据训练更好的捕捉了语言中的广泛关系。本发明采用Roberta预训练模型分别对社交评论中的文本和情感目标文本进行预处理，得到文本模态内部信息，采用resnet152预训练模型对社交评论中的图片进行预处理，得到图片模态内部信息。通过引入迁移学习和预训练模型降低了每次训练一个新的深度学习模型的成本。

本发明提出利用注意力机制分别实现突出图片关键区域和文本关键词的进一步特征提取，对单模态中提取出来的特征进行进一步的重要性评估，选择出最有助于目标情感识别任务的特征。文本中观点目标附近的词往往带有情感信息，关联的图片则倾向于突出显示该焦点目标，本发明使用注意力机制构建意见目标与文本/视觉之间的对其方式以对同一模态内部不同维度的信息分配合理的权重，利用cross-attention，以target文本为掩码，做图像的attention，获得目标-图像的attention，实现目标和图片的对齐(目标作为Q，图片作为K和V)，采用target-attention机制实现目标与文本对齐(目标作为Q，文本作为K和V)，利用注意力机制，结合目标信息，赋予各模态中更重要的特征更大的权重，解决了各个模态的信息之间可能存在一定的联系，构建它们之间的关系使得不同模态的信息可以相互作用的难题。

本发明将单个模态特征进行早期融合后，输入到多层自注意力模块中学习各模态之间的交互作用，确定各模态的贡献程度。在实际的社交平台评论中，不同模态对于情感的贡献度往往不同，目前现有的不同模态之间的融合方法相对来说比较简单，主要的特征融合方式主要分为早期融合和晚期融合两种，这类工作简单的将图片数据和文本数据结合起来，而忽略了图片和文本之间的结构化信息耦合，导致文本和图片融合后的最终特征向量输入到分类器进行情感极性预测的效果不佳。本发明通过将特征选取后的文本和图片特征concatenate然后输入到多层transformer-encoder中，通过训练学习，得到融合后的联合特征向量，送入分类器进行情感分类得到多模态评论样本的情感类别。

上述内容分别在特征提取、特征选择、特征融合三个方面对模型进行了改进，提出了一种面向目标的多模态情感分类方法。本发明的多模态模型比单一模态训练出来的模型更精准，能够捕获模态内和模态间的上下文信息，提升了多模态情感识别的准确率。

该算法执行步骤如下：

步骤1、对社交评论中多个模态的数据进行预处理，使其符合各个模态对应的模型的输入到要求。

步骤2、对步骤1预处理后的多个模态的数据进行特征提取，通过Roberta网络提取多模态评论数据中文本特征，通过resnet提取多模态评论数据中的图片特征。

步骤3、利用注意力机制，结合目标信息，赋予步骤2得到的各模态特征中更重要的特征更大的权重，得到目标敏感文本特征和目标敏感图片特征。

步骤4、将步骤3得到的单个模态特征进行早期融合后，输入到多层自注意力网络中进行特征融合。

步骤5、将步骤4融合得到的最终的多模态情感特征送入分类器进行情感分类得到多模态评论样本的情感类别。

步骤6、对模型进行优化训练，将图文社交评论输入到训练好的模型中，可以得到评论的情感识别结果。

附图说明

图1算法流程图

图2模型图

图3多模态社交评论的样本实例

具体实施方式

以下结合实例与附图对本发明进行详细说明。

面向目标的情感分析就是对多模态社交评论中的观点目标的情感倾向进行识别，举个例子，如图3：句子是“A single dog leaves sad tears when he meets a sweetcouple。”，目标词是“A single dog”和“couple”，经过面向目标的情感分类后，得到couple的情感分析是正向，A single dog的情感分析是负向。本发明针对该任务设计了一种模型，经过对模型优化训练，以得到最小损失值为优化目标，不断调整参数权重与偏差，获得最佳情绪预测结果。本模型的数据输入为社交评论中的文本信息、关联的图片信息和意见目标信息，目标信息是文本信息中的子序列，输出信息为意见目标的情感类别。下面是详细的步骤说明。

步骤1、对社交评论中多个模态的数据进行预处理，使其符合各个模态对应的模型的输入到要求。

(1)数据集预处理

数据集里有几千个多模态的评论样本D，对于每个样本d∈D,它包含：第一行是n个单词的句子S(w1，…，wn)，第二行是意见目标T(是S的子序列)，第三行是情感标签，可以是-1(消极)、0(中性)、1(积极)，第四行是图片id。我们的任务可以被定义为：以D作为训练语料，目标是得到一个面向目标的情感分类器，使其能够正确地预测不可见评论样本中意见目标的情感标签。

读取数据集文件，将每个样本转写成新的数据格式(count，label，imgid，text，aspect)分别代表序号、情感标签、图片i、文本、意见目标，存储为tsv格式，按照7：2：1的比例划分为训练集，验证集和测试集。

(2)图片信息预处理

由于用户发表的社交评论中附带的图片大小、像素不一，首先将与文本评论相关联的图片大小调整为224*224的像素大小，方便后续输入到预训练的图像模型中。

(3)文本信息预处理

首先通过分词器将文本信息和目标信息进行分词，设定文本信息的最大长度和目标信息的最大长度。

文本信息长度大于最大长度将被截取，首尾增加[CLS]和[CLS]标记：tokens＝["[CLS]"]+tokens+["[SEP]"],分段信息为长度与文本信息长度相同的0字符：segment_ids＝[0]×len(tokens)，通过分词器将文本信息序列数字化为可被模型处理的形式input_ids。如果序列的长度达不到最大长度要求，通过填0补充。掩码信息为与文本信息长度相同的1字符：input_mask＝[1]×len(input_ids),

目标信息长度大于最大长度将被截取，首尾增加[CLS]和[CLS]标记：s2_tokens＝["[CLS]"]+s2_tokens+["[SEP]"],分段信息为长度与目标信息长度相同的0字符：s2_segment_ids＝[0]×len(s2_tokens),通过分词器将目标信息序列数字化为可被模型处理的形式s2_input_ids。如果目标序列的长度达不到最大长度要求，通过填0补充。掩码信息为与目标信息长度相同的1字符：s2_input_mask＝[1]×len(s2_input_ids)。

(1)对文本评论信息使用Roberta模型提取文本特征

将预处理得到的文本信息、目标信息输入到Roberta模型中，Roberta模型是以transformer为架构，其内部的m头自注意力层被用来学习各单词之间的联系，这些经过良好初始化的模型可以捕获每个单词在不同上下文中的语义和句法含义。通过Roberta模型可以得到文本特征H

(2)对图片评论信息使用resnet152模型提取图片特征

在数据预处理过程中已经将图片处理为224*224像素大小，本发明采用resnet152对图片信息进行特征提取，获得最后一个卷积层的输出为：ResNet＝{r

步骤3、利用注意力机制，结合目标信息，赋予步骤2得到的各模态特征中更重要的特征更大的权重，得到目标敏感文本特征和目标敏感图片特征。

(1)获得目标敏感的图片特征

以往模型即使融入了图片信息，但其局限于它的图片表示对意见目标不敏感，不论针对的意见目标是什么，同一输入句子的图片特征都是相同的，实际上，针对的意见目标不同，通常情况下相关联的图片中只有一部分区域与其紧密相关，其他区域应该被忽略不计，这种做法可以减少无关信息产生的噪声，例如，在图3中，以“couple”作为意见目标，图片中理应更多的关注在情侣的的笑脸上，忽略其他的背景。相比之下，以“Asingle dog”为意见目标，图片中更应该侧重于包含“单身狗”的区域，如果模型考虑了整个区域或者是侧重关注了笑脸，这很可能使模型做出错误的情感倾向判断。本发明利用注意力设计了一种特征选择方式，可以得到目标敏感的图片特征。由步骤2可以得到图片特征P＝W

上式中d是嵌入向量的维度，

MATT(P,H

PI(P,T)＝LN(H

叠加L

上式H

(2)获得目标敏感的文本特征

文本中与观点目标相关的词附往往带有情感信息，利用注意力机制实现突出文本关键词的进一步特征提取，对单模态中提取出来的特征进行进一步的重要性评估，选择出最有助于目标情感识别任务的特征。由步骤2可以得到文本信息特征H

上式中d是嵌入向量的维度，m头注意力，

SI(S,T)＝LN(H

叠加L

步骤4、将步骤3得到的单个模态特征进行早期融合后，输入到多层自注意力网络中进行特征融合。

目前现有的不同模态之间的融合方法比较简单的将图片数据和文本数据结合起来，但实际评论中不同模态对于情感的贡献度往往不同，针对这个问题本模型使用transformer-encoder架构进行特征融合。由步骤3得到目标敏感的文本特征

H＝[H

将H送入到多层transformer-encoder编码器学习文本特征和图片特征之间的相互作用。

BI(H)＝LN(H+MLP(LN(H+MATT(H))))

上式中d是嵌入向量的维度，m头注意力，

步骤5、将步骤4融合得到的最终的多模态情感特征送入分类器进行情感分类得到多模态评论样本的情感类别。

由步骤4得到融合后的特征O，取O'＝[O

步骤6、对模型进行优化训练，将图文社交评论输入到训练好的模型中，可以得到评论的情感识别结果。

在对模型的训练过程中，设定文本信息的最大长度为64，目标信息的最大长度为16，学习率设定为5e-5，多头注意力数量m＝12，dropoutrate＝0.1，整个模型被训练12个epoch，使用交叉熵计算基于反向传播的批量损失Loss，不断调整权重与偏差，使损失loss最小，获得最佳情绪预测结果。本模型根据训练设备的硬件性能不同可能效果略有差异。

本发明可以有效的获取各个模态上的特征，对单模态特征进行了进一步的重要性特征选择，很好的融合各个模态的特征，提高了多模态情感识别的准确率。有效的挖掘出互联网社交媒体上网络评论中所表达的情感信息。

从而以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘博;徐毓笑;
专利申请人：北京工业大学;

上一篇：一种基于深度学习的多模态扩散光学层析成像重建方法
下一篇：一种基于用户阅读时间行为的新闻推荐方法及系统