基于强化学习和领域知识的实时多模态对话情感分析方法

文献发布时间：2023-06-19 11:22:42

技术领域

本发明属于用户情感倾向分析技术领域，具体涉及一种基于强化学习和领域知识的实时多模态对话情感分析模型和方法。

背景技术

用户多模态情感分析是近年来十分热门的一个研究领域，具有广泛的发展潜力和应用前景，例如：自动驾驶系统司机疲劳驾驶监测，机场对于人群中危险分子安全保障监控，医疗领域的自闭症陪护和监测，智能家居领域中独居老人小孩的陪护、报警和监测等。现有多模态情感分析技术中，用于分析的模态根据不同的研究方向而多种多样，其中主要有以下四种：视觉信号，声音信号，文字信息和脑电信号。其中，脑电信号具有相对最高的准确率，但必须配套相应的专用信号采集传感器设备，导致在日常生活领域难以方便地大范围普及。因此，视觉、声音和文字是最常见的多模态用户情感分析研究的输入模态。使用这三种模态的现有相关技术中，主要分为两种，一种是逐句或逐段为对象进行分析，即不考虑上下文信息的情感分析；另一种则是考虑上下文信息，即在考虑全部对话内容的基础上，对某个时间点的用户情感做出判断。前一种技术具有很强的实时性，但由于不考虑上下文信息，不具有很好的准确度，而后一种识别准确度较前一种有很大的提升，但却在实际应用中不具有实时性功能，失去了实时监测的能力。

循环神经网络是近年来人工智能机器学习领域中非常热门的研究方向，而同样作为机器学习的范式和方法论之一的强化学习，通过近年来不断地与循环神经网络相结合，不仅算法设计更加灵活，应用领域也获得了极大的拓展。相应地，不同的应用领域对应着不同的领域知识，领域知识是所研究问题的常识性规范和指导，能够在一定程度上优化算法得出的结果，例如过滤掉违背常识或实际情况的因果关系，增大更可能发生的事件被选择的概率等。通过与强化学习和领域知识相结合，循环神经网络在图像处理、文本分析、语音识别等方向都取得了突破性的进展，且具有训练时间短，训练参数少和设计简洁的特点。

刘启元,张栋(《基于上下文增强LSTM的多模态情感分析》.计算机科学,2019,046(011):181-185)为了获取单模态内部的信息以及多模态之间的交互信息来进行多模态情感分析，文中提出了一种基于上下文增强LSTM的多模态情感分析方法。LSTM是循环神经网络的一种，对于多模态的每种表达，他们结合上下文特征，分别使用LSTM进行编码，再分别捕捉单模态内部的信息；接着融合这些单模态的独立信息，再使用LSTM获得多模态间的交互信息，从而形成多模态特征表示；最后采用最大池化策略，对多模态进行降维，从而构建情感分类器。该算法在公共数据集上取得了很好识别准确率，并大大提升了训练速度。但该多模态情感分析模型使用了与识别目标相关的所有上下文信息作为输入，属于事后分析，而无法具有实时情感分析的能力。

发明内容

要解决的技术问题

已有的多模态情感分析模型是针对所分析目标的事后分析，不仅需要目标之前的信息，也需要提取目标之后的信息，不符合实时多模态对话情感分析的需要和实际情况。针对现有技术的不能实时分析的不足之处，本发明提出一种基于强化学习和领域知识的实时多模态对话情感分析模型和方法。

技术方案

一种用于情感分析的基于循环神经网络的强化学习模型，其特征在于包括12层，第一层为输入层，中间10层为隐含层，包括2层循环神经网络层，2层归一化层，1层激活层和5层全连接层，最后一层为输出层；输入为当前对话采样段内的图像、文字和语音三模态信息，首先分别进行单模态的特征处理；图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层，一层循环神经网络层和一层全连接层；之后三模态通过一层归一化层，一层循环神经网络层，一层激活层和1层全连接层进行融合，最后连接三层全连接层输出结果；网络输出为采样段最后一句对话信息在情感类型里的概率值。

本发明技术方案更进一步的说：所述的情感类型包括6种：快乐、兴奋、沮丧、悲伤、愤怒和中性。

本发明技术方案更进一步的说：所述的采样段包括4句连续的对话。

一种基于强化学习和领域知识的实时多模态对话情感分析方法，其特征在于步骤如下：

步骤1：获取多模态对话信息数据库，依据数据库生成对话情感领域知识；

步骤2：搭建权利要求1所述的基于循环神经网络的强化学习模型，并训练该模型；

步骤3：实时采集多模态对话信息，按照对话发生时间顺序依次进行采样，使用步骤2中训练好的基于循环神经网络的强化学习模型进行实时对话情感分析，输出情感类型分别出现的概率值，再根据领域知识对识别结果进行修正，得到最后的分类结果。

本发明技术方案更进一步的说：步骤2中实时多模态对话情感分析模型的搭建具体如下：

1)将输入多模态信息表示为：

s(t)＝[V(t),T(t),A(t)]

t为当前采样时刻，s(t)为当前采样时刻状态信息，V(t)为当前采样时刻内的图像信息，T(t)为当前采样时刻内的文字信息，A(t)为当前采样时刻内的语音信息；

2)在多模态对话信息数据库上对模型进行训练，对于采样时刻t的多模态信息，计算其经过归一化层，循环神经网络层，激活层和全连接层后得到输出层的结果，公式为：

action(t)＝Q(s(t))

其中Q为构建基于循环神经网络的强化学习算法模型，action(t)为模型输出的当前采样时刻的情感类型识别结果，根据输出结果计算奖励函数R；

其中label(t)为真实情感类型；之后，计算期望值和估计值的差值得到整个网络的损失函数；其中期望值eval计算公式为：

eval＝Q(s(t+1))

估计值epet的计算公式为：

从而得到损失函数loss：

loss＝E[epet-eval]

其中，E为epet-eval的期望。

本发明技术方案更进一步的说：步骤2中采用梯度下降和反向传播算法训练基于循环神经网络的强化学习模型。

有益效果

本发明提出的一种基于强化学习和领域知识的实时多模态对话情感分析模型，与已有的多模态对话情感分析模型相比，本发明的模型注重对话情感分析的实时性，通过按照对话发生顺序进行采样，分割为包含目标相关信息的连贯情感状态，采用循环神经网络对多模态信息进行处理和融合，参考领域知识对识别结果进行筛选和修正，从而实现实时对话情感分析。

本发明中的强化学习和循环神经网络、领域知识相结合的新型多模态情感分析模型能够实现对话过程中的实时情感分析，保证实时性的同时兼顾与目标语句相关的多模态信息和领域知识，提升识别准确率。

本发明提出的一种基于强化学习和领域知识的实时多模态对话情感分析方法，针对实时多模态情感分析无法获得目标之后相关信息的特点，通过强化学习和循环神经网络相结合，设计了新的模型和网络结构，对目标及目标前采样时间段之内的多模态信息进行充分提取、融合和分析，并通过与领域知识相结合，进一步提高识别效率和精度。

附图说明

图1是基于强化学习和领域知识的实时多模态对话情感分析模型结构图；

图2是本发明方法流程图；

图3是本发明测试结果图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

为了实现实时快速的多模态对话情感分析，本发明提出了一种强化学习和循环神经网络、领域知识相结合的新型多模态情感分析模型，采用竞争网络结构作为强化学习的迭代训练算法，循环神经网络作为网络模型，以通用公共对话数据集为基础，统计6种基本情感类型(快乐，兴奋，沮丧，悲伤，愤怒和中性)在采样长度为4句的相关性大小，对模型的输出结果进行修正。

在多模态对话中，对话中每4句为一个采样段，即采样长度为4，按照对话的发生顺序依次采样，步长为1。同时，每个采样段中的多模态对话信息(图像，文字和语音)作为强化学习算法环境中的一个状态，采样段中的第4句为需要进行多模态情感分析的目标信息，前3句为第4句提供所需的关联信息作为参考，这些信息作为循环神经网络的输入参数，经过循环神经网络计算和识别，得到目标语句在6种备选情感类型中的可能性大小，最后经过领域知识归一化和修正，输出最终概率值排序，概率最大的情感类型作为判断出的目标信息的情感类型，即视作基于当前状态下所选择的行为，将判断出的行为与真实情感类型进行对比，获得奖励函数。最后，通过这个行为完成状态转移，所对应的下一个状态即为当前对话中的下一个采样段中所包含的多模态对话信息，直至当前对话结束，完成识别。

如图1所示，本发明中，基于循环神经网络强化学习算法结构共12层，输入层和输出层，中间10层为隐含层，包括2层循环神经网络层，2层归一化层，1层激活层和5层全连接层。神经网络输入为当前对话采样段内的图像、文字和语音三模态信息，首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层，一层循环神经网络层和一层全连接层。之后三模态通过一层归一化层，一层循环神经网络层，一层激活层和1层全连接层进行融合，最后连接三层全连接层输出结果。网络输出为采样段最后一句对话信息在6种情感类型里可能的概率值，即Q表。最后，结合当前对话对应的领域知识对计算出的概率值进行修正，得到修正后的Q表，选择概率最大的情感类型作为识别结果。

如图2所示，本发明一种强化学习和领域知识的实时多模态对话情感分析方法，具体实施方式包括以下步骤：

步骤一、获取多模态对话信息数据库和统计对话情感领域知识。具体是：构建具有良好多样性的多模态对话数据库，需要具有谈话人性别比例平均，谈话内容和情感类型分布大致均匀等特点。确定数据库后，以完整对话为单位，以对话发生为顺序依次完成采样，构成样本库，并以采样长度为单位，以前三句话的对应三个情感类型为基础，计算六种情感类型在不同的基础下出现的概率，生成对话情感分析的领域知识K。

步骤二、搭建基于循环神经网络的强化学习算法模型，并采用梯度下降和反向传播算法训练该模型，具体过程如下：

(1)依照图1构建基于循环神经网络的强化学习算法模型，用随机数初始化所有的参数及权重。将输入多模态信息表示为：

s(t)＝[V(t),T(t),A(t)]

t为当前采样时刻，s(t)为当前采样时刻状态信息，V(t)为当前采样时刻内的图像信息，T(t)为当前采样时刻内的文字信息，A(t)为当前采样时刻内的语音信息。

(2)在多模态对话信息数据库上对模型进行训练，对于采样时刻t的多模态信息，计算其经过归一化层，循环神经网络层，激活层和全连接层后得到输出层的结果，公式为：

action(t)＝Q(s(t))

其中Q为依照图1构建基于循环神经网络的强化学习算法模型，action(t)为模型输出的当前采样时刻的情感类型识别结果，根据输出结果计算奖励函数R。

其中label(t)为真实情感类型。之后，计算期望值和估计值的差值得到整个网络的损失函数。其中期望值eval计算公式为：

eval＝Q(s(t+1))

估计值epet的计算公式为：

从而得到损失函数loss：

loss＝E[epet-eval]

其中，E为epet-eval的期望。

通过反向传播损失函数loss，完成对模型的训练。

步骤三、采用数据集中未被训练过的对话作为测试实例，使用基于循环神经网络的强化学习模型进行实时对话情感分析，输出为六种情感类型分别出现的概率值，再根据领域知识对识别结果进行修正，修正方法为输出的概率值与对应的领域知识相加，得到最后的分类结果，得到最后的分类结果。具体过程如下：

(1)以对话为单位，按照对话发生时间顺序依次进行采样，并通过基于循环神经网络的强化学习模型进行识别；

(2)对识别结果进行归一化，并使用领域知识进行修正，得到最终识别结果。

如图3所示，图中，黑色实线为本发明的方法测试结果，其余虚线为其他现有方法的测试结果。图中横坐标为对话长度，以一位说话人说的完整一句话为一个单位，随着对话的进行，对话长度不断增加，根据所测试的数据库，对话最大长度为50，即对话最长为说话人交替进行了50次。图中纵坐标为识别精准确率，范围是[0,1]。从图中可见，首先，只有本发明方法可以随着对话的进行动态实时识别用户的情感倾向，而其余方法则不具有这样的能力；其次，本发明方法的测试结果在对话长度小于等于35前，整体高于现有方法的识别准确率，长度大于35之后，由于数据库中对话长度大于35的可测试对话大幅减少，因此出现了结果的震荡，但平均准确度仍然高于现有方法，说明了本发明方法的有效性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张科;李苑青;王靖宇;苏雨;谭明虎;
专利申请人：西北工业大学;