掌桥专利:专业的专利平台
掌桥专利
首页

一种基于量子的媒体信息的情感预测方法、介质及设备

文献发布时间:2023-06-19 19:28:50


一种基于量子的媒体信息的情感预测方法、介质及设备

技术领域

本发明涉及多模态情感预测领域,特别是涉及一种基于量子的媒体信息的情感预测方法、介质及设备。

背景技术

媒体平台越来越倾向于使用多种媒体形式(如文本-图像对,视频等)来共同表达他们的新闻信息。相比于单一模态,多模态的媒体内容能够表达更加准确和直观地传达信息。

现有技术中,为了准确地建立图像和文本之间的关联,许多多模态信息分析方法利用深度神经网络首先将图像和文本编码成稠密表示,然后学习度量它们的相似度。例如,将整个图像和整个句子映射到一个公共向量空间,并计算全局表示之间的余弦相似度。为了提高统一嵌入的判别能力,提出了语义概念学习和区域关系推理等策略,通过融合局部区域语义增强视觉特征。

已有基于神经组件的多模态信息分析模型是类似黑盒的,可解释性较弱。多模态信息处理的问题归根结底都是人类认知的问题。从人类认知的角度出发建模模态间和上下文信息的交互,基于经典概率理论的方法往往无法有效捕获这些交互。例如,讽刺是人类语言中的一种微妙的表现形式,旨在通过夸张、比喻等方式表达批评、幽默或嘲讽的情绪。讽刺表达的字面含义与它所表达的实际含义往往是相反的,这样的表达可以将情感极性反转。作为从人类主观意识的产物,情感表达和讽刺表达天生就是紧密相关的。然而当前基于神经网络的多模态信息分析模型无法从人类认知角度出发分析这些信息,进而使得现有技术对媒体信息所表达的情绪的预测结果精度较低。

发明内容

针对上述技术问题,本发明采用的技术方案为:

根据本发明的一个方面,提供了一种基于量子的媒体信息的情感预测方法,该方法包括如下步骤:

获取目标媒体信息的任意两种模态的表示信息;

对每一模态的表示信息进行预处理,生成每一模态的表示信息对应的复数词向量集A1及A2,其中,A1=(A1

对A1及A2分别进行特征转换处理,分别生成对应的特征密度矩阵集ρ

对ρ

其中,

根据f

其中,E

将P(e

根据本发明的第二个方面,提供了一种非瞬时性计算机可读存储介质,非瞬时性计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于量子的媒体信息的情感预测方法。

根据本发明的第三个方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种基于量子的媒体信息的情感预测方法。

本发明至少具有以下有益效果:

通过利用量子概率原理可以将每一模态的信息向量化,形成在多维度叠加态的复数词向量。由此可以捕捉人类不同模态语言中的不确定性,能对人类语言中的一些微妙的表现形式进行有效表示。然后通过设置滑动窗口,来对每一模态的表示信息对应的复数词向量集进行切分,进而形成多个量子复合系统,然后再通过量子复合系统捕捉单模态信息之间的上下文信息,以生成每一模态的信息对应的密度矩阵。进一步,再将两个模态分别对应的密度矩阵进行特征融合处理,也即量子干涉计算。由此,通过量子干涉计算来实现多模态信息特征的非线性融合。最后,通过量子不兼容测量可以描述融合的多模态特征分别与不同情感分类之间的相关性,并将相关性最高的投影算子对应的预设情感类型作为预测结果输出。

本发明的总体技术方案主要包括:数据预处理及向量化多模态特征,构建单模态信息特征表示,多模态信息特征融合,及预测多模态社交媒体情感类型这几个步骤,且在上述步骤中使用量子理论对数据进行对应处理。由于,量子理论已被证明可以解决经典概率论在人类认知建模中的悖论,也即,通过利用量子理论的模型,可以更加有效的捕获不同模态之间的信息交互,进而可以更加准确的识别出讽刺表达所对应的情绪类型,进而可以提高对媒体信息所表达情绪的预测结果的精度。而且基于量子理论的模型具有更好的可解释性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于量子的媒体信息的情感预测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

根据本发明的一个方面,如图1所示,提供了一种基于量子的媒体信息的情感预测方法,方法包括如下步骤:

S100:获取目标媒体信息的任意两种模态的表示信息。优选的,目标媒体信息对应的表示信息的模态包括文本、图像、音频中的任意两种。

本发明中的目标媒体信息可以为现有的社交媒体信息,如现有的短视频平台所发布的信息。通常在该媒体信息中会包含多个模态的信息。如对应的图像、音频及文本信息。本实施例中的取任意两种模态的组合信息作为后续处理的输入信息。如图像及文本信息。

S200:对每一模态的表示信息进行预处理,生成每一模态的表示信息对应的复数词向量集A1及A2,其中,A1=(A1

本步骤中的预处理依次包含:对每一单一模态的信息的去噪及分段处理以及模态信息特征向量化处理。

去噪及分段处理可以将每一个模态的信息变成多个有效子信息的有序集合。如:文本需要进行分词、去停用词和生成词表等操作;图片需要提取多个图像的目标检测框;语音需要进行降噪和分段等处理。最终每一个模态的信息都会对应的变成一个词语或图像目标检测框或语音片段的有序集合。

模态信息特征向量化处理,是利用量子概率对每一个模态信息的有序集合中的子信息进行向量化。以文本信息进行举例,每个词语可以用使用多维希尔伯特空间上的基础向量的叠加态来进行向量化表示。由此可以通过量子概率捕捉人类不同模态语言中的不确定性。

S300:对A1及A2分别进行特征转换处理,分别生成对应的特征密度矩阵集ρ

优选的,预设初始参数为共享参数。预设初始参数u

本步骤中,通过量子复合系统捕捉单模态信息之间的上下文信息,并提出了通过共享的预设初始化参数计算信息片段的方法,有效降低了计算复杂度。

S400:对ρ

其中,

为解决当前基于神经组件的多模态信息分析模型无法从人类认知的角度出发建模模态间的上下文信息的交互。本发明引入量子干涉的概念,进行模态间的特征融合。

本步骤中分别将两个模态之间的信息进行融合,以使最终生成的目标媒体信息的融合特征f

S500:根据f

其中,E

具体的,可以根据实际的使用需求提前训练多种情感类型的投影算子。通过情感测量算子进行情感预测,能考虑不同情感分类之间的相关性。

S600:将P(e

本发明以多模态社交媒体情感分析任务为例,即根据多模态的社交媒体信息将其分为不同的情感类型,例如愤怒、恐惧、惊讶、信任、嘲讽和快乐等。为捕获多模态信息中人类语言中的微妙表现形式,首先通过量子概率在捕捉人类不同模态语言中的不确定性,通过量子干涉非线性融合多模态信息特征,通量子复合系统捕捉模态信息之间的上下文性,最后通过量子不兼容测量可以描述不同情感分类之间的相关性。

本发明使用了多分类任务中常用的交叉熵损失函数去训练模型,具体的损失函数如下:

其中,Z为情感类别的数目,Q(y

本发明通过利用量子概率原理可以将每一模态的信息向量化,形成在多维度叠加态的复数词向量。由此可以捕捉人类不同模态语言中的不确定性,能对人类语言中的一些微妙的表现形式进行有效表示。然后通过设置滑动窗口,来对每一模态的表示信息对应的复数词向量集进行切分,进而形成多个量子复合系统,然后再通过量子复合系统捕捉单模态信息之间的上下文信息,以生成每一模态的信息对应的密度矩阵。进一步,再将两个模态分别对应的密度矩阵进行特征融合处理,也即量子干涉计算。由此,通过量子干涉计算来实现多模态信息特征的非线性融合。最后,通过量子不兼容测量可以描述融合的多模态特征分别与不同情感分类之间的相关性,并将相关性最高的投影算子对应的预设情感类型作为预测结果输出。

本发明的总体技术方案主要包括:数据预处理及向量化多模态特征,构建单模态信息特征表示,多模态信息特征融合,及预测多模态社交媒体情感类型这几个步骤,且在上述步骤中使用量子理论对数据进行对应处理。由于,量子理论已被证明可以解决经典概率论在人类认知建模中的悖论,也即,通过利用量子理论的模型,可以更加有效的捕获不同模态之间的信息交互,进而可以更加准确的识别出讽刺表达所对应的情绪类型,进而可以提高对媒体信息所表达情绪的预测结果的精度。而且基于量子理论的模型具有更好的可解释性。

作为本发明一种可能的实施例,特征转换处理包括如下步骤:

S301:使用滑动窗口对目标复数词向量集进行滑动分割,生成目标复数词向量集对应的多个复合向量子集C1,C2,…,Cx,…,Cm-k+1。其中,Cx为滑动窗口对目标复数词向量集进行第x次分割后生成的复合向量子集,x∈[1,m-k+1]。m-k+1为复合向量子集的总数量,m为目标复数词向量集的总长度,k为滑动窗口的总长度。目标复数词向量集为A1或A2。

S302:根据u

Ψ

Ψ

其中,c

以文本信息为例,u

本实施例中通过设置滑动窗口可以将目标复数词向量集划分为多个复合向量子集。也即可以生成多个量子复合系统。如:滑动窗口的长度为k,则长度为m的社交媒体文本可以创建m-k+1个量子复合系统。然后再通过结合每一个滑动窗口中的上下文信息生成复合向量子集对应的特征向量。同时,为了增加每一个滑动窗口中的信息的情感表达方向,所以在生成特征向量时,会加入预设初始参数来影响整个滑动窗口中的信息的情感表达方向。同时,由于量子复合系统的初始状态可能对预设初始参数较为依赖,本发明使用了多个预设初始参数进行社交媒体文本信息特征表示。

S303:根据D1,D2,…,Dx,…,Dm-k+1,生成目标复数词向量集的特征密度矩阵集ρ=(ρ

其中,Px为Ψ

本实施例中将各个滑动窗口中的特征向量进行融合,由此可以将某一模态的整个信息的上下文内容进行结合表示。以使最终生成的特征密度矩阵具有更加丰富准确的语义特征。并且在结合的过程中,是将对应同一种预设初始参数的各个滑动窗口中的特征向量进行融合。由此,可以得到多种情感类型对应的特征密度矩阵。

作为本发明一种可能的实施例,预处理包括信息向量化处理,信息向量化处理用于将每一模态的表示信息转化为对应的复数词向量。信息向量化处理包括如下步骤:

S310:获取目标表示信息中每一有效子信息在s维希尔伯特空间中的基础向量F1,F2,…,Fr,…,Fz,Fr=(Ψ

S320:对F1,F2,…,Fr,…,Fz进行叠加处理,生成目标表示信息中每一有效子信息对应的复数词向量G1,G2,…,Gr,…,Gz。其中,Gr为Fr对应的复数词向量。Gr满足如下条件:

其中,z

以文本信息为例进行说明例如,假设社交媒体信息中的文本信息中有s个独立的潜在语义(潜在语义用于表示词汇所表示的含义类型,如“苹果”既可以表示水果,也可以和表示公司名称,还可以表示电子设备,由此,苹果具有3个独立的潜在语义)。文本信息中所有词汇的潜在语义形成的并集中包含的潜在语义的数量,即为该文本信息对应的希尔伯特空间的维度。然后,将文本的的每一个词语建模为定义在s维希尔伯特空间上的量子概念。其中,潜在语义形成空间的一组基础向量(Ψ

本实施例中,可以将基础向量定义为(0,0,0,…,0,1,…)的形式。如在3维希尔伯特空间中,基础向量分别可以为(1,0,0)、(0,1,0)和(0,0,1)。由此,最终文本信息中的词语都可以通过s维的复数词向量

作为本发明一种可能的实施例,当表示信息的模态为文本时,预处理还包括:

S201:对表示信息进行分词处理,生成多个子表示信息。

S202:从多个子表示信息中去除类型为停用词的子表示信息。

S203:将剩余的子表示信息与预设词典进行映射,生成表示信息对应的多个有效子信息。

作为本发明一种可能的实施例,当表示信息的模态为图像时,预处理还包括:

S204:对表示信息进行目标检测处理,生成多个目标检测框。

S205:将多个目标检测框中所框选的图像信息,作为表示信息对应的多个有效子信息。

作为本发明一种可能的实施例,当表示信息的模态为音频时,预处理还包括:

S206:对表示信息进行降噪处理,生成第一表示信息。

S207:将第一表示信息进行分段处理,生成表示信息对应的多个有效子信息。

上述分别是表示信息的模态为文本、图像或音频时,对应的去噪及分段处理的方法,通过上述处理后可以降低数据输入数据中的噪声信息,减少计算量。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

技术分类

06120115928901