掌桥专利:专业的专利平台
掌桥专利
首页

基于融合模态内和模态间关系的数据处理方法及系统

文献发布时间:2023-06-19 12:13:22


基于融合模态内和模态间关系的数据处理方法及系统

技术领域

本申请涉及数据处理技术领域,更具体地说,本申请涉及一种融合模态内和模态间关系的数据处理方法和系统。

背景技术

人的表达和行为有各种各样表现,反映了人的精神状况。对各种表达和行为的识别,并分类出其中具有问题的对象已经成为社会安全的必要过程,也是精神医学领域的重点研究对象。这类对象指的是在各种生物学、心理学以及社会环境因素影响下,大脑功能失调,导致认知、情感、意志和行为等精神活动出现不同程度障碍。这类具有问题的表达和行为的种类非常多,而很多最终会发展成为各种精神障碍,例如孤独症、抑郁症、妄想症等。其中抑郁症是一种最为常见的精神障碍,严重威胁人们健康。根据世界卫生组织统计,全球约有3亿人患有抑郁症。抑郁症在严重的情况下会导致自杀,其严重影响着患者的日常生活。但是低收入和中等收入国家中由于缺乏医疗资源以及训练有素的卫生医疗人员等原因,有76%至85%的抑郁症患者无法得到有效治疗,并且大部分抑郁症患者会忽略自身的抑郁症症状而错过合适的治疗时间。早期的抑郁症检测对于预防抑郁症等心理健康疾病具有重要的意义。

目前传统的精神障碍识别主要以心理学知识为基础,例如对于抑郁症,采用填写抑郁症测量表和专业人员人工访谈的方式来判断用户是否具有抑郁倾向,然而这种方式存在以下缺陷:(1)资源消耗多,专业医疗人员有限,人工检测成本高;(2)诊断周期长,诊断过程需要医疗人员长期跟进,过程缓慢;(3)过程具有被动性,患者只有在症状明显的时候才会主动去治疗,而错过最佳治疗时间。

随着互联网的迅猛发展,Twitter、微博和抖音等社交平台已经成为人们必不可少的社交工具,每天有上亿用户在各种社交平台分享他们的想法和心情,这种包括多种模态信息(如文本、图片和语音等)的社交网络数据提供了一种新的对人们表达和行为识别的方法和途径,越来越多的研究人员使用多模态社交网络数据来研究包括抑郁症在内的多种心理健康疾病。然而,面对海量的社交网络数据,如何有效建模多模态序列信息成为提高数据处理性能的关键问题。当前建模文本或者图片模态序列信息多采用RNN等变种方法实现,存在序列依赖问题。无法很好的建模时序信息。

发明内容

本申请的目的是解决上述技术问题。本申请提供一种融合模态内和模态间关系的社交网络数据处理方法和系统,通过使用一种新的主题模型建模多模态序列信息来处理需要进行识别分类的数据,缓解RNN等方法带来的序列依赖问题,进而提升社交网络指向目标分类处理的性能。本申请提供如下技术方案:

第一方面,提供一种基于融合模态内和模态间关系的数据处理方法,包括:

获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;

构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息;

将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。

可选地,其中所述文本特征提取网络为BERT模型,所述图片特征提取网络为VGG模型。

可选地,其中所述利用预设的损失函数进行训练包括通过主任务损失函数、辅助任务损失函数和联合损失函数,同时训练主任务和辅助任务。

可选地,其中所述文本模态网络、图片模态网络和模态间网络基于变分自编码器框架构建。

可选地,其中所述获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息方法为:

使用文本模态网络和图片模态网络获得模态内主题信息;

使用以下公式获得文本模态和图片模态之间关系信息,并将其输入模态间网络获得多模态间关系主题信息:

其中,

可选地,其中所述主任务的网络模型基于LSTM模型构建。

可选地,其中所述使用门控机制融合主任务和辅助任务的输出如下:

其中,

可选地,主任务损失函数为:

其中,

辅助任务损失函数:

其中,

联合损失函数:

其中,

第二方面,提供一种融合模态内和模态间关系的数据处理系统,包括:

样本构建单元,获取初始样本,将样本划分为训练集、验证集和测试集;

模型构建单元,构建基于融合模态内和模态间关系主题信息的数据分类模型;

模型训练单元,训练基于融合模态内和模态间关系主题信息的数据分类模型。

本申请的有益效果至少包括:

(1)现有的社交网络数据处理以及分类方法多使用文本进行训练,只挖掘文本数据相关信息,与其相比,本申请使用基于文本和图片的多模态社交网络数据,使用了更多有用的信息;

(2)本申请使用最新的BERT方法来抽取文本特征,使用VGG方法来抽取图片特征,能更好的捕捉数据的信息,有效的提高了方法的性能;

(3)现有社交网络数据处理以及分类方法很少加入主题信息进行学习,而且多使用文本信息进行学习,本发明提出了一种新的主题模型,既可以学习稀疏的文本主题特征,也可以学习连续的图片特征主题;

(4)本申请使用这种主题模型学习各模态内主题信息和多模态间关系主题信息,明显的提升了社交网络数据目标指向分类性能。

本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。

附图说明

通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:

图1是本申请一个实施例提供的融合模态内和模态间关系的数据处理方法总体示意图。

图2是本申请一个实施例提供的融合模态内和模态间关系的数据处理方法流程图。

图3是本申请一个实施例提供的基于BERT模型文本特征抽取示意图。

图4是本申请一个实施例提供的基于VGG模型图片特征抽取示意图。

图5是本申请一个实施例提供的主题信息模型示意图。

图6是本申请一个实施例提供的融合模态内和模态间关系的数据处理系统示意图。

具体实施方式

下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。

需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。

图2是本申请一个实施例提供的融合模态内和模态间关系的数据处理方法流程图。该方法至少包括以下几个步骤:

步骤S201,获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据。

步骤S202, 构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息。

结合图1的融合模态内和模态间关系的数据处理方法总体示意图,在本实施例中,使用BERT-Base(uncased)模型提取文本特征,BERT-Base(uncased)模型结构参考图3所示,由于每个用户发表了很多条文本句子,使用BERT模型中“[CLS]”来表示整个句子向量,并将句向量转化到和图片相同维度特征。当所有文本序列被BERT编码完成后,可以获得文本内容矩阵(User Generated Content,UGC),公式如下:

其中,

本实施例中,使用VGG16模型对图片进行编码,并将VGG16的第一个全连接层的输出向量作为该图片的编码向量,将其转化为和文本同样大小的特征维度,VGG16模型参考图4所示。

在本实施例中,参考图5,根据以下步骤获得各模态内主题和多模态间关系主题信息:不同于传统的神经主题模型专注于建模稀疏的文本特征主题,本实施例中的主题模型目的是产生每一个模态中间的内容矩阵(如

其中,

首先使用主题模型来建模各模态内主题,并使用以下公式获得多模态间关系信息,然后将其输入主题模型获得各模态间关系主题特征,公式如下:

其中,

其中,

在本实例中,利用LSTM构建指向目标分类网络模型,并将该模型的训练设置为主任务,将建模各模态内主题和多模态间关系主题设置为辅助任务。

步骤S203,将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类

首先,将文本模态和图片模态的特征进行融合,输入进LSTM网络中进行训练,获得主任务的表示。具体的主任务的损失函数定义为:

其中,

然后,为了区分不同辅助任务的主题信息对于指向目标检测分类结果的不同影响,使用门控机制来区别主任务和辅助任务的表示,公式定义为:

其中,

本方法使用联合的损失函数同时优化主任务和三个辅助任务,整体方法的损失函数包含三个辅助任务,如文本主题建模、图片主题建模和多模态间关系主题建模,对应的损失函数表示为

其中,

在本实施例中,通过以下步骤同时融合主任务和辅助任务特征进行数据分类,将使用门控机制融合的特征结果输入进softmax进行指向目标二分类:

其中,

图6是本申请一个实施例提供的融合多模态间关系主题信息的数据处理系统。该系统至少包括以下几个单元:样本构建单元610、模型构建单元620、模型训练单元630。

样本构建单元610,获取初始样本,将样本划分为训练集、验证集和测试集;

模型构建单元620,构建基于融合模态内和模态间关系主题信息的数据分类模型;

模型训练单元630,训练基于融合模态内和模态间关系主题信息的数据分类模型。

相关细节参考上述方法实施例。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。

因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 基于融合模态内和模态间关系的数据处理方法及系统
  • 基于融合模态内和模态间关系的数据处理方法及系统
技术分类

06120113212388