掌桥专利:专业的专利平台
掌桥专利
首页

社交媒体图像流行度预测方法、系统、存储介质及应用

文献发布时间:2023-06-19 09:58:59


社交媒体图像流行度预测方法、系统、存储介质及应用

技术领域

本发明属于图像流行度预测技术领域,尤其涉及一种社交媒体图像流行度预测方法、系统、存储介质及应用。

背景技术

目前:随着互联网技术的高速发展,诸如Facebook、微博、微信等众多社交媒体已经成为人们获取信息、交流信息的重要平台,对人们的工作生活产生了巨大影响。社交网络中信息主要通过文字、图像、语音等媒介进行传播。智能手机等终端设备的普及与图像处理相关技术的更新,使得社交网络中图像质量越来越高,包含的信息越来越丰富,用户更倾向于使用图像的形式在社交媒体中分享信息。图像流行度的有效预测能够有助于提升社交网络服务质量,推动社交网络应用及其网络规模的发展,进一步发掘社交网络的应用潜力,同时能够帮助政府正确引导社会舆论,提高决策水平,促进经济领域的发展。因此,社交媒体图像流行度预测问题的研究具有重要的实际意义。

社交媒体中传播的内容可大致分为文本、视频、图片等多种模态。近年来机器学习领域相关技术被广泛应用于社交媒体图像流行度预测问题的研究:Khosla等人在论文“What makes an image popular?”(《Proceedings of the 23rd internationalconference on World wide web》2014:867-876.)中提出了一种图像流行度预测方法。该方法结合简单的图像特征(例如颜色和强度差异),低级视觉特征(例如Gist,纹理,色块和渐变)以及高级图像特征(例如来自Flickr的图像数据集中的各种图像信息的存在),通过线性支持向量回归(LinearSVR)技术预测图像获得的浏览次数,该方法的不足之处是:具有针对性,实际应用价值不高。

Gelli等人在论文“Image popularity prediction in social media usingsentiment and context features”(《Proceedings of the 23rd ACM internationalconference on Multimedia.》2015:907-910.)中提出了一种图像流行度预测方法。该方法通过提取Flickr上图像数据集的视觉情感特征对象特征,上下文特征和用户特征,使用支持向量机(Support Vector Machine,SVM)和卷积神经网络(Convolutional NeuralNetworks,CNN)预测社交图像的观看次数,该方法的不足之处是:忽略了社会特征,影响流行度预测准确度。

Wu等人在论文“Sequential prediction of social media popularity withdeeptemporal context networks”(《arXiv preprint arXiv》1712.04443,2017)提出了一种新的预测框架,称为深度时态上下文网络(Deep Temporal Context Networks,DTCN),以研究流行度的顺序预测。同时使用包含Flickr上共享的68万张照片的TPIC17数据集对预测框架进行验证,结果表示DTCN方法优于以前在该数据集中使用的所有方法,该方法的不足之处是:无法满足实际应用中计算效率与即时性的要求。

通过上述分析,现有技术存在的问题及缺陷为:现有预测模型计算效率不足、即时性差。

解决以上问题及缺陷的难度为:传统神经网络的架构设计下图像预测准确性高度依赖于网络层数,过深的网络层带来了计算时间长、计算资源消耗大等问题。

解决以上问题及缺陷的意义为:移动互联网时代具有终端设备海量化、设备性能差异化的特点,现有网络模型无法适应其对即时性、计算资源的要求。因此,函需一种能够随时分类、弹性建模的图像流行度预测模型。

发明内容

针对现有技术存在的问题,本发明提供了一种社交媒体图像流行度预测方法、系统、存储介质及应用。

本发明是这样实现的,一种社交媒体图像流行度预测方法,所述社交媒体图像流行度预测方法包括:

获取社交媒体原始数据集,包括图片、文字、社交提示信息内容,并对数据集进行预处理;

构建基于特征级联与密集连接的MSDNet模型,同时基于MSDNet模型进行数据集中图像特征的提取;

利用Doc2vec模型进行文本信息向量化处理,同时构建TextCNN模型提取数据集中文本信息特征;

利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;

采用极限梯度提升XGBoost方法设计回归器执行预测任务,得到流行度预测结果。

进一步,图像特征提取是通过MSDNet模型的第一层以及后续层获取图像尺度特征图实现,其中MSDNet模型的具体结构如下:MSDNet模型共包含L层,每一层具有S个尺度,所提取的特征图随着深度由左往右,尺度由上往下,从精细到粗糙。尺度s、第l层的输出特征图可表示为

在此,h

后续层结构特征遵循密集连接的形式,MSDNet的第l层(l>1)以s尺度输出一组特征

此处,[···]表示级联运算符,h

进一步,MSDNet模型能够根据预算确定网络深度以及运行于特征图上的分类器数量,每一个分类器由两个下采样卷积层、一个平均池化层、一个线性层组成,附加至某些网络中间层上的分类器,通过仅使用相近粗糙层特征图进行分类,使得图像在通过网络所有层传播之前能够随时输出预测结果。

进一步,文本信息的向量化处理,文本内容包含图像描述、用户情感值对于流行度预测有重要价值的信息;将文本内容中的“uid”,“title”,“alltags”,“concept”,“category”,“description”,“subcategory”七个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,使用户与图像的文本内容相关。

进一步,包含Doc2vec模型进行文本信息向量化处理和TextCNN模型提取数据集中文本信息特征两个过程:

所述Doc2vec模型处理中,Doc2vec训练过程包括:

1)从已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量;

2)对于新的段落,得到其向量表达,经Doc2vec预训练得到的数据矩阵作为TextCNN模型的输入以进行文本特征提取;

所述TextCNN模型处理中,TextCNN模型结构包括输入层-卷积层-池化层-全连接层,输入层为经Doc2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取;之后由池化层的1-max pooling对卷积层特征进行抽象提取,提取出的多个特征被拼接为一个一维向量;最后该向量经全连接层特征映射得到文本特征。

进一步,社交提示特征的处理,包括整值映射和时间尺度变换两个过程;

所述整值映射方法是将数据集中社交提示信息的所有属性进行预处理,即将所有属性的一系列属性值采用连续的整数表示;

所述时间尺度变换是将元数据中的时间戳,即“发布日期postdate”属性转换为具有不同时间尺度的6个新特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”,用以观察社交媒体流行度预测中时间信息的有效性;其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征。

进一步,使用极限梯度提升XGBoost设计回归器执行预测任务,XGBoost以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。

本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:

获取社交媒体原始数据集,包括图片、文字、社交提示信息内容,并对数据集进行预处理;

构建基于特征级联与密集连接的MSDNet模型,同时基于MSDNet模型进行数据集中图像特征的提取;

利用Doc2vec模型进行文本信息向量化处理,同时构建TextCNN模型提取数据集中文本信息特征;

利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;

采用极限梯度提升XGBoost方法设计回归器执行预测任务,得到流行度预测结果。

本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的社交媒体图像流行度预测方法。

本发明的另一目的在于提供一种实施所述的社交媒体图像流行度预测方法的社交媒体图像流行度预测系统,所述社交媒体图像流行度预测系统包括:

数据集预处理模块,用于获取社交网络原始数据集,并对数据集进行预处理;

MSDNet网络结构构建模块,用于构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;

数据集中文本信息特征提取模块,用于利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;

社交提示信息特征提取模块,用于利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

多模态信息特征融合模块,用于融合提取出的图像特征与文本特征,之后再与社交提示信息特征融合得到多模态信息特征;

预测任务执行模块,用于采用极限梯度提升方法设计回归器以执行预测任务。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明的MSDNet模型能够根据预算资源确定网络深度以及运行于特征图上的分类器数量。每一个分类器由两个下采样卷积层、一个平均池化层、一个线性层组成。附加至某些网络中间层上的分类器,通过仅使用相近粗糙层特征图进行分类,使得图像在通过网络所有层传播之前能够随时输出预测结果。多个分类器在训练过程中的共同优化保证了最终预测结果的准确性,同时减少了前置分类器对最终结果的不良影响。本发明将“uid”,“title”,“alltags”“,concept”“,category”,“description”,“subcategory”7个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,使用户与图像的文本内容相关联,有效解决了流行度预测中忽视用户信息的问题。本发明TextCNN模型结构包括输入层-卷积层-池化层-全连接层。输入层为经Doc2vec处理的n*k二维矩阵,矩阵每一行代表一个长度为k的词向量;卷积层采用多个h*k的卷积核对输入层数据进行局部特征提取;池化层使用最大池化(max-pooling)对卷积层输出的特征图谱进行局部最优特征提取操作,对不同尺寸过滤器生成的特征向量逐一最大池化后,将标量横向拼接,得到一个一维特征向量;最后该向量经全连接层特征映射得到文本特征。为了防止训练过程中可能导致的过拟合问题,需要同时执行dropout操作,以p的概率随机舍弃部分特征节点,提高模型的泛化能力。

本发明对数据集中社交提示信息的所有属性采用整值映射方法进行预处理。本发明将元数据中的时间戳,即“发布日期(postdate)”属性转换为具有不同时间尺度的新特征,以观察社交媒体流行度预测中时间信息的有效性。时间信息被转化为6个特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”。其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征,使时间特性更加精确。

本发明的XGBoost是一种基于决策树的集成机器学习算法,以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。XGBoost的损失函数添加了正则化项以控制模型的复杂度,正则项中包含了树的叶子节点个数、每个叶子节点权重(叶结点的socre值)的平方和。XGBoost在优化时使用一、二阶导数信息,并对缺失值进行了处理,通过学习模型自动选择最优的缺失值默认切分方向。XGBoost除了增加正则项来防止过拟合,同时支持行列采样的方式来解决过拟合问题。

与现有技术相比,本发明具有以下优点:

1)本发明首次将MSDNet应用于图像流行度预测领域。利用MSDNet减少网络与懒惰计算的特点,使得整个流行度预测模型更加紧凑高效,计算资源的利用率大大提升。同时MSDNet随时分类与批量预算的特点使得模型可以根据计算资源的要求进行实时构建,并且能够随时输出预测结果,满足了流行度预测问题的即时性要求。

2)本发明基于Doc2vec-TextCNN模型提取文本信息特征,能够更好的获取文本的局部相关性。同时基于XGBoost设计回归器进行预测,有效解决了过拟合问题,降低了整个预测模型的时间复杂度。

3)本发明通过分析多模态信息融合特征进行流行度预测,充分考虑了图像、文本、社交提示信息在流行度预测中的作用,使得预测结果更加可信、准确。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的社交媒体图像流行度预测方法流程图。

图2是本发明实施例提供的社交媒体图像流行度预测系统的结构示意图;

图2中:1、数据集预处理模块;2、MSDNet网络结构构建模块;3、数据集中文本信息特征提取模块;4、社交提示信息特征提取模块;5、多模态信息特征融合模块;6、预测任务执行模块。

图3是本发明实施例提供的社交媒体图像流行度预测方法的实现流程图。

图4是本发明实施例提供的构建的多尺度密集网络模型结构示意图。

图5是本发明实施例提供的TextCNN模型整体构架示意图。

图6是本发明实施例提供的预测精度指标评估趋势图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种社交媒体图像流行度预测方法、系统、存储介质及应用,下面结合附图对本发明作详细的描述。

如图1所示,本发明提供的社交媒体图像流行度预测方法包括以下步骤:

S101:获取社交网络原始数据集,包括图片、文字、社交信息等内容,并对数据集进行预处理。每条数据应包含该用户上传的一张图片以及对应属性,每张图片的流行度分数可定义为ln(‘浏览数’+1);

S102:构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;

S103:利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;

S104:利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

S105:融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征;

S106:采用极限梯度提升(XGBoost)回归器执行预测任务。

本发明提供的社交媒体图像流行度预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的社交媒体图像流行度预测方法仅仅是一个具体实施例而已。

如图2所示,本发明提供的社交媒体图像流行度预测系统包括:

数据集预处理模块1,用于获取社交网络原始数据集,并对数据集进行预处理;

MSDNet网络结构构建模块2,用于构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;

数据集中文本信息特征提取模块3,用于利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextCNN模型提取数据集中文本信息特征;

社交提示信息特征提取模块4,用于利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

多模态信息特征融合模块5,用于融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征;

预测任务执行模块6,用于采用极限梯度提升回归器执行预测任务。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示,本发明提供的社交媒体图像流行度预测方法具体包括以下步骤:

1)获取社交网络原始数据集,包括图片、文字、社交信息等内容,并对数据集进行预处理。每条数据应包含该用户上传的一张图片以及对应属性,每张图片的流行度分数可定义为ln(‘浏览数’+1)。

2)构建基于特征级联与分类器共同优化方法的MSDNet网络结构,同时基于MSDNet进行数据集中图像特征的提取;

3)利用Doc2vec模型进行文本信息向量化处理,同时构建Doc2vec-TextC NN模型提取数据集中文本信息特征;

4)利用整值映射、时间尺度变换方法从数据集中提取社交提示信息特征;

5)融合提取出的图像特征与文本特征,之后再与社交提示信息特征进一步融合得到多模态信息特征。

6)采用极限梯度提升(XGBoost)回归器执行预测任务。

上述步骤2)中,MSDNet模型构建与图像特征提取包括以下步骤:

假设网络为L*S形式(L层,尺度为S),如附图2所示,则尺度s、第l层的输出特征图表示为

在此,h

后续层。按照密集连接模式,随后的l>1层上生成的输出特征图

此处,[···]表示级联运算符,h

更深的网络层数意味着模型具有更强的学习能力,但随着层数的增加,整个模型的复杂度也随之加剧,网络容易出现过拟合现象,造成预测准确度的下降。本发明通过实验确定,MSDNet模型的密集连接模块数量为5时模型的性能最佳。

分类器

MSDNet中分类器由两个卷积层、一个平均池化层、一个线性层组成。分类器仅被附加到某些中间层上,f

q

其中q

|D

其中D

损失函数

训练过程中,为每个分类器使用逻辑损失函数L(f

其中D表示训练集,w

上述步骤3)中文本信息特征提取包括以下步骤:

3.1)文本信息向量化

文本内容包含了图像描述、用户情感值等对于流行度预测有重要价值的信息。本发明将“uid”,“title”,“alltags”“,concept”“,category”,“description”,“subcategory”7个属性数据定义为文本信息,作为Doc2vec模型的训练数据。同时将用户ID作为隐含文本加入其中,从而使用户与图像的文本内容相关联,有效解决了流行度预测中忽视用户信息的问题。

3.2)Doc2vec模型处理

Doc2vec训练过程主要包括:1)从已知的训练数据中得到词向量,softmax的参数和,以及段落向量/句向量;2)对于新的段落,得到其向量表达。在矩阵中添加更多的列,固定所有权重对其进行训练,使用梯度下降的方法得到新的D,从而得到新段落的向量表达。经Doc2vec预训练得到的数据矩阵作为TextCNN模型的输入以进行文本特征提取。

3.3)TextCNN模型处理

TextCNN模型结构包括输入层-卷积层-池化层-全连接层,如图5所示:

3.3.1)输入层

输入层是文本信息经Doc2vec预训练所得到的大小为n×|d|的二维矩阵,文本信息的句子向量维度为|d|,本发明设置其值为6。

3.3.2)卷积层

卷积层使用3种不同尺寸的过滤器:3×|d|、4×|d|及5×|d|。设置步幅为1执行卷积操作,采用reLU作为卷积层激活函数。为了提取更多的抽象特征,每种尺寸的过滤器数量为128个。

3.3.3)池化层

池化层使用最大池化(max-pooling)对卷积层输出的特征图谱进行局部最优特征提取操作,即抽取每个特征向量的最大值表示该特征。池化层中每个过滤器的输出结果为一个标量,对不同尺寸过滤器生成的特征向量逐一最大池化后,将标量横向拼接,从而得到一个特征向量。

3.3.4)全连接层

全连接层将拼接后的特征向量映射为长度为50的输出向量,该向量即文本特征。为了防止训练过程中可能导致的过拟合问题,需要同时执行dropout操作,以p=0.5的概率随机舍弃部分特征节点,提高模型的泛化能力。

上述步骤4)中社交提示特征的处理包括如下步骤:

4.1)整值映射

整值映射方法即将某个属性的一系列属性值采用连续的整数表示。如属性geoaccuracy有16个属性值,对该属性进行整值映射,得到的是0-15数字中的任意一个。本发明对数据集中社交提示信息的所有属性采用整值映射方法进行预处理。

4.2)时间尺度变换

时间信息在社交媒体流行度预测中起着重要作用。现有模型基于时间对上下文语境进行建模以预测流行度,并提出了基于多时间尺度的社交媒体流行度研究。本发明将元数据中的时间戳,即“发布日期(postdate)”属性转换为具有不同时间尺度的新特征,以观察社交媒体流行度预测中时间信息的有效性。时间信息被转化为6个特征,分别为“年”,“季节”,“月”,“周”,“日”,以及“时刻”。其中,考虑到用户上网行为具有时段性,人们正常使用网络的高峰期为8点-12点,14点-17点,20点-22点,所以对24小时进行错分,转化为“时刻”特征,使时间特性更加精确。

上述步骤6)中XGBoost回归器设计如下:

XGBoost是一种基于决策树的集成机器学习算法,以梯度提升为框架,利用加法模型与前向分布算法实现学习优化过程。其将K(树的个数)个树的结果进行求和,作为最终的预测值;通过最小化带有正则项的目标函数,达到准确分类的效果,如下式:

式中

下面结合实验对本发明的技术效果作详细的描述。

1、实验条件

本实验使用深度学习框架Pytorch1.0,网络的训练、验证与测试均在Pytorch环境下完成。编程语言为python3.6,基于Window7操作系统。实验的硬件环境为Intel(R)Core(TM)i7-4790处理器,主频为3.60GHz,内存为8GB,显卡为NVIDIA GeForceGTX 1080Ti。

本实验使用的数据集来自ACM MM 2019Grand Challenge中的时间流行度预测(Temporal Popularity Prediction任务,数据集名为SMPD(Social Media PredictionDataset),包含来自著名的社交图片分享网站Flickr中70,000位用户486,000个社交多媒体帖子以及各种社交媒体信息。

2、实验内容

本实验应用所提出的图像流行度预测模型于SPMD数据集中,从均方误差、平均绝对误差、斯皮尔曼等级相关系数三个指标与已有模型进行评估比较。

均方误差(Mean Squared Error,MSE)是度量预测的流行度分数

平均绝对误差(Mean Absolute Error,MAE)度量预测的流行度分数与其实际分数的偏差,值越小表示模型预测准确度越高,计算公式如下:

斯皮尔曼等级相关系数(Spearman's rho)用于衡量预测的流行度分数与实际分数之间的线性关系,+1值意味着正相关,-1的值意味着负相关,值越大表示预测效果越好,计算公式如下:

其中,ρ表示通常的斯皮尔曼相关系数,但在此应用于秩变量计算,cov(r

3、实验结果

采用随机梯度下降法将训练集与验证集按照0.85:0.15的比例对模型神经网络部分(MSDNet+TextCNN)进行训练。由图6可看出,预处理后的数据质量相对粗糙,导致多模态特征信息微弱。随着迭代次数的增加,原始的多模态特征被映射到有序的、突出的多模态融合特征空间中,MSE、MAE值大大减小,模型预测精度得到提升,同时模型迭代175轮后即趋于稳定。

在回归层使用不同的回归器进行性能比较。由表1可看出,本发明的方法所使用的XGBoost回归器在MAE、MSE、Spearman's rho三项指标方面整体情况优于其他算法。同时XGBoost回归器能够无缝连接神经网络,有效防止过拟合现象。

表1回归层方法性能对比

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 社交媒体图像流行度预测方法、系统、存储介质及应用
  • 基于视觉语义关系的社交媒体流行度预测方法及装置
技术分类

06120112370806