掌桥专利:专业的专利平台
掌桥专利
首页

基于单平台的网络事件流行度预测方法与系统

文献发布时间:2023-06-19 12:02:28


基于单平台的网络事件流行度预测方法与系统

技术领域

本发明涉及网络信息技术领域,特别涉及一种基于单平台的网络事件流行度预测方法与系统。

背景技术

随着互联网的普及,网络已经融入了人们生活中,并扮演了很重要的角色。与此同时,网络上表达的各种正式与非正式观点,产生了层出不穷的网络事件。

在此,需要指出的是,网络事件是指由多篇文档构成的特定话题,属于比较精细的话题。根据生命周期理论,一个网络事件周期将会经历潜伏、发展、高峰、衰落、消逝五个阶段。相应的,一个网络事件的处理过程分为五个阶段,即发现、分析、预测、预警、引导。部分网络事件可能引发重大网络舆论,针对这些网络事件的进行分析与预测,能够为网络舆情的引导提供依据,从而降低隐患与损失。

网络事件流行度预测是根据网络事件历史时刻的输入来预测未知时刻网络事件的关注量,例如根据事件前期的发文量预测未来时刻的发文量等。网络事件流行度预测研究旨在分析事件内在的传播特征与变化规律,预测其未来发展走向,从而提升人们对网络事件传播规律的认识。

网络事件流行度预测对人们的生产与生活影响重大,尤其在社会安全方面有重要的应用,例如在舆情监测上,及早发现相关的事件,可以做到尽早预防,并将危害降到最低;在公共管理上,对灾害性事件的趋势做出早期预测并预警,则可以最大限度地减少灾害损失;在商业决策上,把握社会事件的当前趋势,有利于未来的商业布局与决策。因此,有必要对网络事件流行度预测进行深入研究。同时,网民在互联网上针对网络事件发表的言论为预测事件的趋势提供了基础数据。

在数据表示方面,数据表示算法作为一种特征表示,主要分为离散数据、网络数据、文本、图像、异构数据五种。离散数据表示目标是如何数值化,而高维的文本、网络数据、图像与异构数据的表示目标则是如何将高维稀疏、多样的原始信息表示转换到低维稠密的实数语义空间。目前的数据表示都是基于神经网络进行表示,因为其高效的表达,在此基础上如何进行融合又是重点与难点。

流行度预测方法主要分为两类:基于特征与基于生成式。

基于特征的预测方法又可以分为数理统计与机器学习两类。

第一小类以数理统计的方法为代表。在特征方面,预测的值与时间的关系呈对数相关性。在模型方面,对于时序预测非常普遍,常用的模型有线性回归模型、自回归移动平均、序列回归模型等。对于非平稳序列,常用的方法有差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA),Prophet模型考虑了趋势、季节、假期以及其他突变点对预测目标所带来的影响。

第二小类以传统的机器学习与深度学习的机器学习算法为代表,对目标值做分类与回归。常用的特征包括时序特征、文本的话题、词数、链接、文本情感、网络中的节点的度、聚集系数、重要度等结构,以及图片的基本特征等特征进行预测。

基于生成式的预测方法主要分两种,基于传播扩散过程与基于点过程。

基于传播扩散过程的方法,基于传染病模型建模了传播速率与当前的已有感染与未感染的节点数的关系,典型的是SI理论,其变体SpikeM模型在传播速率公式中考虑了传播过程中的信息的幂律分布和周期分布。基于概率图模型预测事件中运用隐性马尔可夫模型预测事件的发展状态。

基于点过程预测方法中,当前事件的发生概率受历史影响,传播过程的发生概率由三个因素决定:消息本身的特质、消息传播的相互影响(积极、消极)、时间衰减性质。点过程需要根据这三个因素定义一个强度函数代表事件发生的概率。点过程类中的泊松过程、霍克斯过程通常被用于事件的流行度预测,同时霍克斯过程也被用于事件序列的预测,即对事件的相关指标进行预测。上面的点过程方法都要显式定义强度函数并学习强度函数,神经网络的引入能从历史序列中学习得到参数,不需要显式定义强度函数。用循环神经网络基于最大似然概率学习到当前序列与历史序列的关系,从而学习到强度函数。而对抗生成网络则不用是非最大似然学习,定义的沃瑟斯坦距离相比于KL散度受噪声影响较小,能够得到数据的几何信息。图神经网络将点过程预测下一时刻问题转化成链接概率问题。

基于特征的预测方法可以利用领域知识,且对某一特定时刻预测时精度高,缺点在于特征的构建复杂,难度大。基于生成式的预测方法不需要构建复杂特征,可解释性强,但对模型假设强,泛化性能相对弱。

另外,在数据表示方面,缺乏多粒度数据研究。网络事件融合的数据涉及粒度不一样,既有文档层面的数据也有事件层面的数据。这样导致了网络事件表示的没有针对性,影响了网络事件流行度预测的准确性。研究对象方面已有研究大多关注消息级别的流行度研究,缺乏事件级别的流行度动态变化研究。而现实却极大的需要对事件的流行度动态变化研究,时间预测是符合它的研究手段,放到本研究中,缺乏针对性的事件表示方法,同时特征学习上由于是针对一般性问题的学习,因此在网络事件目标的学习上没有针对性。

发明内容

针对现有技术的不足,本发明的主要目的在于提出一种基于单平台的网络事件流行度预测方法与系统,充分考虑到网络事件的层级性与多维性,并学习表示网络事件的多个维度特征,学习数据的层级性与动态性,从而刻画网络事件的内部数据规律,提高预测准确性。

为了实现上述目的,本发明提出了一种1.一种基于单平台的网络事件流行度预测方法,包括:步骤1、将网络事件在时序上按照固定时间间隔进行划分以形成多个事件片段,并提取各个所述事件片段的多个维度特征;步骤2、分别提取各个所述事件片段的所述多个维度特征中的相同维度特征以形成多个维度时序特征,并融合所述多个维度时序特征得到所述网络事件的统一特征;步骤3、根据所述统一特征预测所述网络事件的流行度。

为了实现上述目的,本发明还提出了一种基于单平台的网络事件流行度预测系统,包括:片段特征提取模块,用于将网络事件在时序上按照固定时间间隔进行划分以形成多个事件片段,并提取各个所述事件片段的多个维度特征;事件特征获取模块,用于分别提取各个所述事件片段的所述多个维度特征中的相同维度特征以形成多个维度时序特征,并融合所述多个维度时序特征得到所述网络事件的统一特征;事件流行度预测模块,用于根据所述统一特征预测所述网络事件的流行度。

由以上方案可知,本发明的优点在于:本发明提出的基于单平台的网络事件流行度预测方法与系统,在事件表示上引入了文档层、事件片段层与事件层三个层级,在学习策略上引入了重构历史序列,从而解决了事件的多维异构动态表示与学习;设计了一种能够融合多维异构特征的层级网络,先用卷积网络捕获事件片段层级表示,然后用长短时记忆网络与注意力机制分别捕捉事件层级的短期与长期变化趋势,最后用多头注意力机制解码完成网络事件流行度预测,从而有效提高网络事件流行度预测的准确率。

附图说明

图1为本发明一实施例的基于单平台的网络事件流行度预测方法的流程图。

图2为网络事件的层级结构的示意图。

图3为fastText文本表示的示意图。

图4为卷积神经网络捕获事件片段的示意图。

图5为注意力网络对权重选取的示意图。

图6为循环神经网络捕获时序关系的示意图。

图7为编码器-解码器模型架构的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于单平台的网络事件流行度预测方法与系统作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在网络事件表示方面。当前的数据表示缺乏多层级与多维度特征表示的研究,而网络事件的数据涉及多层次与多维度特征。一个事件具有自上而下的结构。从时序上看,网络事件由多个时间段组成,每一段网络事件的时间片段由多篇文档组成,每篇文档又包括文档内容、作者信息、传播信息等。因此,本发明提出了基于层级结构来动态表示网络事件的方法,即自下而上构建整个网络事件,先表示网络事件的一个事件片段,然后由多个事件片段组合成一个网络事件,即一个序列。为了解决该问题,本发明针对每一类特征分别进行了表示,然后对网络事件的每一个事件片段用卷积神经网络与注意力机制进行学习,对网络事件的层级特征用循环卷积神经网络与注意力机制学习序列间长期依赖与短期依赖关系,最后用多头注意力机制进行特征融合,从而完成网络事件的统一特征表示。这个层级网络的事件表示很好地表征了网络事件的内在结构,并且融合机制能有效地融合多维特征。

在网络事件的特征学习方面。当前的研究对象往往是消息级别的预测与最终的流行度。本发明的目标是网络事件的动态性,因此预测的目标是整个网络事件生命周期的流行度,也即对网络事件的动态性作预测。因此预测目标可以是单步预测与多步预测,本发明首先选取了例如以1小时作为网络事件的时间窗口,然后根据验证集误差选取合适的历史序列长度来作预测,从而使得保证精度的同时计算量不宜过大,最后的学习目标包括网络事件流行度外,还需重构历史序列的流行度,从而提高预测准确率。在特征学习方面,较好地利用了历史信息,并且选取了合适的历史序列步长,因此能够高效的计算。

参见图1所示,本发明的实施例提出了一种基于单平台的网络事件流行度预测方法。该预测方法包括以下步骤:

步骤S10,将网络事件在时序上按照固定时间间隔进行划分以形成多个事件片段,并提取各个事件片段的多个维度特征。

在本实施例中,一个网络事件具有自上而下的结构,如图2所示,从时序上看,一个网络事件由连续的多个时间片段组成,每一个时间片段可构成网络事件的一个事件片段。同时,每一个事件片段由多篇文档构成,每篇文档又包括文本内容、传播信息等。因此,本发明的实施例提出的基于单平台的网络事件流行度预测方法乃是基于层级结构来动态表示网络事件的方法,即自下而上构建整个网络事件,先表示网络事件的一个事件片段,然后由多个事件片段组合成一个网络事件,即一个序列。

网络事件的特征具有异构、动态等特性,需要进行融合。在融合之前首先需要对不同特征进行向量化表示。在本实施例中,以推特数据为例,描述多个维度特征的向量化表示方法。如表1所示,推特数据例如可以分别从功能、所属层级和数据类型这3个层次,对特征进行分类。其中,在功能方面,例如将特征分为5类,分别为发文量、用户特征、传播特征、内容特征和时间特征;在所属层级方面,例如将特征分为2类,分别为事件层级和文档层级;在数据类型方面,例如将特征分为实数型、文本型和离散型,对应的每种数据类型的表示方式,分别为数值表示、语言模型和独热表示。而对于网络事件流行度的度量方式包括发文、阅读、转发、点赞、评论等的数量,本发明采取发文量作为网络事件流行度的度量指标,因为发文量易获得并且易采集,发文量可以不需要实时采集;而阅读、转发、点赞、评论等不是所有平台都有设置,但本发明对此并不限制,可根据实际情况对网络事件流行度的度量指标进行调整。

表1

对于实数型特征,除了情绪特征之外,其他特征使用数值表示是很自然的事情。这里重点描述如何将情绪特征用数值表示。本发明使用自然语言处理库NLTK提取文本情感,使用vader算法实现情绪特征的数值表示,vader算法基于规则提取4种情感,包括积极、消极、中性与复杂,其中复杂情感衡量了文本中包含情感的数量,提取后数值区间在-1到1,而积极、消极、中性情感提取后的数值区间都是0到1。vader算法基于自己构建的情感词典,并加上标点、大小写、程度副词、连词、否定词等词法与句法来设计情感提取规则。

一种离散数据的处理是网络事件的时间特征。对于时间特征的表示,将网络事件的发文时间进行向量化。因为一天中不同时间段对应的活跃度不一样,例如白天相对深夜高,所以对应的发文概率也是不一样的,因此对于时间特征的表示例如以小时为时间间隔较为合理。在本实施例中,以小时为粒度将网络事件的发文时间进行向量化,即一个长度为24的一维二值化序列,位置0为1代表发文时间在00:00到1:00,可依次类推。

对于文本类型的数据,本实施例采用语言模型fastText进行特征表示。与其它文本表示模型相比较,fastText的优点在于大幅提高处理速度的同时并不会太大地降低准确率。这是因为和其它语言模型不同,fastText是基于字符级别的n-gram特征,这样能够学得比单词更低层次的字符级别的语义。如图3所示,本发明采用fastText,词向量采取词袋模型与2-gram,对于得到的词表示,求平均,然后用全连接网络进行连接,从而实现高效的文本表示。

对于输入的一个网络事件样本,其内含有例如k个步长的时间数据,每一个步长也即每一个事件片段里面含有一系列推文(文档)对应的特征,目标是将这一系列的推文特征提取出来表示成一维向量。对此,卷积神经网络可以利用其卷积核自动构建特征,因此本发明采用卷积神经网络(Convolutional network,CNN)来捕获事件片段的多个维度特征。

针对一个事件片段的特征,其是一个二维矩阵,每一行对应着一个推文数值特征。如图4所示,在本实施例中,使用大小分别为1、2与3的一维卷积核进行卷积,因为一维卷积核能够在时间序列长度上捕捉推文特征的整体动态变化,再进行最大池化操作,从而降了两维,一个网络事件判断是一维向量表示。然后,经过自注意力机制学习进一步降维,相比全连接层,使用自注意力机制使得网络能够较好的获得与位置无关的特征。如图5所示,注意力机制能够对不同维度特征的权重进行学习,用一个全连接网络计算权重,对其进行归一化,从而计算得到最后的输出,如下式所示:

其中,上述公式表示为注意力网络,用线性网络e

步骤S20,分别提取各个事件片段的多个维度特征中的相同维度特征以形成多个维度时序特征,并融合多个维度时序特征得到网络事件的统一特征。

对于每一个网络事件样本,其不仅包括每一个维度特征的每一个事件片段的表示,还有它对应的历史信息。在本发明中,在网络事件层面包括需要预测的发文量历史信息和当前的事件片段时间信息。目标是学习到序列的长距离与短距离表示关系。循环自回归神经网络在序列学习中有重要的应用,同时注意力网络可以更好的捕获序列中长距离的依赖。因此,本实施例采用循环神经网络LSTM与注意力机制学习时间序列的表示。

如图6所示,循环神经网络是常用的用来解决序列预测问题的一种模型结构,是一类模型的统称,其变体长短期记忆网络(Long Short-Term Memory,LSTM)缓解了梯度消失的问题,结构上引入了遗忘门,能够捕捉序列间的依赖关系,模型LSTM如以下公式所示,输入门为i

f

i

其中,上述公式表示为LSTM模型,输入门为i

因此,本发明利用循环神经网络来提取各个事件片段的多个维度特征中的相同维度特征,从而形成多个维度时序特征;同时,循环神经网络中的多个维度时序特征要经过注意力机制计算得到对应的权重,权重计算通过以下所示公式进行:

u

h

其中,上述公式这表示注意力网络的公式,输入为LSTM各个单元的输出h

经过上述步骤的特征分别学习与表示,本发明的目标是获得一个统一特征表示,任务就变成了如何获取各个维度时序特征的权重,同样的注意力机制能够较好的学习到相应的权重,在本实施例中采样多头注意力机制学习统一特征表示。当使用多头注意力机制进行学习时,在多个维度时序特征的重要性度量方面上,直接用一个全连接网络计算权重,计算公式如下所示:

然后进行归一化处理

得到最后的输出

其中,上述公式表示多头注意力网络,用线性网络表示权重e

步骤S30,根据统一特征预测网络事件的流行度。

经过上述步骤的表示学习得到一个统一特征表示,在编码器-解码器模型架构中,网络事件特征表示是编码部分,如图7所示,接下来需要对这个统一特征表示进行解码,也即如何学习目标输出。

本发明采用两层的全连接网络得到网络事件流行度最终的预测值。在目标预测方面,历史值的预测也会提高需要预测的预测值的准确率,因此同时对历史值做重构预测。为了防止过拟合,使用L1正则化模型参数,因此采用如下的损失函数对预测方法进行优化:

其中,上述公式表示损失函数,第一项为流行度预测项,第二项为历史流行度重构项,第三项为L1正则,防止过拟合与欠拟合;j、i、t表示序列的时刻、数据所属的时间片段;μ、λ为先验参数,需要根据数据进行验证得到;f

以下为与上述方法实施例对应的系统实施例,本实施例的系统可与上述实施例的方法互相配合实施。上述实施方式中提到的相关技术细节在本实施例的系统中依然有效,为了减少重复,在此不再赘述。

本发明的实施例提出一种基于单平台的网络事件流行度预测系统,包括:片段特征提取模块,用于将网络事件在时序上按照固定时间间隔进行划分以形成多个事件片段,并提取各个所述事件片段的多个维度特征;事件特征获取模块,用于分别提取各个所述事件片段的所述多个维度特征中的相同维度特征以形成多个维度时序特征,并融合所述多个维度时序特征得到所述网络事件的统一特征;事件流行度预测模块,用于根据所述统一特征预测所述网络事件的流行度。

于一实施方式中,片段特征提取模块包括:片段特征表示子模块,用于利用卷积神经网络对所述事件片段的多个维度特征进行卷积,得到对应的所述事件片段的多个维度特征的一维向量表示;第一权重计算子模块,用于利用注意力机制计算得到所述事件片段的多个维度特征中的不同维度特征的权重。

于一实施方式中,所述事件特征获取模块包括:时序特征获取子模块,用于利用循环神经网络提取各个所述事件片段的所述多个维度特征中的相同维度特征以形成所述多个维度时序特征;第二权重计算子模块,用于利用注意力机制计算得到各个所述事件片段的所述多个维度特征中的相同维度特征的权重;第三权重计算子模块,用于利用多头注意力机制计算得到所述多个维度时序特征的权重,根据所述权重融合所述多个维度时序特征得到所述所述网络事件的统一特征。

相关技术
  • 基于单平台的网络事件流行度预测方法与系统
  • 基于多平台的网络事件流行度预测方法与系统
技术分类

06120113148423