掌桥专利:专业的专利平台
掌桥专利
首页

基于社交网络重构的意见领袖识别方法和装置

文献发布时间:2023-06-19 12:02:28


基于社交网络重构的意见领袖识别方法和装置

技术领域

本申请涉及数据挖掘技术领域,尤其涉及基于社交网络重构的意见领袖识别方法、装置、电子设备以及存储介质。

背景技术

随着计算机和信息技术的发展和普及,互联网、特别是网络社交媒体,逐渐成为民众发声、反映诉求和表达观点的载体。由于网民规模庞大,普通民众的声音湮没在巨大的网络流量中,而网络意见领袖凭借高活跃度,在特定领域或者事件上专业能力较强,粉丝数量较多,在网络上发声能够对广大网民以及网络舆情产生较大影响,引领舆论的整体风向。鉴于此,有必要精准识别特定领域的网络意见领袖,从而快速发现舆情态势和舆论走向,以此对民声民意进行捕捉和预测。

意见领袖识别是数据挖掘领域和社会舆情计算的一个重要研究方向。一般来说有两种方法。一是指标体系评估方法,主要基于用户在社交媒体上的特征属性,如考虑用户的粉丝数、转发/评论量、微博数据等属性,构建用户意见领袖评价指标体系,采用评分的方式实现对意见领袖的识别。这种方式从整体上进行考虑,仅对一般性意见领袖进行计算,然而部分意见领袖的领域性较为突出,即仅在特定领域具有突出的影响力,在整体的表现上不会特别突出,仅基于指标计算没有办法获取到这部分领域性较强的意见领袖。另一种方法是基于算法,构建用户网络关系,进而实现意见领袖的识别。但是这类方法目前未考虑用户在不同领域中影响力的差异,因此也难以实现对于特定领域的意见领袖的准确分析。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。

本发明提供了基于社交网络重构的意见领袖识别方法和装置,其可以实现对于特定话题领域的意见领袖的准确识别。

第一方面,提供了一种基于社交网络重构的意见领袖识别方法,包括:

获取多个用户的行为数据;

根据多个用户的行为数据,构建社交网络;

根据各用户的行为数据,确定各用户对于目标话题领域的关注度;

基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络;

基于重构的社交网络,选择所述目标话题领域的意见领袖。

可选地,所述根据多个用户的行为数据,构建社交网络,包括:

根据多个用户的行为数据,提取具有社交关系的用户对以及所述用户对的社交方向;

以用户作为节点,以边连接所述具有社交关系的用户对,并根据所述用户对的社交方向设置所述边的方向,以构建所述社交网络。

可选地,所述社交关系为基于所述用户对中其中一个用户对另一个用户所发布的信息的转发行为所形成的转发关系。

可选地,所述根据各用户的行为数据,确定各用户对于目标话题领域的关注度,包括:

根据各用户的行为数据,提取各用户对于所述目标话题领域的关注次数以及对于多个话题领域的总关注次数;

计算各用户对于所述目标话题领域的关注次数与各用户对于多个话题领域的总关注次数的比值,作为各用户对于所述目标话题领域的关注度。

可选地,各用户对于任一话题领域的关注次数为各用户发布与所述任一话题领域相关的信息的次数。

可选地,所述基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络,包括:

计算各用户对于所述目标话题领域的关注度与所述社交网络中各用户所连接边的数量的乘积,作为重构的社交网络中相应用户所连接边的数量;

根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络。

可选地,所述根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络,包括:

当任一用户对于所述目标话题领域的关注度小于1并且大于0时,对所述社交网络中相应用户所连接边进行删减,使删减后的相应用户所连接边的数量与计算得到的所述重构的社交网络中相应用户所连接边的数量一致;

当任一用户对于所述目标话题领域的关注度等于1时,不删减所述社交网络中相应用户所连接边;

当任一用户对于所述目标话题领域的关注度等于0时,从所述社交网络中删除相应用户所连接的所有边。

可选地,所述对所述社交网络中相应用户所连接边进行删减,包括:

对所述社交网络中相应用户所连接边进行随机删减,并且删减完成后不改变所述社交网络中相应用户的节点类型,其中,所述相应用户的节点类型包括只具有入边而不具有出边的节点,只具有出边而不具有入边的节点以及同时具有入边和出边的节点。

可选地,所述基于重构的社交网络,选择所述目标话题领域的意见领袖,包括:

确定所述重构的社交网络中各用户的重要程度;

根据所述重构的社交网络中各用户的重要程度,确定所述目标话题领域的意见领袖。

可选地,所述确定所述重构的社交网络中各用户的重要程度,包括:

基于PageRank算法,确定所述重构的社交网络中各用户的重要程度。

第二方面,提供了一种基于社交网络重构的意见领袖识别装置,包括:

行为数据获取模块,用于获取多个用户的行为数据;

社交网络构建模块,用于根据多个用户的行为数据,构建社交网络;

关注度确定模块,用于根据各用户的行为数据,确定各用户对于目标话题领域的关注度;

社交网络重构模块,用于基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络;

意见领袖选择模块,用于基于重构的社交网络,选择所述目标话题领域的意见领袖。

可选地,所述社交网络构建模块,包括:

用户对提取子模块,用于根据多个用户的行为数据,提取具有社交关系的用户对以及所述用户对的社交方向;

社交网络构建子模块,用于以用户作为节点,以边连接所述具有社交关系的用户对,并根据所述用户对的社交方向设置所述边的方向,以构建所述社交网络。

可选地,所述社交关系为基于所述用户对中其中一个用户对另一个用户所发布的信息的转发行为所形成的转发关系。

可选地,所述关注度确定模块,包括:

关注次数提取子模块,用于根据各用户的行为数据,提取各用户对于所述目标话题领域的关注次数以及对于多个话题领域的总关注次数;

关注度计算子模块,用于计算各用户对于所述目标话题领域的关注次数与各用户对于多个话题领域的总关注次数的比值,作为各用户对于所述目标话题领域的关注度。

可选地,各用户对于任一话题领域的关注次数为各用户发布与所述任一话题领域相关的信息的次数。

可选地,所述社交网络重构模块,包括:

边数量计算子模块,用于计算各用户对于所述目标话题领域的关注度与所述社交网络中各用户所连接边的数量的乘积,作为重构的社交网络中相应用户所连接边的数量;

社交网络重构子模块,用于根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络。

可选地,所述社交网络重构子模块,具体用于:

当任一用户对于所述目标话题领域的关注度小于1并且大于0时,对所述社交网络中相应用户所连接边进行删减,使删减后的相应用户所连接边的数量与计算得到的所述重构的社交网络中相应用户所连接边的数量一致;

当任一用户对于所述目标话题领域的关注度等于1时,不删减所述社交网络中相应用户所连接边;

当任一用户对于所述目标话题领域的关注度等于0时,从所述社交网络中删除相应用户所连接的所有边。

可选地,所述社交网络重构子模块,具体用于:

对所述社交网络中相应用户所连接边进行随机删减,并且删减完成后不改变所述社交网络中相应用户的节点类型,其中,所述相应用户的节点类型包括只具有入边而不具有出边的节点,只具有出边而不具有入边的节点以及同时具有入边和出边的节点。

可选地,所述意见领袖选择模块,包括:

重要程度确定子模块,用于确定所述重构的社交网络中各用户的重要程度;

意见领袖确定子模块,用于根据所述重构的社交网络中各用户的重要程度,确定所述目标话题领域的意见领袖。

可选地,所述重要程度确定子模块,具体用于:

基于PageRank算法,确定所述重构的社交网络中各用户的重要程度。

第三方面,提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行以上所述的方法。

第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以上所述的方法。

本发明至少包括以下有益效果:

本发明实施例提供的基于社交网络重构的意见领袖识别方法和装置,首先根据多个用户的行为数据,构建社交网络,之后根据各用户的行为数据,确定各用户对于目标话题领域的关注度,再基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络,最后基于重构的社交网络,选择所述目标话题领域的意见领袖。基于该方法及装置,可以重构出针对特定话题领域的社交网络,能够剔除用户在其他领域的影响力对于目标话题领域的意见领袖识别的干扰,进而实现对于目标话题领域的意见领袖的准确识别。

本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例提供的基于社交网络重构的意见领袖识别方法的流程图;

图2为本发明实施例提供的社交网络的示意图;

图3为本发明实施例提供的基于社交网络重构的意见领袖识别装置的结构示意图;

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

实际应用中,用户往往不会仅关注一个特定话题领域发声,其关注范围常会涵盖多个不同的话题领域,而用户对多个不同话题领域的关注,则会对识别特定话题领域的意见领袖产生干扰。例如,一些新闻类账号,其本身粉丝量大,话题广泛,帖子转发量较大,如果不对这类账号所涉及的多个话题领域进行分析,很容易将该类账号识别为意见领袖,然而实际情况是,该类账号在特定话题领域的话语权并不一定很高,并不属于特定话题领域的意见领袖。而那些精耕某一话题领域的专业性账号,在本领域内具有较高的权威性和影响力,属于本领域的意见领袖,但是由于这一类账号发布信息量少,粉丝量小,在进行意见领袖的识别过程中往往容易被忽略。基于此,本发明实施例提供了一种基于社交网络重构的意见领袖识别方法,该方法旨在,获取多个用户的行为数据,根据多个用户的行为数据,构建社交网络,进一步根据各用户的行为数据,确定各用户对于目标话题领域的关注度,再基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络,最后基于重构的社交网络,选择所述目标话题领域的意见领袖,这样可以将用户对于特定话题领域的偏好结合至分析过程中,并可以剔除用户在其他领域的影响力对于目标话题领域的意见领袖识别的干扰,进而实现对于目标话题领域的意见领袖的准确识别。

图1为本发明一个实施例提供的基于社交网络重构的意见领袖识别方法的流程图,该方法由具有处理能力的系统、服务器或基于社交网络重构的意见领袖识别装置执行。如图1所示,所述方法包括:

步骤110,获取多个用户的行为数据。

用户代表现实生活中的一个个人或一个组织。用户的行为数据则是基于用户在社交媒体中的操作或动作所产生的数据。这里,社交媒体可以是微博、微信等社交平台。用户在社交媒体中的操作或动作可以包括:发布原创信息,浏览其他用户所发布的信息,转发其他用户所发布的信息,关注其他用户,或者对其他用户所发布内信息进行点赞或评论等等。实际应用中,用户在社交媒体中的操作或者动作,包含了当前用户与其他用户的社交行为。例如,当前用户浏览其他用户所发布的信息,转发其他用户所发布的信息,关注其他用户,或者对其他用户所发布内信息进行点赞或评论等,本发明实施例对此不做限定。换言之,基于社交行为,即可以确定当前用户与其他用户之间存在社交关系。

步骤120,根据多个用户的行为数据,构建社交网络。

从计算本质上看,意见领袖的识别过程就是计算某个点在网络关系图中的重要程度。因此,为识别意见领袖,需要首先基于用户关系构建网络,之后根据用户在网络中所处的位置及关联关系,得出用户的重要程度,再以用户的重要程度作为衡量该用户是否为意见领袖的标准。

本发明实施例中,根据各用户的行为数据,可以确定各用户的社交行为,进而可以从多个用户中找到那些存在社交关系的用户对,并最终构建出社交网络。在一些实施例中,所述根据多个用户的行为数据,构建社交网络,包括:根据多个用户的行为数据,提取具有社交关系的用户对以及所述用户对的社交方向;以用户作为节点,以边连接所述具有社交关系的用户对,并根据所述用户对的社交方向设置所述边的方向,以构建所述社交网络。

这里,用户对包含存在社交关系的两个用户。用户对的社交方向可以理解为,用户对中两个用户之间所发生社交行为的方向。当一个用户对另一个用户主动采取了一个社交行为,则认为社交方向是从主动采取社交行为的用户指向另一个用户。例如,当用户A关注了用户B,则认为用户A和用户B之间存在社交关系,二者构成一个用户对,且该用户对的社交方向是从用户A指向用户B。再例如,用户C转发用户D所发布的信息,也可以认为用户C和用户D之间存在社交关系,二者构成一个用户对,且该用户对的社交方向是从用户C指向用户D。当用户D也转发了用户C所发布的信息,则该用户对的社交方向为双向的,即用户D也指向了用户C。

根据所提取的存在社交关系的用户对以及用户对的社交方向,可以进一步构建出社交网络。在社交网络中,使用节点表示用户,使用边表示用户对之间的社交关系,并且根据用户对的社交方向对边的方向进行设置。具体地,边的方向可以与社交方向保持一致。例如,用户A和用户B所构成的用户对,其社交方向为由用户A指向用户B,则社交网络中用户A和用户B之间的边的方向为用户A指向用户B。对于具有双向的社交方向的用户对,在社交网络中用户对之间的边也是双向的。

在一些示例中,所述社交关系为基于所述用户对中其中一个用户对另一个用户所发布的信息的转发行为所形成的转发关系。即,基于用户间的转发关系构建社交网络。用户间的转发关系代表了用户对中两个用户之间的强连接关系,是非常典型的社交关系,因此基于用户间的转发关系构建社交网络,可以构建出真实的社交网络。此外,提取用户间的转发关系所使用的数据可以基于公开的网络接口获取,进而有助于降低本发明实施例的实施难度。

具体地,在基于用户间的转发关系构建社交网络的过程中,首先获取社交媒体中多个用户的行为数据,用户的行为数据可以来自于微博数据,可以包括用户昵称、用户标识以及用户的发帖内容,发帖内容包括用户所发布的信息以及用于指示该贴子属于转发或原创的标记。用于指示该贴子属于转发或原创的标记可以作为特征从发帖内容中提取得到。通过提取发帖内容中的转发特征“//@”,即确定该帖子属于当前用户转发其他用户的帖子,同时还可以从发帖内容中提取被转发用户的昵称,以及从用户的行为数据中提取出发帖用户的昵称以及用户UID。通过这种方式,可以针对一个由原创用户所发布的原始帖子,采用顺序连接的方式,构建针对该原始帖子的转发链。其中,从获取的行为数据中仅能直接提取一跳转发关系,因此还需要手动连接中间转发用户,针对一个原始帖子手动构建多级转发链。

此外,实际应用中,在从用户针对某一个帖子的行为数据中提取用户昵称时,可能不存在用户昵称,仅有唯一用户标识UID,而在其他帖子的行为数据中可能又会出现该用户昵称。在这种情况下,所构建的社交网络中不同的节点可能对应着同一个用户。为了避免出现上述错误,需要将用户标识UID和用户昵称做对齐。本发明实施例采用补充用户背景信息的方法,使用公开数据接口,通过用户标识UID获取用户昵称,将用户标识UID和用户昵称做对齐。之后在构建用户转发链时,采用字典查找的方式,针对仅有用户标识UID的用户自动填充其昵称,保证在社交网络中节点的唯一性。

基于上述过程,可以构建出多条转发链。将多条转发链进行拼接整合,以用户作为社交网络中的节点,以边连接具有转发关系的用户对,并根据转发关系所形成的社交方向设置边的方向,构建有向图,最终构建出用户的社交网络。图2示出了本发明实施例所构建的社交网络的示意图。其中,实心圆点表示用户,实心圆点之间的边表示用户对之间存在社交关系。

步骤130,根据各用户的行为数据,确定各用户对于目标话题领域的关注度。

本发明实施例基于用户对于不同话题领域的关注度来确定用户对话题领域的偏好。对比用户对不同话题领域的关注度,关注度较高的话题领域可以被视为用户所偏好的话题领域。换言之,当目标话题领域属于用户所偏好的话题领域,用户更可能在社交网络中针对该话题领域具有较高的影响力,进而成为该话题领域的意见领袖。与之相反地,当目标话题领域不属于用户所偏好的话题领域,用户在社交网络中该话题领域下的影响力就可能更低,也不太可能成为该话题领域的意见领袖。

需要说明的是,话题领域可以根据实际情况进行划分。例如,话题领域可以依据该领域所涉及的信息的专业属性,划分成经济、民生、教育、科技等。话题领域还可以依据其他规则划分,例如依据消费商品的品类划分成美妆护肤、服饰搭配、家庭装修等。本发明实施例对此不做具体限定。

用户的行为数据是基于用户在社交媒体中的操作或动作所产生的数据。用户在社交媒体中的操作或动作可以包括:发布原创信息,浏览其他用户所发布的信息,转发其他用户所发布的信息,关注其他用户,或者对其他用户所发布内信息进行点赞或评论等等。用户在社交媒体中的操作或者动作,不仅包含了当前用户与其他用户的社交行为,还体现了当前用户对于不同话题领域的关注情况,反映出用户对话题领域的偏好。换言之,可以将用户在社交媒体中的操作或动作理解为用户对于某一话题领域的关注。更具体地说,用户发布原创信息,浏览其他用户所发布的信息,转发其他用户所发布的信息,对其他用户所发布内信息进行点赞或评论等行为,均可以理解为用户对于上述信息所属话题领域的关注行为;对于用户对其他用户的关注行为,则可以理解为当前用户对其他用户所偏好的话题领域的关注行为。例如,用户E发布大量的原创经济领域的文章,转发了大量的经济领域的文章,关注多个经济领域的用户,对其他话题领域的文章进行了少量点赞或评论。根据该用户E的行为数据,可以确定用户E对于经济领域有较高的关注度,经济领域为用户E所偏好的话题领域。当目标话题领域被选择为经济领域时,该用户E就可能在社交网络中具有更高的影响力,进而可能会成为该领域的意见领袖。

在一些实施例中,所述根据各用户的行为数据,确定各用户对于目标话题领域的关注度,包括:根据各用户的行为数据,提取各用户对于所述目标话题领域的关注次数以及对于多个话题领域的总关注次数;计算各用户对于所述目标话题领域的关注次数与各用户对于多个话题领域的总关注次数的比值,作为各用户对于所述目标话题领域的关注度。

根据用户的行为数据,可以提取出用户对于任一话题领域的关注行为,进而统计出用户对于任一个话题领域的所发生的关注行为的次数,作为用户对于任一个话题领域的关注次数。例如,可以将用户每发布一篇某一话题领域的原创信息视为对该话题领域的一次关注行为,将用户每转发一篇某一话题领域的信息视为对该话题领域的一次关注行为,将用户每浏览一次其他用户所发布的某一话题领域的信息视为对该话题领域的一次关注行为,将用户对其他用户所发布的某一话题领域信息进行一次点赞视为对该话题领域的一次关注行为,或者将用户对其他用户所发布的某一话题领域信息进行一次评论视为对该话题领域的一次关注行为,将用户每关注一个某一话题领域的其他用户视为对该话题领域的一次关注行为。当将多个话题领域中的某一个话题领域选择为目标话题领域时,基于上述统计方法,可以统计出用户对于目标话题领域的关注次数。用户对于全部话题领域的总关注次数可以对用户对各话题领域的关注次数求和得出,也可以直接基于用户的行为数据统计得出。

进一步地,用户对于任一话题领域的关注度可以表示为,用户对于相应话题领域的关注次数与用户对于全部话题领域的总关注次数的比值。也可以将用户对于任一话题领域的关注度理解为用户的关注行为在相应话题领域上的概率分布。

在一些示例中,为了简化对用户对于任一话题领域的关注次数的统计过程,可以基于用户发布与相应话题领域相关信息的次数统计出用户对于相应话题领域的关注次数。具体地,各用户对于任一话题领域的关注次数为各用户发布与所述任一话题领域相关的信息的次数。需要说明的是,用户发布与任一话题领域相关的信息包括:用户发布原创的相应话题领域相关信息,以及用户转发其他用户的相应话题领域相关信息。

在以下这个例子中,用户的行为数据可以来自于微博数据。从用户的行为数据中提取用户所发布的帖子以及帖子内容。需要说明的是,用户所发布的帖子包括用户原创的帖子以及用户转发其他用户的帖子。根据用户所发布的帖子和帖子内容可以确定用户所发布的帖子所属的话题领域。对于用户u,根据用户u的发帖情况,统计用户u在第i个话题领域中发帖的次数C

P

此外,当用户的行为数据量较大时,为进一步简化计算过程,提高计算效率,还可以分别为每个话题领域选择一个热点话题,这样每个话题领域下都对应有一个热点话题,然后根据用户所发布的帖子和帖子内容确定用户所发布的帖子所属的热点话题。对于用户u,根据用户u的发帖情况,统计用户u在第i个话题领域中针对第j个热点话题的发帖次数C

P

步骤140,基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络。

用户通常会关注若干话题领域。对于关注话题领域较为广泛的用户,其粉丝数量多,转发量大,基于转发关系所构建的社交网络较大,而对于更关注某一个特定话题领域的专业用户,其话题领域单一,粉丝数量少,转发量小,基于转发关系所构建的社交网络也相对较小。如果直接基于用户间的社交关系所构建的社交网络,来选择意见领袖,显然容易将前者判断为意见领袖。然而实际上,前者在上述特定话题领域的影响力要小于后者。换言之,直接基于用户间的社交关系所构建的社交网络,并不能够真实地反映出用户在特定话题领域上的影响力。基于这种社交网络,无法准确地识别出针对目标话题领域的意见领袖。

当目标话题领域属于用户所偏好的话题领域,用户更可能在社交网络中针对该话题领域具有较高的影响力,进而成为该话题领域的意见领袖。与之相反地,当目标话题领域不属于用户所偏好的话题领域,用户在社交网络中该话题领域下的影响力就可能更低,也不太可能成为该话题领域的意见领袖。因此,用户对于任一话题领域的关注度,实际决定了用户在社交网络中针对该话题领域的影响力。基于此,本发明实施例基于预设的规则根据用户对于目标话题领域的关注度,重构社交网络,剔除用户在其他领域的影响力对于目标话题领域的意见领袖识别的干扰,使重构的社交网络可以真实地反映出用户在社交网络中针对该目标话题领域的影响力。

社交网络中,用户对之间的边表示用户对之间存在社交关系,当一个用户所连接边的数量越大,意味着该用户的社交关系越多,其可能产生的影响力越大。因此,为了真实地反映用户在社交网络中针对该目标话题领域的影响力,根据用户对于目标话题领域的关注度,计算出重构的社交网络中各用户所连接边的数量,并据此对社交网络进行调整。在一些实施例中,所述基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络,包括:计算各用户对于所述目标话题领域的关注度与所述社交网络中各用户所连接边的数量的乘积,作为重构的社交网络中相应用户所连接边的数量;根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络。

设社交网络中用户u所连接边的数量用x表示,则有:

y

其中,y表示重构的社交网络中用户u所连接边的数量,P

进一步地,所述根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络,包括:

当任一用户对于所述目标话题领域的关注度小于1并且大于0时,对所述社交网络中相应用户所连接边进行删减,使删减后的相应用户所连接边的数量与计算得到的所述重构的社交网络中相应用户所连接边的数量一致。

在一些示例中,所述对所述社交网络中相应用户所连接边进行删减,包括:对所述社交网络中相应用户所连接边进行随机删减,并且删减完成后不改变所述社交网络中相应用户的节点类型,其中,所述相应用户的节点类型包括只具有入边而不具有出边的节点,只具有出边而不具有入边的节点以及同时具有入边和出边的节点。

在对社交网络中相应用户所连接边进行随机删减的过程中,不改变响应用户的节点类型,以减少对于用户的节点结构的改变。具体地,对于只具有入边而不具有出边的节点,可以从该节点的入边中选择边进行删减;对于只具有出边而不具有入边的节点,可以从该节点的出边中选择边进行删减;对于同时具有入边和出边的节点,则可以从该节点的入边和出边中同时选择一定数量的边进行删减,也可以只删减入边或者出边,最终仍保留该节点的一部分入边和出边。

当任一用户对于所述目标话题领域的关注度等于1时,不删减所述社交网络中相应用户所连接边。

用户对于目标话题领域的关注度为1,即用户只关注目标话题领域,其针对该话题领域的影响力则由完全由该用户的自身社交关系决定。

当任一用户对于所述目标话题领域的关注度等于0时,从所述社交网络中删除相应用户所连接的所有边。

用户对于目标话题领域的关注度为0,即用户完全不关注目标话题领域,不可能成为目标话题领域的意见领袖,因此可以将该用户以及该用户所连接的边从社交网络中删除。

需要说明的是,在上述针对社交网络进行重构的过程,对于每个用户的重构过程是独立进行的,均是基于所构建的社交网络进行,也可以说,每个用户的重构结果是彼此独立的,用户对中两个用户之间的重构结果彼此不干扰。具体地说,假设社交网络中存在用户A与用户B,用户A连接有8条边,用户B连接有3条边,用户A与用户B通过1条边连接,用户A对于目标话题领域的关注度为0.75,用户B对于目标话题领域的关注度为1,则对于用户A而言,其在重构的社交网络中所连接边的数量应该为6,须删减2条边,对于用户B而言,其在重构的社交网络中所连接边的数量仍然为3,则此时,针对用户A,可以通过删减其连接的任意2条边(可以是用户B连接的边)从而实现对于用户A的重构,对于用户B则不须删除任意一条边。

此外,也可以根据其他规则对社交网络进行调整,例如,设定关注度阈值,当用户对于目标话题领域的关注度低于关注度阈值时,则将该用户从社交网络中删除。

步骤150,基于重构的社交网络,选择所述目标话题领域的意见领袖。

重构的社交网络可以真实地反映出用户在社交网络中针对该目标话题领域的影响力,因此,基于重构的社交网络,可以实现对于目标话题领域的意见领袖的准确识别。

在一些实施例中,所述基于重构的社交网络,选择所述目标话题领域的意见领袖,包括:确定所述重构的社交网络中各用户的重要程度;根据所述重构的社交网络中各用户的重要程度,确定所述目标话题领域的意见领袖。

用户在重构的社交网络的重要程度,可以反映出用户在重构的社交网络中的影响力。根据重构的社交网络中各用户的重要程度,可以对重构的社交网络中所包含的全部用户进行重要程度的排名,然后基于一定的选择规则,确定目标话题领域的意见领袖。例如,将重要程度排名最高的用户,作为目标话题领域的意见领袖,或者,将重要程度排在前N名的用户,都识别为目标话题领域的意见领袖,本发明实施例对于上述选择规则不做具体限定。

对重构的社交网络中各用户的重要程度计算,可以基于多种算法实现。例如Hits算法、PageRank算法等。重构的社交网络可以看作一个图。PageRank算法可以实现对于图中节点的重要程度的计算,该算法易于实现,同时可以获得准确地计算结果,因此,本发明实施例优选地基于PageRank算法,确定所述重构的社交网络中各用户的重要程度。

具体地,基于PageRank算法,可以计算重构的社交网络中各用户的重要程度,即PageRank值。在重构的社交网络中,各用户表示为各节点,对于一个给定的节点V

其中,w

需要说明的是,鉴于在针对社交网络进行重构的过程,每个用户的重构结果是彼此独立的,用户对中两个用户之间的重构结果彼此不干扰的,在对每个用户的重要程度进行计算时,也是基于每个用户各自的重构结果进行重要程度的计算。例如,在对用户A和用户B的重要程度的计算过程中,例如基于pagerank算法计算用户A和用户B的pagerank值,由于用户A属于指向用户B的节点,可以先基于用户A的重构结果计算用户A的pagerank值,之后再基于用户B的重构结果,结合用户A的pagerank值计算用户B的pagerank值。

综上所述,本发明实施例提供的一个或多个实施例提供的基于社交网络重构的意见领袖识别方法,首先根据多个用户的行为数据,构建社交网络,之后根据各用户的行为数据,确定各用户对于目标话题领域的关注度,再基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络,最后基于重构的社交网络,选择所述目标话题领域的意见领袖。基于该方法及装置,可以重构出针对特定话题领域的社交网络,能够剔除用户在其他领域的影响力对于目标话题领域的意见领袖识别的干扰,进而实现对于目标话题领域的意见领袖的准确识别。

图3为本发明一个实施例提供的基于社交网络重构的意见领袖识别装置的结构示意图。图3所示,该基于社交网络重构的意见领袖识别装置400包括:行为数据获取模块310,用于获取多个用户的行为数据;社交网络构建模块320,用于根据多个用户的行为数据,构建社交网络;关注度确定模块330,用于根据各用户的行为数据,确定各用户对于目标话题领域的关注度;社交网络重构模块340,用于基于预设的规则,根据各用户对于所述目标话题领域的关注度,重构所述社交网络;意见领袖选择模块450,用于基于重构的社交网络,选择所述目标话题领域的意见领袖。

在一些实施例中,所述社交网络构建模块,包括:用户对提取子模块,用于根据多个用户的行为数据,提取具有社交关系的用户对以及所述用户对的社交方向;社交网络构建子模块,用于以用户作为节点,以边连接所述具有社交关系的用户对,并根据所述用户对的社交方向设置所述边的方向,以构建所述社交网络。

在一些实施例中,所述社交关系为基于所述用户对中其中一个用户对另一个用户所发布的信息的转发行为所形成的转发关系。

在一些实施例中,所述关注度确定模块,包括:关注次数提取子模块,用于根据各用户的行为数据,提取各用户对于所述目标话题领域的关注次数以及对于多个话题领域的总关注次数;关注度计算子模块,用于计算各用户对于所述目标话题领域的关注次数与各用户对于多个话题领域的总关注次数的比值,作为各用户对于所述目标话题领域的关注度。

在一些实施例中,各用户对于任一话题领域的关注次数为各用户发布与所述任一话题领域相关的信息的次数。

在一些实施例中,所述社交网络重构模块,包括:边数量计算子模块,用于计算各用户对于所述目标话题领域的关注度与所述社交网络中各用户所连接边的数量的乘积,作为重构的社交网络中相应用户所连接边的数量;社交网络重构子模块,用于根据计算得到的所述重构的社交网络中各用户所连接边的数量,对所述社交网络进行调整,以重构所述社交网络。

在一些实施例中,所述社交网络重构子模块,具体用于:当任一用户对于所述目标话题领域的关注度小于1并且大于0时,对所述社交网络中相应用户所连接边进行删减,使删减后的相应用户所连接边的数量与计算得到的所述重构的社交网络中相应用户所连接边的数量一致;当任一用户对于所述目标话题领域的关注度等于1时,不删减所述社交网络中相应用户所连接边;当任一用户对于所述目标话题领域的关注度等于0时,从所述社交网络中删除相应用户所连接的所有边。

在一些实施例中,所述社交网络重构子模块,具体用于:对所述社交网络中相应用户所连接边进行随机删减,并且删减完成后不改变所述社交网络中相应用户的节点类型,其中,所述相应用户的节点类型包括只具有入边而不具有出边的节点,只具有出边而不具有入边的节点以及同时具有入边和出边的节点。

在一些实施例中,所述意见领袖选择模块,包括:重要程度确定子模块,用于确定所述重构的社交网络中各用户的重要程度;意见领袖确定子模块,用于根据所述重构的社交网络中各用户的重要程度,确定所述目标话题领域的意见领袖。

在一些实施例中,所述重要程度确定子模块,具体用于:基于PageRank算法,确定所述重构的社交网络中各用户的重要程度。

图4示出了本发明实施例的电子设备。如图4所示,电子设备400包括:至少一个处理器410,以及与所述至少一个处理器410通信连接的存储器420,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。

具体地,上述存储器420和处理器410经由总线430连接在一起,能够为通用的存储器和处理器,这里不做具体限定,当处理器410运行存储器420存储的计算机程序时,能够执行本发明实施例中结合图1至图3所描述的各项操作和功能。

本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。具体实现可参见方法实施例,在此不再赘述。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

相关技术
  • 基于社交网络重构的意见领袖识别方法和装置
  • 一种基于用户话题链接行为的社交网络意见领袖识别方法
技术分类

06120113148392