基于用户行为的社交网络好友紧密圈层划分方法

文献发布时间：2024-04-18 20:01:30

技术领域

本发明涉及用户社交关系研究技术领域，具体是基于用户行为的社交网络好友紧密圈层划分方法。

背景技术

伴随着在线社交媒介的普及与社交软件的广泛应用，用户借由虚拟平台组成了庞大而错综复杂的社交关系网络。在这些社交关系网络中，好友之间的信任程度可以通过用户行为受好友影响的程度进行评估。识别出信任程度较高的好友后，可以进一步将其视为用户社交紧密圈层中的一员，进而提升社交网络用户内容推荐效率。

在现有的研究中，许多技术人员已经对用户社交关系进行了深入的探讨。专利CN114741430A提供了一种基于交互图传播的社交关系挖掘方法。该方法输入每个用户的原始社交数据，构建用户之间社交行为组成的社交网络；提取任意两个用户之间的交互行为特征向量，进一步使用数据增强操作得到增强后的联合体特征向量；在增强后的联合体特征向量之间，将所述交互图的结构嵌入得到邻接矩阵；引入图神经网络学习模型，将增强后的不同联合体特征向量与所述邻接矩阵输入至图神经网络学习模型，预测得到联合体的输出特征向量，通过计算交叉熵损失的方法优化，将优化后图神经网络学习模型再进一步用于实际分类。本发明充分利用了用户间的复杂交互信息，大大提高了社交关系挖掘的准确性，有效降低了误差。

上述现有设计通过不同方法对好友信任程度和关系强度进行量化和分析，可以更好地理解和利用这些社交网络，为用户提供更丰富、更准确的社交体验。但是目前还存在以下几方面的问题：

1.特征维度较少：目前的研究仅集中在用户的基本信息、发帖行为以及互动行为等有限特征上，而对于其他关键特征，如用户互动内容相似度、用户互动方式相似度等，缺乏充分的考虑，这限制了对用户关系的全面理解和准确度量。

2.缺少端到端自动学习方法的应用：当前的研究大多需要依赖人工定义标签来进行分析，这种方法不足以从海量的社交网络数据中自动发现潜在的关系模式，缺乏端到端的自动学习方法限制了对复杂关系模式的发现和利用。

3.缺少对互动关系的应用：现有研究主要关注用户的好友关系和关注关系，却较少考虑用户的实际互动关系，限制了对用户关系动态变化的把握。

4.缺乏对圈层划分的研究：当前的研究主要侧重于量化信任程度等问题，却鲜有关于如何划分用户的社交紧密圈层的研究。一方面限制了对用户关系细分的能力，另一方面也制约了在不同圈层内进行精准的社交推荐等应用。

综上所述，目前关于用户社交圈层划分的精度还有待提高。

发明内容

为了避免和克服现有技术中存在的技术问题，本发明提供了基于用户行为的社交网络好友紧密圈层划分方法。本发明能够有效的提高社交圈层划分的精度。

为实现上述目的，本发明提供如下技术方案：

基于用户行为的社交网络好友紧密圈层划分方法，包括以下步骤：

S1、构建基于用户社交关系的社交互动网络；

S2、获取社交互动网络中的用户基本特征和用户关系特征；

S3、通过多层感知机对用户关系特征进行特征编码，将编码结果、用户基本特征、用户邻居的基本特征进行融合，对融合结果用图神经网络进行编码以获得对应的用户向量编码；

S4、计算用户向量编码之间的欧氏距离，并根据欧氏距离评估准则对用户好友进行关系紧密程度评估，进而形成对应的社交网络好友紧密圈层。

作为本发明再进一步的方案：步骤S1的具体步骤如下：

S1、将在设定时间段内每个有过发帖行为的用户表示为一个节点，并用唯一标识符对各个节点进行标注；

S2、将节点之间表征用户社交关系的互动行为表示为连接在节点之间的边，并根据节点之间的互动行为指向将边转化为对应指向的有向边；收集所有节点之间的互动行为，将有过互动行为的节点相连，进而构成拓扑网络型的社交互动网络。

作为本发明再进一步的方案：用户基本特征包括数值型特征、类别型特征和发帖内容编码；

数值型特征包括：用户的粉丝数、用户的关注数、用户的粉丝数与用户的关注数的比值、用户的关注数与用户的粉丝数的比值、用户的发帖数、用户的原发帖数量、用户的点赞数、用户的账户创建时间、用户的验证状态；

类别型特征包括：用户个人简介的语言种类；

发帖内容编码：将用户在设定时间段内的发帖内容整理成文档，通过大语言模型RoBERTa对文档进行编码，输出对应的编码向量。

作为本发明再进一步的方案：用户关系特征包括用户之间的互动频率、用户之间互动的多样性、用户之间的互动时间、用户之间的共同粉丝数、用户之间的共同关注数、用户发帖内容之间的相似度和用户发帖内容编码之间的相似度；

用户之间的互动频率包括：用户之间的评论次数、引用次数和转发次数；

用户之间互动的多样性包括：用户之间的评论次数占总互动次数的比例、用户之间的引用次数占总互动次数的比例、用户之间的转发次数占总互动次数的比例；总互动次数为用户之间的评论次数、引用次数和转发次数之和；

用户之间的互动时间包括：用户之间发生互动行为的具体时间；

用户之间的共同粉丝数包括：用户粉丝集合间交集中粉丝的数量、用户粉丝集合间交集中粉丝的数量与用户粉丝集合间并集中粉丝的数量的比值；

用户之间的共同关注数包括：用户关注集合间交集中关注的数量、用户关注集合间交集中关注的数量与用户关注集合间并集中关注的数量的比值；

用户发帖内容之间的相似度：通过Jaccard相似度计算用户原发帖内容和互动发帖内容之间的相似度；

用户发帖内容编码之间的相似度：通过大语言模型RoBERTa对用户发帖内容进行编码，并使用局部敏感哈希LSH计算编码后的发帖文本的相似度。

作为本发明再进一步的方案：步骤S3的具体步骤如下：

S31、将用户i与邻居j之间的用户关系特征X

其中，

多层感知机输出层的特征构造公式如下：

其中，y

S32、令用户i的基本特征向量为初始特征向量

S33、计算用户i在第l层的特征表示

其中，LeakyReLU表示激活函数；

S34、对注意力权重进行归一化操作，以得到注意力系数；注意力系数的计算公式如下：

其中，

S35、使用注意力系数对用户i的所有邻居用户的用户基本特征进行加权聚合，以得到用户i的聚合特征向量；聚合特征向量的计算公式如下：

其中，

S36、获取用户i的初始特征向量

其中，Z

对融合的结果向量Z

其中，W

作为本发明再进一步的方案：步骤S4的具体步骤如下：

S41、计算社交互动网络中存在互动行为的用户之间的用户向量编码的欧氏距离；

S42、对用户i与各个邻居用户之间的欧氏距离从大到小进行排序，按照由大到小的评估准则，选取前m个邻居用户，以该m个邻居用户构成用户i的社交网络好友紧密圈层。

与现有技术相比，本发明的有益效果是：

1、更准确的圈层划分：本发明克服了现有技术中特征维度较少的限制，通过综合考虑用户基本特征、互动行为、内容相似度等多个维度的特征，实现了更全面、更精确的圈层划分。这使得本发明能够捕捉更多细微的关系模式和互动方式，从而提供更准确、更真实的社交关系图像，有助于用户更好地理解自己的社交网络。

2、更深入的人际关系理解：本发明引入了紧密度指标，该指标基于互动频率、多样性、相似度等因素，能够量化人际关系的紧密程度。相较于传统方法，紧密程度使用户能够更深入地理解与其他用户之间的互动程度，不仅仅停留在简单的好友关系，还能揭示出更复杂的交互模式和情感连接。这种深入理解有助于用户更有针对性地进行社交互动，提升社交网络的实际价值。

3、智能的好友选择优化：本发明引入了自适应的图神经网络连接关系优化机制，基于这一机制进行好友选择不仅有助于自动识别潜在的关系模式，从而优化社交圈层划分的效率和有效性，还具备了提升信任程度评估的灵活性的能力。通过这项技术，社交网络的规模和复杂性不再成为限制因素，使得本发明适用于大规模社交网络的情形。

附图说明

图1为本发明的主要流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中，基于用户行为的社交网络好友紧密圈层划分方法，包括以下内容。

1、构建基于特征抽取和数据关联的社交互动网络

1.1节点

将时间段T内，每个有过发帖行为或互动行为的用户表示为网络中的一个节点。通过用户的唯一标识符，如ID、screen_name等信息可以对节点进行去重。

1.2.边

根据互动关系构建边连接节点。例如，当一个用户回复另一个用户的推文，可以在两个用户节点之间添加一条由后者指向前者的有向边来表示这种关系。类似地，转发和提及等互动也用于构建相应的边。

2、计算基于互动行为和相似度的用户关系特征

2.1.基于用户互动行为的用户关系特征抽取

(1)用户之间的互动频率：用户之间的评论次数、引用次数和转发次数。

(2)用户之间互动的多样性：用户之间互动的多样性包括：用户之间的评论次数占总互动次数的比例、用户之间的引用次数占总互动次数的比例、用户之间的转发次数占总互动次数的比例；总互动次数为用户之间的评论次数、引用次数和转发次数之和。

(3)用户之间的互动时间：用户之间发生互动行为的具体时间。

2.2.基于用户共粉丝、共关注的用户关系特征抽取

(1)用户之间的共同粉丝数包括：用户粉丝集合间交集中粉丝的数量、用户粉丝集合间交集中粉丝的数量与用户粉丝集合间并集中粉丝的数量的比值。

(2)用户之间的共同关注数包括：用户关注集合间交集中关注的数量、用户关注集合间交集中关注的数量与用户关注集合间并集中关注的数量的比值。

2.3.基于内容相似度的用户关系特征抽取

(1)基于文本词语的相似度计算

Jaccard相似度用于度量两个集合的相似性。将帖子视为词语的集合，可以计算用户原发帖和互动帖内容间的Jaccard相似度。它计算两个集合的交集与并集之间的比例，值介于0和1之间。

(2)基于文本内容编码的相似度计算

基于RoBERTa对帖子文本进行编码，输出768维的编码向量后，计算原发帖和互动贴之间的关系。为加快计算速度，可使用局部敏感哈希(LSH)进行计算。LSH是一种常用的高维向量相似度计算方法，它通过将高维向量映射到低维空间，并使用哈希函数将相似的向量映射到同一个桶中，从而实现快速相似度计算。LSH方法可以大大减少计算复杂度和存储成本，适用于大规模高维向量相似度计算。

2.2节点基本特征

(1)数值型特征：用户的粉丝数、用户的关注数、用户的粉丝数与用户的关注数的比值、用户的关注数与用户的粉丝数的比值、用户的发帖数(包括原发数量、转发数量、评论数量、引用数量)、用户的原发帖数量、用户的点赞数、用户的账户创建时间、用户的验证状态。

(2)类别型特征：个人简介的语言种类(python的langdetect库，计划分为四类：简体中文、英文、繁体中文、其它)。

(3)发帖内容编码：将用户一段时间内的发帖内容整理成一个文档，基于RoBERTa对输入的帖子文本进行编码，输出768维的编码向量。

3、结合用户基本特征和关系特征的特征编码

3.1基于多层感知机(MLP)的用户关系特征编码

(1)特征抽取和构造：

输入：建立用户i与邻居j之间的用户关系特征X

MLP结构：定义多层感知机的结构，包括输入层、隐藏层和输出层。

参数定义：定义每个隐藏层的神经元数量和激活函数，以及输出层的激活函数。

(2)隐藏层特征抽取：

输入层到隐藏层：通过隐藏层逐层计算，从输入层到隐藏层，每个隐藏层的输出是上一层的输入加权和经过激活函数处理的结果。

隐藏层特征抽取公式如下：

其中，

(3)输出层特征构造：

隐藏层到输出层：通过最后一个隐藏层到输出层的计算，将隐藏层的输出构造为最终的特征表示。

输出层特征构造公式如下：

其中，y

3.2基于图神经网络的用户向量编码

为在特征更新过程中使节点可以获取父节点的特征信息，使用图注意力网络，通过以下流程和公式对节点进行编码：

(1)输入：

每个节点(用户)i的初始特征向量表示为

邻接矩阵作为规范节点连接关系的信息，在这一部分也需要输入。

(2)图卷积操作：

对于每个节点i，通过注意力机制对其邻居节点的信息进行聚合。在第l层，节点i的表征向量为

(3)注意力机制：

计算用户i在第l层的特征表示

其中，LeakyReLU表示激活函数；

(4)计算注意力系数：

对注意力权重进行归一化操作，以得到注意力系数；注意力系数的计算公式如下：

其中，

(5)特征聚合：

使用注意力系数对用户i的所有邻居用户的用户基本特征进行加权聚合，以得到用户i的聚合特征向量；聚合特征向量的计算公式如下：

其中，

(6)表征学习：

重复进行图卷积操作和特征聚合两次，每层的输出作为下一层的输入，逐层学习节点的表征向量。假设总共有L层，那么最终得到的节点i的表征向量为

输出：

最终每个节点编码获得的输出，应是一个32维的向量。

3.3结合用户基本信息和关系的特征的用户向量编码

获取用户i的初始特征向量

对融合的结果向量Z

其中，W

输出的是融合用户基本信息、邻居信息和与邻居关系的用户向量编码。向量的维度为5。

4、基于用户关系特征编码的紧密好友圈层划分

4.1.基于用户间关系特征编码距离的紧密度计算

计算用户互动网络中，存在边的用户间，关系特征编码结果间的欧式距离，作为用户间紧密度的衡量标准。

4.2.基于紧密度和k近邻的用户好友圈层划分

将用户节点和邻居间的紧密度按从大到小进行排列，令前k个用户为同用户关系紧密的好友，这些好友发的帖子会对用户发布的内容产生直接的影响。

接下来，去除掉用户节点和非紧密好友间的边，生成用户紧密圈层网络。

4.3.基于用户发帖内容的好友圈层优化

(1)基于用户基本特征和图注意力网络的用户节点编码

使用图注意力网络模型，基于用户紧密圈层网络和用户节点基本特征重新生成节点编码。编码过程和3.2一致，但输入的邻接矩阵为用户的紧密圈层网络。

(2)基于事件溯源文本RoBERTa编码的用户发帖内容生成

利用RoBERTa模型对事件溯源文本进行编码，获得编码结果后，与用户节点编码进行拼接，生成用户发布内容的编码。

基于KL散度的生成内容和实发内容损失计算

基于KL散度(Kullback-Leibler Divergence)来计算编码结果和真实结果之间的损失可以用于度量两个概率分布之间的差异。在编码结果和真实结果都表示为概率分布的情况下，可以使用KL散度作为损失函数。

假设编码结果为概率分布P，真实结果为概率分布Q，它们的KL散度定义如下：

其中，P(i)和Q(i)分别表示编码结果和真实结果中第i个元素的概率。

在训练过程中，通过最小化KL散度来使编码结果逼近真实结果，可以定义KL散度损失函数LKL如下：

最小化该损失函数可以通过梯度下降等优化算法进行训练。在计算KL散度时，确保概率分布P和Q的每个元素非零，以避免出现无效的计算。

(4)基于梯度下降的好友圈层网络生成优化

所需参数：

学习率(learning rate)：控制参数更新的步幅。

批大小(batch size)：每次迭代使用的样本数量。

迭代次数(num_iterations)：优化的迭代次数。

流程：

初始化参数：对编码生成结果的参数进行初始化。

定义优化器：选择Adam优化器，并设置学习率。

迭代优化：

前向传播：计算生成的内容编码。

计算损失：使用均方误差损失函数计算当前批次的损失。

反向传播：计算梯度。

参数更新：使用Adam优化器更新编码生成结果的参数。其中，θ是内容编码生成结果的参数，α是学习率，m是梯度的一阶矩估计(mean)，v是梯度的二阶矩估计(variance)，∈是一个很小的数用于数值稳定性。

重复这一流程，直到达到指定的迭代次数(num_iterations)为止。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载