掌桥专利:专业的专利平台
掌桥专利
首页

社交平台用户属性预测方法、系统、移动设备及存储介质

文献发布时间:2023-06-19 19:27:02


社交平台用户属性预测方法、系统、移动设备及存储介质

技术领域

本发明涉及一种社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质。

背景技术

用户在使用在线社交平台时,会产生个人资料、历史发文、社交关系等数据。基于这些数据我们可以预测用户属性,如性别、年龄、职业、收入、宗教信仰等。预测用户属性是用户画像的基础任务。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,成为用户画像,才能为用户提供有针对性的服务。

在现有技术中,有一种社交平台用户属性预测方法为基于文本特征的预测方法,该方法使用用户的历史发文构建文本特征,然后使用传统机器学习或者神经网络模型对用户属性进行预测。例如使用多种方法构建文本特征,如使用NPMI(Normalised PointwiseMutual Information,标准化点互信息)计算词与词的相似度矩阵,然后进行SVD(singularvalue decomposition,奇异值分解)将词嵌入到低维空间,使用word2vec(word tovector,词向量)方法进学习到词嵌入等。得到文本特征之后,使用GP(Gaussian Process,高斯过程)预测用户属性。但是,这种预测方法只考虑到不同类用户的行文风格、文本内容、文本主题等文本特征不同,没有用到社交网络结构。只使用文本构建的特征向量信息稀疏,含有较少的用户信息。

在现有技术中,还有一种社交平台用户属性预测方法在文本特征的基础上增加了用户的社交网络结构特征。例如专利CN108647800B使用node2vec(node to vector,节点向量)方法学习到用户的社交网络结构特征,处理用户行为和已知数据得到特征向量,然后将这两种特征向量相拼接,最后使用逻辑回归分类器对用户属性进行预测。但是,这种预测方法只是简单的将社交网络结构特征和文本特征拼接,没有考虑在实际情况中,用户的特征是如何在社交网络中传递的,没有将网络结构信息和文本信息很好的结合。

在现有技术中,还有一种社交平台用户属性预测方法使用图卷积网络将用户社交网络结构特征和文本特征相结合。该方法首先使用获取到的用户社交关系数据构建社交网络图,然后使用图卷积网络模型对用户的文本特征进行聚合,在多层聚合之后可以得到用户的属性类别。例如专利CN112528163B使用图卷积网络得到用户的网络特征向量,预处理用户的基本属性和行为属性得到用户的属性特征向量,然后将这两种特征向量拼接,最后训练逻辑回归分类器得到职业分类模型。但是,这种预测方法在社交网络图中将主用户和相关用户视为相同类型的节点,使用相同的聚合方式,由于主用户和相关用户爬取到的数据和图结构都有很大的差异,使用相同聚合方式聚合到的特征不准确。

由此可见,能否基于现有技术中的不足,提供一种改进的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高,成为本领域技术人员亟待解决的技术难题。

发明内容

发明所要解决的课题

本发明的目的是在于克服现有技术的缺陷,提供一种改进的社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质。根据本发明所提供的改进的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。

用于解决课题的方法

本发明第一方面涉及一种社交平台用户属性预测方法,包括以下步骤:

采集社交平台用户的数据;

对于采集到的数据进行文本特征的提取;

将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;

根据采集到的数据计算社交平台用户的社交关系的不完全程度;

根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;

根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;

根据计算出的权重基于异构图网络模型进行节点特征的聚合;

使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

优选地,采集到的数据包括:社交平台用户的个人资料、历史发文、关注列表、关注列表中用户的个人资料。

优选地,文本特征包括:主用户个人简介特征、主用户历史发文特征、邻居用户个人简介特征、邻居用户历史发文特征。

优选地,基于以下三个块矩阵加权求和而计算块相似矩阵:主用户关注的块矩阵、主用户被关注的块矩阵、邻居用户被关注的块矩阵。

优选地,根据主用户个人简介特征生成伪标签矩阵。

优选地,将主用户个人简介特征和主用户历史发文特征进行拼接,将邻居用户个人简介特征和邻居用户历史发文特征进行拼接,作为异构图网络模型的输入。

本发明第二方面涉及一种社交平台用户属性预测系统,包括:

数据采集模块,用于采集社交平台用户的数据;

特征提取模块,用于对于采集到的数据进行文本特征的提取;

伪标签矩阵生成模块,用于将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;

程度计算模块,用于根据采集到的数据计算社交平台用户的社交关系的不完全程度;

块相似矩阵计算模块,用于根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;

权重计算模块,用于根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;

特征聚合模块,用于根据计算出的权重基于异构图网络模型进行节点特征的聚合;

属性预测模块,用于使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

本发明第三方面涉及一种移动设备,包括:

处理器;

输入装置;以及

存储器,其中存储有程序,

在处理器执行所述程序时,进行以下操作:

采集社交平台用户的数据;

对于采集到的数据进行文本特征的提取;

将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;

根据采集到的数据计算社交平台用户的社交关系的不完全程度;

根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;

根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;

根据计算出的权重基于异构图网络模型进行节点特征的聚合;

使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

本发明第四方面涉及一种存储介质,用于存储程序,所述程序在被执行时使得如本发明第三方面所述的移动设备进行以下操作,包括:

采集社交平台用户的数据;

对于采集到的数据进行文本特征的提取;

将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;

根据采集到的数据计算社交平台用户的社交关系的不完全程度;

根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;

根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;

根据计算出的权重基于异构图网络模型进行节点特征的聚合;

使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

发明的效果

根据本发明所涉及的社交平台用户属性预测方法、社交平台用户属性预测系统、移动设备及存储介质,有效解决了现有预测方法中适用性不高预测不准的问题,适用于不同在线社交平台的用户属性预测,预测的准确率高。

附图说明

图1为本发明的第一实施方式的社交平台用户属性预测方法的流程图。

图2为图1中的社交平台用户属性预测方法中社交平台用户关注网络的一个例子的示意图。

图3为本发明的第二实施方式的社交平台用户属性预测系统的示意图。

具体实施方式

以下,首先对于本发明所涉及的社交平台用户属性预测方法详细地进行说明。

图1为本发明的第一实施方式的社交平台用户属性预测方法的流程图。如图1所示,该社交平台用户属性预测方法的具体流程为,首先采集社交平台用户的数据(步骤1)。采集到的数据优选为包括:社交平台用户的个人资料、历史发文、关注列表、关注列表中用户的个人资料,但并不限于此,也可以进一步包括其他数据。个人资料例如可以为:用户id、用户名、用户关注数、用户粉丝数、性别、年龄、个人简介等。将被采集数据的用户称为MU(Main user,主用户),将主用户关注列表中的用户称为NU(Neighbor user,邻居用户)。主用户的属性标签可以直接使用个人资料中的数据或者根据个人资料中的数据人工进行标注。如图2中的社交平台用户关注网络所示,MU对NU进行关注,同时NU有可能关注MU,也有可能不关注MU。在现有技术中,通常会将主用户和邻居用户视为相同类型用户,使用相同的参数进行特征聚合,但由于主用户和邻居用户爬取数据的不同,他们的特征和图结构差异是很大的,如果进行相同的处理,会导致预测的准确率大幅度减低。因此在本发明中将主用户和邻居用户视为不同类型的节点进行处理,从而预测的准确度高,也更加合理。

然后对于采集到的数据进行文本特征的提取(步骤2)。文本特征优选为包括:主用户个人简介特征、主用户历史发文特征、邻居用户个人简介特征、邻居用户历史发文特征,但并不限于此,也可以进一步包括其他文本特征。例如采取如下步骤进行文本特征的提取,首先构建个人简介词典和历史发文词典。统计所有用户(主用户和邻居用户)个人资料个人简介字段中出现词的次数,将其中出现最频繁的多个词语,例如5000个词语作为个人简介词典。统计所有主用户历史发文中出现词的次数,将其中出现最频繁的多个词语,例如5000个词语作为历史发文词典。然后将主用户个人资料个人简介中的词根据个人简介词典生成bag-of-words向量,再进行归一化处理,提取出主用户个人简介特征。将主用户历史发文中的词根据历史发文词典生成bag-of-words向量,然后进行归一化处理,提取出主用户历史发文特征。将邻居用户个人资料个人简介中的词根据个人简介词典生成bag-of-words向量,然后进行归一化处理,提取出邻居用户个人简介特征。因为没有获取邻居用户的历史发文,将零向量作为邻居用户历史发文特征。

然后将提取的文本特征输入到特征训练MLP(multi-layer perception,多层感知机),从而对于社交平台用户生成伪标签矩阵(步骤3)。感知机作为人工神经网络,网络过于简单,不能解决非线性问题等。多层感知机是在单层神经网络基础上引入一个或多个隐藏层,使神经网络有多个网络层。例如可以使用主用户个人简介特征训练MLP,将所有用户个人简介特征输入到训练好的MLP中得到所有用户的伪标签矩阵B,维度是|V|×C(|V|是所有用户数,C表示属性的类别数)。每个用户的伪标签向量维度为1×C(C表示属性的类别数)。

根据采集到的数据计算社交平台用户的社交关系的不完全程度(步骤4)。

例如可以先计算主用户关注的不完全程度λ

然后计算主用户被关注的不完全程度λ

最后计算邻居用户被关注的不完全程度λ

然后根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵(步骤5)。步骤5中的块相似矩阵将用于在后续的步骤7中引导异构图网络的特征聚合。在现有技术中,一般都使用图卷积网络进行特征聚合,但是所有邻接节点使用的权重是相同的,这与实际情况不符,从而会导致属性预测的准确率很低。为了解决这个技术问题,本发明采用了块相似矩阵,同类的邻接节点使用相同的权重进行聚合,不同类的邻接节点使用不同的权重进行聚合。例如优选为基于以下三个块矩阵加权求和而计算块相似矩阵:主用户关注的块矩阵、主用户被关注的块矩阵、邻居用户被关注的块矩阵,但并不限于此,也可以基于其他块矩阵。首先计算主用户关注的块矩阵H

Q=HH

如上所述,在块相似矩阵中引入了用户社交关系的不完全程度,可以让计算的块相似矩阵更能代表真实社交网络的规律,节点聚合到的特征更加准确,从而大幅度提高了预测的准确性。

然后根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重(步骤6)。例如根据以下方法计算权重。用户s关注用户t时,s向t传递特征时的权重为

A′

其中B是步骤3中的伪标签矩阵,Q是步骤5中的块相似矩阵,N

/>

其中N(s)含义是s关注列表中的用户。

然后根据计算出的权重基于异构图网络模型进行节点特征的聚合(步骤7)。例如根据以下方法进行聚合。首先,将主用户和邻居用户作为异构节点类型,将主用户的关注作为有向边,构建异构图。

异构图G的定义为:G(V,E,O,R),其中V是节点集,E是边集,O是节点类型集(两种类型:MU(主用户),NU(邻居用户)),R是边类型集(两种类型:following(关注),following

τ(v):V→O(节点到节点类型的映射),

q(e):E→R(边到边类型的映射)

φ(τ(s),q(e),τ(t)):节点、边到关系类型的映射(4种关系类型:

优选地,将每个用户的个人简介特征和历史发文特征拼接为特征h

主用户节点的更新公式:

其中B-Linear

邻居用户节点的更新公式:

经过L层的特征聚合之后节点t的特征向量为h[t]。

然后使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测(步骤8)。

根据下式得到预测结果Y:

其中h是所有用户经过异构网络模型特征聚合之后的特征向量,Softmax为归一化指数函数,执行有限项离散概率分布的梯度对数归一化。

以下,将对本发明合适的实施例做说明,不过本发明的实施形式不限于此。

<实施例1>

实施例1为对单个用户的年龄属性进行预测。

年龄共分为四类:小于27为第0类,27-36为第1类,37-49为第2类,50以上为第3类。

采集1个用户(MU),该MU关注了10个NU,将该一个MU和10个NU的用户数据按照上述的步骤1-步骤8执行之后,预测出该用户(MU)的年龄属性类别为第1类,即27-36岁。通过后续的确认,预测的年龄属性符合用户的真实情况。

<实施例2>

实施例2为对多个用户的年龄属性进行预测。

采集100个用户(MU),从这100个用户的关注列表得到2970个邻居用户(NU),将将该100个MU和2970个NU的用户数据按照上述的步骤1-步骤8执行之后,预测出100个用户MU的年龄属性类别。通过后续的确认,预测的年龄属性与100个用户的真实情况符合率达到了70%以上。

根据本发明的第一实施方式的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。

具体来说,现有技术在获取用户的社交关系时,既获取用户的关注列表,也获取用户的粉丝列表。由于在线社交平台的限制,获取到的用户社交关系是不完全的。在获取用户的社交关系时,用户关注列表的不完全程度低,获取用户的粉丝列表会导致预测的准确率降低,因此本发明为了解决该技术问题,只获取用户的关注列表。同种属性用户在关注网络中有相似的网络结构,所以只爬取用户的关注,也可以学习到属性各类别的网络结构。

此外,现有技术在使用图神经网络进行特征传递时,所有邻接节点使用相同的权重,忽略了在社交网络中,用户既会与相同属性用户相连也会与不同属性用户相连会导致预测的准确率降低,因此本发明为了解决该技术问题,通过计算类别连边分布的相似性来表示类别之间的相似程度。同类的邻接节点使用相同的权重进行聚合,不同类的邻接节点使用不同的权重进行聚合。在计算类别之间的相似程度时,本发明引入了获取到的用户社交关系不完全。由于社交平台的限制,用户的社交关系无法完整获取。本发明在计算块相似矩阵和节点更新公式中都引入了用户社交关系的不完全程度。这可以让计算的块相似矩阵更能代表真实社交网络的规律,节点聚合到的特征更加准确。

此外,现有技术在进行特征传递时,将主用户和邻居用户视为相同类型的节点,没有考虑主用户和邻居用户获取到的数据差异很大,会导致预测的准确率降低,因此本发明为了解决该技术问题,将主用户和邻居用户视为不同类型的节点,使用异构图网络模型传递特征,更好地聚合了节点特征。现有技术在进行特征传递时,只传递了所有用户的基本属性中的个人简介信息,没有传递主用户的基本数据,会导致预测的准确率降低,因此本发明为了解决该技术问题,将先将用户的个人简介特征和基本数据特征拼接,然后再输入到社交网络中传递。这样使得所有节点都学习到了更多的用户信息。

本发明的第二实施方式的社交平台用户属性预测系统与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第二实施方式,在此不再赘述。

如上所述,根据本发明的第二实施方式的社交平台用户属性预测系统,适用于不同在线社交平台的用户属性预测,预测的准确率高。

接着,对于本发明所涉及的移动设备详细地进行说明。

移动设备包括:处理器;输入装置;以及存储器,其中存储有程序,在处理器执行所述程序时,进行以下操作:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;根据采集到的数据计算社交平台用户的社交关系的不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

本发明的第三实施方式的移动设备与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第三实施方式,在此不再赘述。

如上所述,根据本发明的第三实施方式的移动设备,适用于不同在线社交平台的用户属性预测,预测的准确率高。

接着,对于本发明所涉及的存储介质详细地进行说明。

存储介质用于存储程序,程序在被执行时使得如本发明第三实施方式的移动设备进行以下操作,包括:采集社交平台用户的数据;对于采集到的数据进行文本特征的提取;将提取的文本特征输入到特征训练MLP,从而对于社交平台用户生成伪标签矩阵;根据采集到的数据计算社交平台用户的社交关系的不完全程度;根据生成的伪标签矩阵和计算出的不完全程度计算块相似矩阵;根据计算出的块相似矩阵计算社交平台用户之间特征传递的权重;根据计算出的权重基于异构图网络模型进行节点特征的聚合;使用经过异构图网络模型的节点特征的聚合之后的特征向量训练MLP对社交平台用户的属性进行分类预测。

本发明的第四实施方式的存储介质与第一实施方式的社交平台用户属性预测方法相对应,因此第一实施方式中的各种变形方式也同样适用于第四实施方式,在此不再赘述。

如上所述,根据本发明的第四实施方式的存储介质,适用于不同在线社交平台的用户属性预测,预测的准确率高。

产业应用性

根据本发明所涉及的社交平台用户属性预测方法,适用于不同在线社交平台的用户属性预测,预测的准确率高。

虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

相关技术
  • 一种基于关系链的社交方法及系统、存储介质及平台
  • 顾客属性预测方法、存储介质、系统及设备
  • 用户消费预测方法、装置、电子设备及存储介质
  • 用户价值预测方法、装置、存储介质及设备
  • 车用尿素管理方法、平台、用户终端及计算机存储介质
  • 基于图生成的社交网络用户属性预测方法及系统
  • 一种基于数据增强的社交网络用户属性预测方法及系统
技术分类

06120115917940