导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>基于多视图聚类的消费用户分类方法及相关装置

基于多视图聚类的消费用户分类方法及相关装置

文献发布时间：2024-04-18 19:58:53

技术领域

本申请涉及聚类分析技术领域，尤其涉及基于多视图聚类的消费用户分类方法及相关装置。

背景技术

随着互联网技术和社交媒体的普及，消费者的行为和偏好变得越来越复杂和多样化。消费者行为分析作为市场营销的重要组成部分，成为企业成功制定和实施营销策略的关键。在一般消费场景中，将客户的消费行为数据转换成特征数据，通过聚类分析对目标客户进行群体分类，找出有价值的特定群体，挖掘潜在客户，从而根据每个客户或者群体的消费偏好推荐商品，提高商品的成交量，促进消费者消费。

聚类是一种基于样本之间的相似性将样本划分为不同子组的范式，是机器学习、模式识别和数据挖掘领域的一种常用方法。一旦通过聚类方法获得子组，就可以进行许多后续的分析任务，以达到不同的最终目标。而多视图聚类则是每个主题下包含多组特征需要分别研究分析，并将这些视图聚集起来达到分组的目的。

现有应用在消费者分类上的多视图聚类分析技术无论是基于全连接的完整图还是基于K近邻阈值都无法排除消费者误触发导致的噪声和离群点，使得后续生成的矩阵或者图缺乏准确性；而且对消费者的点击、购买、收藏和加购等行为平等对待，忽略了不同消费行为对消费者分类的影响；此外，将相似图构造与聚类结果分离也使得最后的结果缺乏准确性。

发明内容

本申请提供了基于多视图聚类的消费用户分类方法及相关装置，用于解决现有技术无法排除噪点干扰，对消费行为的分析缺乏针对性，且分离图分析与聚类操作导致结果缺乏准确性的技术问题。

有鉴于此，本申请第一方面提供了基于多视图聚类的消费用户分类方法，包括：

对消费者的多视图消费数据集进行特征提取，得到多视图数据矩阵；

基于K反向近邻算法根据所述多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集；

计算所述K反向近邻数据集中任意两个用户消费操作之间的高斯核相似度，构建出度量矩阵视图；

基于预设对角线马氏矩阵根据所述度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图；

通过拉普拉斯秩约束对所述融合相似度矩阵图进行用户聚类分析，得到消费用户聚类结果。

优选地，所述基于K反向近邻算法根据所述多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集，包括：

基于K反向近邻算法根据所述多视图数据矩阵寻找每个消费行为中每个用户消费操作样本属于其他用户消费操作样本的近邻点的反向近邻样本，得到K反向近邻数据集。

优选地，所述基于预设对角线马氏矩阵根据所述度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图，包括：

基于初始马氏单位矩阵计算所述多视图数据矩阵中用户之间的相似马氏矩阵；

根据所述相似马氏矩阵、所述度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图；

根据所述初始融合矩阵图进行半正定马氏矩阵更新操作，得到预设对角线马氏矩阵；

将所述预设对角线马氏矩阵替换所述初始马氏单位矩阵，并返回所述基于初始马氏单位矩阵计算所述多视图数据矩阵中用户之间的相似马氏矩阵的步骤，直至达到迭代停止条件，得到融合相似度矩阵图。

优选地，所述根据所述相似马氏矩阵、所述度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图，包括：

根据所述相似马氏矩阵、所述度量矩阵视图和预设惩罚项进行相似度之间的融合分析，得到局部结构融合参数；

基于所述局部结构融合参数构建所述度量矩阵视图对应相似图，得到初始融合矩阵图。

本申请第二方面提供了基于多视图聚类的消费用户分类装置，包括：

特征提取单元，用于对消费者的多视图消费数据集进行特征提取，得到多视图数据矩阵；

近邻分析单元，用于基于K反向近邻算法根据所述多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集；

相似计算单元，用于计算所述K反向近邻数据集中任意两个用户消费操作之间的高斯核相似度，构建出度量矩阵视图；

相似融合单元，用于基于预设对角线马氏矩阵根据所述度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图；

聚类分析单元，用于通过拉普拉斯秩约束对所述融合相似度矩阵图进行用户聚类分析，得到消费用户聚类结果。

优选地，所述近邻分析单元，具体用于：

优选地，所述相似融合单元，包括：

相似计算子单元，用于基于初始马氏单位矩阵计算所述多视图数据矩阵中用户之间的相似马氏矩阵；

融合分析子单元，用于根据所述相似马氏矩阵、所述度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图；

矩阵更新子单元，用于根据所述初始融合矩阵图进行半正定马氏矩阵更新操作，得到预设对角线马氏矩阵；

迭代计算子单元，用于将所述预设对角线马氏矩阵替换所述初始马氏单位矩阵，并触发所述相似计算子单元，直至达到迭代停止条件，得到融合相似度矩阵图。

优选地，所述融合分析子单元，具体用于：

根据所述相似马氏矩阵、所述度量矩阵视图和预设惩罚项进行相似度之间的融合分析，得到局部结构融合参数；

基于所述局部结构融合参数构建所述度量矩阵视图对应相似图，得到初始融合矩阵图。

本申请第三方面提供了基于多视图聚类的消费用户分类设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于多视图聚类的消费用户分类方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的基于多视图聚类的消费用户分类方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了基于多视图聚类的消费用户分类方法，包括：对消费者的多视图消费数据集进行特征提取，得到多视图数据矩阵；基于K反向近邻算法根据多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集；计算K反向近邻数据集中任意两个用户消费操作之间的高斯核相似度，构建出度量矩阵视图；基于预设对角线马氏矩阵根据度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图；通过拉普拉斯秩约束对融合相似度矩阵图进行用户聚类分析，得到消费用户聚类结果。

本申请提供的基于多视图聚类的消费用户分类方法，采用K反向近邻算法对用户之间的反向近邻关系进行分析，可以排除噪声和离群点的干扰；而且，通过计算度量矩阵，并基于对角线马氏矩阵进行相似度融合分析可以为不同的消费行为赋予不同的权值，使得不同消费行为对消费者划分产生不同的影响，更加符合实际情况，可以确保分类结果更加准确；此外，基于拉普拉斯秩约束进行聚类分析可以将图分析与聚类操作结合起来，提升分类结果的可靠性。因此，本申请能够解决现有技术无法排除噪点干扰，对消费行为的分析缺乏针对性，且分离图分析与聚类操作导致结果缺乏准确性的技术问题。

附图说明

图1为本申请实施例提供的基于多视图聚类的消费用户分类方法的流程示意图；

图2为本申请实施例提供的基于多视图聚类的消费用户分类装置的结构示意图；

图3为本申请实施例提供的基于K近邻算法的样本点近邻关系示意图；

图4为本申请实施例提供的融合相似度矩阵图表征的样本点之间的相似度关联图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的基于多视图聚类的消费用户分类方法的实施例，包括：

步骤101、对消费者的多视图消费数据集进行特征提取，得到多视图数据矩阵。

需要说明的是，多视图数据矩阵形成的数据集可以表达为X

步骤102、基于K反向近邻算法根据多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集。

进一步地，步骤102，包括：

基于K反向近邻算法根据多视图数据矩阵寻找每个消费行为中每个用户消费操作样本属于其他用户消费操作样本的近邻点的反向近邻样本，得到K反向近邻数据集。

需要说明的是，K反向近邻算法与K近邻算法的区别在于：K近邻是从样本点出发，寻找哪些数据点是该样本点的近邻；而K反向近邻是分析样本点是其它哪些样本点的近邻。对于任意一个给定数据集D，其中包括x

RNN

其中，NN

步骤103、计算K反向近邻数据集中任意两个用户消费操作之间的高斯核相似度，构建出度量矩阵视图。

需要说明的是，本实施例采用高斯核计算两个用户对于同一个商品的操作之间的相似度，整体上看就是对两个消费用户对商品的消费操作之间的相似性进行分析。对于任意一个消费行为中的任意两个用户的操作向量表达为

其中，d为商品数，d

可以理解的是，两个用户样本之间相似度越大，说明二者距离越近，反之则说明二者的距离越远。为了统一相似度范围，方便对比分析以及降低计算量，本实施例还可以对求得的相似度进行归一化处理，使得样本的相似度之和为1。为了避免平凡解，即样本与自身相似度为1，导致与其他样本相似度为0，本实施例直接定义S

步骤104、基于预设对角线马氏矩阵根据度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图。

进一步地，步骤104，包括：

基于初始马氏单位矩阵计算多视图数据矩阵中用户之间的相似马氏矩阵；

根据相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图；

根据初始融合矩阵图进行半正定马氏矩阵更新操作，得到预设对角线马氏矩阵；

将预设对角线马氏矩阵替换初始马氏单位矩阵，并返回基于初始马氏单位矩阵计算多视图数据矩阵中用户之间的相似马氏矩阵的步骤，直至达到迭代停止条件，得到融合相似度矩阵图。

进一步地，根据相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图，包括：

根据相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度之间的融合分析，得到局部结构融合参数；

基于局部结构融合参数构建度量矩阵视图对应相似图，得到初始融合矩阵图。

需要说明的是，本实施例考虑采用马氏矩阵度量学习相似矩阵的原因有二，其一是马氏矩阵是旨在学习可以参数化距离平方的矩阵，学习马氏矩阵相当于学习数据的重新缩放；其二是马氏矩阵可以分解为矩阵积的形式，使得模型更加容易求解。

初始马氏单位矩阵和预设对角线马氏矩阵是同一个性质的半正定马氏矩阵，表达为M，初始马氏单位矩阵是M＝I时的单位矩阵，而通过不断的迭代更新，该马氏矩阵就会变成一个对角线矩阵，从而可以在度量学习过程中对不同的轴赋予不同的权重，即对消费用户的不同消费操作赋予不同的注重。

相似马氏矩阵的计算过程表达为：

其中，x

结合相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度融合分析的过程表达为：

其中，

考虑到是多个消费行为m之间的相似用户的融合，可以将上式表达为：

其中，u

更新的马氏矩阵即为预设对角线马氏矩阵，该矩阵对角线的不同元素就是对不同消费行为对应的视图赋予的权重；对所有度量矩阵视图进行均值加权计算就可以得到用于反映样本间相似度的融合相似度矩阵图U。

请参阅图4，融合相似度矩阵图U中的元素就是用于描述两个样本之间的相似度值，即两个消费用户之间的相似度，图4中的5个样本点之间，样本点1与样本点2的相似度为0.4，样本点2与样本点3之间的相似度为0.5，样本点3与样本点1之间的相似度为0.3，样本点4和5与前面三个样本点无关联，样本点4和5之间的相似度为0.6。

步骤105、通过拉普拉斯秩约束对融合相似度矩阵图进行用户聚类分析，得到消费用户聚类结果。

以图4为例，可以依次计算出对应的邻接矩阵W、度矩阵H；然后基于邻接矩阵W和度矩阵H可以求得拉普拉斯矩阵L，示例中得到的拉普拉斯矩阵L表达为：

可以发现，拉普拉斯矩阵L中的数据被分为两簇，基于该性质可以直接基于拉普拉斯秩约束对融合相似度矩阵图U进行处理，就可以得到聚类结果。

因此，本实施例可以将相似度融合分析公式进一步表达为：

其中，c表示簇数，即消费者类别数，L

其中，γ为惩罚因子，Tr(·)是矩阵的迹，表示矩阵的主对角线元素求和，F为对拉普拉斯矩阵L

本申请实施例提供的基于多视图聚类的消费用户分类方法，采用K反向近邻算法对用户之间的反向近邻关系进行分析，可以排除噪声和离群点的干扰；而且，通过计算度量矩阵，并基于对角线马氏矩阵进行相似度融合分析可以为不同的消费行为赋予不同的权值，使得不同消费行为对消费者划分产生不同的影响，更加符合实际情况，可以确保分类结果更加准确；此外，基于拉普拉斯秩约束进行聚类分析可以将图分析与聚类操作结合起来，提升分类结果的可靠性。因此，本申请实施例能够解决现有技术无法排除噪点干扰，对消费行为的分析缺乏针对性，且分离图分析与聚类操作导致结果缺乏准确性的技术问题。

为了便于理解，请参阅图2，本申请提供了基于多视图聚类的消费用户分类装置的实施例，包括：

特征提取单元201，用于对消费者的多视图消费数据集进行特征提取，得到多视图数据矩阵；

近邻分析单元202，用于基于K反向近邻算法根据多视图数据矩阵分析用户之间的反向近邻关系，得到K反向近邻数据集；

相似计算单元203，用于计算K反向近邻数据集中任意两个用户消费操作之间的高斯核相似度，构建出度量矩阵视图；

相似融合单元204，用于基于预设对角线马氏矩阵根据度量矩阵视图进行用户的相似度融合分析，得到融合相似度矩阵图；

聚类分析单元205，用于通过拉普拉斯秩约束对融合相似度矩阵图进行用户聚类分析，得到消费用户聚类结果。

进一步地，近邻分析单元202，具体用于：

进一步地，相似融合单元204，包括：

相似计算子单元2041，用于基于初始马氏单位矩阵计算多视图数据矩阵中用户之间的相似马氏矩阵；

融合分析子单元2042，用于根据相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度融合分析，得到初始融合矩阵图；

矩阵更新子单元2043，用于根据初始融合矩阵图进行半正定马氏矩阵更新操作，得到预设对角线马氏矩阵；

迭代计算子单元2044，用于将预设对角线马氏矩阵替换初始马氏单位矩阵，并触发相似计算子单元2041，直至达到迭代停止条件，得到融合相似度矩阵图。

进一步地，融合分析子单元2042，具体用于：

根据相似马氏矩阵、度量矩阵视图和预设惩罚项进行相似度之间的融合分析，得到局部结构融合参数；

基于局部结构融合参数构建度量矩阵视图对应相似图，得到初始融合矩阵图。

本申请还提供了基于多视图聚类的消费用户分类设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的基于多视图聚类的消费用户分类方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的基于多视图聚类的消费用户分类方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载