掌桥专利:专业的专利平台
掌桥专利
首页

数据聚类方法、装置、设备、存储介质及产品

文献发布时间:2023-06-19 19:30:30


数据聚类方法、装置、设备、存储介质及产品

技术领域

本申请涉及人工智能技术,尤其涉及一种数据聚类方法、装置、设备、存储介质及产品。

背景技术

随着移动互联网技术的发展,为了便于人们生活,各种应用程序、互联网软件等产品也获得快速发展。为了更好的提供的服务,需要针对不同的用户进行具有针对性的服务推荐。

目前在向用户进行针对性的服务推荐前,一般采用聚类算法对使用产品的用户进行聚类,并基于聚类后的结果确定用户类别,进而进行针对性的服务推荐。

但目前的聚类算法,一般将所有用户均进行聚类,聚类中心数据是逐次更新的数据,这就导致聚类后的用户类别偏移想要确定出的类别,进而导致进行针对性服务推荐时,并不满足这些用户的需求,服务推荐的成功率较低,降低用户使用该产品的体验。

发明内容

本申请提供一种数据聚类方法、装置、设备、存储介质及产品,用以解决聚类结果中某些用户与聚类中心数据的差异较大,进而导致进行针对性服务推荐时,并不满足这些用户的需求,服务推荐的成功率较低,降低用户使用该产品的体验的技术问题。

第一方面,本申请提供一种数据聚类方法,包括:

获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据;

计算所述使用目标产品的用户对应的特征数据与各所述聚类中心数据之间的间隔距离;

基于各所述间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据;

基于所述参与聚类的用户对应的特征数据及各所述聚类中心数据对所述参与聚类的用户对应的特征数据进行聚类,以获得参与分类的用户对应的类别。

第二方面,本申请提供一种数据聚类装置,包括:

获取模块,用于获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据;

计算模块,用于计算所述使用目标产品的用户对应的特征数据与各所述聚类中心数据之间的间隔距离;

筛选模块,用于基于各所述间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据;

聚类模块,用于基于所述参与聚类的用户对应的特征数据及各所述聚类中心数据对所述参与聚类的用户对应的特征数据进行聚类,以获得参与分类的用户对应的类别。

第三方面,本申请提供一种设备,包括:

处理器,以及与所述处理器通信连接的存储器;

所述存储器存储计算机执行指令;

所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。

第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。

本申请提供的数据聚类方法、装置、设备、存储介质及产品,通过获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据;计算所述使用目标产品的用户对应的特征数据与各所述聚类中心数据之间的间隔距离;基于各所述间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据;基于所述参与聚类的用户对应的特征数据及各所述聚类中心数据对所述参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。由于在获取到使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据后,首先将使用目标产品的用户对应的特征数据与各所述聚类中心数据之间的间隔距离与预设禁忌距离进行对比的方式淘汰掉不能参与聚类的用户对应的特征数据,而筛选出能够参与聚类的用户对应的特征数据,能够将与聚类中心数据差距较大的使用目标产品的用户对应的特征数据淘汰掉,进而能够使保留下来的特征数据与聚类中心数据的差距均较小,然后再基于所述参与聚类的用户对应的特征数据及各所述聚类中心数据对所述参与聚类的用户对应的特征数据进行聚类,获得参与聚类的用户对应的类别后,使参与聚类的用户的类别符合聚类中心数据的特征,并且聚类中心数据是预先配置的,所以是固定不变的,没有聚类中心数据偏移的问题,所以参与聚类的用户类别也不会出现偏移的情况。进而基于参与聚类的用户的类别为用户进行针对性的服务推荐时,能够真正满足用户的需求,进而提高服务推荐的成功率,提高用户使用目标产品的体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的数据聚类方法的应用场景图;

图2为本申请实施例一提供的数据聚类方法的流程示意图;

图3为本申请实施例二提供的数据聚类方法的流程示意图;

图4为本申请实施例三提供的数据聚类装置的结构示意图;

图5为本申请实施例四提供的电子设备的结构示意图;

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了更好的理解本申请提供的数据聚类方法,首先对现有技术做详细介绍。

目前在向用户进行针对性的服务推荐前,一般采用聚类算法对使用产品的用户进行聚类,并基于聚类后的结果确定用户类别,进而进行针对性的服务推荐。

目前采用的聚类算法一般为K-means聚类算法。K-means聚类算法的基本思想是:以空间中K个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最终的聚类结果。

在采用K-means聚类算法对用户进行聚类时,是将所有用户对应的数据均参与聚类,并且在迭代过程中聚类中心是不断变化的,所以会导致聚类后的用户类别偏移想要确定出的类别,进而导致进行针对性服务推荐时,并不满足这些用户的需求,服务推荐的成功率较低,降低用户使用该产品的体验。

为了能够解决现有技术中存在的技术问题,需要明确聚类中心数据,并且不会使聚类中心数据产生偏移,所以在对用户对应的特征数据进行聚类前,需要对多个聚类中心数据进行配置。那么在对用户对应的特征数据进行聚类时,就可获取预先配置的多个聚类中心数据,并保持聚类中心数据固定不变。由于进行聚类的目的是对与每种聚类中心数据具有相似特征的用户进行针对性服务推荐。而并不是把所有使用目标产品的用户强行归类到聚类中心数据对应的类别中,所以在获取到使用目标产品的用户对应的特征数据后,首先需要淘汰掉与聚类中心数据差距较大的使用目标产品的用户对应的特征数据,保留下来与聚类中心数据的差距均较小的使用目标产品的用户对应的特征数据。所以可计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离,基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据。那么再对参与聚类的用户对应的特征数据按照各聚类中心数据进行聚类后,就可准确确定出与每种聚类中心数据相同类别的用户,使参与聚类的用户类别不会出现偏移的情况。进而基于参与聚类的用户的类别为用户进行针对性的服务推荐时,能够真正满足用户的需求,进而提高服务推荐的成功率,提高用户使用目标产品的体验。

为了更好的了解本申请提供的数据聚类方法,下面对本申请的应用场景做详细介绍。

图1为本申请实施例提供的数据聚类方法的应用场景图。如图1所示,本应用场景中,可以包括:数据聚类方法对应的客户端设备10及服务端设备11。在运营人员有对使用目标产品的用户进行针对性的服务推荐需求时,可通过客户端设备10的操作界面输入配置的多个聚类中心数据,并可通过客户端操作界面触发数据聚类请求。服务端设备11接收到数据聚类请求后,获取预先配置的聚类中心数据,并可从目标产品对应的用户数据库12中获取使用目标产品的用户对应的特征数据。服务端设备11通过本申请提供的数据聚类方法计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离;基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据;基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。可将参与聚类的用户标识及对应的类别发送至客户端设备10,以使客户端设备10进行显示,运营人员通过参与聚类的用户对应的类别有针对性的进行服务推荐。

可以理解的是,另一种应用场景中,可预先配置一个触发本申请数据聚类方法的条件,在满足触发条件时,执行本申请的数据聚类方法。如触发条件可以为与上次执行数据聚类方法间隔预设时间段。需要说明的是,本申请对应用场景不做限定。

需要说明的是,本申请提供的一种数据聚类方法、装置、设备、存储介质及产品,可应用于人工智能的技术领域,也可应用于除人工智能的以外的任意领域,本申请的应用领域不做限制。

本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

实施例一

图2为本申请实施例一提供的数据聚类方法的流程示意图,如图2所示,本实施例的执行主体为数据聚类装置,该数据聚类装置可集成在电子设备中,电子设备具体可以为服务端设备。则本实施例提供的数据聚类方法包括以下步骤:

步骤101,获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据。

可选地,预先配置的聚类中心数据可以由运营人员通过客户端操作界面来配置的。在配置完后,可携带在数据聚类请求中,连同数据聚类请求发送至服务端设备,以使服务端设别获取到预先配置的聚类中心数据。

或者可选地,运营人员可在服务端设备中直接配置聚类中心数据,并将配置后的聚类中心数据存储到固定存储区域,通过访问固定存储区域,获取到预先配置的聚类中心数据。

其中,各聚类中心数据可以包括至少一个维度。各聚类中心数据的维度与使用目标产品的用户对应的特征数据的维度相同。聚类中心数据是表征对应类别的特征数据。

本实施例中,在用户每次使用目标产品时,目标产品的客户端均会与目标产品的服务端设备发生信令交互,服务端设备可存储每个用户使用目标产品的信令数据,并可基于信令数据提取使用目标产品的用户对应的特征数据,将使用目标产品的用户对应的特征数据存储到目标产品对应的用户数据库中。本实施例中的服务端设备通过访问用户数据库获取到使用目标产品的用户对应的特征数据。

其中,目标产品可以为金融产品,如可以为手机银行软件,网上银行软件等。也可以为其他应用程序、互联网软件等,本实施例中对此不做限定。

其中,目标产品的用户对应的特征数据可以包括使用行为特征数据、交易行为特征数据或者其他类型的特征数据,本实施例中对此不做限定。

步骤102,计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离。

本实施例中,可分别计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的差值绝对值,并将差值绝对值确定为间距距离。或者采用其他方式计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离,本实施例中对此不做限定。

步骤103,基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据。

其中,预设的禁忌距离是区分是否与各聚类中心数据有较大差距的距离。该预设的禁忌距离的取值不做限定,如可以为30,60,或其他适宜的数值等。

本实施例中,可针对每个使用目标产品的用户,将使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离与预设的禁忌距离进行对比,基于对比结果确定是否保留该使用目标产品的用户对应的特征数据。

可选地,基于对比结果确定是否保留该使用目标产品的用户对应的特征数据时,若确定各间隔距离中具有预设百分比的间隔距离大于预设的禁忌距离,则淘汰该使用目标产品的用户对应的特征数据。反之,若确定各间隔距离中少于或等于预设百分比的间隔距离大于预设的禁忌距离,则保留该使用目标产品的用户对应的特征数据。

或者可选地,若确定各间隔距离均大于预设的禁忌距离则淘汰该使用目标产品的用户对应的特征数据。反之,若确定任意一个间距距离小于或等于预设的禁忌距离,则保留该使用目标产品的用户对应的特征数据。

可以理解的是,基于对比结果确定是否保留该使用目标产品的用户对应的特征数据的方式还可以为其他方式,本实施例中对此不做限定。

步骤104,基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。

本实施例中,针对每个参与聚类的用户,可将该参与聚类的用户对应的特征数据与各聚类中心数据进行对比,确定该参与聚类的用户对应的特征数据距离哪个聚类中心数据最近,将距离最近的聚类中心数据的类别确定为该参与聚类的用户对应的类别。

本实施例中,可将本申请提供的数据聚类方法中使用的聚类算法称为禁忌聚合算法(英文为:Tabu-K-means)。

本实施例提供的数据聚类方法,通过获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据;计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离;基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据;基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。由于在获取到使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据后,首先将使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离与预设禁忌距离进行对比的方式淘汰掉不能参与聚类的用户对应的特征数据,而筛选出能够参与聚类的用户对应的特征数据,能够将与聚类中心数据差距较大的使用目标产品的用户对应的特征数据淘汰掉,进而能够使保留下来的特征数据与聚类中心数据的差距均较小,然后再基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,获得参与聚类的用户对应的类别后,使参与聚类的用户的类别符合聚类中心数据的特征,并且聚类中心数据是预先配置的,所以是固定不变的,没有聚类中心数据偏移的问题,所以参与聚类的用户类别也不会出现偏移的情况。进而基于参与聚类的用户的类别为用户进行针对性的服务推荐时,能够真正满足用户的需求,进而提高服务推荐的成功率,提高用户使用目标产品的体验。

实施例二

图3为本申请实施例二提供的数据聚类方法的流程示意图,如图3所示,在实施例一的基础上,对步骤101-步骤104的进一步细化,本实施例提供的数据聚类方法针对的目标产品为金融产品,金融产品可以为手机银行软件,网上银行软件。则本实施例提供的数据聚类方法包括以下步骤:

步骤201,获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据。

其中,特征数据包括多个维度的特征数据,聚类中心数据包括与特征数据相同维度的数据。

可选地,特征数据包括使用行为特征数据及交易行为特征收据,聚类中心数据包括:使用行为中心数据及交易行为中心数据。

其中,使用行为特征数据可以包括:使用时长、访问次数、未访问天数、服务覆盖率等。交易行为特征数据可以包括:交易金额、交易次数等。同理,聚类中心数据中使用行为中心数据可以包括:中心使用时长、中心访问次数、中心未访问天数、中心服务覆盖率等。交易行为中心数据可以包括:中心交易金额、中心交易次数等。

示例性的,如表1所示,聚类中心数据可表示Kn。n为聚类中心数据的数量。如表1中包括三个聚类中心数据,分别表示为K

表1:聚类中心数据示意表

其中,使用目标产品的用户对应的特征数据的数量为M个,第i个使用目标产品的用户对应的特征数据可表示为X

步骤202,计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离。

可选地,步骤202包括以下方案:

计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的差值绝对值;将差值绝对值确定为间距距离。

其中,第i个使用目标产品的用户对应的特征数据与第i个聚类中心的间隔距离可表示为D

D

其中,abs||表示为绝对值。K

由于聚类中心数据的维度和目标产品的用户对应的特征数据可以均为多个维度,维度数量为j,那么使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离可表示为式(2)所示:

D

其中,式(2)中sum为求和运算。D

本实施例提供的数据聚类方法,在计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离时,计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的差值绝对值;将差值绝对值确定为间距距离,由于使用目标产品的用户对应的特征数据与各聚类中心数据之间的差值绝对值能够准确表达特征数据与聚类中心数据的差距,所以采用它们之间的差值绝对值表示间隔距离,能够使间隔距离更加准确。

步骤203,基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据。

可选地,步骤203包括以下方案:

针对每个使用目标产品的用户,将对应的各间隔距离与预设的禁忌距离进行对比。响应于各间隔距离均大于预设的禁忌距离,则删除均大于预设的禁忌距离的使用目标产品的用户对应的特征数据。响应于任意一个间距距离小于或等于预设的禁忌距离,则将小于或等于预设的禁忌距离的使用目标产品的用户对应的特征数据确定为参与聚类的用户对应的特征数据。

其中,预设的禁忌距离可以表示为TabuValue,将对应的各间隔距离与预设的禁忌距离进行对比,即是针对每个使用目标产品的用户,将各间隔距离D

当对于至少一个使用目标产品的用户,其对应的D

当对于至少一个使用目标产品的用户,其对应的D

本实施例提供的数据聚类方法,在基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据时,针对每个使用目标产品的用户,将对应的各间隔距离与预设的禁忌距离进行对比;响应于各间隔距离均大于预设的禁忌距离,则删除均大于预设的禁忌距离的使用目标产品的用户对应的特征数据;响应于任意一个间距距离小于或等于预设的禁忌距离,则将小于或等于预设的禁忌距离的使用目标产品的用户对应的特征数据确定为参与聚类的用户对应的特征数据。由于预设的禁忌距离是区分是否与各聚类中心数据有较大差距的距离,所以通过将各间隔距离与预设的禁忌距离对比的方式,能够准确及快速筛选出与至少一个聚类中心距离较近的使用目标产品的用户对应的特征数据为参与聚类的用户对应的特征数据,而准确及快速淘汰掉与各聚类中心距离均较远的使用目标产品的用户对应的特征数据。

步骤204,对参与聚类的用户对应的特征数据进行归一化处理。

可选地,步骤204包括以下方案:

对参与聚类的用户对应的特征数据进行求和计算,以获得归一化求和结果;计算参与聚类的用户对应的特征数据与归一化求和结果的比值,并将比值确定为参与聚类的用户对应的特征数据的归一化处理结果。

其中,对参与聚类的用户对应的特征数据进行求和计算是将参与聚类的用户对应的每个维度的特征数据分别进行求和计算,以分别获得归一化求和结果。那么若参与聚类的用户个数为h个,h个参与聚类的用户对应的第j个维度的特征数据进行求和计算后的归一化求和结果Sj可表示为式(3)所示:

Sj = sum(X

那么参与聚类的第i用户对应的第j个维度的特征数据的归一化处理结果可表示为式(4)所示:

X’

可以理解的是,对于参与聚类的用户对应的每个维度的特征数据均采用式(3)和式(4)的方式进行归一化处理,分别获得归一化处理结果。由于归一化处理处理结果是一个比值的形式,所以取值均在0,1之间。

本实施例提供的数据聚类方法,在基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别之前,对参与聚类的用户对应的特征数据进行归一化处理,能够使参与聚类的用户对应的特征数据的取值均在同一范围区间,进而在对参与聚类的用户对应的特征数据进行聚类时,聚类结果更加准确。

步骤205,基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。

可选地,本实施例中,步骤205包括以下方案:

计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离;获取最小间隔距离对应的聚类中心数据的类别;将最小间隔距离对应的聚类中心数据的类别确定为参与聚类的用户对应的类别。

其中,在计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离时,计算参与聚类的用户对应的各维度特征数据与各聚类中心对应维度数据的距离;针对各聚类中心数据,将与聚类中心对应维度数据的距离进行求和计算,以获得距离求和结果;将距离求和结果确定为与对应聚类中心数据的间隔距离。

具体地,参与聚类的参与聚类的第i个用户对应的特征数据与第i个聚类中心数据的间隔距离D’

D’

其中,X’

按照式(5)的方式,计算出各个参与聚类的用户对应的特征数据与每个聚类中心数据的间隔距离,由于该参与聚类的用户对应的特征数据与最小间距距离的聚类中心数据最接近,所以从中获取到最小间隔距离对应的聚类中心数据的类别,将最小间隔距离对应的聚类中心数据的类别确定为该参与聚类的用户对应的类别。

其中,最小间距距离可表示为式(6)所示:

Gi = Min(D’

本实施例提供的数据聚类方法,在基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别时,计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离;获取最小间隔距离对应的聚类中心数据的类别;将最小间隔距离对应的聚类中心数据的类别确定为参与聚类的用户对应的类别。由于在进行聚类时,聚类中心数据的值是固定不变的,并且将最小隔距离对应的聚类中心数据的类别确定为参与聚类的用户对应的类别,所以相较于k-means聚类算法需要进行不断迭代并且获得的不一定为全局最优解,本申请的聚类方案无需迭代运算,并且能够确定出最优的聚类结果。

本实施例提供的数据聚类方法,在计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离时,计算参与聚类的用户对应的各维度特征数据与各聚类中心对应维度数据的距离;针对各聚类中心数据,将与聚类中心对应维度数据的距离进行求和计算,以获得距离求和结果;将距离求和结果确定为与对应聚类中心数据的间隔距离。能够在参与聚类的用户对应的特征数据与各聚类中心数据为多个维度的数据时,通过计算每个维度的特征数据与各聚类中心对应维度数据的距离,并进行求和运算,以作为参与聚类的用户对应的特征数据与对应聚类中心数据的间隔距离,能够使计算出的间隔距离准确表达与聚类中心数据的差距。

实施例三

图4为本申请实施例三提供的数据聚类装置的结构示意图,如图4所示,本实施例提供的数据聚类装置可位于电子设备中。则本实施例提供的数据聚类装置30包括:获取模块31、计算模块32、筛选模块33、聚类模块34。

其中,获取模块31,用于获取使用目标产品的用户对应的特征数据及预先配置的多个聚类中心数据。计算模块32,用于计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的间隔距离。筛选模块33,用于基于各间隔距离及预设的禁忌距离筛选出参与聚类的用户对应的特征数据。聚类模块34,用于基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别。

本实施例提供的数据聚类装置可以执行图2所示实施例对应的方法,具体的实现方式及原理不再一一赘述。

可选地,根据权利要求1的方法,计算模块32,具体用于:

计算使用目标产品的用户对应的特征数据与各聚类中心数据之间的差值绝对值;将差值绝对值确定为间距距离。

可选地,筛选模块33,具体用于:

针对每个使用目标产品的用户,将对应的各间隔距离与预设的禁忌距离进行对比;响应于各间隔距离均大于预设的禁忌距离,则删除均大于预设的禁忌距离的使用目标产品的用户对应的特征数据;响应于至少一个间距距离小于或等于预设的禁忌距离,则将小于或等于预设的禁忌距离的使用目标产品的用户对应的特征数据确定为参与聚类的用户对应的特征数据。

可选地,聚类模块34,具体用于:

计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离;获取最小间隔距离对应的聚类中心数据的类别;将最小间隔距离对应的聚类中心数据的类别确定为参与聚类的用户对应的类别。

可选地,特征数据包括多个维度的特征数据,聚类中心数据包括与特征数据相同维度的数据。相应地,聚类模块34,在计算参与聚类的用户对应的特征数据与各聚类中心数据的间隔距离时,具体用于:

计算参与聚类的用户对应的各维度特征数据与各聚类中心对应维度数据的距离;针对各聚类中心数据,将与聚类中心对应维度数据的距离进行求和计算,以获得距离求和结果;将距离求和结果确定为与对应聚类中心数据的间隔距离。

可选地,本实施例提供的数据聚类装置,还包括:归一化模块。

具体地,归一化模块,用于聚类模块34,在基于参与聚类的用户对应的特征数据及各聚类中心数据对参与聚类的用户对应的特征数据进行聚类,以获得参与聚类的用户对应的类别之前,对参与聚类的用户对应的特征数据进行归一化处理。

可选地,归一化模块,具体用于:

对参与聚类的用户对应的特征数据进行求和计算,以获得归一化求和结果;计算参与聚类的用户对应的特征数据与归一化求和结果的比值,并将比值确定为参与聚类的用户对应的特征数据的归一化处理结果。

可选地,目标产品为金融产品,特征数据包括:使用行为特征数据及交易行为特征收据,聚类中心数据包括:使用行为中心数据及交易行为中心数据。

本实施例提供的数据聚类装置可以执行图3所示实施例对应的方法,具体的实现方式及原理不再一一赘述。

实施例四

图5为本申请实施例四提供的电子设备的结构示意图。如图5所示,本申请实施例提供一种电子设备40,具体地,电子设备可以为服务端设备,该电子设备40包括:处理器41,以及与处理器41通信连接的存储器42。

存储器42存储计算机执行指令。

处理器41执行存储器42存储的计算机执行指令,以实现如任意一个的方法。

本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如任意一个实施例的方法。

本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例提供的方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程合规检测装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

相关技术
  • 产品数据的数据同步方法、装置、计算机设备及存储介质
  • 产品数据同步方法、装置、计算机设备及存储介质
  • IP产品运营数据处理方法、装置、设备及可读存储介质
  • 产品数据推送方法、装置、计算机设备和存储介质
  • 产品数据推送方法、装置、计算机设备及存储介质
  • 用于数据聚类的方法、装置、设备、介质和产品
  • 短文本聚类方法、装置、电子设备、存储介质及程序产品
技术分类

06120115937648