掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及大数据领域,更具体地,涉及基于粒度聚类的数据处理方法和装置。

背景技术

随着IPTV技术的高速发展,人们在收看IPTV节目时接收到的信息量猛增,对节目内容的选择也提出了更高的要求,目前存在一些基于数据挖掘和机器学习的数据处理方法,但面对不断增长的海量用户行为数据,这些方法处理时间长,处理效率低,如何实现大数据场景下的实时精准推送成为亟待解决的问题。

为了对海量数据进行处理,需要进行聚类,在传统的K-means聚类方法中,K值对最终结果的影响至关重要,需要先验知识给定合适的K值,凭空估计导致聚类效果很差。随机选取K个样本作为簇的中心,其中心簇的初值敏感,选择不同的初始值可能导致不同的簇划分规则以及收敛速度慢。此外,K-means算法在迭代的过程中使用所有点的均值作为新的中心点,如果簇中存在异常点,将导致均值偏差比较严重。

中国专利申请“一种基于密度峰值的网格聚类算法”(CN201710502536.7)中提出了一种基于密度峰值的网格聚类算法,然而其中K值无法快速确定且对噪音敏感。

中国专利申请“一种基于网格的密度峰值聚类方法及系统”(CN201610515319.7)中提出了一种基于网格的密度峰值聚类方法,然而其中无法快速找到合适K值,并且无法预估初始化类簇中心。

因此,为了在大数据场景下快速去除噪音,提高聚类精度并且大大提高聚类速度,希望提供一种改进的数据处理方法。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

本发明提出了一种基于粒度聚类的数据处理方法和装置。该方法可根据用户行为数据快速生成用户分组标签,并针对不同用户组实时推送感兴趣的内容。相比传统的数据处理方法,大大提高了处理的速度和精度。更具体地,本发明的方法首先使用网格划分对原始样本集进行粗粒化,通过密度峰值聚类方式,剔除噪音样本,快速确定K值及预估原始样本类簇中心。接着,对原始样本集进行细粒度化,并将先前预估的类簇中心映射至细粒度空间中,最后,对细粒度化转变的新样本集进行聚类。

根据本发明的一个方面,提供了一种基于粒度聚类的数据处理方法,所述方法包括:

实时采集用户行为数据作为原始样本集;

基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;

基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射来确定新样本集和新类簇中心;

基于所确定的新样本集和新类簇中心来进行聚类;以及

基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

根据本发明的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:

确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及

确定所述网格单元的集合中的各个网格单元的密度ρ

根据本发明的进一步实施例,所述密度峰值聚类进一步包括:

将所述网格单元的集合中的相对距离δ

选择所述网格单元的集合中的适合的相对距离δ

确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。

根据本发明的进一步实施例,所述原始样本类簇中心映射进一步包括:

通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。

根据本发明的进一步实施例,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:

根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。

根据本发明的另一方面,提供了一种基于粒度聚类的数据处理装置,所述装置包括:

数据采集模块,所述数据采集模块被配置成实时采集用户行为数据作为原始样本集;

粒度处理模块,所述粒度处理模块被配置成:

基于对所述原始样本集进行粗粒度化划分和密度峰值聚类来剔除噪音样本,确定原始样本类簇个数并且预估原始样本类簇中心;以及

基于对所述原始样本集进行细粒度划分以及原始样本类簇中心映射

来确定新样本集和新类簇中心;

数据聚类模块,所述数据聚类模块被配置成基于所确定的新样本集和新类簇中心来进行聚类;以及

数据推送模块,所述数据推送模块被配置成基于聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

根据本发明的一个实施例,对所述原始样本集进行粗粒度化划分和密度峰值聚类进一步包括:

确定经粗粒度化的网格空间中含有原始样本的网格单元的集合;以及

确定所述网格单元的集合中的各个网格单元的密度ρ

根据本发明的进一步实施例,所述密度峰值聚类进一步包括:

将所述网格单元的集合中的相对距离δ

选择所述网格单元的集合中的适合的相对距离δ

确定各个中心网格单元中原始样本点的均值以得到原始样本类簇中心。

根据本发明的进一步实施例,所述原始样本类簇中心映射进一步包括:

通过将剔除噪音样本后的原始样本集和所预估的原始样本类簇中心映射至细粒度空间中来确定新样本集和新类簇中心。

根据本发明的进一步实施例,基于所确定的新样本集和新类簇中心来进行聚类进一步包括:

根据所述新样本集中每个样本以及所预估的K个新类簇中心进行K-means聚类,使得每个样本至其最近的类簇中心的距离平方和最小。

与现有技术中的方案相比,本发明所提供的基于粒度聚类的数据处理方法和装置至少具有以下优点:

(1)去除异常点,减少迭代过程中求取类簇中心的偏差;

(2)根据数据分布确定合适K值,并预估K个类簇中心位置,使其快速收敛,减少迭代次数;以及

(3)通过网格细粒化原始样本,减少每次迭代的计算量。

通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的基于粒度聚类的数据处理装置的示例架构图。

图2示出了根据本发明的一个实施例的基于粒度聚类的数据处理方法的流程图。

图3示出了根据本发明的一个实施例的基于网格的粒度K-means聚类算法的流程图。

图4示出了根据本发明的一个实施例的STING网格结构的示例。

图5a-5b示出了根据本发明的一个实施例的中心点选取的示例。

图6示出了根据本发明的一个实施例的STING网格粗粒度划分的示例。

图7示出了根据本发明的一个实施例的网格单元的决策图的示例。

图8示出了根据本发明的一个实施例的STING网格细粒度划分的示例。

图9示出了根据本发明的一个实施例的原始样本类簇中心到经细粒度划分的网格空间的映射的示例。

具体实施方式

下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的基于粒度聚类的数据处理装置100的示例架构图。如图1所示,本发明的装置100包括:数据采集模块101、粒度处理模块102、数据聚类模块103和数据推送模块104。

数据采集模块101可实时采集用户行为数据作为原始样本集。作为一个示例,数据采集模块101可实时采集用户观看电视节目的行为数据作为原始样本集,其中首先对所有的节目按照类型分类,例如电视新闻资讯节目、电视谈话节目、电视文艺节目、电视娱乐节目、电视纪录片、电视剧、电视电影和电视特别节目等T个类型。同时,一个电视节目可以存在多种类型。数据采集模块101每天统计用户i前30天观看的电视节目历史记录,针对每一个节目类型,根据其相应收看的时间进行累加,并归一化度量为一种评分,即time

粒度处理模块102可对从数据采集模块101获取的原始样本集D

数据聚类模块103可基于细粒度化后的新的样本集以及新类簇中心来进行聚类。在一些情形中,可利用例如K-means聚类算法来进行聚类。

数据推送模块104可根据聚类结果来向各用户组实时推送相关数据。在一个示例中,可通过聚类算法自动将电视用户分成K组,然后对各组类簇中心T个属性(节目类型)进行排序,后台依据各自Top-N属性(节目类型)对各组定向推送相关的节目。

为了解说方便,以下将以基于STING网格的粒度K-means聚类算法为例来描述本发明的实施方式,但本领域技术人员可以理解,本发明同样适用于其他的聚类算法。

图2是根据本发明的一个实施例的基于粒度聚类的数据处理方法200的流程图。方法开始于步骤201,数据采集模块101实时采集用户行为数据作为原始样本集D

在步骤202,粒度处理模块102对所采集的原始样本集D

(1)计算网格单元的密度ρ

ρ

(2)计算网格单元的距离δ

其中,指标集

d

随后,根据所计算得出的网格单元的密度ρ

在步骤203,粒度处理模块102对原始样本集D

在步骤204,数据聚类模块103基于细粒度化后的新的样本集以及新类簇中心来进行聚类。具体而言,数据聚类模块103可根据新样本集D

在图3中进一步详细描述了基于网格的粒度聚类算法300的示例。如图3所示,在获取包括N个原始样本x

返回图2,在得到聚类结果之后,在步骤205,数据推送模块104可根据聚类结果来向与各个类簇相关联的各用户组实时推送相关数据。

图6-9进一步描述了根据一个实施例的粒度K-means算法关键部分的实现。基于图5a所示的关于原始样本x

在粗粒化处理之后对原始样本集进行细粒化处理,如图8所示,将剔除噪音样本后的原始样本集映射到尺度参数ε

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

相关技术
  • 一种基于粒度聚类的数据处理方法和装置
  • 基于谱聚类的子空间聚类算法的数据处理方法及装置
技术分类

06120113675129