掌桥专利:专业的专利平台
掌桥专利
首页

一种基于云计算和数据挖掘的会员数据分析方法

文献发布时间:2024-04-18 19:53:33


一种基于云计算和数据挖掘的会员数据分析方法

技术领域

本发明涉及数据分析技术领域,具体来说,涉及一种基于云计算和数据挖掘的会员数据分析方法。

背景技术

数据挖掘是一项通用的知识发现技术,数据挖掘日益受到了人们的关注,并已成为当前计算机领域的一大热点,数据挖掘带来的了显著的经济效益,最先应用于金融和工商业领域,它们都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱和保持好客户。

云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,而且以服务的方式提供,过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的,采用云计算模式有许多好处,成本低廉、容错性强、计算速度快、程序开发便捷、节点的增加更容易,可以说云计算是数据挖掘中普遍适用较为理想的计算模式。

各种市场上的经营营销模式与经验被加以电子化而执行于计算机系统中,每种模式都会以网站的形式对用户进行展示,为了对用户进行分类,网站一般会根据用户是否在网站中注册,而将用户区分为会员和非会员,每一位用户在网站进行注册时,网站会要求会员填写一些用户信息,例如年龄、注册日期、性别、所在地、注册来源及所属行业等,网站会将会员的信息与该会员的会员标识一并保存在数据库中。

目前,现有技术中在对会员数据信息分析时通常无法对会员数据信息进行分割标注及标签嵌入处理,导致获取的会员数据信息过于杂乱,从而降低了会员数据信息的准确性,进而无法筛选出符合要求的会员用户。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题,本发明提出一种基于云计算和数据挖掘的会员数据分析方法,以克服现有相关技术所存在的上述技术问题。

为此,本发明采用的具体技术方案如下:

一种基于云计算和数据挖掘的会员数据分析方法,该会员数据分析方法包括以下步骤:

S1、采用云计算及数据挖掘算法获取会员用户的数据信息,并制定初始的会员报告表;

S2、对初始的会员报告表进行分割及标注处理,获取会员用户的独立特征表;

S3、基于会员用户的独立特征表对会员用户进行分类处理;

S4、采用人工打标的方式初步筛选出高净值客户;

S5、采用智能打标的方式筛选出符合要求的会员用户。

进一步的,所述对初始的会员分析报告表进行分割及标注处理,获取会员用户的独立特征表包括以下步骤:

S21、基于初始的会员分析报告表,利用交点类型阵确定独立特征表的表格结构;

S22、基于表格结构确定交点阵,保证交点阵与表格之间相对应;

S23、确定初始的会员分析报告表的极大从属区域,并对初始的会员分析报告表中的字表进行切割;

S24、对会员分析报告表格中未覆盖的单元格进行分析,并根据布局结构将字表进行合并;

S25、采用关联标注算法对分割后的独立特征表进行标注,获取分割标注后的独立特征表。

进一步的,所述基于表格结构确定交点阵,保证交点阵与表格之间相对应包括以下步骤:

S221、确定直线交点的位置并识别交点的类型;

S222、检测交点类型并识别交点错误;

S223、对交点错误进行错误分析及更正,并以矩阵的形式存储。

进一步的,所述采用关联标注算法对分割后的独立特征表进行标注,获取分割标注后的独立特征表包括以下步骤:

S251、对分割后的独立特征表上的图文信息进行提取;

S252、连接临近的连通域,获取子图掩膜,对剩余文字进行提取;

S253、通过光学字符识别技术识别提取出的文字,输出识别结果;

S254、利用关键词提取技术进行语义解析和语义拆分,获取图文结果;

S255、将类别标签与独立特征表进行单独提取,并制作标注数据集;

S256、搭建语义一致性约束关联标注算法模型,并进行训练。

进一步的,所述搭建语义一致性约束关联标注算法模型,并进行训练包括以下步骤:

S2561、将所述标注数据集作为算法模型的训练集;

S2562、以极端版本的开端特征提取网络模型为基础搭建模型算法;

S2563、利用迁移学习的思想对单一形态算法模型进行训练;

S2564、对双层算法模型进行训练,提高训练速度与模型效果。

进一步的,所述基于会员用户的独立特征表对会员用户进行分类处理包括以下步骤:

S31、将会员用户的独立特征表进行分类组合,并将每组分类组合对应会员用户的特征属性集合;

S32、当采集到新的会员用户,遍历所有分类的特征属性集合,并将新的会员用户归类到对应的分类组合中。

进一步的,所述采用智能打标的方式筛选出符合要求的会员用户包括以下步骤:

S51、获取会员用户的特征属性集合的文本数据,并对文本数据进行处理;

S52、将处理后的数据进行标签嵌入;

S53、提取会员用户的特征属性集合并表示;

S54、训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数;

S55、训练从会员用户的特征属性集合空间映射到嵌入空间的分析器;

S56、结合分析器及解码映射关系对会员用户的特征属性集合进行多标签分类预测,筛选出符合要求的用户。

进一步的,所述将处理后的数据进行标签嵌入包括以下步骤:

S521、获取会员用户的特征属性集合的文本数据,并对文本数据进行处理,获取文本嵌入向量矩阵及标签嵌入向量矩阵;

S522、将文本嵌入向量矩阵输入到卷积神经网络算法,获取文本特征向量及文本单词的上下文嵌入表示;

S523、将文本特征向量及文本单词的上下文嵌入表示进行标签注意力计算,获取基于标签的文本特征向量;

S524、文本特征向量及文本基于标签的文本特征向量进行最终分类,并输出文本分类结果。

进一步的,所述卷积神经网络算法的计算公式为:

式中,Y

表示第i个文本数据是否拥有第j个标签的真实情况;

Q表示标签数量;

B表示样本数量。

进一步的,所述对文本特征向量及文本基于标签的特征向量进行最终分类,并输出文本分类结果的表达式为:

O=Softmax(ReLU(Wf

式中,W表示文本特征向量;

b表示文本基于标签的特征向量;

ReLU表示非线性激活函数。

本发明的有益效果为:

1、本发明通过获取的会员用户的数据信息,制定初始的会员报告表,并对会员报告表进行分割及标注处理,获取会员用户的独立特征表,从而能够通过分割及标注的处理方式对会员用户信息进行归纳整理,并且对会员用户的独立特征表做分类组合,能够获取会员用户的特征属性集合,当采集到新的会员用户,遍历所有分类的特征属性集合,并将新的会员用户归类到对应的分类组合中,便于对会员用户的数据信息进行整合,提升了会员用户信息的准确性及全面性。

2、本发明利用交点类型阵确定独立特征表的表格结构,基于表格结构确定交点阵,保证交点阵与表格之间相对应,确定初始的会员分析报告表的极大从属区域,并对初始的会员分析报告表中的字表进行切割,对会员分析报告表格中未覆盖的单元格进行分析,并根据布局结构将字表进行合并,从而能够对所有会员用户的信息进行整合归纳,便于对出错的地方进行核实更正,从而保证表格处理的质量,由于会员信息在处理过程中经常会有许多保密性数据,出于对数据进行有效的保护,把整个会员报告表分割成许多有独立意义的区块,使每个区块包含尽可能少的信息,从而不仅对数据进行了有效保护,同时又可以提高数据录入的效率。

3、本发明能够通过人工打标的方式初步筛选出高净值客户,并结合分析器及解码映射关系对会员用户的特征属性集合进行多标签分类预测,筛选出符合要求的用户,从而能够使多标签分类与会员用户进行结合,进而选取高质量的会员用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于云计算和数据挖掘的会员数据分析方法的主要流程图。

具体实施方式

为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

根据本发明的实施例,提供了一种基于云计算和数据挖掘的会员数据分析方法。

现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于云计算和数据挖掘的会员数据分析方法,包括该会员数据分析方法包括以下步骤:

S1、采用云计算及数据挖掘算法获取会员用户的数据信息,并制定初始的会员报告表;

具体的,云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,而且以服务的方式提供,过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的;

在数据挖掘计算中,可以使用Rhipe的并行运算模型,执行“分配-计算-整合”的过程,即在进行数据挖掘时,采用map-reduce的方式将数据挖掘的任务划分成多个子任务分配给多个处理器执行,整合多个处理器的执行结果得到挖掘结果,从而充分利用云计算资源;

Rhipe技术是一种将R语言和Hadoop相结合的技术,因此在启动挖掘数据计算时,需要执行Rhipe安装过程,具体的安装过程包括:安装Hadoop集群,安装R共享库,安装protobuf(一种内存处理模块,负责不同物理机的数据管理),设置环境变量,安装Rhipe(即后端平台,负责具体的函数调用),该安装过程为现有技术,在此不再赘述;

数据挖掘计算采用的应用服务器类型可以包括但不限于Apache、Sqlserver、weblogic及jboss等;Hadoop集群采用的分布式系统可以包括但不限于:Linux、windows等。

S2、对初始的会员报告表进行分割及标注处理,获取会员用户的独立特征表;

其中,所述对初始的会员分析报告表进行分割及标注处理,获取会员用户的独立特征表包括以下步骤:

S21、基于初始的会员分析报告表,利用交点类型阵确定独立特征表的表格结构;

S22、基于表格结构确定交点阵,保证交点阵与表格之间相对应;

其中,所述基于表格结构确定交点阵,保证交点阵与表格之间相对应包括以下步骤:

S221、确定直线交点的位置并识别交点的类型;

S222、检测交点类型并识别交点错误;

S223、对交点错误进行错误分析及更正,并以矩阵的形式存储;

S23、确定初始的会员分析报告表的极大从属区域,并对初始的会员分析报告表中的字表进行切割;

具体的,假设点P为表格中的交点,通过点P的水平线、垂直线分别为H,V,记与H相垂直的垂直线集合为V

根据极大丛属区域的定义求出各点的极大丛属区域(MAZ);

对各MAZ之间的关系进行分析,将其按下列条件分为相互独立的极大从属区域集合,极大从属区域集合表示为M

求出各MAZ集合的

对子表中的包含关系进行分析:

如果

如果

S24、对会员分析报告表格中未覆盖的单元格进行分析,并根据布局结构将字表进行合并;

具体的,经过对整表的极大丛属区域进行分析后,表格中可能存在未被各子表覆盖的区域,此区域内部必然不包含Type9类型的交点,其区域的布局结构必为d、e、f三类布局结构中的类型之一,对于d、e布局结构类型的区域,作为一单独的子表;对于f类布局结构类型的区域,如果其右方(下方)一等高(等宽)的子表,则将此区域与其等高(等宽)的子表进行合并,否则作为一单独的子表加入子表集合。

其中,所述采用关联标注算法对分割后的独立特征表进行标注,获取分割标注后的独立特征表包括以下步骤:

S251、对分割后的独立特征表上的图文信息进行提取;

S252、连接临近的连通域,获取子图掩膜,对剩余文字进行提取;

S253、通过光学字符识别技术识别提取出的文字,输出识别结果;

S254、利用关键词提取技术进行语义解析和语义拆分,获取图文结果;

S255、将类别标签与独立特征表进行单独提取,并制作标注数据集;

S256、搭建语义一致性约束关联标注算法模型,并进行训练。

其中,所述搭建语义一致性约束关联标注算法模型,并进行训练包括以下步骤:

S2561、将所述标注数据集作为算法模型的训练集;

S2562、以极端版本的开端特征提取网络模型为基础搭建模型算法;

S2563、利用迁移学习的思想对单一形态算法模型进行训练;

S2564、对双层算法模型进行训练,提高训练速度与模型效果;

S3、基于会员用户的独立特征表对会员用户进行分类处理;

其中,所述基于会员用户的独立特征表对会员用户进行分类处理包括以下步骤:

S31、将会员用户的独立特征表进行分类组合,并将每组分类组合对应会员用户的特征属性集合;

S32、当采集到新的会员用户,遍历所有分类的特征属性集合,并将新的会员用户归类到对应的分类组合中。

具体的,当采集到新的会员用户时,例如,获取会员用户A的信息,遍历所有分类的特征属性集合,若满足条件:会员用户A特征属性集合=分类n的特征属性集合,则把会员用户A归类到分类n。

S4、采用人工打标的方式初步筛选出高净值客户;

S5、采用智能打标的方式筛选出符合要求的会员用户;

其中,所述采用智能打标的方式筛选出符合要求的会员用户包括以下步骤:

S51、获取会员用户的特征属性集合的文本数据,并对文本数据进行处理;

S52、将处理后的数据进行标签嵌入;

其中,所述将处理后的数据进行标签嵌入包括以下步骤:

S521、获取会员用户的特征属性集合的文本数据,并对文本数据进行处理,获取文本嵌入向量矩阵及标签嵌入向量矩阵;

S522、将文本嵌入向量矩阵输入到卷积神经网络算法,获取文本特征向量及文本单词的上下文嵌入表示;

其中,所述卷积神经网络算法的计算公式为:

式中,Y

表示第i个文本数据是否拥有第j个标签的真实情况;

Q表示标签数量;

B表示样本数量。

S523、将文本特征向量及文本单词的上下文嵌入表示进行标签注意力计算,获取基于标签的文本特征向量;

具体的,对文本特征向量及文本单词的上下文嵌入表示进行标签注意力计算,从而达到对文本的重点内容再次加强关注的目的。

S524、对文本特征向量及文本基于标签的文本特征向量进行最终分类,并输出文本分类结果;

其中,所述对文本特征向量及文本基于标签的特征向量进行最终分类,并输出文本分类结果的表达式为:

O=Softmax(ReLU(Wf

式中,W表示文本特征向量;

b表示文本基于标签的特征向量;

ReLU表示非线性激活函数。

具体的,文本特征向量及文本基于标签的特征向量的输出为f

S53、提取会员用户的特征属性集合并表示;

S54、训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数;

S55、训练从会员用户的特征属性集合空间映射到嵌入空间的分析器;

S56、结合分析器及解码映射关系对会员用户的特征属性集合进行多标签分类预测,筛选出符合要求的用户。

综上所述,借助于本发明的上述技术方案,本发明通过获取的会员用户的数据信息,制定初始的会员报告表,并对会员报告表进行分割及标注处理,获取会员用户的独立特征表,从而能够通过分割及标注的处理方式对会员用户信息进行归纳整理,并且对会员用户的独立特征表做分类组合,能够获取会员用户的特征属性集合,当采集到新的会员用户,遍历所有分类的特征属性集合,并将新的会员用户归类到对应的分类组合中,便于对会员用户的数据信息进行整合,提升了会员用户信息的准确性及全面性;

本发明利用交点类型阵确定独立特征表的表格结构,基于表格结构确定交点阵,保证交点阵与表格之间相对应,确定初始的会员分析报告表的极大从属区域,并对初始的会员分析报告表中的字表进行切割,对会员分析报告表格中未覆盖的单元格进行分析,并根据布局结构将字表进行合并,从而能够对所有会员用户的信息进行整合归纳,便于对出错的地方进行核实更正,从而保证表格处理的质量,由于会员信息在处理过程中经常会有许多保密性数据,出于对数据进行有效的保护,把整个会员报告表分割成许多有独立意义的区块,使每个区块包含尽可能少的信息,从而不仅对数据进行了有效保护,同时又可以提高数据录入的效率;

本发明能够通过人工打标的方式初步筛选出高净值客户,并结合分析器及解码映射关系对会员用户的特征属性集合进行多标签分类预测,筛选出符合要求的用户,从而能够使多标签分类与会员用户进行结合,进而选取高质量的会员用户。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116338129