掌桥专利:专业的专利平台
掌桥专利
首页

基于改进狼群优化K-means的用户投诉聚类分析方法

文献发布时间:2023-06-19 13:49:36


基于改进狼群优化K-means的用户投诉聚类分析方法

技术领域

本发明属于数据分析技术领域,特指一种基于改进狼群优化K-means的用户投诉聚类分析方法。

背景技术

我国电力企业在信息化建设中引进了成熟的信息储存和数据保存技术,各公司客户服务系统均已积累海量、详实的业务数据,具备高容量、多样化和实时性的特点。实际工作中,公司采用传统的数据处理方式,从客户服务数据中提取得到一些统计表格,例如人工服务率、满意率等指标,但这难以发现隐藏于数据中的业务规律,更难抽象出描述业务特点的数学模型。客户服务依赖交涉、反馈、表扬和投诉,不局限在绝对场景。客户对服务的投诉和抱怨直接反映其对服务的不满和最急迫的需求,投诉处理可反映企业员工的业务能力和管理中可能存在的问题,电力公司客户服务系统中积累了大量业务工单数据,其中隐含着客户对业务的需求和服务期望,对企业的业务提升和管理均有指导意义,随着电力企业改革进程的推进和国家营商环境的提高,降低客户投诉率,提升供电公司服务水平尤为重要。

电力用户投诉风险等级划分本质上是一种聚类分析的问题,可以使用聚类算法实现。K-means具有算法简单、快速而且能有效处理大数据集的优点,可以实现电力用户投诉风险等级的快速、高效分类。通过结合用户信息数据的不同特征,从而成功的实现对电力用户投诉行为的分类。传统K-means算法是随机选择初始聚类中心,这种随机性会对聚类结果造成很大的影响。

发明内容

针对电力用户投诉风险等级划分的问题,本发明为了提高对K-means算法的聚类准确率和稳定性,解决算法最佳聚类中心的问题,提出一种基于改进狼群的K-means聚类方法。

为实现上述目的,本发明采用的技术方案是:一种基于改进狼群优化K-means的用户投诉聚类分析方法,所述的分析方法包括如下步骤:

步骤S11:收集电力用户用电信息数据;

步骤S12:通过数据预处理方法补全用户用电信息数据;

步骤S13:基于改进狼群优化K-means的聚类算法,将电力用户用电信息数据降维;

步骤S14:选取电力用户用电信息数据特性向量;

步骤S15:对电力用户用电信息数据浓度因子分子判断。

进一步地,基于改进狼群优化K-means的聚类算法,包括如下步骤:

步骤S21:初始化狼群,设置人工狼位置X

步骤S22:执行交互游走行为,直到某匹探狼i侦察到的猎物气味浓度Y

步骤S23:猛狼根据交互召唤行为向猎物奔袭,若途中感知的猎物气味浓度Y

步骤S24:对猛狼位置进行更新,执行围攻行为;

步骤S25:按“胜者为王”的头狼产生规则对头狼位置进行更新,再按照“强者生存”的狼群更新机制进行群体更新,根据改进狼群寻优的最新位置计算新的簇中心;

步骤S26:达到结束条件时结束;否则,返回步骤S23。

进一步地,所述步骤S11中,采用最大值规范化来对数据进行范数化处理,将数值归一化到[0,1]区间;

数据归一化的公式所示:

其中,X代表用户的用电信息数据;X

进一步地,所述步骤S12中,对于缺失率大于30%的数据,进行简单的删除处理;对于缺失率小于等于30%的数据,采用插补法进行用电信息数据填充,根据已有的数据求得多项式函数L(x),其拉格朗日插值多项式为:

之后将缺失值对应的点带入插值多项式得到缺失值的近似值L(x),进而补全数据。

进一步地,所述步骤S13中,在进行聚类分析之前,采用主成分分析法对影响电力客户的影响因素进行降维,对用电量、电压等级、投诉次数、年龄、性别、总用电量、违规用电量进行主成分分析,其中:

第i个主成分的方差贡献率为:

前i个主成分的累计方差贡献率为:

其中,主成分的方差贡献率α

进一步地,所述步骤S14中,对电力用户数据集进行特征提取:用相关系数来表示它们之间的属性相关度,可得相关系数R

其中,σ

进一步地,所述步骤S22中,探狼向n个方向进行探索,n越大,寻优精度越高,为了增加探狼间的交互性及提高寻优能力,其搜索方式为:

其中:y

进一步地,所述步骤S23中:选取更好的聚类中心点Y

进一步地,所述步骤S24中,随着算法迭代次数t增加线性变化的自适应步长,其公式为:

其中:

本发明相比现有技术突出且有益的技术效果是:本发明针对电力用户等级划分的问题,提出了一种基于改进狼群优化的K-means算法,通过改进狼群算法获取数据集的最佳聚类中心,作为K-means的初始聚类中心点,解决了传统的K-Means算法实现步骤中,初始中心点易造成聚类效果局部最优,导致算法不稳定,聚类准确性下降的问题。本发明提出改进搜索策略的狼群算法,可以降低初始聚类中心选取随机性对聚类结果造成的不稳定,同时可以保证聚类的准确率,从而提升聚类的稳定性。

附图说明

图1是本发明改进狼群的K-menas流程图;

图2是本发明电力用户聚类结果图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的目标是为用电客户投诉风险划分等级,抽取不同用户的用电特征,即通过用采信息数据,根据各类用户的用户个人信息及在不同时间段的用电特点,并识别不同客户群的用电特征,并对用电数据集进行数据降维处理。

本发明提供一种基于改进狼群优化K-means的用户投诉聚类分析方法,其特征在于,所述的分析方法包括如下步骤:

步骤S11:收集电力用户用电信息数据;由于电力用户分类主要是对电力用户的典型投诉特征划分,并不是简单地用数值量进行划分,因此归一化的处理是很必要的,采用最大值规范化来对数据进行范数化处理,将数值归一化到[0,1]区间;

数据归一化的公式所示:

其中,X代表用户的用电信息数据;X

本实施例分析抽取东北地区用电采集系统部分用电量数据,采集时间间隔为1个月。电力用户分群的数据准备,从以下2个方面来准备数据:

用户档案信息,例如:年龄、用电类别、行业类别等;

用户用电信息,例如:用电量数据。

步骤S12:先进性数据预处理,本发明对用户用电信息数据进行缺失值分析与异常值分析,分析数据的规律以及异常值,通过对数据观察发现收集到的数据维度过大,不容易分析,需要从中提取用户投诉特征,提取反映数据本质的一些关键指标,以达到聚类目的,提高聚类的准确性。

之后进行特性向量选取,每个用户的投诉特征受用电量数据的影响是不同的,各项信息数据指标适用的范围都不固定,各有侧重点,而且信息数据的选择对用户投诉特征会产生很大影响。

用户投诉行为特征分析主要包括以下步骤:

步骤S121:从用电采集数据源中进行选择性抽取历史用户用电量数据和用户档案信息数据。

步骤S122:对步骤S121中的两个数据集进行数据关联、数据探索分析与预处理,包括数据缺失值与异常值的探索分析,数据的清洗和变换等。

步骤S123:利用步骤S122中形成的已完成数据预处理的建模数据,利用聚类算法进行用户投诉特征分级,对各个用电客户群进行特征分析,识别出各等级用户特征。

之后进行归一化处理,原始数据之间的值域可能存在比较大的差异,如果直接对原始数据进行处理,数值大的特征很有可能会湮没数值小的特征,使得数值小的数据没能得到有效分析。同时,由于电力用户分类主要是对电力用户的典型投诉特征划分,并不是简单地用数值量进行划分,因此归一化的处理是很必要的。本实验中采用最大值规范化来对数据进行范数化处理,将数值归一化到[0,1]区间。

数据归一化的公式为:

其中:X代表用户的用电信息数据;X

之后进行数据清洗,数据清洗主要是将电力用户历史投诉数据和用户基本数据中的无效数据作删除处理,并对缺失数据进行增补。去除所有行以及所有列大部分为空的数据和缺失率高、数值型且标准差较小的特征,当某个用户只有个人信息数据而没有用电量的数据,可以作为垃圾数据,将该数据记录规约掉。

最后通过数据预处理方法补全用户用电信息数据;对于缺失率大于30%的数据,进行简单的删除处理;对于缺失率小于等于30%的数据,由于用户信息数据具有一定的趋势特征,采用插补法能够使插补值更加精确,故采用插补法进行用电信息数据填充,根据已有的数据求得多项式函数L(x),多项式函数L(x)的求法如下:

计算已知的n个点的n-1次多项式:

y=a

将n个点的坐标(x

可得拉格朗日插值多项式为:

然后将缺失值对应的点带入插值多项式得到缺失值的近似值L(x),进而补全数据。

用电用户聚类的主要特征包括用户投诉事件类型、投诉数量、用户年龄、用户住址、年用电量、月用电量,还包括投诉受理内容是否合理、用户回访满意度等信息,但是这些因素对最终聚类效果的影响是叠加的,需要对这些特征进行降维处理,提高聚类的准确性。

步骤S13:将电力用户用电信息数据降维;在进行聚类分析之前,采用主成分分析法对影响电力客户的影响因素进行降维,对用电量、电压等级、投诉次数、年龄、性别、总用电量、违规用电量进行主成分分析,主成分分析保留了原始数据的主要信息,进而提高聚类的准确性,其利用降维的方法,将多个互相非独立的数据集,转化为相互之间独立的数据集,这些相互独立的数据集便是原先相互非独立数据集的主成分。原始数据通过线性组合的方式,得到主成分,且主成分相互之间是独立的,这样既可以保证主成分中保留了原始数据的数据特性,又保证了其独立性。

对原始数据观测m个变量,n个样本的原始数据资料矩阵如式所示。

其中,x

鉴于每个用户信息中的数据最大值不同,对用户用电信息数据进行标准化处理,得到进行聚类分析的数据矩阵。

样本矩阵每列x

样本矩阵X的方差为:

数据标准化的公式如下所示:

归一化样本矩阵中的元素以形成归一化矩阵,矩阵X的协方差矩阵Y,即相关系数矩阵,其公式为:

对于一个正交矩阵U,存在U

其中:

第i个主成分的方差贡献率为:

前i个主成分的累计方差贡献率为:

主成分的方差贡献率α

PCA将上述变量转化为综合变量如式所示。

F

F

F

简写为如下式所示:

F

其上满足:

1)F

2)F

如图1所示,本发明通过改进狼群k-means算法的流程图,采用改进搜索策略的狼群算法,包括:交互游走行为、交互召唤行为、自适应围攻行为。

本发明基于改进狼群优化K-means的聚类算法,包括如下步骤:

步骤S21:初始化狼群,设置人工狼位置X

步骤S22:执行交互游走行为,直到某匹探狼i侦察到的猎物气味浓度Y

步骤S23:猛狼根据交互召唤行为向猎物奔袭,若途中感知的猎物气味浓度Y

步骤S24:对猛狼位置进行更新,执行围攻行为;

步骤S25:按“胜者为王”的头狼产生规则对头狼位置进行更新,再按照“强者生存”的狼群更新机制进行群体更新,根据改进狼群寻优的最新位置计算新的簇中心;

步骤S26:达到结束条件(最佳位置或最大迭代次数)时结束;否则,返回步骤S23。

本方法的交互游走行为中,探狼向n个方向进行探索,n越大,寻优精度越高,但算法寻优速度将会下降,最佳聚类中心点易陷入局部最优;n过小,造成聚类中心点不精确,甚至出现无法寻求聚类中心点的情况。出现上述情况的原因在于探狼间缺少必要的信息交互,不能及时了解“同伴”的信息,影响探狼的全局搜索能力。为了增加探狼间的交互性及提高寻优能力,其搜索方式为:

其中:y

本方法的交互召唤行为中,猛狼要不断地奔袭,直至d

本方法的自适应围攻行为中,围攻行为要求猛狼具有较强的局部寻优能力。具有随机性与不确定性,随着算法的不断进化,当前最优解越趋近全局最优解,猛狼开采能力应越强,使算法快速收敛全局最优解,在算法中加入调节机制是一种较好的改进方向,为了使围攻行为具备自适应的调节能力,本发明将随机步长λ改为随着算法迭代次数t增加线性变化的自适应步长,其公式为:

其中:

采用本方法可实现投诉用户等级的有效分类,该方法不仅减少了聚类中使用的变量数量,而且保留了原始变量中包含的重要信息,简化了实际应用和操作,提高了聚类精度。如图2所示,本发明可以将电力用户划分为高风险用户、低风险用户、一般风险用户、好用户、不好用户。这种分类方法有助于电力公司对用户进行分类。在此基础上,结合信用等级等,可以针对部分用户制定相应的风险防范策略,构建早期预警平台,可以防止电力公司拖欠电费和偷电,带来巨大的经济效益好处。

步骤S14:选取电力用户用电信息数据特性向量;对电力用户数据集进行特征提取:用相关系数来表示它们之间的属性相关度,可得相关系数R

其中,σ

步骤S15:对电力用户用电信息数据浓度因子分子判断;所述步骤S15中,在显著性水平为0.05的前提下剔除零假设,说明初始数据具有内部相关性和信息冗余,适合使用因子分析法进行数据处理和统计分析。满足并超过临界值0.5,意味着适合因子分析,模型数据符合因子分析方法。保留了初始数据的总变量。然而,因素集中的影响也消除了。因子分析的主要问题是如何在因子集中的前提下保持初始数据的信息解释能力。在选择要素规模时,需要平衡要素集中度和信息留存。

上述实施例仅为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明说明中所使用的术语,只是为了描述具体得实施方式的目的,不是旨在于限制本发明。

相关技术
  • 基于改进狼群优化K-means的用户投诉聚类分析方法
  • 基于改进k-means聚类算法的新能源出力场景分析方法及系统
技术分类

06120113820911