掌桥专利:专业的专利平台
掌桥专利
首页

一种改进多层感知机的电信客户流失预测方法及系统

文献发布时间:2023-06-19 11:05:16


一种改进多层感知机的电信客户流失预测方法及系统

技术领域

本发明涉及客户流失预测领域,具体涉及一种改进多层感知机的电信客户流失预测方法及系统。

背景技术

随着行业之间的竞争愈发激烈,企业家开始意识到,减少老客户的流失应该作为公司的首要目标。客户保留策略主要针对于高风险的潜在流失客户,改善其现有服务,降低其流失可能性。另外,经研究表明,吸引一个新用户所需的成本远高于保留一个老用户的成本。因此,及时并准确的识别潜在流失客户对于企业降低成本是至关重要的。

客户流失预测是客户管理关系的一个重要组成部分,包括业务分析,数据分析,数据预处理,建模,评估和部署。当前在客户流失数据中其指标特征主要来源于与客户相关的人口统计特征、消费行为特征、客户接触特征、客户合同数据、市场产品属性等组合方式,一般不在数据处理中进行数据属性选择和特征提取与选择等技术,只是将需预测的数据属性或特征与训练数据的属性或特征按照某种原则进行匹配,来完成预测估计。但是,对于传统预测模型结构,如果客户数据特征属性增多,其指标间有非线性特点,在这样的条件下,传统模型结构没有办法进行指标特征的有效选择,同时也无法获得指标属性之间的二阶或二阶以上的数据统计特征。同时,传统模型结构所使用的原始数据属性指标基本独立于预测模型,即为模型结构的外部特征属性,其客户数据内部特征的分析不够充分,当更多的数据指标加入原始样本数据时,原有的预测模型结构很难准确地预测估计未来的潜在流失客户。

发明内容

本发明提供一种改进多层感知机的电信客户流失预测方法及系统,用于针对复杂客户数据,提高客户流失预测的准确度。

本发明第一个方面提供一种改进多层感知机的电信客户流失预测方法,包括:

对客户数据进行预处理,获得预处理数据;

对所述预处理数据进行属性选择,构成数据属性子集;

采用融合实体嵌入的多层感知机模型对所述数据属性子集构建特征集;

根据所述集构建特征集构建预测模型;

根据所述预测模型输出预测结果。

可选地,所述融合实体嵌入的多层感知机模型包含n个编码层、n个嵌入层、全连接层和输出层;第N个所述编码层与第N个所述嵌入层对应;

每个所述编码层对所述数据属性子集进行编码,获得n个离散属性编码后的向量;

所述n个嵌入层对所述n个离散属性编码后的向量进行映射;

所述全连接层对映射后的所述n个离散属性编码后的向量和预处理数据进行拟合,获得拟合数据;

所述输出层根据所述拟合数据输出所述建特征集。

可选地,所述n个嵌入层对所述n个离散属性编码后的向量进行映射,满足如下公式:

j=1,2,…,n:x

其中,x

可选地,所述客户数据包含正类样本和负类样本;所述对客户数据进行预处理,获得预处理数据,包括:

对客户数据进行欠抽样获得所述预处理数据,以保留所述正类样本,并随机移除部分所述负类样本;或,

对客户数据进行重复抽样获得所述预处理数据。

可选地,所述对所述预处理数据进行属性选择,构成数据属性子集,包括:

根据概率估计与分类规则获得所述预处理数据的原始指标属性集合中的最优属性集作为所述数据属性子集。

本发明第二个方面提供一种改进多层感知机的电信客户流失预测系统,包括:预处理模块、属性选择模块、特征提取模块、模型建立模块和预测模块;

所述预处理模块,用于对客户数据进行预处理,获得预处理数据;

所述属性选择模块,用于对所述预处理数据进行属性选择,构成数据属性子集;

所述特征提取模块,用于采用融合实体嵌入的多层感知机模型对所述数据属性子集构建特征集;

所述模型建立模块,用于根据所述集构建特征集构建预测模型;

所述预测模块,用于根据所述预测模型输出预测结果。

可选地,所述融合实体嵌入的多层感知机模型包含n个编码层、n个嵌入层、全连接层和输出层;第N个所述编码层与第N个所述嵌入层对应;

每个所述编码层对所述数据属性子集进行编码,获得n个离散属性编码后的向量;

所述n个嵌入层对所述n个离散属性编码后的向量进行映射;

所述全连接层对映射后的所述n个离散属性编码后的向量和预处理数据进行拟合,获得拟合数据;

所述输出层根据所述拟合数据输出所述建特征集。

可选地,所述n个嵌入层对所述n个离散属性编码后的向量进行映射,满足如下公式:

j=1,2,…,n:x

其中,x

可选地,所述客户数据包含正类样本和负类样本;所述预处理模块,具体用于:

对客户数据进行欠抽样获得所述预处理数据,以保留所述正类样本,并随机移除部分所述负类样本;或,

对客户数据进行重复抽样获得所述预处理数据。

可选地,所述属性选择模块,具体用于根据概率估计与分类规则获得所述预处理数据的原始指标属性集合中的最优属性集作为所述数据属性子集。

本发明实施例提供的改进多层感知机的电信客户流失预测方法及系统,通过对客户数据进行预处理,获得预处理数据;进而对预处理数据进行属性选择,构成数据属性子集;再采用融合实体嵌入的多层感知机模型对数据属性子集构建特征集;并根据集构建特征集构建预测模型;最终根据预测模型输出预测结果。从而能基于复杂的客户数据进行预测处理,改进了传统预测判别方法,对于提高客户流失管理的信息化水平有极大的作用。由于基于数据特征的变化,以属性选择、数据特征提取与选择和预测分类器设计等步骤对客户数据进行梳理,提高了预测的准确度。

附图说明

图1为现有技术的客户流失预测模型示意图;

图2为本发明实施例提供的一种改进多层感知机的电信客户流失预测方法的示意图;

图3为本发明实施例提供的一种融合实体嵌入的多层感知机模型的示意图;

图4A为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图;

图4B为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图;

图5为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图;

图6为发明实施例提供的一种改进多层感知机的电信客户流失预测系统的示意图。

具体实施方式

图1为现有技术的客户流失预测模型示意图,参见图1,当前在客户流失数据中其指标特征主要来源于与客户相关的人口统计特征、消费行为特征、客户接触特征、客户合同数据、市场产品属性等组合方式,一般不在数据处理中进行数据属性选择和特征提取与选择等技术,只是将需预测的数据属性或特征与训练数据的属性或特征按照某种原则进行匹配,来完成预测估计。

对于图1所示的预测模型结构,如果客户相关指标属性特征不多或特征之间是线性的,则现有模型的预测效果是明显的,即这类预测模型框架较适应客户相关数据特征属性较为简单活客户数据样本分布规律性较强的预测。但是,如果客户数据特征属性增多,其指标间有非线性特点,在这样的条件下,传统模型结构没有办法进行指标特征的有效选择,同时也无法获得指标属性之间的二阶或二阶以上的数据统计特征。同时,传统模型结构所使用的原始数据属性指标基本独立于预测模型,即为模型结构的外部特征属性,其客户数据内部特征的分析不够充分,当更多的数据指标加入原始样本数据时,原有的预测模型结构很难准确地预测估计未来的潜在流失客户。当然,原始客户数据集收集时也会受到各类“噪声”的影响,存在一定的误差。所以,上述影响因素的出现使得所构建的预测模型在实际应用中不够理想。这样,为了获得高维度、大规模数据的有效预测特征,建立新的客户流失预测模型结构势在必行。

为了解决现有技术的上述技术问题,本发明的下述实施例给出一种可能的实现方式。

具体的,图2为本发明实施例提供的一种改进多层感知机的电信客户流失预测方法的示意图,参见图2,该方法包括如下步骤:

步骤100、对客户数据进行预处理,获得预处理数据;

步骤101、对预处理数据进行属性选择,构成数据属性子集;

步骤102、采用融合实体嵌入的多层感知机模型对数据属性子集构建特征集;

步骤103、根据集构建特征集构建预测模型;

步骤104、根据预测模型输出预测结果。

本发明实施例提供的改进多层感知机的电信客户流失预测方法,通过对客户数据进行预处理,获得预处理数据;进而对预处理数据进行属性选择,构成数据属性子集;再采用融合实体嵌入的多层感知机模型对数据属性子集构建特征集;并根据集构建特征集构建预测模型;最终根据预测模型输出预测结果。从而能基于复杂的客户数据进行预测处理,改进了传统预测判别方法,对于提高客户流失管理的信息化水平有极大的作用。由于基于数据特征的变化,以属性选择、数据特征提取与选择和预测分类器设计等步骤对客户数据进行梳理,提高了预测的准确度。

近些年,由于GPU运算速度的提升,数据量的不断增长和模型架构的优化,深度神经网络在计算机视觉,语音识别和机器翻译等方面取得了巨大的进步,并且准确度远高于大部分传统模型。在客户流失预测领域,深度神经网络模型多层感知机的应用大幅提高了模型的准确率和时效性,然而与图像、语音等非结构化数据不同的是客户数据中含有大量离散属性,这些离散数据是无法被神经网络拟合的,这就使得多层感知机不能充分发挥其优势。

进一步地,上述预处理数据的数据属性通常包含离散属性的数据,其中,离散属性指的是结构化数据中具有有限或无限可数个值,可以用或不用整数表示的属性,包括序数属性、二元属性和标称属性。

在客户流失预测中,用户数据中的离散属性特征几乎不存在连续性,极大地影响了损失函数的收敛,如果只是简单将这些离散数据用整数表征,那么神经网络的效果自然不理想。通常情况下,为了解决上述问题,我们使用one-hot编码来处理离散数据,但这种方式存在两个弊端:第一,在样本量较大的情况下,one-hot编码会产生大量稀疏数据,既影响了分类器的准确度。第二,完全独立的处理离散属性中不同的值,忽略了不同值之间的内在关系。

优选地,为了能够解决上述离线属性特征带来的技术问题,下面给出一种可能的实现方式,其核心改进在于:引入融合实体嵌入的多层感知机模型对离散属性编码后的向量进行映射,从而通过反向传播,在优化预测模型的同时优化嵌入过程。

具体地,图3为本发明实施例提供的一种融合实体嵌入的多层感知机模型的示意图,参见图3,融合实体嵌入的多层感知机模型包含n个编码层、n个嵌入层、全连接层和输出层;第N个编码层与第N个嵌入层对应;

每个编码层对数据属性子集进行编码,获得n个离散属性编码后的向量;

n个嵌入层对n个离散属性编码后的向量进行映射;

全连接层对映射后的n个离散属性编码后的向量和预处理数据进行拟合,获得拟合数据;

具体的,该预处理数据为数值型数据。

输出层根据拟合数据输出建特征集。

其中,n个嵌入层对n个离散属性编码后的向量进行映射,满足如下公式:

j=1,2,…,n:x

其中,x

由于客户流失是稀有事件,这样就造成了存在客户与流失客户之间的类不平衡性,即数据中的一类样本在数量上远多于另一类,其中作为少数类的客户流失样本是我们主要关心的时象,称为正类,另一类则称为负类。不平衡性数据是目前传统机器学习算法的主要障碍之一,传统机器学习算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。因此,客户数据包含正类样本和负类样本,在预处理数据的过程中,可能出现正类样本与负类样本的不平衡性问题,为了对不平衡性进行弥补,下面给出两种可能的实现方式:

方式一:在图2的基础上,图4A为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图,步骤100具体为:

步骤100A、对客户数据进行欠抽样获得预处理数据,以保留正类样本,并随机移除部分负类样本。

或,方式二:在图2的基础上,图4B为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图,步骤100具体为:

步骤100B、对客户数据进行重复抽样获得预处理数据。

具体的,重复抽样法是为改进欠抽样法移除大量负类的缺陷而提出的。重复抽样法是多次进行欠抽样,使得负类中的样本经可能地被学习,减少有用信息的丢失。

可选地,为了降低原始数据收集的主观性,从而获得有效地预测估计。下面给出一种可能的实现方式,在图2的基础上,图5为本发明实施例提供的另一种改进多层感知机的电信客户流失预测方法的流程示意图,其中,步骤101具体为:

步骤101A、根据概率估计与分类规则获得预处理数据的原始指标属性集合中的最优属性集作为数据属性子集。

原始数据属性一般采用经验方法进行判别,其主观性的问题很难克服,同时,数据收集出现的“噪声”会导致原始数据在所处空间的分布无规律,会引起预测模型的效率低下。因此,引入属性选择原始数据在数据原始空间进行属性有序约简,将有效提高模型的预测能力。

为了执行上述实施例示出的方法流程,下面给出一种改进多层感知机的电信客户流失预测系统的可能的实现方式,具体的,图6为发明实施例提供的一种改进多层感知机的电信客户流失预测系统的示意图,参见图6,该系统20,包括:预处理模块200、属性选择模块201、特征提取模块202、模型建立模块203和预测模块204;

预处理模块200,用于对客户数据进行预处理,获得预处理数据;

属性选择模块201,用于对预处理数据进行属性选择,构成数据属性子集;

特征提取模块202,用于采用融合实体嵌入的多层感知机模型对数据属性子集构建特征集;

模型建立模块203,用于根据集构建特征集构建预测模型;

预测模块204,用于根据预测模型输出预测结果。

本发明实施例提供的改进多层感知机的电信客户流失预测系统,通过预处理模块对客户数据进行预处理,获得预处理数据;进而属性选择模块对预处理数据进行属性选择,构成数据属性子集;再通过特征提取模块采用融合实体嵌入的多层感知机模型对数据属性子集构建特征集;模型建立模块根据集构建特征集构建预测模型;最终预测模块根据预测模型输出预测结果。从而能基于复杂的客户数据进行预测处理,改进了传统预测判别方法,对于提高客户流失管理的信息化水平有极大的作用。由于基于数据特征的变化,以属性选择、数据特征提取与选择和预测分类器设计等步骤对客户数据进行梳理,提高了预测的准确度。

可选地,融合实体嵌入的多层感知机模型包含n个编码层、n个嵌入层、全连接层和输出层;第N个编码层与第N个嵌入层对应;

每个编码层对数据属性子集进行编码,获得n个离散属性编码后的向量;

n个嵌入层对n个离散属性编码后的向量进行映射;

全连接层对映射后的n个离散属性编码后的向量和预处理数据进行拟合,获得拟合数据;

输出层根据拟合数据输出建特征集。

可选地,n个嵌入层对n个离散属性编码后的向量进行映射,满足如下公式:

j=1,2,…,n:x

其中,x

可选地,客户数据包含正类样本和负类样本;预处理模块200,具体用于:

对客户数据进行欠抽样获得预处理数据,以保留正类样本,并随机移除部分负类样本;或,

对客户数据进行重复抽样获得预处理数据。

可选地,属性选择模块201,具体用于根据概率估计与分类规则获得预处理数据的原始指标属性集合中的最优属性集作为数据属性子集。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种改进多层感知机的电信客户流失预测方法及系统
  • 一种基于端对端模型的电信客户流失概率预测方法及系统
技术分类

06120112792106