导航：首页> 燃烧发动机；热气或燃烧生成物的发动机装置>一种数据处理方法、系统、存储介质及电子设备

一种数据处理方法、系统、存储介质及电子设备

文献发布时间：2023-06-19 19:05:50

技术领域

本申请涉及数据处理技术领域，更具体地说，涉及一种数据处理方法、系统、存储介质及电子设备。

背景技术

随着社会经济的快速发展，为助力实体经济发展，鼓励金融创新，普惠企业贷款产品应运而生。

传统商业银行主要采用要素评分法筛选出待营销的客户后，向该客户提供普惠企业贷款产品。

由于要素评分法没有采用大数据的方法，营销效率低，使得营销成功的客户违约概率大，造成要素评分法筛选出客户后难以平衡预期收益与潜在风险，使得无法满足客户对贷款额度的需求，造成营销响应率低。

因此，如何提高营销响应率，是本申请亟需解决的问题。

发明内容

有鉴于此，本申请公开了一种数据处理方法、系统、存储介质及电子设备，旨在使得营销响应模型产出的客户清单精准度高和提高营销响应率。

为了实现上述目的，其公开的技术方案如下：

本申请第一方面公开了一种数据处理方法，所述方法包括：

获取待处理数据；所述待处理数据表征经过变量筛选操作后的无多重共线性的变量；

通过预先构建的营销响应模型，对所述待处理数据进行模型评估，得到概率结果；所述概率结果为通过所述营销响应模型预测得到的营销响应率的概率结果；

通过所述模型概率结果，确定各个得分区间；所述各个得分区间为未授信客户的营销评分区间；

确定所述各个得分区间的所有样本数和预测营销成功的样本个数；

通过所述各个得分区间的所有样本数和所述预测营销成功的样本个数，确定各得分区间的模型响应率；

当所述模型响应率大于等于预设阈值时，根据所述模型响应率确定对应的营销资源。

优选的，所述获取待处理数据，包括：

获取原始变量；所述原始变量为未经过变量筛选操作的变量；

对所述原始变量进行卡方分箱，得到各个分箱后的变量；所述卡方分箱用于判断相邻两个区间是否有分布差异；

当各个分箱后的变量符合预设变量条件时，获取各个分箱后的变量对应的信息值；所述预设变量条件由分箱后每个箱体的依次递增的营销响应率、在每个区间防止样本偏移条件和每个区间的特征变换值确定；

选取在预设阈值范围内各个分箱后的变量对应的信息值，并通过预设剔除算法剔除在预设阈值范围内各个分箱后的变量对应的信息值中的冗余变量，得到待处理数据。

优选的，构建营销响应模型的过程，包括：

获取预设比例的样本数据；所述样本数据至少包括正样本和负样本；所述正样本表征预设时段内有授信记录的样本数据；所述负样本为在所述预设时段内没有授信记录的样本数据；

获取原始变量；所述原始变量为未经过变量筛选操作的变量；

对所述原始变量进行变量衍生，得到所述原始变量对应的衍生变量；

对所述原始变量和所述衍生变量进行数据分析；所述数据分析至少包括构建所述营销响应模型所需的各个数据表之间主键关系分析、数据完备性检查和数据质量检查；

将分析后的原始变量和分析后的衍生变量确定为建模样本，并通过所述建模样本和预设模型算法构建营销响应模型。

优选的，所述通过所述模型概率结果，确定各个得分区间，包括：

对所述模型概率结果进行评分转换，得到各个得分区间。

优选的，所述确定所述各个得分区间的所有样本数和预测营销成功的样本个数，包括：

统计所述各个得分区间的所有样本数；

在预设时段内，当监测到签约的预设营销产品时，统计所有样本数中签约的预设营销产品所对应的样本数，并将所有样本数中签约的预设营销产品所对应的样本数确定为预测营销成功的样本个数。

优选的，还包括：

通过预设评估指标，对所述营销响应模型进行模型评估。

优选的，还包括：

通过预设测算方式，测算所述营销响应模型的预授信额度；

通过所述预授信额度测算信用产品的额度。

本申请第二方面公开了一种数据处理系统，所述系统包括：

获取单元，用于获取待处理数据；所述待处理数据表征经过变量筛选操作后的无多重共线性的变量；

第一评估单元，用于通过预先构建的营销响应模型，对所述待处理数据进行模型评估，得到概率结果；所述概率结果为通过所述营销响应模型预测得到的营销响应率的概率结果；

第一确定单元，用于通过所述模型概率结果，确定各个得分区间；所述各个得分区间为未授信客户的营销评分区间；

第二确定单元，用于确定所述各个得分区间的所有样本数和预测营销成功的样本个数；

第三确定单元，用于通过所述各个得分区间的所有样本数和所述预测营销成功的样本个数，确定各得分区间的模型响应率；

第四确定单元，用于当所述模型响应率大于等于预设阈值时，根据所述模型响应率确定对应的营销资源。

本申请第三方面公开了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的数据处理方法。

本申请第四方面公开了一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的数据处理方法。

经由上述技术方案可知，本申请公开了一种数据处理方法、系统、存储介质及电子设备，获取待处理数据，待处理数据表征经过变量筛选操作后的无多重共线性的变量，通过预先构建的营销响应模型，对待处理数据进行模型评估，得到概率结果，概率结果为营销响应模型预测得到的营销响应率的概率结果，通过模型概率结果，确定各个得分区间，各个得分区间为未授信客户的营销评分区间，确定各个得分区间的所有样本数和预测营销成功的样本个数，通过各个得分区间的所有样本数和所述预测营销成功的样本个数，确定各得分区间的模型响应率，当模型响应率大于等于预设阈值时，根据模型响应率确定对应的营销资源。通过上述方案，无需通过人为经验筛选出待营销客户，只需通过客户信息、信用变化等构建预设营销响应模型，定期自动筛选营销客户，使得营销响应模型产出的客户清单精准度高，将大于等于预设阈值的模型响应率投入相应的营销资源，为客户测定贷款额度，满足客户对贷款额度的需求，从而提高营销响应率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种数据处理方法的流程示意图；

图2为本申请实施例公开的原始变量完成变量衍生的示意图；

图3为本申请实施例公开的对原始变量和衍生变量进行数据分析的示意图；

图4为本申请实施例公开的一种数据处理系统的结构示意图；

图5为本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，传统方法筛选出客户后难以平衡预期收益与潜在风险，使得无法满足客户对贷款额度的需求，造成营销响应率低。因此，如何提高营销响应率，是本申请亟需解决的问题。

为了解决上述问题，本申请公开了一种数据处理方法、系统、存储介质及电子设备，获取待处理数据，待处理数据表征经过变量筛选操作后的无多重共线性的变量，通过预先构建的营销响应模型，对待处理数据进行模型评估，得到概率结果，概率结果为营销响应模型预测得到的营销响应率的概率结果，通过模型概率结果，确定各个得分区间，各个得分区间为未授信客户的营销评分区间，确定各个得分区间的所有样本数和预测营销成功的样本个数，通过各个得分区间的所有样本数和预测营销成功的样本个数，确定模型响应率，当模型响应率大于等于预设阈值时，根据模型响应率确定对应的营销资源。通过上述方案，无需通过人为经验筛选出待营销客户，只需通过客户信息、信用变化等构建预设营销响应模型，定期自动筛选营销客户，使得营销响应模型产出的客户清单精准度高，将大于等于预设阈值的模型响应率投入相应的营销资源，为客户测定贷款额度，满足客户对贷款额度的需求，从而提高营销响应率。具体实现方式通过下述实施例进行说明。

本申请的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

参考图1所示，为本申请实施例公开的一种数据处理方法，该数据处理方法主要包括如下步骤：

S101：获取待处理数据；待处理数据表征经过变量筛选操作后的无多重共线性的变量。

其中，变量筛选操作用于筛选出无多重共线性的变量。无多重共线性是指回归模型中的解释变量之间不存在由于精确相关关系或高度相关关系而使回归模型估计失真或难以估计准确的情况。

变量筛选操作包括卡方分箱、分箱后的变量对应的信息值(Information Value，IV)计算、相关性分析、多重共线性分析、显著性检验和模型算法选择。

IV值计算：

用来判断该指标的重要性，一般来说IV值越大指标的重要性越高，也会导致模型结果越好。IV值的确定本申请不做具体限定。本申请IV值优选0.02作阈值，选取有一定预测能力的指标。对于IV值大于0.7的指标，需要单独检查业务含义；对于IV值大于等于预设值的指标，可能会使模型过拟合，本申请不采用IV值大于等于预设值的变量。其中，预设值可以是1、2等。预设值的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

相关性分析：

为了降低营销响应模型变量相关性、剔除冗余信息，营销响应模型采用皮尔逊相关系数检验变量两两相关性，对相关性过高的2个指标，保留其IV值较大的一个。

多重共线性分析：

为了检测营销响应模型的预测变量间是否存在严重的多重共线性，模型通过计算方差膨胀系数(VarianceInflationFactor，VIF)，将VIF过高的变量剔除。

显著性检验：

在信用贷款方面，本申请采用前向回归的方法，先进行拟合模型，然后进行回归系数的显著性检验得到假定(Pvalue)值，当指标P值大于阈值时剔除，并重新计算指标P值，直到所有指标全部都满足P<阈值停止。

其中，P值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。

P值就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。如果P值小，说明原假设情况的发生的概率小，而如果出现了，根据小概率原理，就有理由拒绝原假设，P值越小，拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。

P值越小说明指标对于目标值的显著性越高，且变量系数越大。在抵押贷款方面，本申请采用前向回归的方法，先进行拟合营销响应模型，然后进行回归系数的显著性检验得到P值，当指标P值大于阈值时，剔除，并重新计算指标P值，直到所有指标全部都满足P<阈值停止。

在显著性检验里面，提前设定一个阈值，当做逐步前向回归的时候，把候选的自变量逐个引入回归方程，每一组变量都能计算出一个P值，计算出来的P值越大。说明新加入的变量显著性越低。

模型算法：

分别运用了逻辑回归、决策树、随机森林和基于决策树算法的分布式梯度提升框架(LightGradientBoostingMachine，LightGBM)这四种模型建模预测。

变量筛选操作需要满足下述4个条件：分组后营销响应率的趋势单调、分箱结果符合业务经验和期望、每个区间有至少预设数量防止短期内样本偏移和每个区间的特征变换值(WeightofEvidence，WOE)不能相同。

其中，分组后营销响应率的趋势单调是指分箱后，每个箱体能算出各自的总体营销成功率。变量分箱后，每个箱体的营销成功率都是单调的。直观上好解释，比如一个变量近三个月存款余额，分箱分成3个箱体，负数-10000，10000-50000，50000-无穷。单调性就是营销成功率依次递增。

每个区间有至少预设数量防止短期内样本是统计学上的操作，5％阈值也可调整成10％的阈值。假设如果一类变量有10000个观察样本，但是分箱后，某个箱体只有几个样本，那这个箱体是否具备普遍性是存疑的。(前提是，分箱后在同一个箱体里面的数据是被认为具备某些共同特性的，比如年龄的分箱，可以分成年轻人，中年人，老年人)。预设数量可以是3％、5％等，具体预设数量的确定由技术人员根据实际情况进行设置，本申请不做具体限定。本申请的预设数量优选5％。

WOE用于分析特征各个分箱对目标变量的检测能力。IV值用于衡量变量特征预测能力的关键指标。IV值与WOE的关系如公式(1)所示

其中，n为变量分组总个数；i为第i个变量分组，i的取值为大于等于1的整数；P(Bad

获取待处理数据的过程如下A1-A4所示。

A1：获取原始变量；原始变量为未经过变量筛选操作的变量。

A2：对原始变量进行卡方分箱，得到各个分箱后的变量；卡方分箱用于判断相邻两个区间是否有分布差异。

其中，卡方分箱依赖于卡方检验的分箱方法，基本思想是判断2个相邻区间是否有分布差异，基于卡方统计量进行自上而下的合并。卡方分箱可离散化连续变量，使得原始变量更容易使用与解释。

A3：当各个分箱后的变量符合预设变量条件时，获取各个分箱后的变量对应的信息值；预设变量条件由分箱后每个箱体的依次递增的营销响应率、在每个区间防止样本偏移条件和每个区间的WOE值确定。

A4：选取在预设阈值范围内各个分箱后的变量对应的信息值，并通过预设剔除算法剔除在预设阈值范围内各个分箱后的变量对应的信息值中的冗余变量，得到待处理数据。

其中，预设剔除算法可以是方差膨胀系数，也可以是其他剔除算法，具体预设剔除算法的确定本申请不做具体限定。

为了检测营销响应模型的预测变量间是否存在严重的多重共线性，模型通过计算方差膨胀系数(VarianceInflationFactor，VIF)，将VIF过高的变量剔除，得到待处理数据。

VIF表示某个自变量能被其它自变量解释的程度，VIF值越高，多重共线性越严重。

S102：通过预先构建的营销响应模型，对待处理数据进行模型评估，得到概率结果；概率结果为通过营销响应模型预测得到的营销响应率的概率结果。

其中，模型评估用于检查营销响应模型结果的重要工作，营销响应模型主要判别指标有精准率、召回率、衡量统计营销响应模型的预测准确率(AUC)、衡量模型的区分能力(Kolmogorov–Smirnov，KS)、模型的稳定性指标(PopulationStabilityIndex，PSI)等。

其中，KS用于统计正负样本累计分布之间的最大差异，衡量模型的区分能力。

PSI为不同时间段的两个样本里客户在每个得分区间占比情况对比，可用于衡量模型的稳定性。

具体构建营销响应模型的过程如B1-B5所示。

B1：获取预设比例的样本数据；样本数据至少包括正样本和负样本；正样本表征预设时段内有授信记录的样本数据；负样本为在预设时段内没有授信记录的样本数据。

其中，样本选择的方式如下：截至时间点T，筛选客户规模类型为小型、小微、微型的客户作为全量样本，选取T到T+3个月内有授信记录的作为正样本，否则设置为负样本。使用计算机编程语言(python)工具构建分类模型，随机抽样后的正负样本比，信用类为1:4，抵押类为1:5。

B2：获取原始变量；原始变量为未经过变量筛选操作的变量。

其中，可用于衍生的原始变量是行为类变量，如近3个月日均存款y1、近6个月日均存款y2和近12个月日均存款y3，可以衍生出近3个月日均存款与近6个月日均存款比值、近3个月日均存款与近12个月日均存款比值、近6个月日均存款与近12个月日均存款比值。这3个衍生变量可用于表征客户存款行为在观察时间节点前的变化趋势。

B3：对原始变量进行变量衍生，得到原始变量对应的衍生变量。

在现有数据基础上，收集精准营销模型构建所需的各种数据表，并基于原始变量完成变量衍生。模型选取了八个类型的多个变量进行数据分析，主要包括基本信息、客户信息、活跃变化、信用变化、交易行为、消费行为、评分信息和其他行为等。

具体将多个变量进行数据分析的过程可参考图2所示，图2示出了原始变量完成变量衍生的示意图。图2仅为示例。

图2中，基本信息，如年龄、婚姻状态和学历等。客户的基本信息可以衍生出新变量，例如：我们可以制定规则对连续且有序的变量【年龄】进行分箱处理，分为青少年、中年、老年，分别赋值为1、2、3。

其中，客户信息，如客户时点资产管理规模(AssetUnderManaaement，AUM)、存款时点余额、贷款账户数等；AUM值是指衡量金融机构资产管理业务规模的指标，是该机构当前管理客户资产的总市值。

活跃变化，如近x个月手机银行贷款查询次数、近x个月手机银行页面浏览次数等，其中x的取值为大于等于1的整数。

信用变化，如近x个月逾期月份数、近x个月最大逾期月数等。

交易行为，如近x个月资金流入流出占比、近x个月净利润、近x个月渠道交易次数等。

消费行为，如近x个月消费金额笔数、近x个月消费金额笔数增幅、近x个月最大消费金额等。

评分信息，如信用风险评分等。

其他行为，如近x个月提现次数、投诉次数等。

B4：对原始变量和衍生变量进行数据分析；数据分析至少包括构建营销响应模型所需的各个数据表之间主键关系分析、数据完备性检查和数据质量检查。

其中，对营销响应模型数据源(原始变量和衍生变量)进行数据分析(探索性分析)，完成数据表之间主键关系分析、数据完备性检查和数据质量检查等。

主键关系分析，就是分析数据库中各个表结构。一张表的每一行(也就是一个样本)，一定要有唯一可识别的变量作为主键。例如：个人客户信息表，主键就可以是唯一的客户编号。

数据质量检查包括完成缺失值分类填补、剔除异常数据比例过大的字段以及数据分布不符合业务期望的字段等。

具体对营销响应模型数据源(原始变量和衍生变量)进行数据分析的过程，结合图3进行说明，图3示出了对原始变量和衍生变量进行数据分析的示意图。

图3中，将获取到的个人客户基本信息、个人客户汇总信息导入数据库后进行数据质量检查和数据清洗，得到客户数据，剔除客户数据中异常数据比例过大的字段以及数据分布不符合业务期望的字段，并将剔除后的客户数据确定为样本；将个人交易汇总、对公汇总信息、对公客户特征主表、个人客户手机银行信息等信息导入数据库后进行数据质量检查和数据清洗；将小微企业授信台账信息、对公客户基本信息等导入数据库后进行数据质量检查和数据清洗，响应上述客户数据，并将响应客户数据确定为响应样本，通过样本和响应样本得到建模样本，建模样本可用于构建营销响应模型。

其中，响应客户数据是指建模的时候，得先选择有标签的样本进行模型的训练，因此会选择某个时间段内没有授信的客户作为样本(如21年6月到9月)，再在另外一个时间点进行观测(21年10月底)，这批客户中有新增授信记录的就是正样本，也就是响应的客户数据。否则为负样本。

B5：将分析后的原始变量和分析后的衍生变量确定为建模样本，并通过建模样本和预设模型算法构建营销响应模型。

其中，预设模型算法分别运用了逻辑回归、决策树、随机森林和lightGBM这四种模型建模预测。

通过预设评估指标，对营销响应模型进行模型评估。

模型评估是用来检查营销响应模型结果的重要工作，营销响应模型的预设评估指标有精准率、召回率、AUC、KS、PSI等。最终基于模型结果稳定性以及特征解释能力，选择逻辑回归作为最终模型。

S103：通过模型概率结果，确定各个得分区间；各个得分区间为未授信客户的营销评分区间。

在S103中，对模型概率结果进行评分转换，得到各个得分区间。

其中，授信指的是企业或者是个人向金融贷款机构申请贷款时，贷款机构会根据用的财务情况以及信用情况给与用户或者企业一个准许的贷款额度。

未授信客户指的是没有申请并获得金融贷款机构贷款额度的客户。

由于营销响应模型的主体是一个逻辑回归，自变量经过逻辑回归后生成的因变量是一个概率值。为了能利用上模型概率结果，需要做评分转换，营销成功率的概率值越大的，评分越高。

S104：确定各个得分区间的所有样本数和预测营销成功的样本个数。

在营销响应模型训练的时候会划分有训练集和测试集，训练集和测试集都是有标签的，即知道这个客户在一段时间后是否会签约小微快贷产品。因此可以知道营销后是否能成功，所以可以统计预测营销成功的样本个数。

具体确定各个得分区间的所有样本数和预测营销成功的样本个数的过程如C1-C2所示。

C1：统计各个得分区间的所有样本数。

C2：在预设时段内，当监测到签约的预设营销产品时，统计所有样本数中签约的预设营销产品所对应的样本数，并将所有样本数中签约的预设营销产品所对应的样本数确定为预测营销成功的样本个数。

其中，预设时段可以是2天，也可以是5天，具体预设时段的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

S105：通过各个得分区间的所有样本数和预测营销成功的样本个数，确定各得分区间的模型响应率；模型响应率用于衡量评分卡模型预测能力的指标。

其中，模型响应率要满足分数越高，响应率越高的单调性原则，且各个得分区间模型响应率等于设定值。不满足上述2个条件，就说明变量选择有问题，需要重新建模。

设定值可以是0.1、0.2等，具体设定值得确定由技术人员根据实际情况进行设置，本申请不做具体限定。

S106：当模型响应率大于等于预设阈值时，根据模型响应率确定对应的营销资源。

预设阈值的确定由技术人员根据实际情况进行设置，本申请不做具体限定。

通过预设测算方式，测算营销响应模型的预授信额度，并通过预授信额度测算信用产品的额度。

模型的预授信额度只测算信用产品额度，由于小微企业普遍存在成立时间短、财务处理不规范等问题，因此担保法和财务分析法并不适用，本申请采用现金流和营收能力去测算预授信额度。

预授信额度＝max(现金流额度、经营额度1、经营额度2)-当前贷款余额。

其中，现金流额度＝企业日均存款及企业AUM+个人日均存款及个人AUM；经营额度1是以内外部纳税信息为依据；经营额度2是以商户日收单金额及消费金额为依据；max为最大值。

另外，模型响应率作为模型结果指标，可为后续营销方案选择提供参考，如果某区间模型响应率小于预设阈值，不必投入营销资源做营销。

利用营销响应模型计算未授信客户的营销评分，对不同分数层次的客户，采取不同的营销方案。依据业务经验，客户可分为低风险高意向用户、低风险中意向用户、低意向用户、高风险用户四类。

低风险高意向用户：可采用外呼、短信、精准广告多渠道对用户进行及时触达。

低风险中意向用户：基于策略标签分析，组合现有营销手段对用户使用外呼、短信的方式进行触达。

低意向用户：采用监测机制或事件侦测类模型对用户需求进行动态监测，实时推送意向提升客群。

高风险用户：暂时不投入营销资源。

对比传统专家模型考虑变量少、难以充分挖掘行为类信息特性，本方案的营销响应模型的样本为全量客户数据样本，考虑变量特征全面，且有衍生大量行为类变量，可以捕捉有贷款意向且不良率低的客户特征。

营销响应模型产出的客户清单数量少且精准度高，营销成功率高，能大大降低营销业务人员的工作量。

本申请实施例中，无需通过人为经验筛选出待营销客户，只需通过客户信息、信用变化等构建预设营销响应模型，定期自动筛选营销客户，使得营销响应模型产出的客户清单精准度高，将大于等于预设阈值的模型响应率投入相应的营销资源，为客户测定贷款额度，满足客户对贷款额度的需求，从而提高营销响应率。

基于上述实施例图1公开的一种数据处理方法，本申请实施例还对应公开了一种数据处理系统，如图4所示，该数据处理系统包括获取单元401、第一评估单元402、第一确定单元403、第二确定单元404、第三确定单元405和第四确定单元406。

获取单元401，用于获取待处理数据；待处理数据表征经过变量筛选操作后的无多重共线性的变量。

第一评估单元402，用于通过预先构建的营销响应模型，对待处理数据进行模型评估，得到概率结果；概率结果为营销响应模型预测得到的营销响应率的概率结果。

第一确定单元403，用于通过模型概率结果，确定各个得分区间；各个得分区间为未授信客户的营销评分区间。

第二确定单元404，用于确定所各个得分区间的所有样本数和预测营销成功的样本个数。

第三确定单元405，用于通过各个得分区间的所有样本数和预测营销成功的样本个数，确定各得分区间的模型响应率。

第四确定单元406，用于当模型响应率大于等于预设阈值时，根据模型响应率确定对应的营销资源。

进一步的，获取单元401包括第一获取模块、分箱模块、第二获取模块和选取模块。

第一获取模块，用于获取原始变量；原始变量为未经过变量筛选操作的变量。

分箱模块，用于对原始变量进行卡方分箱，得到各个分箱后的变量；卡方分箱用于判断相邻两个区间是否有分布差异。

第二获取模块，用于当各个分箱后的变量符合预设变量条件时，获取各个分箱后的变量对应的信息值；预设变量条件由分箱后每个箱体的依次递增的营销响应率、在每个区间防止样本偏移条件和每个区间的特征变换值确定。

选取模块，用于选取在预设阈值范围内各个分箱后的变量对应的信息值，并通过预设剔除算法剔除在预设阈值范围内各个分箱后的变量对应的信息值中的冗余变量，得到待处理数据。

进一步的，构建营销响应模型的第一评估单元402，包括第三获取模块、第四获取模块、衍生模块、分析模块和构建模块。

第三获取模块，用于获取预设比例的样本数据；样本数据至少包括正样本和负样本；正样本表征预设时段内有授信记录的样本数据；负样本为在所述预设时段内没有授信记录的样本数据。

第四获取模块，用于获取原始变量；原始变量为未经过变量筛选操作的变量。

衍生模块，用于对原始变量进行变量衍生，得到原始变量对应的衍生变量。

分析模块，用于对原始变量和衍生变量进行数据分析；数据分析至少包括构建营销响应模型所需的各个数据表之间主键关系分析、数据完备性检查和数据质量检查。

构建模块，用于将分析后的原始变量和分析后的衍生变量确定为建模样本，并通过建模样本和预设模型算法构建营销响应模型。

进一步的，第一确定单元403具体用于对模型概率结果进行评分转换，得到各个得分区间。

进一步的，第二确定单元404，包括统计模块和确定模块。

统计模块，用于统计各个得分区间的所有样本数。

确定模块，用于在预设时段内，当监测到签约的预设营销产品时，统计所有样本数中签约的预设营销产品所对应的样本数，并将所有样本数中签约的预设营销产品所对应的样本数确定为预测营销成功的样本个数。

进一步的，数据处理系统还包括第二评估单元。

第二评估单元，用于通过预设评估指标，对营销响应模型进行模型评估。

进一步的，数据处理系统还包括第一测试单元和第二测算单元。

第一测算单元，用于通过预设测算方式，测算营销响应模型的预授信额度。

第二测算单元，用于通过预授信额度测算信用产品的额度。

本申请实施例还提供了一种存储介质，存储介质包括存储的指令，其中，在指令运行时控制存储介质所在的设备执行上述数据处理方法。

本申请实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502执行上述数据处理方法。

上述各个实施例的具体实施过程及其衍生方式，均在本申请的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈彦聪;严思齐;龙江;
专利申请人：中国建设银行股份有限公司广东省分行;