一种结合第三方数据源的用户信用评估系统

文献发布时间：2023-06-19 18:35:48

技术领域

本发明涉及信用评估技术领域，特别涉及一种结合第三方数据源的用户信用评估系统。

背景技术

目前，在金融信贷行业蓬勃发展的今天，中国市场金融机构存在信息不对称的问题，不能快速准确的实现数据共享，无法对第三方数据进行准确筛选，导致对用户信用进行评估不准确的问题。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种结合第三方数据源的用户信用评估系统，筛选优质的第三方数据源并形成标准化输出，能够方便机构快捷的对接第三方数据源，并且能保证对接效率的同时确保执行过程中的数据安全，同时也提高了得到的评估结果的准确性。

为达到上述目的，本发明实施例提出了一种结合第三方数据源的用户信用评估系统，包括：

获取模块，用于获取第三方数据源；

数据处理模块，用于对所述第三方数据源进行数据处理，得到目标数据；

评估模块，用于对所述目标数据进行组合标签加工处理，形成码值标签，根据所述码值标签对用户信用评估，得到评估结果。

根据本发明的一些实施例，所述数据处理模块，包括：

筛选模块，用于对所述第三方数据源基于预设规则进行数据筛选，得到筛选数据；

加工模块，用于对所述筛选数据进行衍生变量加工，得到目标数据。

根据本发明的一些实施例，所述预设规则包括黑名单类、多头类、评分类、预警类及验证类；其中，

所述黑名单类包括黑名单类型、高风险名单及灰名单；

所述多头类包括D90_身份证号码_总申请机构数、D180_身份证号码_总申请机构数、近6月_信贷次数及近24月_信贷次数；

所述评分类包括信用评分及欺诈评分；

所述预警类包括预警等级；

所述验证类包括在网时长及在网状态。

根据本发明的一些实施例，所述衍生变量加工的方式包括：计算、逻辑判断加工、计数及含排重计数及其他加工指标；其中，

所述计算包括黑名单是否为严重逾期及用户号码是否为空号；

所述逻辑判断加工包括同一用户身份证、手机号下的信息归并，归并逻辑加工后输出变量；逻辑加工包括确定最大数值、最小数值或加和中的至少一种；

所述计数及含排重计数包括同账户重复登录次数、用户同一居住地址申请授信的客户数据量、同工作单位名称不同工作单位电话数量；

所述其他加工指标，包括：

时间差计算，包括最近一次申请距今的时间差；

经纬度解析，包括根据经纬度解析省市、根据两组经纬度数据计算直接距离；

应用分类计数，包括按照风险给定的APP分类标签统计用户安装的各类APP个数；

用户身份查询，包括根据手机号查询是否为客户；

其他定制逻辑，包括是否夜间申请，是否为非银机构申请。

根据本发明的一些实施例，所述数据处理模块，还包括：

脱敏模块，用于在筛选模块对所述第三方数据源基于预设规则进行数据筛选前，对所述第三方数据源进行检测，判断是否有敏感数据，在确定存在敏感数据时，进行脱敏处理。

根据本发明的一些实施例，所述获取模块，包括：各个数据源接口，用于接收不同类型的第三方数据源。

根据本发明的一些实施例，还包括存储模块，用于将所述评估结果进行存储。

根据本发明的一些实施例，所述脱敏模块，包括：

转换模块，用于将所述第三方数据源转换为字符串；

匹配模块，用于将所述字符串与敏感数据库中的敏感字符串进行匹配，根据匹配结果判断是否有敏感数据。

根据本发明的一些实施例，所述评估模块，包括：

融合模块，用于：

将所述码值标签按照不同场景进行分类，确定用户在多个场景分别对应的码值标签，并将每个场景与对应的码值标签建立绑定关系，作为一个评估向量；

根据所述评估向量确定对应场景类别的特征空间；

将每个场景类别对应的特征空间进行映射，得到多个核空间，所述核空间内包括评估向量之间的关联关系；

对所述多个核空间进行归一化处理，得到多个目标核空间；

获取多个场景类别中每个场景类别对应的权重系数；

根据多个目标核空间及所述权重系数进行融合，得到融合核空间；

建立模块，用于：

获取样本码值标签集合及样本码值标签集合中每个样本码值标签对应的信用数据；

对所述样本码值标签集合进行筛选，确定目标样本码值标签集合；

基于目标样本码值标签集合中样本码值标签，确定对应的样本融合核空间；

对所述信用数据进行分析，确定信用评分；

建立信用评分与样本融合核空间的匹配关系，生成信用评分与样本融合核空间的数据库；

对所述数据库中的样本融合核空间在不同维度建立样本融合核空间协议字典；

基于回归算法建立样本融合核空间协议字典与样本融合核空间相匹配的信用评分的回归模型；

确定模块，用于根据所述回归模型对所述融合核空间进行分类识别及补偿处理，确定评估结果。

根据本发明的一些实施例，所述建立模块，包括：

数值化处理模块，用于对样本码值标签集合中包括的若干条样本码值标签进行数值化处理，得到数据矩阵；每条样本码值标签包括用户信用评价参数中所有参数对应的数值及对应的用户信用评价参数相应的用户数据；

剔除模块，用于：

根据所述数据矩阵与第一预设算法，计算用户信用评价参数中每个参数的数据占比；

根据所述数据占比及第二预设算法，计算每条样本码值标签对应的用户信用数据分值，并分别与第一预设阈值及第二预设阈值进行比较，剔除大于第一预设阈值的用户信用数据分值对应的样本码值标签及小于第二预设阈值的用户信用数据分值对应的样本码值标签，得到目标样本码值标签集合；所述第一预设阈值大于所述第二预设阈值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种结合第三方数据源的用户信用评估系统的框图；

图2是根据本发明一个实施例的数据处理模块的框图；

图3是根据本发明一个实施例的评估模块的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提出了一种结合第三方数据源的用户信用评估系统，包括：

获取模块，用于获取第三方数据源；

数据处理模块，用于对所述第三方数据源进行数据处理，得到目标数据；

评估模块，用于对所述目标数据进行组合标签加工处理，形成码值标签，根据所述码值标签对用户信用评估，得到评估结果。

上述技术方案的工作原理：码值标签表示对用户在各个场景的标签数据。获取模块，用于获取第三方数据源；数据处理模块，用于对所述第三方数据源进行数据处理，得到目标数据；评估模块，用于对所述目标数据进行组合标签加工处理，形成码值标签，根据所述码值标签对用户信用评估，得到评估结果。

上述技术方案的有益效果：筛选优质的第三方数据源并形成标准化输出，能够方便机构快捷的对接第三方数据源，并且能保证对接效率的同时确保执行过程中的数据安全，同时也提高了得到的评估结果的准确性。

如图2所示，根据本发明的一些实施例，所述数据处理模块，包括：

筛选模块，用于对所述第三方数据源基于预设规则进行数据筛选，得到筛选数据；

加工模块，用于对所述筛选数据进行衍生变量加工，得到目标数据。

上述技术方案的工作原理：筛选模块，用于对所述第三方数据源基于预设规则进行数据筛选，得到筛选数据；加工模块，用于对所述筛选数据进行衍生变量加工，得到目标数据。

上述技术方案的有益效果：对所述第三方数据源基于预设规则进行数据筛选，便于对数据进行规范整体，提取出各类的数据，进而便于对各类的数据进行衍生变量加工，得到目标数据，便于提高数据加工效率，便于快速得到目标数据，筛选出优质的数据。

根据本发明的一些实施例，所述预设规则包括黑名单类、多头类、评分类、预警类及验证类；其中，

所述黑名单类包括黑名单类型、高风险名单及灰名单；

所述多头类包括D90_身份证号码_总申请机构数、D180_身份证号码_总申请机构数、近6月_信贷次数及近24月_信贷次数；

所述评分类包括信用评分及欺诈评分；

所述预警类包括预警等级；

所述验证类包括在网时长及在网状态。

上述技术方案的工作原理：D90_身份证号码_总申请机构数及D180_身份证号码_总申请机构数表示不同地区的用户的相关信息。

上述技术方案的有益效果：实现数据的有效筛选及分类。

根据本发明的一些实施例，所述衍生变量加工的方式包括：计算、逻辑判断加工、计数及含排重计数及其他加工指标；其中，

所述计算包括黑名单是否为严重逾期及用户号码是否为空号；

所述计数及含排重计数包括同账户重复登录次数、用户同一居住地址申请授信的客户数据量、同工作单位名称不同工作单位电话数量；

所述其他加工指标，包括：

时间差计算，包括最近一次申请距今的时间差；

经纬度解析，包括根据经纬度解析省市、根据两组经纬度数据计算直接距离；

应用分类计数，包括按照风险给定的APP分类标签统计用户安装的各类APP个数；

用户身份查询，包括根据手机号查询是否为客户；

其他定制逻辑，包括是否夜间申请，是否为非银机构申请。

上述技术方案的工作原理及有益效果：基于采集的基本数据，实时加工衍生变量，具体涉及以下几类加工方式：

(1)包含计算：(EXIST)

例如：黑名单是否为严重逾期、用户号码是否为空号等

(2)逻辑判断加工：

例如：同一用户身份证、手机号下的信息归并，归并逻辑加工(最大、最小、加和等)后输出变量。

(3)计数，含排重计数：(COUNT、COUNT DISTINCT)

例如：同账户重复登录次数、用户同一居住地址申请授信的客户数据量、同工作单位名称不同工作单位电话数量

(4)其他加工指标：

-时间差计算，如最近一次申请距今的时间差

-经纬度解析，如根据经纬度解析省市、根据两组经纬度数据计算直接距离

-应用分类计数，如按照风险给定的APP分类标签统计用户安装的各类APP个数

(注：APP分类清单需支持后续人工增加、删除、变更)

-用户身份查询，如根据手机号查询是否为客户

-其他定制逻辑，如是否夜间申请，是否为非银机构申请等

历史数据中需留存近两年的数据，未明确查询时间窗口的指标应基于全量有效的历史数据进行统计；涉及具体时间窗的衍生变量，如时间窗在5天以上按自然日统计，5天以下则按分钟统计。便于实现对不同数据进行不同的数据加工，便于准确得到目标数据。

根据本发明的一些实施例，所述数据处理模块，还包括：

上述技术方案的有益效果：便于提高数据的安全性。

根据本发明的一些实施例，所述获取模块，包括：各个数据源接口，用于接收不同类型的第三方数据源。

根据本发明的一些实施例，还包括存储模块，用于将所述评估结果进行存储。

根据本发明的一些实施例，所述脱敏模块，包括：

转换模块，用于将所述第三方数据源转换为字符串；

匹配模块，用于将所述字符串与敏感数据库中的敏感字符串进行匹配，根据匹配结果判断是否有敏感数据。

上述技术方案的有益效果：基于字符串与敏感字符串的匹配结果，准确判断是否有敏感数据。在匹配度大于预设匹配度时，表示有敏感数据；反之，表示没有。

如图3所示，根据本发明的一些实施例，所述评估模块，包括：

融合模块，用于：

根据所述评估向量确定对应场景类别的特征空间；

将每个场景类别对应的特征空间进行映射，得到多个核空间，所述核空间内包括评估向量之间的关联关系；

对所述多个核空间进行归一化处理，得到多个目标核空间；

获取多个场景类别中每个场景类别对应的权重系数；

根据多个目标核空间及所述权重系数进行融合，得到融合核空间；

建立模块，用于：

获取样本码值标签集合及样本码值标签集合中每个样本码值标签对应的信用数据；

对所述样本码值标签集合进行筛选，确定目标样本码值标签集合；

基于目标样本码值标签集合中样本码值标签，确定对应的样本融合核空间；

对所述信用数据进行分析，确定信用评分；

建立信用评分与样本融合核空间的匹配关系，生成信用评分与样本融合核空间的数据库；

对所述数据库中的样本融合核空间在不同维度建立样本融合核空间协议字典；

基于回归算法建立样本融合核空间协议字典与样本融合核空间相匹配的信用评分的回归模型；

确定模块，用于根据所述回归模型对所述融合核空间进行分类识别及补偿处理，确定评估结果。

上述技术方案的工作原理及有益效果：融合模块，用于：将所述码值标签按照不同场景进行分类，确定用户在多个场景分别对应的码值标签，并将每个场景与对应的码值标签建立绑定关系，作为一个评估向量；根据所述评估向量确定对应场景类别的特征空间；将每个场景类别对应的特征空间进行映射，得到多个核空间，所述核空间内包括评估向量之间的关联关系；对所述多个核空间进行归一化处理，得到多个目标核空间；获取多个场景类别中每个场景类别对应的权重系数；根据多个目标核空间及所述权重系数进行融合，得到融合核空间；便于展示用户的不同场景的码值标签，确定用户的整体的评估空间，即融合核空间，表示用户的综合数据。建立模块，用于：获取样本码值标签集合及样本码值标签集合中每个样本码值标签对应的信用数据；对所述样本码值标签集合进行筛选，确定目标样本码值标签集合；基于目标样本码值标签集合中样本码值标签，确定对应的样本融合核空间；对所述信用数据进行分析，确定信用评分；建立信用评分与样本融合核空间的匹配关系，生成信用评分与样本融合核空间的数据库；对所述数据库中的样本融合核空间在不同维度建立样本融合核空间协议字典；基于回归算法建立样本融合核空间协议字典与样本融合核空间相匹配的信用评分的回归模型；确定模块，用于根据所述回归模型对所述融合核空间进行分类识别及补偿处理，确定评估结果。基于样本码值标签集合及样本码值标签集合中每个样本码值标签对应的信用数据，建立回归模型，基于所述回归模型对所述融合核空间进行分类识别及补偿处理，准确确定评估结果。

根据本发明的一些实施例，所述建立模块，包括：

剔除模块，用于：

根据所述数据矩阵与第一预设算法，计算用户信用评价参数中每个参数的数据占比；

上述技术方案的工作原理：数值化处理模块，用于对样本码值标签集合中包括的若干条样本码值标签进行数值化处理，得到数据矩阵；每条样本码值标签包括用户信用评价参数中所有参数对应的数值及对应的用户信用评价参数相应的用户数据；剔除模块，用于：根据所述数据矩阵与第一预设算法，计算用户信用评价参数中每个参数的数据占比；根据所述数据占比及第二预设算法，计算每条样本码值标签对应的用户信用数据分值，并分别与第一预设阈值及第二预设阈值进行比较，剔除大于第一预设阈值的用户信用数据分值对应的样本码值标签及小于第二预设阈值的用户信用数据分值对应的样本码值标签，得到目标样本码值标签集合；所述第一预设阈值大于所述第二预设阈值。

上述技术方案的有益效果：对数据进行了预处理，从而不会使得参数间的值差异过大，去掉样本码值标签对应的用户信用数据分值的极端分值，提高了数据筛选的准确性，保证得到的目标样本码值标签集合的准确性。

在一实施例中，根据所述数据矩阵与第一预设算法，计算用户信用评价参数中每个参数的数据占比，包括：

其中，w

基于上述公式，准确计算出用户信用评价参数中每个参数的数据占比。

根据所述数据占比及第二预设算法，计算每条样本码值标签对应的用户信用数据分值，包括：

其中，F

基于上述公式，准确计算出计算每条样本码值标签对应的用户信用数据分值，提高了判断与第一预设阈值及第二预设阈值大小的准确性，进而准确确定需要剔除的数据。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈亚娟;李翰璐;金光丽;
专利申请人：睿智合创(北京)科技有限公司;

上一篇：搜索数据同步方法及其装置、设备、介质、产品
下一篇：生产过程质量控制方法、电子设备和计算机可读存储介质