掌桥专利:专业的专利平台
掌桥专利
首页

用于风控模型构建的数据处理方法和装置

文献发布时间:2023-06-19 11:35:49


用于风控模型构建的数据处理方法和装置

技术领域

本申请涉及数据处理领域,具体而言,涉及一种用于风控模型构建的数据处理方法和装置。

背景技术

在金融风控建模领域,建模数据和建模样本是决定风控模型效果的关键,好的建模数据及充分的建模样本,能够得到比较好的模型效果。但在实际业务中,由于建模数据主要是陆续产生或者通过第三方数据公司陆续接入的,导致建模数据和建模样本存在部分缺失的情况,导致风控模型效果不理想甚至无法建模。

现有技术中,主要是通过线下回溯的方式获取缺失的数据样本,再进行建模,线下回溯的方式大量增加数据成本和建模成本,且消耗较多时间,因此,现有技术中,在建模样本数据存在缺失的情况下,风控模型的建模过程存在效率较低的技术问题。

申请内容

本申请的主要目的在于提供一种用于风控模型构建的数据处理方法和装置,通过对存在缺失的建模样本数据进行嵌套叠加的建模方法,以提高建模样本数据存在缺失的情况下构建风控模型的建模效率。

为了实现上述目的,本申请提出了一种用于风控模型构建的数据处理方法。

本申请的第二方面,提出了一种用于风控模型构建的数据处理装置。

本申请的第三方面,提出了一种计算机可读存储介质。

有鉴于此,根据本申请的第一方面,提出了一种用于风控模型构建的数据处理方法,包括:获取构建风控模型的建模样本数据,其中,所述建模样本数据为构建所述风控模型需要的样本用户的所有数据;基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据,其中,所述时间窗口数据为存在数据缺失的建模样本数据;基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型;对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型。

进一步地,基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据,包括:基于所述参考样本数据,对所述建模样本数据进行识别,包括:若所述建模样本数据在第一预设时间周期内存在数据缺失,获取第一时间窗口数据,其中,所述第一时间窗口数据为在所述第一预设时间周期内存在数据缺失的建模样本数据;若所述建模样本数据在第二预设时间周期内存在数据缺失,获取第二时间窗口数据,其中,所述第二时间窗口数据为在所述第二预设时间周期内存在数据缺失的建模样本数据。

进一步地,基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型,包括:对所述第一时间窗口数据执行风控模型构建操作,获取第一构建模型;基于所述第一构建模型,对所述第二预设时间周期执行风控模型预测操作,获取第一预测样本数据;对所述第二时间窗口数据与所述第一预测样本数据执行风控模型构建操作,获取第二构建模型。

进一步地,基于所述参考样本数据,对所述建模样本数据进行识别,包括:基于所述参考样本数据的数据结构,对所述建模样本数据进行识别,判断所述建模样本数据与所述数据结构的匹配度;若所述匹配度不满足预设匹配度,则判断所述建模样本数据存在数据缺失。

进一步地,对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型,包括:若所述构建模型的模型评价指标满足预设条件,获得所述目标风控模型,其中,所述构建模型的评价指标至少包括排序性和正确率。

根据本申请的第二方面,提出了一种用于风控模型构建的数据处理装置,包括:采集模块,用于获取构建风控模型的建模样本数据,其中,所述建模样本数据为构建所述风控模型需要的样本用户的所有数据;识别模块,基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据,其中,所述时间窗口数据为存在数据缺失的建模样本数据;模型构建模块,基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型;校验模块,用于对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型。

进一步地,识别模块,基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据,其中,所述时间窗口数据为存在数据缺失的建模样本数据,包括:基于所述参考样本数据,对所述建模样本数据进行识别,包括:若所述建模样本数据在第一预设时间周期内存在数据缺失,获取第一时间窗口数据,其中,所述第一时间窗口数据为在所述第一预设时间周期内存在数据缺失的建模样本数据;若所述建模样本数据在第二预设时间周期内存在数据缺失,获取第二时间窗口数据,其中,所述第二时间窗口数据为在所述第二预设时间周期内存在数据缺失的建模样本数据。

进一步地,模型构建模块,基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型,包括:对所述第一时间窗口数据执行风控模型构建操作,获取第一构建模型;基于所述第一构建模型,对所述第二预设时间周期执行风控模型预测操作,获取第一预测样本数据;对所述第二时间窗口数据与所述第一预测样本数据执行风控模型构建操作,获取第二构建模型。

进一步地,校验模块,用于对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型,包括:若所述构建模型的模型评价指标满足预设条件,获得所述目标风控模型,其中,所述构建模型的评价指标至少包括排序性和正确率。

本申请的第三方面,提出一种计算机可读存储介质,其上存储有计算机程序,计算机程序,该计算机程序被处理器执行时实现如上述用于风控模型构建的数据处理方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果:

在本申请中,通过对构建风控模型的建模样本数据进行识别,根据参考样本数据,判断所述建模样本数据的缺失情况,根据所述建模样本数据的缺失情况获取时间窗口数据,基于预设模型构建规则,结合所述时间窗口数据执行风控模型构建操作,在不同时间周期内的时间窗口数据进行实现迭代构建,基于第一时间窗口数据构建第一构建模型,通过第一构建模型对第二时间周期进行预测获得第一预测样本数据,结合第一预测样本数据与第二时间窗口数据构建第二构建模型,通过时间窗口数据迭代构建模型的方法获得最终的构建模型,对构建模型进行模型效果校验,根据校验结果,获得目标风控模型,通过嵌套叠加的模型构建方法,对建模样本数据进行处理,获得目标风控模型,从而解决了在建模样本数据存在缺失的情况下,风控模型的建模过程存在效率较低的技术问题,达到了对已有数据充分利用,提高风控模型构建效率,降低数据成本及人力成本的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图;

图2为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图;

图3为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图;

图4为本申请提供的一种用于风控模型构建的数据处理装置的结构示意图;

图5为本申请提供的另一种用于风控模型构建的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,“连接”可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图,如图1所示,该方法包括以下步骤:

S101:获取构建风控模型的建模样本数据;

所述建模样本数据为构建所述风控模型需要的样本用户的所有数据,所述建模样本数据可以由从业务端产生的数据获得,也可以由第三方获得,并不限制所述建模样本数据的获取方式。

S102:基于参考样本数据,对所述建模样本数据进行识别;

图2为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图,如图2所示,该方法包括以下步骤:

S201:基于所述参考样本数据的数据结构,对所述建模样本进行识别,判断所述建模样本与所述数据结构的匹配度;

基于产品类型,获取与所述产品类型对应的参考样本数据,基于所述参考样本数据的数据结构,对所述建模样本数据进行识别,获取所述建模样本数据在不同结构的数据匹配度。

举例说明,如基于产品类型甲,获取与所述产品类型甲对应的参考样本数据,所述参考样本数的数据结构为包含变量A,B,C,D,E,识别建模样本数据中变量A,B,C,D,E,获取建模样本数据中在A,B,C,D,E各变量维度上的数据匹配情况。

S202:若所述匹配度不满足预设匹配度,则判断所述建模样本存在数据缺失;

举例说明,如,所述建模样本数据在A变量维度数据匹配度为1,所述建模样本数据不存在变量A的数据缺失,所述建模样本数据在B变量维度数据匹配度为0.5,低于预设匹配度0.8,则判断所述建模样本数据在B变量维度存在数据缺失。

S203:基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据。

若所述建模样本数据在第一预设时间周期内存在数据缺失,获取第一时间窗口数据,其中,所述第一时间窗口数据为在所述第一预设时间周期内存在数据缺失的建模样本数据;

若所述建模样本数据在第二预设时间周期内存在数据缺失,获取第二时间窗口数据,其中,所述第二时间窗口数据为在所述第二预设时间周期内存在数据缺失的建模样本数据。

举例说明,如所述建模样本数据在1月可用变量为A,B,C,在2月可用变量为A,B,C,D,3月可用变量为A,B,C,D,E,第一时间窗口数据为1月可用变量为A,B,C,第二时间窗口数据为2月可用变量为A,B,C,D,第三时间窗口数据为3月可用变量为A,B,C,D,E。

进一步地,所述预设时间周期基于所述建模样本数据的缺失情况进行设定,识别所述建模样本数据存在数据缺失的时间段,基于所述建模样本数据存在数据缺失的时间段,设置时间周期。

S103:基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型;

图3为本申请提供的一种用于风控模型构建的数据处理方法的流程示意图,如图3所示,该方法包括以下步骤:

S301:对所述第一时间窗口数据执行风控模型构建操作,获取第一构建模型;

基于所述第一时间窗口数据,根据所述第一预设时间周期内可用变量,执行模型构建操作,获取第一构建模型。

S302:基于所述第一构建模型,对所述第二预设时间周期执行风控模型预测操作,获取第一预测样本数据;

S303:对所述第二时间窗口数据与所述第一预测样本数据执行风控模型构建操作,获取第二构建模型。

举例说明,如所述建模样本数据在1月可用变量为A,B,C,在2月可用变量为A,B,C,D,3月可用变量为A,B,C,D,E,第一时间窗口数据为1月可用变量为A,B,C,第二时间窗口数据为2月可用变量为A,B,C,D,第三时间窗口数据为3月可用变量为A,B,C,D,E。

利用1月份的A、B、C变量构建模型M1,并用M1模型预测2月的样本,得到M1模型在2月份上的预测值记为m1;接着,利用2月份额外可用的变量D以及m1构建模型M2,并用M2模型预测3月的样本,得到M2模型在3月份上预测值记为m2;然后,用3月份额外可用的变量E以及m2构建模型M3,M3模型即为最终的模型。

基于所述时间窗口数据,如基于所述参考样本数据对所述建模样本数据进行识别后,共有N个时间窗口数据,基于所述第一时间窗口数据构建第一构建模型,基于所述第一构建模型对第二周期进行预测,获得第一预测样本数据;基于所述第一预测样本数据与第二时间窗口数据构建第二构建模型,基于所述第二构建模型对第三周期进行预测,获得第二预测样本数据;基于所述N个时间窗口数据,通过迭代处理,构建第N预测模型,所述第N预测模型为最终的模型。

S104:对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型。

若所述构建模型的模型评价指标满足预设条件,获得所述目标风控模型,其中,所述构建模型的评价指标至少包括排序性和正确率。

若所述构建模型的模型评价指标不满足预设条件,重新获取构建风控模型的建模样本数据,执行上述用于风控模型构建的数据处理方法,获得模型评价指标满足预设条件的构建模型,作为目标风控模型。

图4为本申请提供的一种用于风控模型构建的数据处理装置的结构示意图,如图4所示,该装置包括:

采集模块41,用于获取构建风控模型的建模样本数据,其中,所述建模样本数据为构建所述风控模型需要的样本用户的所有数据;

识别模块42,基于参考样本数据,对所述建模样本数据进行识别,获取时间窗口数据,其中,所述时间窗口数据为存在数据缺失的建模样本数据;

模型构建模块43,基于预设模型构建规则,根据所述时间窗口数据执行风控模型构建操作,获取构建模型;

校验模块44,用于对所述构建模型进行校验处理,基于所述校验结果,获取目标风控模型。

图5为本申请提供的另一种用于风控模型构建的数据处理装置的结构示意图,如图5所示,该装置包括:

第一构建模块51,对所述第一时间窗口数据执行风控模型构建操作,获取第一构建模型;

第一预测模块52,基于所述第一构建模型,对所述第二预设时间周期执行风控模型预测操作,获取第一预测样本数据;

第二构建模块53,对所述第二时间窗口数据与所述第一预测样本数据执行风控模型构建操作,获取第二构建模型。

关于上述实施列中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

综上所述,在本申请中,通过对构建风控模型的建模样本数据进行识别,根据参考样本数据,判断所述建模样本数据的缺失情况,根据所述建模样本数据的缺失情况获取时间窗口数据,基于预设模型构建规则,结合所述时间窗口数据执行风控模型构建操作,在不同时间周期内的时间窗口数据进行实现迭代构建,基于第一时间窗口数据构建第一构建模型,通过第一构建模型对第二时间周期进行预测获得第一预测样本数据,结合第一预测样本数据与第二时间窗口数据构建第二构建模型,通过时间窗口数据迭代构建模型的方法获得最终的构建模型,对构建模型进行模型效果校验,根据校验结果,获得目标风控模型,通过嵌套叠加的模型构建方法,对建模样本数据进行处理,获得目标风控模型,从而解决了在建模样本数据存在缺失的情况下,风控模型的建模过程存在效率较低的技术问题,达到了对已有数据充分利用,提高风控模型构建效率,降低数据成本及人力成本的技术效果。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

显然,本领域的技术人员应该明白,上述的本申请的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 用于风控模型构建的数据处理方法和装置
  • 风控模型的数据处理方法和装置
技术分类

06120112984687