掌桥专利:专业的专利平台
掌桥专利
首页

用于风险模型训练的数据处理方法和装置

文献发布时间:2023-06-19 11:35:49


用于风险模型训练的数据处理方法和装置

技术领域

本申请涉及计算机领域,具体而言,涉及一种用于风险模型训练的数据处理方法和装置。

背景技术

现有技术中,主要是通过风险模型对用户数据进行处理,在风险模型的训练过程中,针对不同的模型开发需求,需要获取不同的训练数据,对风控模型进行训练,现有技术中主要通过人工处理的方法获得风险模型的训练特征数据,人工处理存在效率较低,导致延长风险模型开发前期特征准备周期,风险模型开发效率较低。

因此,现有技术中,存在风险模型开发效率较低的技术问题。

申请内容

本申请的主要目的在于提供一种用于模型训练的数据处理方法和装置,以提高模型开发过程中特征数据的获取效率,解决现有技术中风险模型开发效率较低的技术问题,提高风险模型的开发效率。

为了实现上述目的,本申请提出了一种用于模型训练的数据处理方法。

本申请的第二方面,提出了一种用于模型训练的数据处理装置。

本申请的第三方面,提出了一种计算机可读存储介质。

有鉴于此,根据本申请的第一方面,提出了一种用于模型训练的数据处理方法,包括:获取开发人员的需求数据,所述需求数据为风险模型开发的过程中产生的需求数据;基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据;基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据。

进一步地,基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据,包括:对所述需求数据进行识别,获得所述需求数据中的业务标识数据;在预设业务数据库中匹配与所述业务标识数据对应的业务数据,其中,所述预设业务数据库中存储所述业务标识数据与所述业务数据的映射关系。

进一步地,基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据,包括:基于预设标准业务数据结构,对所述业务数据进行识别,获取所述第一特征数据,其中,所述第一特征数据包括基础层级特征数据;基于预设特征衍生规则,结合所述第一特征数据,对所述业务数据进行识别,获得第二特征数据,所述第二特征数据包括基于所述第一特征衍生的衍生特征数据。

进一步地,基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据,包括:输出所述业务数据对应的特征数据,其中,所述特征数据包括第一特征数据与第二特征数据。

进一步地,基于预设标准业务数据结构,对所述业务数据进行识别,获取所述第一特征数据,包括:基于预设标准业务数据结构,对所述业务数据进行识别,获取第一基础层级特征数据,所述第一基础层级特征数据包括:业务数据类型与所述业务数据节点数据;基于所述第一基础层级特征数据,对所述业务数据进行识别,获取第二基础层级特征数据;输出所述第一特征数据,所述第一特征数据至少包括第一基础层级特征数据和第二基础层级特征数据。

进一步地,基于预设特征衍生规则,结合所述第一特征数据,对所述业务数据进行识别,获得第二特征数据,包括:基于预设特征衍生规则,对所述业务数据进行识别,获取第一衍生特征数据;基于预设特征衍生规则,结合第一衍生特征数据,对所述业务数据进行识别,获取第二衍生特征数据;输出所述第二特征数据,所述第二特征数据至少包括所述第一衍生特征数据与所述第二特征衍生数据。

根据本申请的第二方面,提出了一种用于模型训练的数据处理装置,包括:需求数据获取模块,用于获取开发人员的需求数据,所述需求数据为风险模型开发的过程中产生的需求数据;业务数据获取模块,基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据;特征识别模块,基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据;结果输出模块,用于输出所述特征数据。

进一步地,业务数据获取模块,基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据,包括:对所述需求数据进行识别,获得所述需求数据中的业务标识数据;在预设业务数据库中匹配与所述业务标识数据对应的业务数据,其中,所述预设业务数据库中存储所述业务标识数据与所述业务数据的映射关系。

进一步地,特征识别模块,包括:第一特征识别模块,基于预设标准业务数据结构,对所述业务数据进行识别,获取所述第一特征数据,其中,所述第一特征数据包括基础层级特征数据;第二特征识别模块,基于预设特征衍生规则,结合所述第一特征数据,对所述业务数据进行识别,获得第二特征数据,所述第二特征数据包括基于所述第一特征衍生的衍生特征数据。

根据本申请的第三方面,提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述用于模型训练的数据处理方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果:

在本申请中,针对开发人员的需求数据,获取所述开发人员的需求数据对应的业务数据,基于预设特征数据生成规则,对所述业务数据进行识别处理,基于标准业务数据结构,识别所述业务数据中的第一特征数据,基于识别到的事宜特征数据与预设特征衍生规则,对所述业务数据进行识别,获得所述业务数据中的第二特征数据,对第一特征数据与第二特征数据进行处理,获得所述业务数据对应的特征数据,所述特征数据包括第一特征数据与第二特征数据。本申请中通过预设特征数据生成规则,获取所述业务数据的特征数据,缩短风险模型开发前期特征准备周期,实现了提高风险模型的开发效率的技术效果,解决了现有技术中风险模型开发效率较低的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请提供的一种用于模型训练的数据处理方法的流程示意图;

图2为本申请提供的一种用于模型训练的数据处理方法的流程示意图;

图3为本申请提供的一种用于模型训练的数据处理方法的流程示意图;

图4为本申请提供的一种用于模型训练的数据处理方法的流程示意图;

图5为本申请提供的一种用于模型训练的数据处理装置的结构示意图;

图6为本申请提供的另一种用于模型训练的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,“连接”可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于模型训练的数据处理方法的流程示意图,如图1所示,该方法包括以下步骤:

S101:获取开发人员的需求数据,所述需求数据为风险模型开发的过程中产生的需求数据;

在风险模型的开发过程,需要获取风险模型的特征数据,进行模型开发前期的特征准备,获取开发人员的需求数据。

S102:基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据;

对所述需求数据进行识别,获得所述需求数据中的业务标识数据;在预设业务数据库中匹配与所述业务标识数据对应的业务数据,其中,所述预设业务数据库中存储所述业务标识数据与所述业务数据的映射关系。

S103:基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据。

图2为本申请提供的一种用于模型训练的数据处理方法的流程示意图,如图2所示,该方法包括以下步骤:

S201:基于预设标准业务数据结构,对所述业务数据进行识别,获取所述第一特征数据,其中,所述第一特征数据包括基础层级特征数据;

图3为本申请提供的一种用于模型训练的数据处理方法的流程示意图,如图3所示,该方法包括以下步骤:

S301:基于预设标准业务数据结构,对所述业务数据进行识别,获取第一基础层级特征数据,所述第一基础层级特征数据包括:业务数据类型与所述业务数据节点数据;

对所述业务数据进行识别,识别所述业务数据中第一基础层级特征数据,所述第一基础层级特征数据中包括业务数据类型与所述业务数据节点数据;

对所述业务数据进行识别,获得第一基础层级特征数据,包括:判断所述业务数据的业务数据类型,如,单独的外部业务数据;

识别所述业务数据中的节点数据,所述标准业务数据中包含客户全生命周期的重要节点:1)客户基本画像;2)注册环节;3)申请环节的促动信息;4)申请环节;5)动支环节的促动信息;6)动支环节;7)首次动支;8)活跃情况;9)交易信息;10)当前交易信息;11)最近交易信息;12)历史还款信息;13)催记信息;14)未来还款压力;15)外部数据;16)借新还借信息,识别所述业务数据中存在的节点数据。

S302:基于所述第一基础层级特征数据,对所述业务数据进行识别,获取第二基础层级特征数据;

在所述第一基础层级特征数据的基础上,识别所述业务数据的第二基础层级特征数据。

如,若第一基础层级特征数据为单独的外部数据,所述业务数据不存在第二基础层级特征数据;

若第一基础层级特征数据为业务数据中包含“历史还款信息”节点,识别所述当前节点数据中的“还款习惯”和“埋点信息”,获得第二基础层级特征数据;

“还款习惯”,为与用户历史每一笔还款计划相关的应还、实还和逾期情况,“埋点信息”,与用户还款行为相关的埋点行为信息。

进一步地,在所述第二基础层级特征数据的基础上,识别所述业务数据的第三基础层级特征数据,直至所述基础层级特征数据难以实现拆分。

如,若第二基础层级特征数据为业务数据包含“还款习惯”,识别“还款习惯”可拆分的“历史还款意愿”、“历史还款能力”和“历史还款压力”,识别所述业务数据的第三基础层级特征数据;

若第三基础层级特征数据为业务数据包含“历史还款意愿”,识别“历史还款意愿”中的“历史逾期天数”的基础变量,识别所述业务数据的第四基础层级特征数据。

S303:输出所述第一特征数据,所述第一特征数据至少包括第一基础层级特征数据和第二基础层级特征数据。

根据对所述业务数据的识别结果,输出所述第一特征数据,所述第一特征数据至少包括第一基础层级特征数据与所述第二基础层级特征数据,还可包括第三基础层级特征数据或第四基础层级特征数据。

S202:基于预设特征衍生规则,结合所述第一特征数据,对所述业务数据进行识别,获得第二特征数据,所述第二特征数据包括基于所述第一特征衍生的衍生特征数据;

图4为本申请提供的一种用于模型训练的数据处理方法的流程示意图,如图4所示,该方法包括以下步骤:

S401:基于预设特征衍生规则,对所述业务数据进行识别,获取第一衍生特征数据;

结合所述第一特征数据中的基础层级特征数据,基于预设特征衍生规则,对所述业务数据进行识别,识别所述业务数据中是否包括基于所述基础层级特征数据衍生得到的第一衍生特征数据;

S402:基于预设特征衍生规则,结合第一衍生特征数据,对所述业务数据进行识别,获取第二衍生特征数据;

结合第一衍生特征数据,基于预设特征衍生规则,对所述业务数据进行识别,识别所述业务数据中是否包括基于第一衍生特征数据衍生得到的第二衍生特征数据。

S403:输出所述第二特征数据,所述第二特征数据至少包括所述第一衍生特征数据与所述第二特征衍生数据。

S203:输出所述业务数据对应的特征数据,其中,所述特征数据包括第一特征数据与第二特征数据。

图5为本申请中一种用于模型训练的数据处理装置,如图5所示,

需求数据获取模块51,用于获取开发人员的需求数据,所述需求数据为风险模型开发的过程中产生的需求数据;

业务数据获取模块52,基于所述需求数据,在预设系统业务数据库中匹配与所述需求数据对应的业务数据;

特征识别模块53,基于预设特征数据生成规则,对所述业务数据进行识别处理,获取所述业务数据对应的特征数据;

结果输出模块54,用于输出所述特征数据。

图6为本申请中一种用于模型训练的数据处理装置,如图6所示,

第一特征识别模块61,基于预设标准业务数据结构,对所述业务数据进行识别,获取所述第一特征数据,其中,所述第一特征数据包括基础层级特征数据;

第二特征识别模块62,基于预设特征衍生规则,结合所述第一特征数据,对所述业务数据进行识别,获得第二特征数据,所述第二特征数据包括基于所述第一特征衍生的衍生特征数据。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

综上所述,在本申请中,针对开发人员的需求数据,获取所述开发人员的需求数据对应的业务数据,基于预设特征数据生成规则,对所述业务数据进行识别处理,基于标准业务数据结构,识别所述业务数据中的第一特征数据,基于识别到的事宜特征数据与预设特征衍生规则,对所述业务数据进行识别,获得所述业务数据中的第二特征数据,对第一特征数据与第二特征数据进行处理,获得所述业务数据对应的特征数据,所述特征数据包括第一特征数据与第二特征数据。本申请中通过预设特征数据生成规则,获取所述业务数据的特征数据,缩短风险模型开发前期特征准备周期,实现了提高风险模型的开发效率的技术效果,解决了现有技术中风险模型开发效率较低的技术问题。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

显然,本领域的技术人员应该明白,上述的本申请的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 用于风险模型训练的数据处理方法和装置
  • 用于舆情分类模型训练的数据处理方法和装置
技术分类

06120112986295