掌桥专利:专业的专利平台
掌桥专利
首页

数据预测方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:57:35


数据预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种数据预测方法、装置、设备及存储介质。

背景技术

当用户办理某种业务后,一般需要提交请求数据,然后由业务机构对该请求数据进行核验,数据核验指的是对请求数据的真伪性和/或合法合规性进行审核校验的过程,核验通过后,业务机构根据该核验结果向用户提供该业务的相关服务,这种场景广泛应用于不同的行业领域中,例如,保险行业的核保理赔,金融行业的贷款审批等。

目前,数据核验包括采用人工审核的方式及人工智能审核的方式,但采用人工审核的方式容易遗漏信息,且耗时耗力,主观带入性强,准确度低;而采用人工智能的方式虽然能够改善人工审核的方式的问题,但是提取的核验要素存在不全面,或者为了降维度而去除大量的要素特征,同样导致模型的准确度低。

发明内容

本发明的目的在于提供一种数据预测方法、装置、设备及存储介质,旨在提高模型预测核验数据的准确度。

本发明提供一种数据预测方法,包括:

采集核验决策树的样本数据,所述样本数据中包括请求数据、对所述请求数据进行核验得到的核验结果数据及对所述核验结果数据进行相应后处理的处理结果数据;

提取所述请求数据中的多个特征数据,根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数;

根据所述重要系数从所述多个特征数据中选取目标特征数据;

将所述目标特征数据、所述核验结果数据及所述处理结果数据输入至核验决策树中进行训练,以及对训练后的多个核验决策树进行拟合得到弱模型序列;

按照预定的组合方式对所述弱模型序列进行组合得到集合模型;

获取待核验的请求数据,利用所述集合模型对所述待核验的请求数据进行预测,得到所述待核验的请求数据对应的核验结果数据及处理结果数据。

本发明还提供一种数据预测装置,包括:

采集模块,用于采集核验决策树的样本数据,所述样本数据中包括请求数据、对所述请求数据进行核验得到的核验结果数据及对所述核验结果数据进行相应后处理的处理结果数据;

计算模块,用于提取所述请求数据中的多个特征数据,根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数;

选取模块,用于根据所述重要系数从所述多个特征数据中选取目标特征数据;

训练模块,用于将所述目标特征数据、所述核验结果数据及所述处理结果数据输入至核验决策树中进行训练,以及对训练后的多个核验决策树进行拟合得到弱模型序列;

组合模块,用于按照预定的组合方式对所述弱模型序列进行组合得到集合模型;

预测模块,用于获取待核验的请求数据,利用所述集合模型对所述待核验的请求数据进行预测,得到所述待核验的请求数据对应的核验结果数据及处理结果数据。

本发明还提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的数据预测的步骤。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据预测的步骤。

本发明的有益效果是:本发明在训练决策树过程中,计算每一特征数据在每一核验决策树中的重要系数,先选取预定数量的特征数据,然后根据重要系数从所述预定数量的特征数据中选取优质特征数据作为训练数据来训练核验决策树,由于没有对特征数据进行剪枝,因此,得到的集合模型预测核验数据及处理结果数据的准确性高,且泛化性能好。

附图说明

图1为本发明数据预测方法第一实施例的流程示意图;

图2为图1中根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数的步骤的细化流程示意图;

图3为本发明数据预测装置一实施例的结构示意图;

图4为本发明计算机设备一实施例的硬件架构的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

参阅图1所示,是本发明数据预测方法一实施例的流程示意图。该数据预测方法包括以下步骤:

步骤S1,采集核验决策树的样本数据,所述样本数据中包括请求数据、对所述请求数据进行核验得到的核验结果数据及对所述核验结果数据进行相应后处理的处理结果数据;

其中,采集核验决策树的样本数据包括:每次随机且有放回地从预设的数据集合中抽取与所述数据集合的数据数量相等的数据,作为核验决策树的样本数据。

在采集每一核验决策树的样本数据时,如果数据集合大小为N,对于每一核验决策树而言,随机且有放回地从数据集合中的抽取N个训练样本,作为该核验决策树的训练集。每次使用一个训练集训练得到一个核验决策树模型,k个训练集共训练得到k个核验决策树模型。

本发明较佳实施例中,请求数据例如为保单信息,核验结果数据为根据预定的核验决策对保单信息进行核保得到的核保结果,处理结果数据为根据核保结果进行相应理赔的数据。承保时填写的保单信息各项指标在核保行为时限定三种结果,包括通过,不通过(存在下发),拒保。在这三种核保结果下产生对理赔结果的响应模型,此处核保决策作为其中一个影响因子。采集样本数据具体包括:

1、从线上化系统记录投保的录入数据库中获取承保时间在一定范围内,同一种产品的保单信息,考虑到保单可能存在批改的情况,对所有符合条件的保单使用其最新的保单数据。采集已存储的量化指标,这些量化指标作为特征数据,包括投保人、被保人的年龄、出生地、标的类型、险种、责任、保额、保费、费率及投保时长等信息。

2、针对保单信息检索其核保数据,包括保单的审核通过、不通过、拒保。在第1步中采集的保单信息上打标签,形成承保与核保的对应关系,使得每张保单的承保量化指标集合对应一个核保状态。考虑到批改的数据变化,需要减少带来的统计偏差,此处排除保单下发的状态,着重对最新保单的核保审核通过、不通过、拒保三种状态做采集。

3、对以上检索了核保数据的保单,继续检索理赔数据,如受损类型、赔付金额、出险次数等等。同样在第2步的样本数据上打标签,至此生成承保、核保、理赔三个阶段的对应关系的数据。如此可以整理得到一张保单:从承保开始的各项量化指标、到核保人给出的核保数据及最后的理赔结果,作为确定的承保条件下,核保对此保单的影响。

将上述采集的所有样本数据存储至新建立的对应关系数据表中。

步骤S2,提取所述请求数据中的多个特征数据,根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数;

在核验决策树特征筛选时,为保证重要特征的不丢失,需要分析特征数据的重要程度,以选择重要程度高的特征数据,去除部分冗余特征,本发明较佳实施例中,采用基尼系数法进行判断特征重要程度。

在一实施例中,如图2所示,所述根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数的步骤,具体包括:

步骤S21,采用基尼系数计算公式计算每个特征数据在所述核验决策树节点n的变化量均值、所述节点n分支前的节点的变化量均值及所述节点n分支后的节点的变化量均值:

其中,基尼系数值为G,特征数据的序列为X

步骤S22,将所述节点n的变化量均值、所述节点n分支前的节点的变化量均值及所述节点n分支后的节点的变化量均值输入预定的第一公式进行计算,得到所述特征数据在所述节点n的重要系数,第一公式为:

W

步骤S23,将所述节点n的重要系数输入预定的第二公式中进行计算,得到所述特征数据在所述核验决策树中的重要系数,该重要系数作为后续挑选特征数据的依据,第二公式为:

步骤S3,根据所述重要系数从多个特征数据中选取目标特征数据;

如果每个样本数据的特征数据的维度为M,指定一个预定数量的常数m<<M,随机地从M个特征中选取m个特征子集,每次核验决策树进行分裂时,从这m个特征数据中选择最优的,即按照重要系数R由大至小的顺序选取最优的多个特征数据作为目标特征数据,在该过程中,每棵树都尽最大程度的生长,并没有完全排除其中的一个或多个特征数据,即没有剪枝过程。

步骤S4,将所述目标特征数据、所述核验结果数据及所述处理结果数据输入至核验决策树中进行训练,以及对训练后的多个核验决策树进行拟合得到弱模型序列;

将目标特征数据、核验结果数据及处理结果数据输入至对应的核验决策树中进行训练,在一实施方式中,根据目标特征数据、核验结果数据及处理结果数据建立向量序列S

步骤S5,按照预定的组合方式对所述弱模型序列进行组合得到集合模型;

其中,按照预定的组合方式对弱模型序列{u

步骤S6,获取待核验的请求数据,利用所述集合模型对所述待核验的请求数据进行预测,得到所述待核验的请求数据对应的核验结果数据及处理结果数据。

本实施例通过集合模型,能够对保单进行核保及理赔的预测,充分利用已线上化的产品全流程中存储的投保,核保、理赔的大量数据,训练一个用于预测的集合模型,并利用此集合模型能够快速给出的核保指标及得出决策建议,节约了审核数据的耗时,同时避免因人工核保造成的部分信息遗漏,主观因素代入等问题。本实施例的算法尽可能保证了特征数据采集的全面性,集合模型准确性高,且泛化性能好,不需要依靠GPU进行训练,满足智能核保的高时效性要求。

通过上述的描述可以得出,本实施例在训练决策树过程中,计算每一特征数据在每一核验决策树中的重要系数,先选取预定数量的特征数据,然后按照所述重要系数由大至小的顺序从所述预定数量的特征数据中选取优质特征数据作为训练数据来训练核验决策树,由于没有对特征数据进行剪枝,因此,得到的集合模型预测核验数据及处理结果数据的准确性高,且泛化性能好。

在一实施例中,在上述实施例的基础上,在上述步骤S6之前,还包括以下步骤:

采用验证曲线自适应地调整所述集合模型中核验决策树的数目及树最大深度,及采用学习曲线调整所述集合模型中每一核验决策树的样本数据的数量;

对调整后的集合模型进行测试,若测试得到所述调整后的集合模型的准确率大于等于预定的准确率,则将所述调整后的集合模型用于预测。

其中,在得出集合模型后,可能存在欠拟合或过拟合的效果,这时可以使用验证曲线评估集合模型的分类效果,其本质上是超参数对训练分数和验证分数的影响,得出最佳的参数,具体包括采用验证曲线自适应地调整集合模型中核验决策树的数目及树最大深度;以及利用学习曲线来调整每一核验决策树的训练集大小,得到最佳的训练集大小,提升集合模型的泛化性能。

进一步地,训练核验决策树的过程中使用的是部分数据,有剩余部分数据未被使用,可以使用剩余部分数据中的保单数据作为参数,以及对应的核保决策下,使用集合模型进行预测,得出对应的核保结果及理赔结果,若预测的核保结果及理赔结果与真实的核保结果及理赔结果接近,且总理赔结果的准确率达到预定的阈值(如85%)可判定为集合模型有效,可适用于后续待核保的保单。

在一实施例中,本发明提供一种数据预测装置,该数据预测装置与上述实施例中方法一一对应。如图3所示,该数据预测装置包括:

采集模块101,用于采集核验决策树的样本数据,所述样本数据中包括请求数据、对所述请求数据进行核验得到的核验结果数据及对所述核验结果数据进行相应后处理的处理结果数据;

计算模块102,用于提取所述请求数据中的多个特征数据,根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数;

选取模块103,用于根据所述重要系数从多个特征数据中选取目标特征数据;

训练模块104,用于将所述目标特征数据、所述核验结果数据及所述处理结果数据输入至核验决策树中进行训练,以及对训练后的多个核验决策树进行拟合得到弱模型序列;

组合模块105,用于按照预定的组合方式对所述弱模型序列进行组合得到集合模型;

预测模块106,用于获取待核验的请求数据,利用所述集合模型对所述待核验的请求数据进行预测,得到所述待核验的请求数据对应的核验结果数据及处理结果数据。

数据预测装置的具体限定可以参见上文中对于数据预测方法的限定,在此不再赘述。上述数据预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述计算机设备可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图4所示,所述计算机设备可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,存储器11存储有可在处理器12上运行的计算机程序。需要指出的是,图4仅示出了具有组件11-13的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

其中,存储器11可以是非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。本实施例中,存储器11的可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如存储本发明一实施例中的计算机程序的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或者处理数据,例如运行计算机程序等。

所述网络接口13可包括标准的无线网络接口、有线网络接口,该网络接口13通常用于在所述计算机设备与其他电子设备之间建立通信连接。

所述计算机程序存储在存储器11中,包括至少一个存储在存储器11中的计算机可读指令,该至少一个计算机可读指令可被处理器12执行,以实现本申请各实施例的方法,包括:

采集核验决策树的样本数据,所述样本数据中包括请求数据、对所述请求数据进行核验得到的核验结果数据及对所述核验结果数据进行相应后处理的处理结果数据;

其中,采集每一核验决策树的样本数据包括:每次随机且有放回地从预设的数据集合中抽取与所述数据集合的数据数量相等的数据,作为所述每一核验决策树的样本数据。

在采集每一核验决策树的样本数据时,如果数据集合大小为N,对于每一核验决策树而言,随机且有放回地从数据集合中的抽取N个训练样本,作为该核验决策树的训练集。每次使用一个训练集训练得到一个核验决策树模型,k个训练集共训练得到k个核验决策树模型。

本发明较佳实施例中,请求数据例如为保单信息,核验结果数据为根据预定的核验决策对保单信息进行核保得到的核保结果,处理结果数据为根据核保结果进行相应理赔的数据。承保时填写的保单信息各项指标在核保行为时限定三种结果,包括通过,不通过(存在下发),拒保。在这三种核保结果下产生对理赔结果的响应模型,此处核保决策作为其中一个影响因子。采集样本数据具体包括:

1、从线上化系统记录投保的录入数据库中获取承保时间在一定范围内,同一种产品的保单信息,考虑到保单可能存在批改的情况,对所有符合条件的保单使用其最新的保单数据。采集已存储的量化指标,这些量化指标作为特征数据,包括投保人、被保人的年龄、出生地、标的类型、险种、责任、保额、保费、费率及投保时长等信息。

2、针对保单信息检索其核保数据,包括保单的审核通过、不通过、拒保。在第1步中采集的保单信息上打标签,形成承保与核保的对应关系,使得每张保单的承保量化指标集合对应一个核保状态。考虑到批改的数据变化,需要减少带来的统计偏差,此处排除保单下发的状态,着重对最新保单的核保审核通过、不通过、拒保三种状态做采集。

3、对以上检索了核保数据的保单,继续检索理赔数据,如受损类型、赔付金额、出险次数等等。同样在第2步的样本数据上打标签,至此生成承保、核保、理赔三个阶段的对应关系的数据。如此可以整理得到一张保单从承保开始的各项量化指标、到核保人给出的核保数据、及最后的理赔结果,作为确定的承保条件下,核保对此保单的影响。

将上述采集的所有样本数据存储至新建立的对应关系数据表中。

提取所述请求数据中的多个特征数据,根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数;

在核验决策树特征筛选时,为保证重要特征的不丢失,需要分析特征数据的重要程度,以选择重要程度高的特征数据,去除部分冗余特征,本发明较佳实施例中,采用基尼系数法进行判断特征重要程度。

在一实施例中,所述根据预定的系数计算方法计算每一特征数据在每一核验决策树中的重要系数的步骤,具体包括:

采用基尼系数计算公式计算每个特征数据在所述核验决策树节点n的变化量均值、所述节点n分支前的节点的变化量均值及所述节点n分支后的节点的变化量均值:

其中,基尼系数值为G,特征数据的序列为(即X

将所述节点n的变化量均值、所述节点n分支前的节点的变化量均值及所述节点n分支后的节点的变化量均值输入预定的第一公式进行计算,得到所述特征数据在所述节点n的重要系数,第一公式为:

W

将所述节点n的重要系数输入预定的第二公式中进行计算,得到所述特征数据在所述核验决策树中的重要系数,该重要系数作为后续挑选特征数据的依据,第二公式为:

根据所述重要系数从多个特征数据中选取目标特征数据;

如果每个样本数据的特征数据的维度为M,指定一个预定数量的常数m<<M,随机地从M个特征中选取m个特征子集,每次核验决策树进行分裂时,从这m个特征数据中选择最优的,即按照重要系数R由大至小的顺序选取最优的多个特征数据作为目标特征数据,在该过程中,每棵树都尽最大程度的生长,并没有完全排除其中的一个或多个特征数据,即没有剪枝过程。

将所述目标特征数据、所述核验结果数据及所述处理结果数据输入至核验决策树中进行训练,以及对训练后的多个核验决策树进行拟合得到弱模型序列;

然后,将目标特征数据、核验结果数据及处理结果数据输入至对应的核验决策树中进行训练,在一实施方式中,根据目标特征数据、核验结果数据及处理结果数据建立向量序列S

按照预定的组合方式对所述弱模型序列进行组合得到集合模型;

其中,按照预定的组合方式对弱模型序列{u

获取待核验的请求数据,利用所述集合模型对所述待核验的请求数据进行预测,得到所述待核验的请求数据对应的核验结果数据及处理结果数据。

本实施例通过集合模型,能够对保单进行核保及理赔的预测,充分利用已线上化的产品全流程中存储的投保,核保、理赔的大量数据,训练一个用于预测的集合模型,并利用此集合模型能够快速给出的核保指标及得出决策建议,节约了审核数据的耗时,同时避免因人工核保造成的部分信息遗漏,主观因素代入等问题。本实施例的算法尽可能保证了特征数据采集的全面性,集合模型准确性高,且泛化性能好,不需要依靠GPU进行训练,满足智能核保的高时效性要求。

在一实施例中,在上述实施例的基础上,在上述待核验的请求数据预测步骤之前,还包括以下步骤:

采用验证曲线自适应地调整所述集合模型中核验决策树的数目及树最大深度,及采用学习曲线调整所述集合模型中每一核验决策树的样本数据的数量;

对调整后的集合模型进行测试,若测试得到所述调整后的集合模型的准确率大于等于预定的准确率,则将所述调整后的集合模型用于预测。

其中,在得出集合模型后,可能存在欠拟合或过拟合的效果,这时可以使用验证曲线评估集合模型的分类效果,其本质上是超参数对训练分数和验证分数的影响,得出最佳的参数,具体包括采用验证曲线自适应地调整集合模型中核验决策树的数目及树最大深度;以及利用学习曲线来调整每一核验决策树的训练集大小,得到最佳的训练集大小,提升集合模型的泛化性能。

进一步地,训练核验决策树的过程中使用的是部分数据,有剩余部分数据未被使用,可以使用剩余部分数据中的保单数据作为参数,以及对应的核保决策下,使用集合模型进行预测,得出对应的核保结果及理赔结果,若预测的核保结果及理赔结果与真实的核保结果及理赔结果接近,且总理赔结果的准确率达到预定的阈值(如85%)可判定为集合模型有效,可适用于后续待核保的保单。

在一个实施例中,本发明提供了一种计算机可读存储介质,计算机可读存储介质可以是非易失性和/或易失性存储器,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中数据预测方法的步骤,例如图1所示的步骤S1至步骤S6。或者,计算机程序被处理器执行时实现上述实施例中数据预测装置的各模块/单元的功能,例如图3所示模块101至模块106的功能。为避免重复,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序在执行时,可包括如上述各方法的实施例的流程。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

相关技术
  • 数据分布预测方法、数据均衡方法、设备及存储介质
  • 数据预测方法、装置、设备及可读存储介质
技术分类

06120113115804