导航：首页> 医学或兽医学；卫生学>一种业务预测模型创建方法、装置及计算机可读存储介质

一种业务预测模型创建方法、装置及计算机可读存储介质

文献发布时间：2023-06-19 13:49:36

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种业务预测模型创建方法、装置及计算机可读存储介质。

背景技术

在模型开发时，一般需要大量的样本数据，在一项业务开展刚刚开始的阶段，会面临样本数据（业务对象及业务状态标签）少的等情况，无法基于已有的当前样本数据进行模型开发，或者开发的模型预测能力偏差、效果不稳定。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种业务预测模型创建方法、装置及计算机可读存储介质，用于解决上述技术问题。

第一方面，本申请实施例提供一种业务预测模型创建方法，应用于计算机设备，所述方法包括：

获取待创建业务预测模型的目标数据集；

基于所述目标数据集，获取与所述目标数据集满足预设业务相似条件的多个辅助数据集；

从所述多个辅助数据集中抽取样本数据，得到样本数据集；

根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型；

采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测，得到所述目标数据集及每个辅助数据集的违约概率；

基于所述目标数据集及每个辅助数据集的违约概率，从所述样本数据集中确定出建模数据集；

根据所述目标数据集及所述建模数据集，确定权重参数；

基于所述建模数据集及所述权重参数创建所述业务预测模型。

上述方案，首先，获取待创建业务预测模型的目标数据集，并找到与目标数据集类似的多个辅助数据集；接着，从多个辅助数据集中进行抽样得到样本数据集，并通过样本数据集训练得到一业务状态模型；再接着，通过业务状态模型得到目标数据集和每个辅助数据集的违约概率，并基于违约概率确定建模数据集；然后，基于目标数据集及建模数据集，确定权重参数；最后，建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集，通过量化方式筛选出建模数据集，并对建模数据集中的样本权重进行调整，以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本，以便能在目标数据集的数据量偏少的情况下，创建出业务预测模型，并能使创建的业务预测模型具有更强的预测能力和稳定性。

在一种可能的实现方式中，在所述基于所述目标数据集，获取与所述目标数据集满足预设业务相似条件的多个辅助数据集的步骤中，所述预设业务相似条件包括：

每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量；和，

所述每个辅助数据集的样本数据包括业务对象的业务状态标签。

在一种可能的实现方式中，所述从所述多个辅助数据集中抽取样本数据，得到样本数据集的步骤，包括：

从每个辅助数据集中抽取相同预设数量的样本数据，得到所述样本数据集；

其中，所述从每个辅助数据集中抽取相同预设数量的样本数据的步骤包括：

检测每个辅助数据集中的样本数据的数量是否大于所述预设数量；

若检测到大于等于所述预设数量，则采用无放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据；

若检测到小于所述预设数量，则采用有放回抽样方式从所述每个辅助数据集中抽取所述预设数量的样本数据。

在一种可能的实现方式中，所述基于所述目标数据集及每个辅助数据集的违约概率，从所述样本数据集中确定出建模数据集的步骤，包括：

将所述目标数据集的违约概率作为基础数据，将所述多个辅助数据集的违约概率作为测试数据，根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标；

将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集。

在一种可能的实现方式中，在所述根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标的步骤中，将所述基础数据进行分组，并按照所述基础数据的分组的阈值标准将所述测试数据进行分组，其中，所述基础数据的分组数量与所述测试数据的分组数量相同；

群体稳定性指标psi的计算公式如下：

其中，n为分组数量，i为分组的序号，A

在一种可能的实现方式中，在所述根据所述目标数据集及所述建模数据集，确定权重参数的步骤中，确定所述权重参数的公式如下：

其中，β是一个一维权重参数数组，一维权重参数数组包括权重参数β

在一种可能的实现方式中，所述基于所述建模数据集及所述权重参数创建所述业务预测模型的步骤，包括：

将所述建模数据集中的样本数据作为建模样本，并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建，得到所述业务预测模型。

在一种可能的实现方式中，所述业务状态模型及所述业务预测模型为逻辑回归模型。

第二方面，本申请实施例还提供一种业务预测模型创建装置，应用于计算机设备，所述装置包括：

第一获取模块，用于获取待创建业务预测模型的目标数据集；

第二获取模块，用于基于所述目标数据集，获取与所述目标数据集满足预设业务相似条件的多个辅助数据集；

样本抽取模块，用于从所述多个辅助数据集中抽取样本数据，得到样本数据集；

模型训练模块，用于根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型；

违约概率预测模块，用于采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测，得到所述目标数据集及每个辅助数据集的违约概率；

建模数据集确定模块，用于基于所述目标数据集及每个辅助数据集的违约概率，从所述样本数据集中确定出建模数据集；

权重参数确定模块，用于根据所述目标数据集及所述建模数据集，确定权重参数；

模型创建模块，用于基于所述建模数据集及所述权重参数创建所述业务预测模型。

第三方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其被执行时，使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的业务预测模型创建方法。

第四方面，本申请实施例还提供一种计算机设备，所述计算机设备包括处理器、计算机可读存储介质和通信单元，所述计算机可读存储介质、所述通信单元以及所述处理器之间通过总线系统相连，所述通信单元用于与至少一个终端设备通信连接，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现第一方面或者第一方面中任意一个可能的实现方式中的业务预测模型创建方法。

基于上述任意一个方面，首先，获取待创建业务预测模型的目标数据集，并找到与目标数据集类似的多个辅助数据集；接着，从多个辅助数据集中进行抽样得到样本数据集，并通过样本数据集训练得到一业务状态模型；再接着，通过业务状态模型得到目标数据集和每个辅助数据集的违约概率，并基于违约概率确定建模数据集；然后，基于目标数据集及建模数据集，确定权重参数；最后，建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集，通过量化方式筛选出建模数据集，并对建模数据集中的样本权重进行调整，以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本，以便能在目标数据集的数据量偏少的情况下，创建出业务预测模型，并能使创建的业务预测模型具有更强的预测能力和稳定性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要调用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的业务预测模型创建方法的流程示意图；

图2为本申请实施例提供的业务预测模型创建装置的功能模块示意图；

图3为本申请实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面结合说明书附图对本申请进行具体说明，方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。

在现有技术中，为了解决背景技术中的技术问题，一种可能的解决方案为采用其他比较成熟业务的样本数据进行建模，然而，由于业务内容存在差异，直接采用其他比较成熟业务的样本数据建模形成的业务预测模型存在预测能力差以及稳定性弱的问题。

以金融机构开展信贷业务为例，通常会使用业务预测模型来预测业务对象（客户）的违约（业务状态）概率，在信贷审批阶段所使用的预测业务模型通常称作申请评分模型，预测业务模型的评分结果一般作为审批予以通过或拒绝的依据。然而，预测业务模型的开发一般需要大量的样本数据，在一项新的信贷业务（比如大额贷款业务）刚刚开展的早期阶段，会面业务对象群体样本数量少、贷后还款表现不够充分（样本的预测标签不明确）的情况，缺乏可用的贷后样本，于是面临无法进行模型开发，或者开发的模型预测能力偏差、效果不稳定的问题。

为了克服上述技术方案中的不足，发明人提供以下解决方案，请参照图1，图1为本申请实施例提供的业务预测模型创建方法的流程示意图，本实施例提供的业务预测模型创建方法可以由计算机设备执行，为了便于说明本申请的技术方案，下面结合一种可能的应用场景对该业务预测模型创建方法进行详细介绍，其中，该可能的应用场景可以是用在金融借贷场景中，可以理解的是，本申请提供的技术方案还可以应用于其他场景，比如，基于大数据的产品信息推广。下面以金融借贷场景为例对本申请提供的业务预测模型创建方法进行介绍。

结合图1对该业务预测模型创建方法的流程步骤进行详尽说明。

步骤S11，获取待创建业务预测模型的目标数据集。

在本步骤中，待创建业务预测模型可以是用于对新业务进行业务预测的模型，其中，新业务是指业务开展的时间小于预设时间（比如，3个月）的业务，新业务也可以是指该业务场景下产生的样本数据条数小于预设数量（比如，1000条）的业务。目标数据集是指新业务场景下产生的样本数据的集合。

步骤S12，基于目标数据集，获取与目标数据集满足预设业务相似条件的多个辅助数据集。

在本申请实施例中，预设业务相似条件可以包括：

每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量；和，

所述每个辅助数据集的样本数据包括业务对象的业务状态标签。

以金融借贷场景为例，辅助数据集S

辅助数据集S

步骤S13，从多个辅助数据集中抽取样本数据，得到样本数据集。

在本申请实施例中，可以从每个辅助数据集（S

具体地，从每个辅助数据集（S

检测每个辅助数据集（S

若检测到大于等于所述预设数量，则采用无放回抽样方式从所述每个辅助数据集（S

若检测到小于所述预设数量，则采用有放回抽样方式从所述每个辅助数据集（S

无放回抽样方式是指每次从总体中抽取一个单位，经调查记录后不再将其放回总体中，因此，每抽一个单位，总体单位数就减少一个，每个单位被抽中的概率不同。放回抽样方式是指在逐个抽取个体时，每次被抽到的个体放回总体中后，再进行下次抽取的抽样方法。

步骤S14，根据样本数据集训练得到一用于对样本数据中的业务对象进行业务状态预测的业务状态模型。

在本申请实施例中，使用样本数据集S对业务状态模型进行训练，得到一个可以对业务对象（比如，贷款客户）进行还款预测（预测客户是否逾期还款）的业务状态模型。

具体地，在模型训练过程中，可以通过输入样本数据的标签与模型输出的该输入样本数据的标签之间的差异，调整模型参数，直到输入样本数据的标签与模型输出的该输入样本数据的标签基本一致时，结束模型训练，得到训练好的业务状态模型。

步骤S15，采用业务状态模型对所述目标数据集及多个辅助数据集进行预测，得到所述目标数据集及每个辅助数据集的违约概率。

具体地，可以将所述目标数据集的违约概率作为基础数据，将所述多个辅助数据集的违约概率作为测试数据，根据所述基础数据与所述测试数据计算各个辅助数据集的群体稳定性指标；

将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集，其中，群体稳定性指标用于衡量模型的预测值与实际值偏差大小的指标。

在本申请实施例中，将所述基础数据进行分组，并按照所述基础数据的分组的阈值标准将所述测试数据进行分组，其中，所述基础数据的分组数量与所述测试数据的分组数量相同；

群体稳定性指标psi的计算公式如下：

其中，n为分组数量，i为分组的序号，A

步骤S16，基于目标数据集及每个辅助数据集的违约概率，从样本数据集中确定出建模数据集。

将psi

步骤S17，根据目标数据集及建模数据集，确定权重参数。

在本申请实施例中，确定所述权重参数的公式如下：

其中，β是一个一维权重参数数组，一维权重参数数组包括权重参数β

步骤S18，基于所述建模数据集及所述权重参数创建所述业务预测模型。

在本申请实施例中，将所述建模数据集中的样本数据作为建模样本，并将权重参数作为所述建模数据集中的样本数据的权重进行模型创建，得到所述业务预测模型。

本申请实施例提供的上述业务预测模型创建方法，通过使用与目标数据集类似的辅助数据集，通过量化方式筛选出建模数据集（采用群体稳定性指标确定建模数据集），并对建模数据集中的样本权重进行调整（使用加权后的建模样本数据更加接近目标客群，降低样本偏差，有助于提高模型预测能力和稳定性），以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本，以便能在目标数据集的数据量偏少的情况下，创建出业务预测模型，并能使创建的业务预测模型具有更强的预测能力和稳定性。

进一步地，在本申请实施例中，业务状态模型及业务预测模型可以为逻辑回归模型，二分类模型、随机森林模型及梯度提升迭代决策树模型等。优选地，业务状态模型及业务预测模型可以为逻辑回归模型，业务状态模型及业务预测模型采用逻辑回归模型，相比于采用其他模型具体较强的可解释性，并且能够降低过拟合的风险。

请参照图2，图2为本公开实施例提供的业务预测模型创建装置的功能模块示意图，本实施例可以根据计算机设备执行的方法实施例对业务预测模型创建装置20进行功能模块的划分，也即该业务预测模型创建装置20所对应的以下各个功能模块可以用于执行上述计算机设备执行的各个方法实施例。其中，该基于业务预测模型创建装置20可以包括第一获取模块21、第二获取模块22、样本抽样模块23、模型训练模块24、违约概率预测模块25、建模数据集确定模块26、权重参数确定模块27及模型创建模块28，下面分别对该业务预测模型创建装置20的各个功能模块的功能进行详细阐述。

第一获取模块21，用于获取待创建业务预测模型的目标数据集。

待创建业务预测模型可以是用于对新业务进行业务预测的模型，其中，新业务是指业务开展的时间小于预设时间（比如，3个月）的业务，新业务也可以是指该业务场景下产生的样本数据条数小于预设数量（比如，1000条）的业务。目标数据集是指新业务场景下产生的样本数据的集合。

第二获取模块22，用于基于所述目标数据集，获取与所述目标数据集满足预设业务相似条件的多个辅助数据集。

在本申请实施例中，预设业务相似条件可以包括：

每个辅助数据集与所述目标数据集具有相同可用于创建所述业务预测模型的预测变量；和，

所述每个辅助数据集的样本数据包括业务对象的业务状态标签。

以金融借贷场景为例，辅助数据集S

辅助数据集S

样本抽取模块23，用于从所述多个辅助数据集中抽取样本数据，得到样本数据集。

在本申请实施例中，可以从每个辅助数据集（S

具体地，从每个辅助数据集（S

检测每个辅助数据集（S

若检测到大于等于所述预设数量，则采用无放回抽样方式从所述每个辅助数据集（S

若检测到小于所述预设数量，则采用有放回抽样方式从所述每个辅助数据集（S

模型训练模块24，用于根据所述样本数据集训练得到一用于对所述样本数据中的业务对象进行业务状态预测的业务状态模型。

违约概率预测模块25，用于采用所述业务状态模型对所述目标数据集及多个辅助数据集进行预测，得到所述目标数据集及每个辅助数据集的违约概率。

将所述群体稳定性指标中指标数值最小的辅助数据集作为所述建模数据集，其中，群体稳定性指标用于衡量模型的预测值与实际值偏差大小的指标。

群体稳定性指标psi的计算公式如下：

其中，n为分组数量，i为分组的序号，A

建模数据集确定模块26，用于基于所述目标数据集及每个辅助数据集的违约概率，从所述样本数据集中确定出建模数据集。

将psi

权重参数确定模块27，用于根据所述目标数据集及所述建模数据集，确定权重参数。

在本申请实施例中，权重参数确定模块270确定所述权重参数的公式可以如下：

其中，β是一个一维权重参数数组，一维权重参数数组包括权重参数β

模型创建模块28，用于基于所述建模数据集及所述权重参数创建所述业务预测模型。

需要说明的是，应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以在物理上分开。且这些模块可以全部以软件（比如，开源软件）可以通过处理器调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理器调用软件的形式实现，部分模块通过硬件的形式实现。例如，模型创建模块28可以由单独处理器运行实现，例如，可以以程序代码的形式存储于上述装置或系统的存储器中，由上述装置或系统的某一个处理器调用并执行以上模型创建模块28的功能，其它模块的实现与之类似，在此就不再赘述。此外这些模块可以全部或部分集成在一起，也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路，在实现过程中，上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。

请参照图3，图3示出了本公开实施例提供的用于实现上述的业务预测模型创建方法的计算机设备10的硬件结构示意图，计算机设备10可以在云端服务器上实现。如图3所示，计算机设备10可包括处理器11、计算机可读存储介质12、总线13以及通信单元14。

在具体实现过程中，至少一个处理器11执行计算机可读存储介质12存储的计算机执行指令（例如图2中所示的业务预测模型创建装置20中包括的各个模块），使得处理器11可以执行如上方法实施例的业务预测模型创建方法，其中，处理器11、计算机可读存储介质12以及通信单元14通过总线13连接，处理器11可以用于控制通信单元14的数据接收与发送。

处理器11的具体实现过程可参见上述计算机设备10执行的各个方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

计算机可读存储介质12可能包含随机存取存储器，也可能还包括非易失性存储，例如至少一个磁盘存储器。

总线13可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

此外，本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上业务预测模型创建方法。

综上所述，本申请实施例提供的业务预测模型创建方法、装置及计算机可读存储介质，首先，获取待创建业务预测模型的目标数据集，并找到与目标数据集类似的多个辅助数据集；接着，从多个辅助数据集中进行抽样得到样本数据集，并通过样本数据集训练得到一业务状态模型；再接着，通过业务状态模型得到目标数据集和每个辅助数据集的违约概率，并基于违约概率确定建模数据集；然后，基于目标数据集及建模数据集，确定权重参数；最后，建模数据集及权重参数创建业务预测模型。本方案通过使用与目标数据集类似的辅助数据集，通过量化方式筛选出建模数据集，并对建模数据集中的样本权重进行调整，以使建模数据集中的样本更加接近待创建业务预测模型所对应业务的样本，以便能在目标数据集的数据量偏少的情况下，创建出业务预测模型，并能使创建的业务预测模型具有更强的预测能力和稳定性。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。基于此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：顾凌云;谢旻旗;张涛;黄以增;
专利申请人：上海冰鉴信息科技有限公司;