一种信息预测方法、装置及存储介质

文献发布时间：2023-06-19 11:57:35

技术领域

本发明涉及互联网技术领域，尤其涉及一种信息预测方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的发展和金融服务业务的拓展，信用借贷得到了大力推广。然而，信用借贷给人们带来便捷的同时，也存在一些漏洞，给一些别有用心的人带来了可乘之机，借贷的案例屡见不鲜。因此，如何对信用贷款信息进行有效处理，从而有效提高金融行业的风险控制水平成为了一项亟待解决的问题。

发明内容

本发明实施例为了解决信用借贷信息预测过程中存在的上述问题，创造性地提供一种信息预测方法、装置及计算机可读存储介质。

根据本发明第一方面，提供了一种信息预测方法，该方法包括：获取待预测对象的属性信息；根据所述属性信息，确定所述待预测对象在每一对象集合中的信用信息；根据所述属性信息，确定所述待预测对象与每一所述对象集合的匹配概率；根据所述匹配概率和所述信用信息，预测所述待预测对象的信用水平。

根据本发明一实施方式，在根据所述属性信息，确定所述待预测对象与每一对象集合的匹配概率和所述待预测对象在每一所述对象集合中的信用评分概率之前，所述方法还包括：将所述属性信息中的连续变量转换为离散变量。

根据本发明一实施方式，所述将所述属性信息中的连续变量转换为离散变量，包括：对所述连续变量进行分箱处理。

根据本发明一实施方式，在根据所述属性信息，确定所述待预测对象在每一所述对象集合中的信用评分概率之前，所述方法还包括：获取若干个样本对象的样本属性信息；对所述样本属性信息进行特征提取，得到特征提取结果；根据所述特征提取结果，训练基础模型，以根据所述属性信息，确定所述待预测对象在每一所述对象集合中的信用评分概率；其中，所述根据所述特征提取结果，训练基础模型，包括：根据所述特征提取结果，利用逻辑回归算法，确定所述基础模型的逻辑回归参数，以得到所述基础模型。

根据本发明一实施方式，所述根据所述属性信息，确定所述待预测对象在每一对象集合中的信用信息，包括：根据所述逻辑回归参数，确定预测比率对数；根据所述预测比率对数，确定所述待预测对象在每一对象集合中的基础信用和信用系数；根据所述基础信用和所述信用系数，确定所述信用信息。

根据本发明一实施方式，所述方法还包括：根据所述对象集合的集合数量、所述特征提取结果和所述逻辑回归参数，利用逻辑回归算法和损失函数，训练信息预测模型，以根据所述属性信息，确定所述待预测对象与每一所述对象集合的匹配概率。

根据本发明第二方面，提供了一种信息预测装置，所述装置包括：获取模块，用于获取待预测对象的属性信息；信用确定模块，用于根据所述属性信息，确定所述待预测对象在每一对象集合中的信用信息；匹配模块，用于根据所述属性信息，确定所述待预测对象与每一所述对象集合的匹配概率；预测模块，用于根据所述匹配概率和所述信用信息，预测所述待预测对象的信用水平。

根据本发明一实施方式，所述装置还包括：样本获取模块，用于在根据所述属性信息，确定所述待预测对象在每一所述对象集合中的信用评分概率之前，获取若干个样本对象的样本属性信息；特征提取模块，用于对所述样本属性信息进行特征提取，得到特征提取结果；第一训练模块，用于根据所述特征提取结果，训练基础模型，以根据所述属性信息，确定所述待预测对象在每一所述对象集合中的信用评分概率。

根据本发明一实施方式，所述装置还包括：第二训练模块，用于根据所述对象集合的集合数量、所述特征提取结果和所述逻辑回归参数，利用逻辑回归算法和损失函数，训练信息预测模型，以根据所述属性信息，确定所述待预测对象与每一所述对象集合的匹配概率。

根据本发明第三方面，又提供了一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任意所述信息预测方法。

本发明实施例信息预测方法、装置及存储介质，获取待预测对象的属性信息，并根据所述属性信息，确定所述待预测对象在每一对象集合中的信用信息以及所述待预测对象与每一所述对象集合的匹配概率，以根据所述匹配概率和所述信用信息，预测所述待预测对象的信用水平。由此，充分考虑利用待预测对象与对象集合的匹配概率，有效对待预测对象进行区分，从而根据待预测对象在每一对象集合中的信用信息，更加精确地对待预测对象的信用水平进行预测，显著提升了预测结果的准确性。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例信息预测方法的实现流程示意图；

图2示出了本发明实施例信息预测方法应用示例中单卡模式和多卡模式对比示意图；

图3示出了本发明信息预测装置的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例信息预测方法的实现流程示意图。

参考图1，本发明实施例信息预测方法，至少包括如下操作流程：操作101，获取待预测对象的属性信息；操作102，根据属性信息，确定待预测对象在每一对象集合中的信用信息；操作103，根据属性信息，确定待预测对象与每一对象集合的匹配概率；操作104，根据匹配概率和信用信息，预测待预测对象的信用水平。

在操作101，获取待预测对象的属性信息。

在本发明这一实施例中，待预测对象可以是一个用户，用户可以是个人用户，也可以是企业用户，还可以是其他适用的待预测对象。属性信息是用于表征用户特点的信息。例如：针对个人用户的年龄、性别、学历、银行流水信息、住房、贷款额、信用卡数量、工作年限、工作性质等。

在操作102，根据属性信息，确定待预测对象在每一对象集合中的信用信息。

在本发明这一实施例中，对于待预测对象在每一对象集合中的信用信息，可以采用通用的评分卡的方式来确定，评分卡中包括多个对象属性以及每一对象属性的权重。举例说明，第一对象集合的评分卡包括对象属性A、对象属性 B、对象属性C、对象属性D和对象属性E，针对每一对象属性赋予一个权重，该权重可以以分值或百分比等形式示出。例如：权重可以以分值的形式示出，对象属性A、对象属性B、对象属性C、对象属性D和对象属性E的分值分别为20、35、25、15和5，第一对象集合中各个对象属性的总分值为100。待预测对象在第一对象集合中不同属性下的对应分值分别为18、30、15、13和5，则待预测对象在第一对象集合中的信用信息为81。

这里，每一对象集合能够表征一个具有共同特定的对象群体子空间，例如：在金融领域，对于用户信用水平的预测过程中，可以针对学生群体、城市白领群体、新生代农民工群体和创业人员等分别设置不同的评分卡。待预测对象在对象集合的评分下的信用信息的值越大，说明在该对象集合的评价标准得到的该待预测对象的信用水平越高。

在本发明这一实施例中，在根据属性信息，确定待预测对象与每一对象集合的匹配概率和待预测对象在每一对象集合中的信用评分概率之前，还将属性信息中的连续变量转换为离散变量。举例说明，可以采用对连续变量进行分箱处理的方式，将属性信息中的连续变量转换为离散变量的操作。分箱处理的策略包括等频率分箱和等宽分箱等，将连续型变量转化为离散型变量。

在本发明这一实施例中，在根据属性信息，确定待预测对象在每一对象集合中的信用评分概率之前，首先采用以下操作步骤训练基础模型：获取若干个样本对象的样本属性信息；对样本属性信息进行特征提取，得到特征提取结果；根据特征提取结果，训练基础模型，以根据属性信息，确定待预测对象在每一对象集合中的信用评分概率。对于根据特征提取结果，训练基础模型，可以采用利用逻辑回归算法，根据特征提取结果，确定基础模型的逻辑回归参数，以得到基础模型。

举例说明，可以采用以下操作训练步骤为每一对象集合配置评分卡。

首先，对样本对象的样本属性信息中的连续型变量进行分箱处理。例如：信用贷款申请人的银行流水信息等。然后，利用以下公式(1)对分箱处理后生成离散变量和原始的样本属性信息中的离散型变量进行WOE(Weight of Evidence，证据权重)编码处理。

其中，p

接下来，将WOE编码后的特征向量x和对应的label y输入至如下式(2) 的逻辑回归公式中进行基础模型的训练，确定下式(2)中的模型参数w。

其中，w为LR(逻辑回归算法)的模型参数，这里也可以称为逻辑回归参数。

在本发明这一实施例中，基于上述基础模型，可以采用以下操作步骤实现根据待预测对象的属性信息，确定待预测对象在每一对象集合中的信用信息：根据逻辑回归参数，确定预测比率对数，然后，根据预测比率对数，确定待预测对象在每一对象集合中的基础信用和信用系数，最终根据基础信用和信用系数，确定信用信息。

举例说明，在完成基础模训练，确定逻辑回归参数w之后，引入中间变量预测比率对数odd，预测比率对数odd采用如下式(3)示出。

由此，针对某一样本对象，评分卡的预测分值：Scoretotal＝A+B*odd，给定当odd增加一倍时，所增加的评分值PDO：Scoretotal+PDO＝A+B*2*odd。则可以通过求解二元方程，得出A:基础分数，B:评分系数。

最后，根据如下式(4)所示的逻辑回归结果得到针对待预测对象的评分卡最终分值。

Scoretotal＝A+B(β

(4)

其中，B*β

在操作103，根据属性信息，确定待预测对象与每一对象集合的匹配概率。

在本发明这一实施例中，还根据对象集合的集合数量、特征提取结果和逻辑回归参数，利用逻辑回归算法和损失函数，训练信息预测模型，以根据属性信息，确定待预测对象与每一对象集合的匹配概率。

举例说明，基于上述基础模型，确定信息预测模型的变换公式如下式(5)，这里信息预测模型为采用多个对象集合的评分卡，综合对待预测对象进行信息预测的模型，故也可以称为多卡模型：

其中，公式中的变量K代表了评分卡的个数，属于信息预测模型的超参数，这里，针对每一个对象集合配置一个评分卡，故评分卡的个数与对象集合数量相同。实际应用过程中，可以根据实际情况进行设置，取值范围可以在[3,6]之间。

上述式(5)中，LR

针对信息预测模拟，可以采用如下式(6)所示的交叉熵损失函数进行模型参数的求解：

其中，yi作为标签，标识当前样本对象是否为欺诈样本，信息预测模型中的参数μ和w可以使用梯度下降算法进行训练更新。

操作104，根据匹配概率和信用信息，预测待预测对象的信用水平。

举例说明，对象集合包括对象集合1、对象集合2和对象集合3，待预测对象DX1与对象集合1、对象集合2和对象集合3匹配概率分别为60％、30％和 10％，待预测对象DX1在对象集合1、对象集合2和对象集合3中的信用水平分别为80、75和90，则最终确定的待预测对象的信用水平为 60％*80+30％*75+10％*90＝79.5。

这里可以设定一个预设信用阈值，在待预测对象的信用水平小于设定阈值的情况下，判定待预测对象为易逾期对象或易产生欺诈行为对象等。

图2示出了本发明实施例信息预测方法应用示例中单卡模式和多卡模式对比示意图。

参考图2，采用单卡模式和多卡模式对比的方式，对本申请实施例应用示例中多卡模式的信贷评分方式进行说明。如图2所示，左侧示出了信贷评分卡单卡模式的评分卡示意图，右侧示出了信贷评分的多卡模式的评分模式示意图。以三种不同对象集合相对应的Card

在多卡模式下待预测对象与每一对象集合的匹配概率均是根据上述信息预测模型计算出来的。由此，每一待预测对象与各个对象集合的匹配概率α均是不同的。由此，针对不同的待预测对象，采用信息预测模型进行自适应，确定匹配概率，使得信息预测模型能够有效区分用户群体，从而到达更好的信贷信用水平的识别效果。

本发明实施例信息预测方法、装置及存储介质，获取待预测对象的属性信息，并根据属性信息，确定待预测对象在每一对象集合中的信用信息以及待预测对象与每一对象集合的匹配概率，以根据匹配概率和信用信息，预测待预测对象的信用水平。由此，充分考虑利用待预测对象与对象集合的匹配概率，有效对待预测对象进行区分，从而根据待预测对象在每一对象集合中的信用信息，更加精确地对待预测对象的信用水平进行预测，显著提升了预测结果的准确性。

同理，基于上文信息预测方法，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序，当程序被处理器执行时，使得处理器至少执行如下的操作步骤：操作101，获取待预测对象的属性信息；操作102，根据属性信息，确定待预测对象在每一对象集合中的信用信息；操作103，根据属性信息，确定待预测对象与每一对象集合的匹配概率；操作104，根据匹配概率和信用信息，预测待预测对象的信用水平。

进一步，基于如上文信息预测方法，本发明实施例还提供一种信息预测装置，如图3，该装置30包括：获取模块301，用于获取待预测对象的属性信息；信用确定子模块302，用于根据属性信息，确定待预测对象在每一对象集合中的信用信息；匹配子模块303，用于根据属性信息，确定待预测对象与每一对象集合的匹配概率；信用预测模块304，用于根据匹配概率和信用信息，预测待预测对象的信用水平。

根据本发明一实施方式，装置30还包括：样本获取模块，用于在根据属性信息，确定待预测对象在每一对象集合中的信用评分概率之前，获取若干个样本对象的样本属性信息；特征提取模块，用于对样本属性信息进行特征提取，得到特征提取结果；第一训练模块，用于根据特征提取结果，训练基础模型，以根据属性信息，确定待预测对象在每一对象集合中的信用评分概率。

根据本发明一实施方式，装置30还包括：第二训练模块，用于根据对象集合的集合数量、特征提取结果和逻辑回归参数，利用逻辑回归算法和损失函数，训练信息预测模型，以根据属性信息，确定待预测对象与每一对象集合的匹配概率。

这里需要指出的是：以上对针对信息预测装置实施例的描述，与前述图1 至2所示的方法实施例的描述是类似的，具有同前述图1至2所示的方法实施例相似的有益效果，因此不做赘述。对于本发明信息预测装置实施例中未披露的技术细节，请参照本发明前述图1至2所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郭豪;蔡准;孙悦;郭晓鹏;
专利申请人：北京芯盾时代科技有限公司;

上一篇：一种基于人工智能的不安全行为检测方法
下一篇：钢轨电弧焊接设备