掌桥专利:专业的专利平台
掌桥专利
首页

模型迁移方法、装置及电子设备

文献发布时间:2023-06-19 12:07:15


模型迁移方法、装置及电子设备

技术领域

本说明书涉及计算机应用领域,尤其涉及一种模型迁移方法、装置及电子设备。

背景技术

通常,开发人员可以利用训练机器学习模型的方式,获取具有特定功能的机器学习模型,进而应用该模型完成特定任务,相对于人工完成上述任务,可以显著节省人力资源;但是,由于机器学习模型的训练过程是在特定的业务场景下完成的,因此,如果切换了新的业务场景,先前训练的机器学习模型就很可能无法正常工作;假如重新训练模型,则可能会由于新的业务场景缺乏历史数据积累而无法完成。

相关技术中,可以通过迁移学习的方法,使先前训练的模型能够适应新的业务场景;然而,传统的迁移学习方式需要将原先的业务场景下的样本数据与新场景下的样本数据混合进行模型训练,但在金融风控建模中,由于数据安全和隐私等要求,该特定的业务场景中的样本数据无法直接使用,进而导致模型迁移无法完成。

发明内容

本说明书提出一种模型迁移方法,所述模型为评分卡模型,所述方法包括:

基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型;

获取目标场景的无标签的第二训练样本;其中,所述第二训练样本与所述第一训练样本的特征空间相同;

基于调整所述第二训练样本的特征分布逼近所述第一训练样本的特征分布,将所述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,以完成模型迁移。

可选的,所述基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型,包括:

对所述第一训练样本进行数据分箱处理,得到第一数据分箱及其对应的第一特征占比数据;其中,所述第一特征占比数据表征第一数据分箱的第一特征的样本在所述第一训练样本中的样本占比;

基于将第一数据分箱中的样本向量化输入至所述第一机器学习模型,并以所述第一样本对应的样本标签作为约束对所述第一机器学习模型进行模型训练,得到训练完成的包括第一模型参数的所述第一机器学习模型。

可选的,所述第一模型参数包括与所述第一样本占比数据对应的第一数据分箱的分箱取值范围;

所述基于调整所述第二训练样本的特征分布逼近所述第一训练样本的特征分布,将所述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,包括:

对所述第二训练样本进行数据分箱处理,得到第二数据分箱及其对应的第二样本特征占比数据;其中,所述第二样本特征占比数据表征第二数据分箱的第一特征的样本在所述第二训练样本中的样本占比;

按照预设步长,探索调整所述第二数据分箱的分箱取值范围,以使所述第二样本特征占比数据作为所述第二训练样本的特征分布,逼近以所述第一样本特征占比数据作为所述第一训练样本的特征分布;

将探索得到的所述第二数据分箱的分箱取值范围替代所述第一模型参数中的所述第一数据分箱的分箱取值范围,并保持所述第一模型参数中的其它模型参数不变,以完成模型参数将校准,将模型参数将校准后的所述第一机器学习模型作为所述第二机器学习模型。

可选的,还包括:

输出所述第二机器学习模型,以使用户基于输出的模型迁移后的所述第二机器学习模型在所述目标场景进行模型预测。

可选的,所述数据分箱包括等频分箱或等距分箱。

可选的,所述第二数据分箱的分箱粒度细于所述第一数据分箱的分箱粒度。

本说明书还提出一种模型迁移装置,所述模型为评分卡模型,所述装置包括:

训练模块,基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型;

获取模块,获取目标场景的无标签的第二训练样本;其中,所述第二训练样本与所述第一训练样本的特征空间相同;

迁移模块,基于调整所述第二训练样本的特征分布逼近所述第一训练样本的特征分布,将所述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,以完成模型迁移。

可选的,所述训练模块进一步:

对所述第一训练样本进行数据分箱处理,得到第一数据分箱及其对应的第一特征占比数据;其中,所述第一特征占比数据表征第一数据分箱的第一特征的样本在所述第一训练样本中的样本占比;

基于将第一数据分箱中的样本向量化输入至所述第一机器学习模型,并以所述第一样本对应的样本标签作为约束对所述第一机器学习模型进行模型训练,得到训练完成的包括第一模型参数的所述第一机器学习模型。

可选的,所述第一模型参数包括与所述第一样本占比数据对应的第一数据分箱的分箱取值范围;

所述迁移模块进一步:

对所述第二训练样本进行数据分箱处理,得到第二数据分箱及其对应的第二样本特征占比数据;其中,所述第二样本特征占比数据表征第二数据分箱的第一特征的样本在所述第二训练样本中的样本占比;

按照预设步长,探索调整所述第二数据分箱的分箱取值范围,以使所述第二样本特征占比数据作为所述第二训练样本的特征分布,逼近以所述第一样本特征占比数据作为所述第一训练样本的特征分布;

将探索得到的所述第二数据分箱的分箱取值范围替代所述第一模型参数中的所述第一数据分箱的分箱取值范围,并保持所述第一模型参数中的其它模型参数不变,以完成模型参数将校准,将模型参数将校准后的所述第一机器学习模型作为所述第二机器学习模型。

可选的,还包括:

输出模块,输出所述第二机器学习模型,以使用户基于输出的模型迁移后的所述第二机器学习模型在所述目标场景进行模型预测。

可选的,所述数据分箱包括等频分箱或等距分箱。

可选的,所述第二数据分箱的分箱粒度细于所述第一数据分箱的分箱粒度。

本说明书还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;

所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述的方法。

本说明书还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,执行上述的方法。

在以上技术方案中,利用目标场景的无标签样本,结合评分卡模型基于特征进行数据分箱,对使得每个特征的分箱内,源场景分布和目标场景分布尽量相似,从而将源场景和目标场景的特征分布校准到尽量相近,从而实现模型在从源场景到目标场景的迁移适配,一方面,解决了目标场景无标签情况下模型初始化的问题,并提升迁移模型在目标场景的泛化效能;另一方面,仅需将源场景训练的评分卡模型的模型参数输出到目标场景,无需要使用源场景下的数据,满足了数据安全和隐私保护的用户需求。

附图说明

图1是本说明书一实施例提供的一种模型迁移方法的流程图;

图2是本说明书一实施例提供的一种电子设备的结构示意图;

图3是本说明书一实施例提供的一种模型迁移装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。

申请人研究发现,为了解决历史数据不够充足的情况下,对于数据风险进行防控的问题,通常的方法是,等待新开展的业务运行一段时间,积累到足够的数据后,再采用这些数据构建风控模型。这意味着新开展的业务在运行初期无法得到有效的风险控制。在这段时期内,如果没有识别和阻拦恶意用户的诈骗等行为,往往会给开展该业务的平台,以及参与该业务的用户带来巨大的损失。

为了解决在历史数据不够充足的情况下,对于数据风险进行防控的问题,学术界和工业界都进行了大量的探索和实践。例如:一种方式是通过专家经验进行初始化模型设计。但专家经验存在主观偏差,且人力成本高,效率低下。另一种方式是利用无标签业务数据,通过无监督算法挖掘潜在的模式。但无监督学习的难度较大,且无监督算法挖掘得到的潜在模式,与需要解决的特定问题不一定直接相关,往往还需要结合专家业务经验,进行启发式的模型设计。

申请人发现在实际应用中,会存在许多相似的场景,例如,对于某一电子支付平台,此平台可以为用户提供特色的存款业务,通常情况下,年轻人更喜欢使用电子平台进行存款,并考虑到年轻人收入情况,在30至40岁的年龄的人使用电子存款的较多,这样年龄与电子存款的使用情况之间就可以存在类似正态分布的分布曲线;现新出现了一款线下存款业务,考虑到同样是存款业务,只不过此业务是线下进行的,所以,此业务的使用情况与年龄分布也会呈现类似正态分布的分布曲线,但由于是新的业务,没有太多的历史数据,故考虑到电子平台进行存款与线下进行存款同样都可以存在类似正态分布的分布曲线,即两者的分布情况是相似的,是否可以借鉴电子平台的经验或者模型来分析此款新的线下业务的风险情况。

申请人发现迁移学习可以试图利用相似的源场景数据和经验,迁移到目标场景中,解决目标场景中历史数据不够充足的情况下,模型构建的问题。但在实际应用中,由于某些原因,源场景的数据只能用于构建模型,获得模型参数,无法将源场景的原始数据和目标场景进行融合,例如在金融风控建模场景中,由于数据安全和隐私等要求,通常A机构的原始用户行为数据,无法放在B机构融合使用,从而使得传统的迁移方法在该场景中并不适用。

为获得本说明书实施例中的方案,发明人发现,衡量源场景训练得到的模型h

公式1:

如以上公式1所示,x表征样本数据,y表征与将样本数据x输入模型h

在本说明书中,基于以上公式1所示的结构风险,在所有样本数据可以通过如下所示的公式2进行估计,得到结构风险R

公式2:

如以上公式2所示,x

申请人进一步分析,基于贝叶斯定理可知,联合概率分布遵循如下所示的公式3:

公式3:p(x,y)=p(x|y)p(y)=p(y|x)p(x)

如以上公式3所示,p(x,y)表征x、y两个变量的联合概率分布,p(x)表征变量x的先验概率分布,p(y)表征变量y的先验概率分布,p(x|y)表征在变量y为已知情况下的变量x的后验概率分布,p(y|x)表征在变量x为已知情况下的变量y的后验概率分布。

结合联合概率分布及基于以上描述的结构风险的分析可知,如果假设先验概率分布或后验概率分布其中一项不变,则通过对源场景的概率分布进行校准,使得源场景训练的模型可以在目标场景中的结构风险最小。

例如,假设源场景和目标场景的后验概率分布相同,即

公式4:p

但先验分布发生漂移,即p

在本说明书中,进一步地,基于公式3将公式1中的p

公式5:

基于公式5中的第二个等式可知,源场景中训练样本在目标场景中的概率,可以通过p

申请人研究发现,可以在源场景D

公式6:

如以上公式6所示,

进一步地,申请人研究发现,当源场景模型h训练完成后,在目标场景中,使得在目标场景中的泛化误差与源场景泛化误差的差异最小,从而使得模型h在目标场景中的性能也与源场景尽量相似,则可以转化为优化如以下公式7所表达的问题:

公式7:

如以上公式7所示,R

在源场景训练完成后输出模型h(如下公式8中的h

公式8:

如以上公式8所示,∝表征在∝左侧的内容和在∝右侧的内容成正比关系,在∝右侧的内容,与公式7表达类似,这里不再赘述。

公式8所示的第2步的等式右侧内容表达,将p

也即,上述公式8表征可以通过对目标场景的样本数据的先验概率分布做操作,使得p

基于以上研究及分析,申请人可以得出通过优化目标场景和源场景的训练样本数据的分布相接近,使得源场景训练得到的模型在模型迁移后在目标场景中进行应用时,可以保持良好的泛化性能。

基于以上分析,本说明书中,旨在提出一种模型迁移的技术方案。

在实现时,上述模型为评分卡模型;基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型;获取目标场景的无标签的第二训练样本;其中,上述第二训练样本用于训练与上述目标场景对应的第二机器学习模型,上述第二训练样本与上述第一训练样本的特征空间相同。

进一步地,基于调整上述第二训练样本的特征分布逼近上述第一训练样本的特征分布,将上述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的上述第二机器学习模型,以完成模型迁移。

在以上技术方案中,利用目标场景的无标签样本,结合评分卡模型基于特征进行数据分箱,对使得每个特征的分箱内,源场景分布和目标场景分布尽量相似,从而将源场景和目标场景的特征分布校准到尽量相近,从而实现模型在从源场景到目标场景的迁移适配,一方面,解决了目标场景无标签情况下模型初始化的问题,并提升迁移模型在目标场景的泛化效能;另一方面,仅需将源场景训练的评分卡模型的模型参数输出到目标场景,无需要使用源场景下的数据,满足了数据安全和隐私保护的用户需求。

请参考图1,图1是本说明书一实施例提供的一种模型迁移方法的流程图,上述模型为评分卡模型;上述方法执行以下步骤:

步骤102、基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型。

步骤104、获取目标场景的无标签的第二训练样本;其中,所述第二训练样本与所述第一训练样本的特征空间相同。

步骤106、基于调整所述第二训练样本的特征分布逼近所述第一训练样本的特征分布,将所述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,以完成模型迁移。

在本说明书中,上述模型为评分卡模型。

为了方便理解,这里简单介绍下评分卡模型。

评分卡模型是一种在金融领域(比如银行、信用机构、支付机构等)被广泛使用的机器学习模型。评分是指对客户的信用度评分。评分卡模型的模型输出通常为预测的用户对应风险的分类标签,比如。因为是二元分类,所以那些常用的算法都可以用

以评分卡模型为用于预测用户信用的信用评分卡模型为例,该信用评分卡模型可以基于获取的用户的各种属性和行为数据,利用一定的信用评分模型,对用户进行信用预测,得到用户的信用好/差的二分类标签,再据此判断是否给予用户授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。

在本说明书中,上述源场景可以包括样本数据满足上述模型训练的任何业务场景。例如,在实际应用中,上述源场景可以是支付宝业务下的金融风控场景,在用户访问支付宝业务时,支付宝系统获取了大量的业务数据(比如:用户的个人信息、购买信息、信用信息)作为样本数据,用于上述模型训练。

在本说明书中,上述目标场景,是指存在与上述源场景的业务类似的业务场景。例如,在上述源场景为支付宝业务下的金融风控场景时,上述目标场景具体可以为某银行的信用卡反套现场景。

在本说明书中,上述第一机器学习模型,是指上述源场景对应的评分卡模型。

在本说明书中,上述第二机器学习模型,是指上述第一机器学习模型经模型迁移至上述目标场景对应的评分卡模型。

在本说明书中,基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到上述第一机器学习模型。

例如,以上述源场景为支付宝业务下的金融风控场景为例,上述第一训练样本数据为支付宝业务下的金融风控场景获取的不同年龄用户的样本数据,与样本数据对应的样本标签可以为二分类标签(比如:0表征用户风险低,1表征用户风险低),将上述第一样本输入至上述模型,并以上述第一样本对应的样本标签作为约束对上述模型进行模型训练,得到训练完成与源场景对应的评分卡模型(上述第一机器学习模型)。

在示出的一种实施方式中,在基于上述源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到上述第一机器学习模型的过程中,具体执行以下步骤:

a)对上述第一训练样本进行数据分箱处理,得到第一数据分箱及其对应的第一特征占比数据;其中,上述第一特征占比数据表征第一数据分箱的第一特征的样本在上述第一训练样本中的样本占比。

在本说明书中,数据分箱,是指按照某种规则将数据进行分类,可以把一段连续或离散的值切分成若干段,每一段的值看成一个分类。

例如,在实际应用中,上述源场景可以是具有大量可进行模型构建的已知信息的场景,可以按照某个特定维度将源场景的第一训练样本进行数据分箱处理。比如,对于某消费业务,源场景的第一训练样本可以包括此业务中用户的历史消费记录,使用此业务的用户具有年龄特征,可以按照年龄这一特征维度将源场景的第一训练样本进行数据分箱处理。又比如,对于某理财业务,使用此业务的用户具有收入特征,可以按照收入这一特征维度将源场景的第一训练样本进行数据分箱处理,等等。具体特征维度可以根据实际需求进行选择,这里不作限定。

在本说明书中,上述样本占比,可以为一个第一数据分箱内的样本数据在上述源场景的第一训练样本数据中的占比。例如,源场景中有100个训练样本数据,其中一个数据分箱中的训练样本数据为10个,则该数据分箱的数据在该源场景的100个训练样本数据中的样本占比为10%。

需要说明的是,在实际应用中,上述第一数据分箱具体可以包括多个数据分箱。例如,源场景中有100个训练样本数据;其中,每个训练样本数据包括用户信息,按照第一特征(比如:用户年龄)对该100个训练样本数据可以进行数据分箱处理,比如:按照用户的不同年龄段进行数据分箱,得到若干上述第一数据分箱,比如:0岁至18岁作为一个数据分箱,19岁至22岁作为一个数据分箱,23岁至30岁作为一个数据分箱,31岁至50岁作为一个数据分箱,51岁至60岁作为一个数据分箱,60岁以上作为一个数据分箱。

当然,在实际应用中,上述样本占比还可以包括正样本样本占比、负样本样本占比;其中,正样本样本占比可以为一个第一数据分箱内正样本的样本数据在上述源场景的第一训练样本数据中的占比,负样本样本占比可以为一个第一数据分箱内负样本的样本数据在上述源场景的第一训练样本数据中的占比。

例如,源场景中有100个训练样本数据,其中一个数据分箱中的训练样本数据为10个,该数据分箱正样本的样本数据为6个,该数据分箱负样本的样本数据为4个,则该数据分箱的正样本样本占比为6%,该数据分箱的负样本样本占比为4%。

当然,在实际应用中,上述第一特征样本占比还可以包括一个数据分箱对应的WOE(weight of Evidence证据权重)值。

为了方便理解,这里简单介绍下WOE值。

WOE值是衡量正样本和负样本分布的差异方法,可以将特征的值规范到相近的尺度上。

对应第i个数据分箱的WOE值的计算公式如下:

其中,p

b)基于将上述第一数据分箱中的样本向量化输入至上述第一机器学习模型,并以上述第一样本对应的样本标签作为约束对上述第一机器学习模型进行模型训练,得到训练完成的包括第一模型参数的上述第一机器学习模型。

在本说明书中,基于前文的公式1至公式8的描述及分析,在实际对应的算法实现中,求解将上述第一机器学习模型迁移至上述第二机器学习模型的模型迁移优化问题,可以基于以下公式表达:

其中,p

例如,以按照用户的不同年龄段进行数据分箱为例,得到若干上述第一数据分箱,比如:0岁至18岁作为数据分箱1,19岁至22岁作为数据分箱2,23岁至30岁作为数据分箱3,31岁至50岁作为数据分箱4,51岁至60岁作为数据分箱5,60岁至100岁作为数据分箱6,则数据分箱1、2、3、4、5、6对应的分箱取值范围分别为[0,18]、[19,22]、[23,30]、[31,50]、[51,60]、[60,100];其中,每个分箱取值范围的边界即为分箱阈值,比如:数据分箱1的分箱取值范围[0,18]的分箱阈值为0和18。其它数据分箱2至6情况类似,这里不再赘述。

当然在实际应用中,每个数据分箱的分箱的取值范围除了可以采用类似以上示例的左闭右闭的区间来表示外,也可以采用左开右闭的区间、左闭右开的区间等方式表示。

需要说明的是,上述数据分箱具体可以包括等频分箱或等距分箱;其中,等距分箱可以是从分箱阈值的最小值A到分箱阈值的最大值B之间,均分为M等份,每个区间长度W=(B-A)/M,则数据分箱的分箱取值范围对应的区间边界值(分箱阈值)为A+W,A+2W,…,A+(M-1)W,其中可以只考虑边界,每个等份里面的实例数量可能不等。而等频分箱中分箱取值范围对应的区间界值(分箱阈值)要经过选择,使得每个数据分箱的分箱取值范围对应的区间内包含大致相等的数量的样本,比如:M=10,可以表示每个数据分箱的分箱取值范围对应的区间内应该包含大约占样本总数10%的样本数量的样本。

在本说明书中,针对前文描述的模型迁移优化问题对应的公式,可以进一步将该公式中的p

其中,JS(p||q)表征概率分布p和概率分布q的JS散度,

需要说明的是,KL散度又称为相对熵,信息散度,信息增益。KL散度是是两个概率分布之间差别的非对称性的度量。JS散度度量了两个概率分布之间的相似度,基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间。关于JS散度和KL散度的具体介绍,请参见相关技术文档的描述,这里不再赘述。

通过在目标场景中探索求解x

在本说明书中,在训练第一机器学习模型时,上述第一数据分箱中的样本通常不会被直接输入至上述第一机器学习模型进行模型训练,而是将上述第一数据分箱中的样本先进行向量化后,再输入至上述第一机器学习模型,并以上述第一样本对应的样本标签作为约束对上述第一机器学习模型进行模型训练,得到训练完成的包括第一模型参数的上述第一机器学习模型。

当然,在实际应用中,在对上述第一机器学习模型进行模型训练前,还可以基于预设的缺失值分析算法、相关性分析算法对上述第一数据分箱中的样本进行统计分析,剔除与模型训练不相关的特征的样本并筛选出具有重要特征的候选样本,将该候选样本用于训练上述第一机器学习模型。

关于样本进行向量化及模型训练过程,请参见评分卡模型相关的技术文档,这里不再赘述。

在本说明书中,上述第一模型参数,是指训练完成的上述第一机器学习模型的模型参数。

在示出的一种实施方式中,上述第一模型参数可以包括与上述第一样本占比数据对应的第一数据分箱的分箱取值范围。

例如,上述第一模型参数包括5个第一数据分箱分别对应的分箱取值范围,该5个第一数据分箱中的样本占比可以分别为:20%、20%、30%、20%、10%,则该5个样本占比分别对应的分箱取值范围(以年龄为例)分别为(0,18]、(18,22]、(22,30]、(30,50]、(51,150]。

又例如,上述第一模型参数包括5个第一数据分箱分别对应的分箱取值范围,该5个第一数据分箱中的样本占比还可以包括每个第一数据分箱分别对应的WOE值,比如:该5个第一数据分箱中的样本占比具体可以为:样本占比为20%且该数据分箱的WOE1=0.2、样本占比为20%且该数据分箱的WOE2=0.2、样本占比为30%且该数据分箱的WOE3=0.5、样本占比为20%且该数据分箱的WOE3=0.3、样本占比为10%且该数据分箱的WOE3=0.2,则该5个样本占比分别对应的分箱取值范围(以年龄为例)分别为(0,18]、(18,22]、(22,30]、(30,50]、(51,150]。

在本说明书中,在上述源场景中完成上述第一机器学习模型训练后,可以进一步获取目标场景中的无标签的第二训练样本数据,对训练完成的上述决第一机器学习模型的模型参数进行模型迁移,以使模型迁移后的上述第一机器学习模型可以适配上述目标场景。

在本说明书中,在机器学习技术领域,特征是指对原始数据的抽象,是原始数据的抽象表示,通过使用数值表示原始数据。例如,可以对文本、图片进行特征提取得到文本特征、图片特征。特征空间是指以上述特征为集合的空间,特征空间中的特征是对原始数据更高维的抽象,也即,特征空间是原始数据映射到更高维度的空间。

特征分布,是指特征作为随机变量进行取值的概率分布。在本说明书中,该概率分布的类型不作具体限定。比如,特征分布可以是特征遵循正态分布、二项分布、泊松分布等。

在本说明书中,基于调整上述第二训练样本的特征分布逼近上述第一训练样本的特征分布,将上述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,以完成模型迁移,具体可以包括:

a)对上述目标场景的无标签的第二训练样本进行数据分箱处理,得到第二数据分箱及其对应的第二样本特征占比数据;其中,上述第二样本特征占比数据表征第二数据分箱的第一特征的样本在上述第二训练样本中的样本占比。

例如,源场景中有100万个训练样本已按第一特征(比如:年龄)进行数据分箱处理,目标场景中有无标签的1万个训练样本数据,对上述目标场景的无标签的该1万个样本进行数据分箱处理,得到第二数据分箱及其对应的第二样本特征占比数据;其中,上述第二样本特征占比数据表征第二数据分箱的第一特征(比如:年龄)的样本在该1万个样本中的样本占比。

需要说明的是,对上述目标场景的无标签的第二训练样本进行数据分箱处理得到第二数据分箱及其对应的第二样本特征占比数据,与前文描述的对上述第一训练样本进行数据分箱处理,得到第一数据分箱及其对应的第一特征占比数据的过程类似,这里不再赘述,两者主要区别在于:上述第二数据分箱的分箱粒度细于上述第一数据分箱的分箱粒度。比如:基于第一特征(比如:年龄),对上述第一训练样本进行数据分箱处理,得到5个第一数据分箱,而对上述目标场景的无标签的第二训练样本进行数据分箱处理得到,可以按预设值(比如:100)进行数据分箱处理,得到100个第二数据分箱。

b)按照预设步长,探索调整上述第二数据分箱的分箱取值范围,以使上述第二样本特征占比数据作为上述第二训练样本的特征分布,逼近以上述第一样本特征占比数据作为上述第一训练样本的特征分布;将探索得到的上述第二数据分箱的分箱取值范围替代上述第一模型参数中的上述第一数据分箱的分箱取值范围,并保持上述第一模型参数中的其它模型参数不变,以完成模型参数将校准,将模型参数将校准后的上述第一机器学习模型作为上述第二机器学习模型。

在本说明书中,在对上述第二训练样本进行数据分箱后,得到多个上述第二数据分箱以及每个第二数据分箱的分箱取值范围和第二样本特征占比数据。

例如,该100个第二数据分箱中的样本占比可以分别为:1%、2%、3%、2%、...、1%,则该100个样本占比分别对应的分箱取值范围(以年龄为例)分别为(3,7]、(7,13]、(13,18]、(18,22]、...、(55,60]、(60,70]、(70,100]。

在本说明书中,按照预设步长,探索调整上述第二数据分箱的分箱取值范围,以使上述第二样本特征占比数据作为上述第二训练样本的特征分布,逼近以上述第一样本特征占比数据作为上述第一训练样本的特征分布;将探索得到的上述第二数据分箱的分箱取值范围替代上述第一模型参数中的上述第一数据分箱的分箱取值范围,并保持上述第一模型参数中的其它模型参数不变,以完成模型参数将校准,将模型参数将校准后的上述第一机器学习模型作为上述第二机器学习模型。

接着以上示例继续举例,当5个第一数据分箱中的样本占比分别为:20%、20%、30%、20%、10%,以及该5个样本占比分别对应的分箱取值范围(以年龄为例)分别为(0,18]、(18,22]、(22,30]、(30,50]、(51,150]时,按照预设步长,探索调整以上示例的100个第二数据分箱中的每个第二数据分箱的分箱取值范围,比如:以100个第二数据分箱中的第一个数据分箱B1(样本占比为1%,B1的分箱取值范围为(3,7])为例,按照预设步长(预设步长可以为预设固定值,比如:预设步长为1)探索调整B1的分箱取值范围为(3,7]中右侧的分箱阈值“7”进行加1得到,探索得到B1的新的分箱取值范围为(3,8],再计算该新的分箱取值范围下B1的分箱对应的样本占比是否由分箱取值范围调整前的1%接近5个第一数据分箱中的第一个数据分箱A1对应的20%(样本占比),经过反复调整,最终得到在探索得到在B1的新的分箱取值范围为(3,20]时,对应的样本占比接近数据分箱A1对应的20%。则将探索得到B1(第二数据分箱)的该新的分箱取值范围为(3,20]替代上述第一模型参数中的A1(第一数据分箱)的分箱取值范围,并保持上述第一模型参数中的其它模型参数(比如:A1(第一数据分箱)对应的WOE1)不变,以完成上述第一模型参数中的一个数据分箱的分箱取值范围的校准。类似地,针对每个第二数据分箱的分箱取值范围进行以上类似调整,以使得每个第二数据分箱的分箱取值范围的样本占比作为上述第二训练样本的特征分布,逼近以上述第一样本特征占比数据作为上述第一训练样本的特征分布,并保持上述第一模型参数中的其它模型参数(比如:每个第一数据分箱对应的WOE值)不变,以完成模型参数将校准,最终将模型参数将校准后的上述第一机器学习模型作为上述第二机器学习模型。

在本说明书中,在上述第一机器学习模型的模型参数进行校准后作为上述第二机器学习模型,并输出上述第二机器学习模型,以使用户基于输出的模型迁移后的上述第二机器学习模型在上述目标场景进行模型预测。

例如,在上述源场景为支付宝业务下的金融风控场景时,上述目标场景具体可以为某银行的信用卡反套现场景,在支付宝业务下的金融风控场景的金融风控模型的模型参数进行校准后作为某银行的信用卡反套现场景的信用卡风控模型,该银行用户可以将该信用卡风控模型部署在该银行的业务系统中对信用卡用户进行风险预测,该风险预测结果具体可以为目标信用卡用户是否为不同风险级别的分类标签,也可以为目标信用卡用户对应的信用风险评分。

通过以上各实施例可见,利用目标场景的无标签样本,结合评分卡模型基于特征进行数据分箱,对使得每个特征的分箱内,源场景分布和目标场景分布尽量相似,从而将源场景和目标场景的特征分布校准到尽量相近,从而实现模型在从源场景到目标场景的迁移适配,一方面,解决了目标场景无标签情况下模型初始化的问题,并提升迁移模型在目标场景的泛化效能;另一方面,仅需将源场景训练的评分卡模型的模型参数输出到目标场景,无需要使用源场景下的数据,满足了数据安全和隐私保护的用户需求。

与上述方法实施例相对应,本申请还提供了装置的实施例。

与上述方法实施例相对应,本说明书还提供了一种模型迁移装置的实施例。

本说明书的基于区块链的分级存储装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

从硬件层面而言,如图2所示,为本说明书的模型迁移装置所在电子设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。

图3是本说明书一示例性实施例示出的一种模型迁移装置的框图。

请参考图3,所述模型迁移装置30可以应用在前述图2所示的电子设备中,所述模型为评分卡模型,所述装置30包括:

训练模块301,基于源场景的第一训练样本、与第一训练样本数据对应的样本标签,训练得到与源场景对应的第一机器学习模型;

获取模块302,获取目标场景的无标签的第二训练样本;其中,所述第二训练样本与所述第一训练样本的特征空间相同;

迁移模块303,基于调整所述第二训练样本的特征分布逼近所述第一训练样本的特征分布,将所述第一机器学习模型的已训练好的模型参数进行校准,得到模型参数校准后的第二机器学习模型,以完成模型迁移。

在本实施例中,所述训练模块301进一步:

对所述第一训练样本进行数据分箱处理,得到第一数据分箱及其对应的第一特征占比数据;其中,所述第一特征占比数据表征第一数据分箱的第一特征的样本在所述第一训练样本中的样本占比;

基于将第一数据分箱中的样本向量化输入至所述第一机器学习模型,并以所述第一样本对应的样本标签作为约束对所述第一机器学习模型进行模型训练,得到训练完成的包括第一模型参数的所述第一机器学习模型。

在本实施例中,所述第一模型参数包括与所述第一样本占比数据对应的第一数据分箱的分箱取值范围;

所述迁移模块303进一步:

对所述第二训练样本进行数据分箱处理,得到第二数据分箱及其对应的第二样本特征占比数据;其中,所述第二样本特征占比数据表征第二数据分箱的第一特征的样本在所述第二训练样本中的样本占比;

按照预设步长,探索调整所述第二数据分箱的分箱取值范围,以使所述第二样本特征占比数据作为所述第二训练样本的特征分布,逼近以所述第一样本特征占比数据作为所述第一训练样本的特征分布;

将探索得到的所述第二数据分箱的分箱取值范围替代所述第一模型参数中的所述第一数据分箱的分箱取值范围,并保持所述第一模型参数中的其它模型参数不变,以完成模型参数将校准,将模型参数将校准后的所述第一机器学习模型作为所述第二机器学习模型。

在本实施例中,还包括:

输出模块304(图3未示出),输出所述第二机器学习模型,以使用户基于输出的模型迁移后的所述第二机器学习模型在所述目标场景进行模型预测。

在本实施例中,所述数据分箱包括等频分箱或等距分箱。

在本实施例中,所述第二数据分箱的分箱粒度细于所述第一数据分箱的分箱粒度。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

相关技术
  • 基于模型迁移的用户策略分配方法、装置及电子设备
  • 一种图像风格迁移模型训练方法、装置及电子设备
技术分类

06120113176578