分类方法、装置、设备、存储介质及产品

文献发布时间：2024-04-18 19:53:33

技术领域

本申请涉及人工智能技术领域，特别涉及一种分类方法、装置、设备、存储介质及产品。

背景技术

在互联网技术快速发展的时代，随着业务场景的不断扩展，和业务场景下对于用户账户分类的要求的不断提升，需要根据实际的需求不断训练新的用于进行用户账户分类的模型，对于每一新的用户账户分类模型而言，就不可避免存在冷启动问题，而相关技术的冷启动解决方案通常较多依赖于专家知识，或者依赖知识迁移或者单一模型的知识蒸馏，但是专家知识很多情况下难以获取，而知识迁移或者单一模型的知识蒸馏的适用场景也十分有限，这就导致了很多场景下冷启动效果差的问题难以被解决。

发明内容

本申请实施例提供了一种分类方法、装置、设备、存储介质及产品，能够在无标注场景下，依赖相关多个非冷启动状态模型，通过知识蒸馏的方式提升用于进行用户账户分类的模型的冷启动效果，尤其适合在冷启动场景中快速进行分类。

根据本申请实施例的一个方面，提供了一种分类方法，所述方法包括：

获取至少两个分类模型，所述至少两个分类模型各自对应的业务场景均与目标模型对应的业务场景相关；

获取所述业务场景下无标注的、用户账户相关的训练数据；

根据所述训练数据，对所述至少两个分类模型中的每一分类模型的知识进行基于相关度的知识蒸馏，训练所述目标模型，所述相关度表征所述每一分类模型与所述目标模型的相关程度；

获取所述业务场景下的目标账户，将所述目标账户输入训练后的目标模型，得到所述目标账户对应的分类结果。

根据本申请实施例的一个方面，提供了一种分类装置，所述装置包括：

关联模型获取模块，用于获取至少两个分类模型，所述至少两个分类模型各自对应的业务场景均与目标模型对应的业务场景相关；

训练数据获取模块，用于获取所述业务场景下无标注的、用户账户相关的训练数据；

知识蒸馏模型，用于根据所述训练数据，对所述至少两个分类模型中的每一分类模型的知识进行基于相关度的知识蒸馏，训练所述目标模型，所述相关度表征所述每一分类模型与所述目标模型的相关程度；

分类模型，用于获取所述业务场景下的目标账户，将所述目标账户输入训练后的目标模型，得到所述目标账户对应的分类结果。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述分类方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述分类方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行以实现上述分类方法。

本申请实施例提供的技术方案可以带来如下有益效果：

本申请实施例提供一种分类方法，该分类方法可以对与待冷启动的目标模型相关其他分类模型进行不同程度的知识蒸馏，并将蒸馏得到的知识迁移到目标模型，从而使得该目标模型在冷启动阶段可以快速进行准确分类，提升冷启动效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的分类方法的流程图；

图3是本申请一个实施例提供的第二分类结果确定方法的流程图；

图4是本申请一个实施例提供的分类方法实施示意图；

图5是本申请一个实施例提供的分阶段实施方法示意图；

图6是本申请一个实施例提供的分阶段实施步骤示意图；

图7是本申请一个实施例提供的分类装置框图；

图8是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

BERT(Bidirectional Encoder Representation from Transformers，基于转换模型的双向编码表示模型)，是大规模文本预训练模型，BERT用12层的transformerencoder(转换模型编码器)将自然语言处理任务的基准性能提高了一大截。相比word2vec(词向量)，经过海量文本预训练的BERT能够在分类算法中引入更多的迁移知识，提供更精准的文本特征。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

深度学习：深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

计算机视觉技术(ComputerVision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替。

人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

CNN(全称：Convolutional Neural Networks)：卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一，具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，可以作为本申请实施例中的模型框架。

K-S test：全称为Kolmogorov–Smirnov test，即基于累计分布函数，用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。比如，K-S值可以用于作为人工智能的模型区分正负样本分隔程度的评价指标。

OOT集合：时间上与训练数据隔离的跨时间验证集，是从整个有标记的数据集中，以某一时间节点为标准划分出来的。该时间节点之前为训练测试集，该时间节点之后为OOT集合，通常会预留最近申请日期的样本作为OOT，以测量模型在时间上的稳定性。

Wasserstain Distance(距离)：WD距离，Wasserstain距离(Kantorovich–Rubinstein metric)又叫Earth-Mover距离(EM距离)，用于衡量两个分布之间的距离。

零样本/无标记样本：有X特征、但无真实Y标签的样本集。

相关技术中的机器学习与人工智能领域中，很多情况下存在冷启动问题，冷启动是指在没有或只有很少量数据的情况下，模型从无到有建立的过程。以金融业务为例，就涉及到金融业务的风控模型的冷启动问题。在金融业务初期，由于用户的逾期表现周期长(从用户向金融机构发起金融业务对应的申请到用户正常还款或表现出逾期风险可能会要1至6个月以上)，导致短时间内难以收集足够的有标记样本进行有效的有监督风控模型构建，这就产生了冷启动问题，因此如何在金融业务的冷启动阶段利用业务目标客户的无标记样本构建有效的风控模型对发现有风险的目标，提升风控能力、及早控制业务风险缺口具有重要意义。事实上，风控模型本质上是一种分类模型，目的在于及时识别出属于危险类别的目标，也就是说，很多分类模型在构建初期都会存在冷启动问题，相关技术对于冷启动问题的解决方案也是比较有限的。

针对基于无标记样本的分类问题，相关技术可以使用专家策略规则、对抗迁移学习、知识蒸馏的方法来解决，具体来说：

专家策略规则：该方法主要依托业务或技术人员的专家经验，通过其对业务的理解指定适用于目标业务的分类引擎，或基于专家经验从相似的存量业务中挑选、复用已有的分类模型或策略作为目标场景的分类模型或策略。这一方案基于专家策略规则的方法强烈依赖专业人员的经验知识，难以达到最大的分类效果。

对抗迁移学习：以对抗训练为核心的迁移学习方法主要基于DANN域对抗网络(Domain Adversarial Neural Networks)将来自源域的有标记样本和来自目标域的无标记样本混合在同一特征空间，通过源域的有标记样本进行模型训练。一个标准的DANN网络通常包含一个特征提取器、一个域分类器和一个域分类器。其对抗思想就蕴含在特征提取器和域分类器中。网络的前向传播中，特征提取器提取的信息传入域分类器，域分类器通过判断传入的信息来自源域还是目标域并计算域分类损失，其中域分类器的目标是尽可能区分出输入的特征来自源域还是目标域。在反向传播过程中，域分类器和特征提取器中间的梯度反转层(Gradient Reversal Layer)使得特征提取器的训练目标与域分类器相反，即特征提取器希望输出的特征让域分类器无法正确判断出信息来自于哪一个域。这种对抗关系最终使得域分类器不能将接收的信息正确区分，特征提取器成功将源域样本和目标域样本混合在某个公共的特征空间中。由于源域样本是有标签的，基于源域样本在共同特征空间训练的分类模型可试用于目标场景的分类任务，从而达到冷启动训练目标域分类模型。基于对抗的迁移学习方法可基于目标域的大量无标记样本和源域的有标记样本建立目标场景的冷启动分类模型。但其要求源域拥有大量的有标记样本，且需利用源域样本在转换后的公共特征空间上训练分类模型。但由于某些场景特殊的属性，业务人员通常只能接触源域(与冷启动场景相关的业务场景)已训练好的风控模型，其对目标业务为“黑盒”。传统的对抗迁移学习不适用于仅基于“黑盒”模型和无标记样本的迁移学习。

知识蒸馏：知识蒸馏早期主要用以解决模型压缩问题，现已广泛应用于迁移学习领域。其核心为将一个复杂神经网络的知识转移到另一个结构相对简单的神经网络。其中，被转移的复杂网络称为教师网络，压缩后的网络称为学生网络。知识蒸馏的过程为针对大量有标记或无标记样本，教师网络输出其网络中间层的特征表征或最终的分类预测结果作为“软标签”。学生网络以“软标签”为学习目标，通过学习并复制教师网络的特征表征和分类结果达到模仿教师网络的预测行为的目标。知识蒸馏相比基于对抗的迁移学习方法，知识蒸馏方法可实现仅基于无标记样本将“黑盒”教师模型的知识迁移至目标场景的学生模型，但其主要针对单教师网络向单学生网络的迁移学习。而在很多分类场景中，业务人员常面临从多个教师模型迁移知识至同一学生模型的问题，且教师模型与目标场景的业务相关性也决定了学生模型学习到知识的质量高低。对于这一问题，相关技术尚且无能为力。

显而易见，相关技术中在解决分类模型冷启动问题的情况下，难以做到自动基于相关其他多个模型中的、与待冷启动的模型相关度不同的知识，通过知识蒸馏的方式提升冷启动效果，因此，本申请实施例提供一种分类方法，该分类方法可以对与待冷启动的目标模型相关其他分类模型进行不同程度的知识蒸馏，并将蒸馏得到的知识迁移到目标模型，从而使得该目标模型在冷启动阶段可以快速进行准确分类，提升冷启动效果。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够提供基于用户账户的服务的应用程序。典型地，该应用程序为媒体类应用程序、金融类应用程序、社交类应用程序、新闻类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality，VR)类应用程序、增强现实(Augmented Reality，AR)类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其对用户账户进行分类的依据也会有所不同，且相应的功能也会有所不同，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

请参考图2，其示出了本申请一个实施例提供的分类方法的流程图。该方法可应用于计算机设备中，上述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤：

S101，获取至少两个分类模型，上述至少两个分类模型各自对应的业务场景均与目标模型对应的业务场景相关。

具体来说，上述至少两个分类模型不属于冷启动状态，训练前的目标模型属于冷启动状态。也就是说，可以认为上述两个分类模型是教师模型，其包括一些对于该业务场景下的业务而言的有效知识，而目标模型是学生模型，通过蒸馏教师模型中的知识快速在冷启动状态下得到较好的输出，教师模型与学生模型都位于同一业务场景。比如，在金融领域下，教师模型与学生模型都位于风险控制场景，用于输出对用户账户的分类结果，该分类结果表征用户账户是否为风险账户。在媒体推荐领域下，教师模型与学生模型都位于媒体内容推荐场景，用于输出对用户账户的分类结果，该分类结果表征用户账户是否为媒体内容敏感账户。

当然，本申请实施例并不限定任一所提到的模型的结构，比如，其可以是贝叶斯、决策树、随机森林、神经网络等任意机器学习方法构建得到的模型。

S102.获取上述业务场景下无标注的、用户账户相关的训练数据。

冷启动阶段通常是缺少标注数据的，为了对目标模型进行训练，可以直接获取无标注的训练数据，比如，在用户账户分类场景，可以直接得到一些没有被分类的用户账户及其对应的特征作为训练数据，比如在用户账户分类场景下，上述训练数据包括下述至少之一：用户账户的行为特征、用户静态属性特征、用户社交属性特征、用户社会行为历史记录。基于这些训练数据可以对用户账户进行分类，比如分类用户账户是否是有业务风险的账户。

S103.根据上述训练数据，对上述至少两个分类模型中的每一分类模型的知识进行基于相关度的知识蒸馏，训练上述目标模型，上述相关度表征上述每一分类模型与上述目标模型的相关程度。

具体来说，上述根据上述训练数据，对上述至少两个分类模型中的每一分类模型的知识进行基于相关度的知识蒸馏，训练上述目标模型，包括：根据上述训练数据，得到针对上述每一分类模型的第一训练数据，以及针对上述目标模型的第二训练数据；针对上述每一分类模型，将上述第二训练数据输入上述每一分类模型，得到第一分类结果；根据各上述分类模型对应的相关度，融合各上述分类模型的第一分类结果，得到第二分类结果，上述相关度通过上述分类模型对应的第一训练数据与上述第二训练数据之间的差异计算得到；将上述第二训练数据输入上述目标模型，得到分类预测结果；基于上述分类预测结果与上述第二分类结果之间的差异，调节上述目标模型的参数。

为了得到上述相关度，可以训练相关度计算器。训练相关度计算器，上述相关度计算器用于计算第一模型与第二模型的相关程度，上述第一模型为上述业务场景下的任一模型，上述第二模型为不同于上述第一模型的，并且在上述业务场景下的任一模型；基于上述相关度计算器，确定上述分类模型对应的相关度。本申请实施例并不限定上述相关度的衡量依据，比如，可以使用相关技术中的W距离(也称WD距离)，或者也可使用KL散度、欧氏距离等任意距离计算方式。KL散度的概念来源于概率论和信息论中。KL散度又被称为：相对熵、互熵、鉴别信息、Kullback熵、Kullback-Leible散度(即KL散度的简写)。第一模型或者第二模型都可以是上述任一分类模型，也可以是目标模型。

上述相关度计算器通过下述方法训练得到：获取来自同一业务场景中、不同源域的样本数据；将任一两组样本数据输入距离计算器，得到上述两组样本数据的关联度，上述关联度表征上述两组样本数据属于同一源域的概率；基于上述两组样本数据的关联度，以及上述两组样本数据的真实源域，训练上述距离计算器，将训练结果确定为上述相关度计算器。

在一个具体的实施方式中描述了本申请所提出的相关度计算器的具体训练方法。样本数据包括多个源域的所有样本S＝{S

具体的训练过程可以通过下述伪代码表达：

为一个参数更新公式，表明参数是如何迭代的。在训练过程中，每次随机抽取两个Batch的数据/>

在一个示例中，距离计算器为W距离计算装置，可以用于得到两个模型的输入数据之间W距离矩阵，W距离越小代表两个模型相关度越大。通过此步骤，可以计算出每一分类模型与目标模型的训练样本的W距离，即第一训练数据与第二训练数据之间的距离，以此作为知识蒸馏的依据。

在一个实施例中，如图3所示，上述根据各上述分类模型对应的相关度，融合各上述分类模型的第一分类结果，得到第二分类结果，包括：

S1.针对每一分类模型，将上述每一分类模型对应的第一训练数据以及上述第二训练数据输入上述相关度模型，得到上述每一分类模型与上述目标模型的相关度；

S2.根据上述每一分类模型与上述目标模型的相关度，得到上述每一分类模型对应的第一分类结果所关联的权重。

对各分类模型所对应的相关度进行归一化处理，得到上述每一分类模型对应的第一分类结果所关联的权重。

S3.对各上述第一分类结果进行加权求和，得到上述第二分类结果。

事实上，第二分类结果可以被认为是第二训练数据所对应的伪标签。伪标签生成过程即为上述步骤S1-S3。首先，通过相关度计算器基于第一训练数据与第二训练数据计算分类模型与目标模型的相关度，相关度计算过程前文有述，不再赘言。最后对各个相关度进行归一化处理，得到每个分类模型对应的权重，然后通过加权求和生成伪标签。在该过程中，相关度的引入机制使得与目标模型越相关的分类模型对伪标签的贡献度越大，从而降低相关度低的分类模型带来的噪声影响。

具体来说，在一个示例之中，前文可以通过下述伪代码表达：

第一训练数据和第二训练数据来自于同一业务场景，举个例子，假如对应风控场景，那么其都来自于借贷人群所对应的用户账户数据。所以第一训练数据和第二训练数据都属于借贷人群这个大群体的子空间，二者是有很大程度的共性存在。当然也存在着不同，所以计算的第一训练数据和第二训练数据的W距离则量化了二者的相似性，以相似性为权重，共同制作学习目标。当有多个分类模型存在时，把第二训练数据在每个分类模型上的输出，以W距离确定权重，则能够将共性迁移；并且最终使得目标模型的学习目标由多个分类模型的输出加权组合，所以彼此之间互补，能够将知识有效迁移到目标模型上。

S104.获取上述业务场景下的目标账户，将上述目标账户输入训练后的目标模型，得到上述目标账户对应的分类结果。

根据上述目标账户的分类结果即可进行各种基于分类结果的后续处理，比如，在金融场景中，该分类结果可以表征目标账户的风险程度，或者说诈欺风险评分，评分越高诈欺概率越高，则可以选择谨慎为该目标账户提供服务，或者直接拒绝为该目标账户提供服务。

本发明实施例涉及机器学习与人工智能领域，旨在于冷启动阶段，通过多模型蒸馏学习技术、基于无标记样本即可训练得到目标模型，从而可以进行用户账户的分类，实现快速的用户账户分类，从而可以在很多场景下提升分类能力。以金融领域为例，在信贷业务初期，由于用户的逾期表现周期长(从用户向金融机构发起借贷申请到用户正常还款或表现出逾期风险通常要1至6个月以上)，导致金融机构难以收集足够的有标记样本进行有效的有监督机器学习模型构建，这就导致了在初期难以及时识别出有风险的用户账户，使用本申请实施例中的方法可以在冷启动阶段利用业务中用户账户的相关数据构建无标记样本，训练目标模型，从而使得在冷启动阶段可以有效识别存在风险的用户账户，从而提升风控能力。

以金融场景为例，本申请实施例中的方案可以通过图4表达。在第一阶段，可以训练一个W距离计算器，该W距离计算器即为前文的相关度计算器，将金融场景中的已有的分类模型作为教师模型，训练一个新的目标模型(学生模型)，对于每一教师模型和目标模型，得到对应的无标记样本，即为上述的第一训练数据和第二训练数据，根据这些无标记样本可以训练W距离计算器，根据训练结果可以得到每一教师模型和目标模型的相关度，根据该相关度以及每一教师模型针对第二训练数据的分类结果，生成伪标签，根据伪标签进行蒸馏训练即可得到训练后的目标模型，该目标模型可以对于用户账户进行分类，从而可以在金融场景中进行风险控制，因此，将应用于该金融场景中的训练后的目标模型作为风控模型部署上线后，即可提供部署服务(Model Service)，将待分类的目标账户的相关信息输入该部署服务后，即可得到该目标模型的输出(欺诈风险评分)。

请参考图5，其示出本申请实施例的实施示意图。该方法主要由W距离计算、伪标签生成和多模型蒸馏三个阶段组成。其中，1)W距离计算，主要计算目标场景的无标记样本和教师模型的业务相关性，与目标场景越相似的教师模型，其与目标场景无标记样本的W距离小。目标场景无标记样本即为前文的第二训练数据，教师模型即为前文的分类模型。具体的细节可以参考前文。2)伪标签生成，负责基于多个教师模型对目标场景无标记样本的在各个教师模型的输出生成该无标记样本的“伪标签”，与目标样本距离越小的教师模型对“伪标签”生成的贡献度越大；3)多模型蒸馏，使用教师模型生成的“伪标签”作为训练目标训练学生网络(目标模型)，使得学生模型与教师模型具有相同的预测能力，从而在零标注样本条下实现多教师模型指导训练目标场景学生模型。

请参考图6，其示出本申请实施例的实施步骤示意图。

第一步：训练准备。针对于无标记样本，定制化训练一个尽可能贴合新的场景的高性能的模型(目标模型)。建模前需要准备无标记样本(第二训练数据)，多个教师模型(分类模型)的无标记训练样本(第一训练数据)，多个教师模型。

第二步：相关度计算器训练。具体来说，该相关度计算器可以为基于自监督的W距离计算网络。训练数据包括多个源域的所有训练样本。每个源域可看作一个独立的具体场景，但是都对应于同一个业务场景，可以为教师模型的第一训练数据，也可为目标场景的第二训练数据。每次随机抽取两个Batch(批次)的数据，通过判断是否来自同一个域进行相关度计算器的迭代更新，对于训练好的相关度计算器来说，两个模型输入越相关，则两个模型的相关度越高，W距离也越小。

第三步：W距离计算。通过将第一训练数据与第二训练数据输入W距离计算网络，可以得到对应的分类模型和目标模型的相关度，以此作为的伪标签生成依据。

第四步：第一分类结果计算。将无标记样本(第二训练数据)输入各教师模型，得到各教师模型对其的分类结果(第一分类结果)。

第五步：伪标签生成。对各第一分类结果进行基于相关度的加权，得到第二分类结果(伪标签)。

第六步：学生模型训练。将无标记样本以及“伪标签”输入多模型蒸馏装置。多模型蒸馏装置使用目标场景的无标记样本为训练数据，以伪标签生成装置产出的“伪标签”作为训练目标，采用回归的方式训练学生模型(目标)，使得学生模型与教师模型具有相同的预测能力。最终目标场景仅有无标记样本的前提下，得到该场景的风控模型。学生模型的训练可以采用贝叶斯、决策树、随机森林、神经网络等任意机器学习方法。

第七步：学生模型上线。将蒸馏好的学生模型作为通用模型上线，服务客户。

显而易见，整个建模过程中无需使用新客户的有标记样本，基于蒸馏学习方式，并考虑了新客户的目标场景与教师模型差异性，按照不同权重迁移多个教师模型的预测能力到学生模型。蒸馏训练后的学生模型可以作为正式模型用于实际生产中的用户账户预测。具体来说，本申请实施例主要解决了以下三个问题：

首先，训练得到了相关度计算器，这一计算器可以衡量不同的模型之间的相关度，以金融场景为例，用户账户的分类模型可能有多个，并且与目标模型存在不同程度的关联，而相关度计算器即可用来计算这种关联。通常，与目标模型对应的具体业务场景越相关的分类模型预测出的分类结果与目标模型期望的结果一致的概率越大。

第二，基于多分类模型的“伪标签”生成，利用多个分类模型作为教师模型，利用多个教师模型的预测结果结合多个教师模型对应的相关度，可以得到用于训练目标模型的“伪标签”；

第三，基于多教师模型蒸馏的目标模型，将教师网络生成的“伪标签”作为目标模型的无标签训练数据的伪真实标签进行目标网络的训练，最终达到在无需提供有标记样本条件下将多个教师模型的最优组合能力迁移至同一个学生模型(目标模型)的目的。

本申请实施例提出的方法，能在仅基于无标记样本条件下基于多教师模型能力迁移学习训练冷启动目标模型，有效提升冷启动阶段的用户账户分类能力。下表展示了在12个数据集上的KS验证结果，每组实验抽取一个数据集为学生网络并只使用其无标记样本，其他11个数据集所对应的风险预测模型作为教师网络。作为基准方案，下表中同时对比了：

Mean_Teacher:采用其他11个教师模型(分类模型)的平均预测结果生成伪标签，用以蒸馏训练学生模型(目标模型)；

WD_Teacher:本申请实施例所提出方案，对其他11个教师模型的预测结果进行相关性加权生成无标记样本的伪标签，再蒸馏训练学生模型；

Self_Train:在每个数据集上采用真实的标签进行风险模型训练。

表一显示本申请实施例提出的多模型蒸馏方案效果整体优于基于平均蒸馏学习的建模方案，证明基于目标无标记样本与教师模型的相关度选择能有效保障高相关教师模型、同时抑制低相关教师模型对学生模型的指导影响力。另外，基于Self_Train与WD_Teacher的对比结果显示，本申请所提出方案在目标场景无标签情况下也能达到与基于真实标签训练相接近的预测效果，在部分数据集上(如D3、D9、D12)本方案效果甚至超越真实训练效果。证明该方案在业务冷启动阶段能有效提升用户账户分类能力。

具体来说，Self_Train的标签来自于学生。此处采用的是一个交叉验证的思想，目的是对数据集进行多次划分，对多次评估的结果取平均，从而消除单次划分时数据划分得不平衡而造成的不良影响。目前将有y标的数据集划分为12份(D1-D12)，每次取其中的一份作为学生，其他11份分别利用自己的y标训练出11个教师模型。举个例子，此处使用数据集D1当作学生样本，D2-D12用自己y标训练出11个教师模型。首先计算D1与其余的D2-D12的输出计算W距离，以W距离量化D1与D2-D12的相似度。其次将D1在D2-D12教师模型上的输出，加权组合出学习目标WD_teacher,进而训练出学生模型。得到训练结果后，需要对结果进行评估，从而判断结果的好坏。此处对比的Self_Train就是用学生样本D1与学生样本自己的y标进行训练得到Self_Train的结果。这样的对比能够说明即使在没使用到学生样本的y标，所得到的蒸馏结果，与使用了y标的学生样本自建模的效果相比，也是极为接近的。实验共进行12次，每个数据集都会当一次学生样本，从而得到12组实验结果。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图7，其示出了本申请一个实施例提供的分类装置的框图。该装置应用于第一推荐系统，具有实现上述分类方法的功能，上述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置可以包括：

关联模型获取模块101，用于获取至少两个分类模型，上述至少两个分类模型各自对应的业务场景均与目标模型对应的业务场景相关；

训练数据获取模块102，用于获取上述业务场景下无标注的、用户账户相关的训练数据；

知识蒸馏模型103，用于根据上述训练数据，对上述至少两个分类模型中的每一分类模型的知识进行基于相关度的知识蒸馏，训练上述目标模型，上述相关度表征上述每一分类模型与上述目标模型的相关程度；

分类模型104，用于获取上述业务场景下的目标账户，将上述目标账户输入训练后的目标模型，得到上述目标账户对应的分类结果。

在一个实施例中，上述知识蒸馏模型103，用于：

根据上述训练数据，得到针对上述每一分类模型的第一训练数据，以及针对上述目标模型的第二训练数据；

针对上述每一分类模型，将上述第二训练数据输入上述每一分类模型，得到第一分类结果；

根据各上述分类模型对应的相关度，融合各上述分类模型的第一分类结果，得到第二分类结果，上述相关度通过上述分类模型对应的第一训练数据与上述第二训练数据之间的差异计算得到；

将上述第二训练数据输入上述目标模型，得到分类预测结果；

基于上述分类预测结果与上述第二分类结果之间的差异，调节上述目标模型的参数。

在一个实施例中，上述知识蒸馏模型103，用于：

训练相关度计算器，上述相关度计算器用于计算第一模型与第二模型的相关程度，上述第一模型为上述业务场景下的任一模型，上述第二模型为不同于上述第一模型的，并且在上述业务场景下的任一模型；

基于上述相关度计算器，确定上述分类模型对应的相关度。

在一个实施例中，上述知识蒸馏模型103，用于：

获取来自同一业务场景中、不同源域的样本数据；

将任一两组样本数据输入距离计算器，得到上述两组样本数据的关联度，上述关联度表征上述两组样本数据属于同一源域的概率；

基于上述两组样本数据的关联度，以及上述两组样本数据的真实源域，训练上述距离计算器，将训练结果确定为上述相关度计算器。

在一个实施例中，上述知识蒸馏模型103，用于：

针对每一分类模型，将上述每一分类模型对应的第一训练数据以及上述第二训练数据输入上述相关度模型，得到上述每一分类模型与上述目标模型的相关度；

根据上述每一分类模型与上述目标模型的相关度，得到上述每一分类模型对应的第一分类结果所关联的权重；

对各上述第一分类结果进行加权求和，得到上述第二分类结果。

在一个实施例中，上述知识蒸馏模型103，用于：

对各分类模型所对应的相关度进行归一化处理，得到上述每一分类模型对应的第一分类结果所关联的权重。

在一个实施例中，在用户账户分类场景下，上述训练数据包括下述至少之一：

用户账户的行为特征、用户静态属性特征、用户社交属性特征、用户社会行为历史记录。

在一个实施例中，上述至少两个分类模型不属于冷启动状态，训练前的目标模型属于冷启动状态。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述分类方法。具体来讲：

计算机设备1600包括中央处理单元(Central Processing Unit，CPU)1601、包括随机存取存储器(Random Access Memory，RAM)1602和只读存储器(Read Only Memory，ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。计算机设备1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

基本输入/输出系统1606包括有用于显示信息的显示器1608和用于内容消费对象输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为计算机设备1600提供非易失性存储。也就是说，大容量存储设备1607可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，计算机设备1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述分类方法。

在示例性实施例中，还提供了一种计算机可读存储介质，上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述分类方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述分类方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

另外，在本申请的具体实施方式中，涉及到内容消费对象信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得内容消费对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上上述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：兵力行动方案的生成方法及电子设备
下一篇：一种城市高时空分辨率人口分布图绘制方法、系统及产品