导航：首页> 电通信技术>模型训练方法、装置、计算机设备及存储介质

模型训练方法、装置、计算机设备及存储介质

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法、装置、计算机设备及存储介质。

背景技术

在很多营销场景中，由于营销费用预算的限制，通常需要从整体用户中筛选出头部高价值用户进行营销，如何精准地圈选高价值用户成为了营销场景中建模的重要挑战。

发明内容

本申请提出了一种模型训练方法、装置、计算机设备及存储介质，以提高模型的预测准确性。

第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为，所述样本用户特征数据是从目标信贷平台中提取得到的；将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值；根据每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，确定每个所述行为预测任务对应的第一损失值；基于每个所述行为预测任务对应的第一损失值，确定总损失值；根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

第二方面，本申请实施例提供了一种模型训练装置，所述装置包括：训练样本获取模块、标签预测模块、第一损失值确定模块、总损失值确定模块和模型训练模块。训练样本获取模块，用于获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为；标签预测模块，用于将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值；第一损失值确定模块，用于根据每个所述行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，确定每个所述行为预测任务对应的第一损失值；总损失值确定模块，用于基于每个所述行为预测任务对应的第一损失值，确定总损失值；模型训练模块，用于根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

第三方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请提供的方案中，获取训练样本集，训练样本集中的每个训练样本携带有多个目标标签，多个目标标签与多个行为预测任务一一对应，每个训练样本包含一个样本用户的样本用户特征数据，目标标签用于表征样本用户是否完成行为预测任务对应的目标行为，样本用户特征数据是从目标信贷平台中提取得到的；将每个样本用户特征数据输入至第一初始模型，得到每个行为预测任务对应的预测标签，预测标签用于表征样本用户完成行为预测任务对应的目标行为的概率值；根据每个行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，确定每个行为预测任务对应的第一损失值；基于每个行为预测任务对应的第一损失值，确定总损失值；根据总损失值，对第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的第一初始模型，作为目标营销模型。如此，采用多任务学习架构，训练模型对多个行为预测任务的预测能力，并且，基于对每个行为预测任务的进行预测时的损失值确定总损失值，基于该总损失值进行模型的迭代训练；即实现了多个行为预测任务之间的信息共享，相互补充，可以提升每个行为预测任务的预测表现，进而综合提高了模型的对用户的行为的预测能力，进而使得基于目标营销模型筛选的用户的质量更高，可以更为准确地从用户群体中圈出目标信贷平台中的高质量的用户进行信贷产品的推送，避免了营销预算的浪费，同时也可以提高产品推送的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的信贷场景漏斗形转化链路的示意图。

图2示出了本申请一实施例提供的模型训练方法的流程示意图。

图3示出了图2中步骤S110在一种实施方式中的子步骤的流程示意图。

图4示出了图2中步骤S120在一种实施方式中的子步骤的流程示意图。

图5示出了本申请实施例提供的第一初始模型的模型架构图。

图6示出了本申请实施例提供的行为预测模块的网络结构图。

图7示出了本申请另一实施例提供的模型训练方法的流程示意图。

图8示出了本申请又一实施例提供的模型训练方法的流程示意图。

图9示出了图8中步骤S370在一种实施方式中的子步骤的流程示意图。

图10是根据本申请一实施例提供的一种模型训练装置的框图。

图11是本申请实施例的用于执行根据本申请实施例的模型训练方法的计算机设备的框图。

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的模型训练方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如S110、S120等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。以及，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。

在相关技术中，金融营销场景中的信用贷款，如图1所示，用户转化通常表现为一个从曝光、点击、实名、申请授信、借款申请的过程，最终进行申请借款环节的人数通常很少，直接针对申请授信环节进行建模会导致模型准确率不高，进而使得基于模型从整体用户中筛选出用户的价值较低，影响信贷产品的营销推送效果，浪费营销成本。

发明人提出一种模型训练方法、装置、计算机设备及存储介质，采用多任务学习的方式进行模型训练，提高端到端的转化率以及模型的预测准确率。下面对本申请实施例提供的模型训练方法进行详细描述。

请参照图2，图2为本申请一实施例提供的一种模型训练方法的流程示意图。下面将结合图2对本申请实施例提供的模型训练方法进行详细阐述。该模型训练方法可以包括以下步骤：

步骤S110：获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为，所述样本用户特征数据是从目标信贷平台中提取得到的。

在本实施例中，训练样本集可以是从开源的特征数据样本集中获取得到，也可以是基于爬取到的大量样本数据集自行构建得到，本实施例对此不作限制。其中，每个所述训练样本包含一个样本用户的样本用户特征数据，样本用户特征数据中可以至少包括用户属性特征数据以及用户历史行为特征数据。每个训练样本携带有多个目标标签，每个目标标签与一种行为预测任务对应，每个目标标签则用于表征样本用户是否完成该目标标签对应的行为预测任务对应的目标行为；可选地，目标标签可以是一个数值，例如，用数值1作为完成行为预测任务对应的目标行为的标签，用数值0作为完成行为预测任务对应的目标行为的标签，当然，也可以使用其他数值作为目标标签，本实施例对此不作限制。

可选地，多个行为预测任务可以包括“发送成功->点击”、“发送成功->实名”、“发送成功->授信”以及“发送成功->借款”等多个行为预测任务，其中，“发送成功->点击”可以理解为在针对样本用户进行信贷产品的相关推送信息推送成功后，样本用户点击相关推送信息中所包含的产品链接的行为；“发送成功->实名”可以理解为样本用户在点击产品链接之后，进入借贷APP中完成实名注册的行为；“发送成功->授信”可以理解为样本用户在完成实名注册后，成功授信的行为；“发送成功->借款”可以理解为样本用户在成功授信后，完成借款的行为。

在一些实施方式中，请参阅图3，步骤S110可以包括步骤S111至步骤S114中的内容：

步骤S111：从目标信贷平台获取样本数据集，所述样本数据集包括样本用户群体中每个所述样本用户的用户属性数据以及历史行为数据。

在本实施例中，样本数据集中包括每个样本用户对应的样本数据，其中，每个样本用户对应的样本数据包括该样本用户的用户属性数据以及历史行为数据；用户属性数据可以包括性别信息、年龄信息、学历信息、工资收入信息、房贷信息、车贷信息以及家庭成员信息等，可以理解地，针对已注册的样本用户，其用户属性数据可以是从注册信息获取得到的；而针对未注册的样本用户，其用户属性数据可以是通过模型预估得到的。历史行为数据可以包括用户在信贷平台中的历史预设时间段内的与借贷行为相关的行为数据，例如，用户在借贷应用程序(Application，APP)中的使用情况，是否实名、是否申请授信、是否授信通过以及是否申请借款等行为数据。前述目标信贷平台可以是各种类型的借贷APP，也可以是借贷网站，当然，也可以是其他金融APP或其他金融网站，本实施例对此不作限制。

步骤S112：提取每个所述样本用户的用户属性数据以及历史行为数据的特征数据，得到每个所述样本用户对应的样本用户特征数据。

进一步地，在获取到每个样本用户对应的用户属性数据以及历史行为数据之后，可以通过预设特征提取算法或者预先训练的特征提取模型，对每个样本用户的用户属性信息以及历史行为数据进行特征提取，进而得到每个样本用户对应的样本用户特征数据。

步骤S113：根据每个所述样本用户的历史行为数据，确定每个所述样本用户是否在目标时长内完成每个所述行为预测任务对应的目标行为，得到每个所述样本用户对应的多个所述目标标签。

在该方式下，目标标签可以用于保证样本用户是否在目标时长内完成行为预测任务对应的目标行为，其中，目标时长为预先设置的时长数值，例如，2天或3天，本实施例对此不作限制。因此，可以对每个样本用户的历史行为数据进行分析，进而确定每个样本用户是否在目标时长内完成每个行为预测任务对应的目标行为，进而得到每个样本用户对应的多个目标标签。也就是说，若经分析，样本用户在目标时长内完成每个行为预测任务对应的目标行为，则该样本用户的样本用户特征数据即为每个行为预测任务的正样本，若样本用户在目标时长内均未完成每个行为预测任务对应的目标行为，则该样本用户的样本用户特征数据即为每个行为预测任务的负样本。

可以理解地，不同的行为预测任务对应的目标时长可以相同，也可以不同，例如，“发送成功->点击”对应的目标时长可以为1天、“发送成功->实名”对应的目标时长可以为2天、“发送成功->授信”对应的目标时长可以为4天以及“发送成功->借款”对应的目标时长可以为7天。

步骤S114：对每个所述样本用户对应的样本用户特征数据添加每个所述样本用户对应的多个所述目标标签，得到所述训练样本集。

最后，在得到每个样本用户对应的多个目标标签之后，则可以对每个样本用户对应的样本用户特征数据添加每个样本用户对应的多个目标标签，得到训练样本集。

步骤S120：将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值。

在一些实施方式中，所述第一初始模型包括多个目标任务预测模块，每个所述行为预测任务与至少一个所述目标任务预测模块相关联，请参阅图4，步骤S120可以包括步骤S121至步骤S122中的内容：

步骤S121：将每个所述样本用户特征数据分别输入至每个所述目标任务预测模块，得到每个所述目标任务预测模块输出的第一概率值。

在该方式中，为便于描述，将结合图5的模型结构进行描述，第一初始模型可以包括特征共享嵌入模块、多个目标任务预测模块以及与每个目标任务预测模块对应的损失函数，其中，多个目标任务预测模块可以包括“发送成功->点击”任务模块、“点击->实名”任务模块、“实名->授信”任务模块以及“授信->借款”任务模块。

基于此，可以先将每个样本用户特征数据输入至特征共享嵌入模块，特征共享嵌入模块采用领域嵌入(field embedding)的方法，经过特征共享嵌入模块后所得到的嵌入特征可以用以下公式表示：

其中e

进一步地，将特征共享嵌入模块输出的嵌入特征分别输入至每个目标任务预测模块，可以得到每个目标任务预测模块输出的第一概率值。如图5所示，y1为“发送成功->点击”任务模块输出的第一概率值，y1还可以理解为预测的点击概率，y2为“点击->实名”任务模块输出的第一概率值，y2还可以理解为点击到实名的转移概率，y3为“实名->授信”任务模块输出的第一概率值，y3还可以理解为实名到授信的转移概率，y4为“授信->借款”任务模块输出的第一概率值，y4还可以理解为授信到借款的转移概率。

在一些实施方式中，每个目标任务预测模块的网络结构图可以如图6所示，每个目标任务预测模块可以包括4个全连接层(FC)、3个ReLU激活层和1个Sigmoid激活层；其中，第一个全连接层接收特征嵌入作为输入，维度为16*N，16为每个特征嵌入的维度，N为特征的个数，后面的全连接层都是进行降维操作，并且每个全连接层后都接着一个激活层，最后一个全连接层后接的是Sigmoid激活层，输出一个0-1之间的值，即输出前述提及的第一概率值。

步骤S122：获取每个所述行为预测任务相关联的所述目标任务预测模块输出的第一概率值的乘积，作为每个所述行为预测任务对应的预测标签。

在本实施例中，若行为预测任务相关联的目标任务预测模块的数量为1个，则获取相关联的目标任务预测模块输出的第一概率值，作为该行为预测任务对应的预测标签。由于在信贷场景中，从发送成功到借款环节是一条严格的转化链路，即发送借款的用户一定会授信、实名和点击，也就是说，从曝光到某个环节的概率是从曝光到上一个环节的概率乘上一个环节到当前环节的概率。因此，若行为预测任务相关联的目标任务预测模块的数量为多个，则获取多个相关联的目标任务预测模块输出的第一概率值的乘积，作为该行为预测任务对应的预测标签.

以图5为例，“发送成功->点击”相关联的目标任务预测模块仅有1个，即“发送成功->点击”任务模块，此时，将“发送成功->点击”任务模块输出的第一概率值y1作为预测标签p1，即p1＝y1。

可选地，“发送成功->实名”相关联的目标任务预测模块则有2个，即“发送成功->点击”任务模块和“点击->实名”任务模块，此时，获取“发送成功->点击”任务模块输出的第一概率值y1与“点击->实名”任务模块输出的第一概率值y2的乘积作为预测标签p2，即p2＝y1*y2。

可选地，“发送成功->授信”相关联的目标任务预测模块则有3个，即“发送成功->点击”任务模块、“点击->实名”任务模块和“实名->授信”任务模块，此时，获取第一概率值y1、y2和y3的乘积作为预测标签p3，即p3＝y1*y2*y3。

可选地，“发送成功->借款”相关联的目标任务预测模块则有4个，即“发送成功->点击”任务模块、“点击->实名”任务模块、“实名->授信”任务模块和“授信->借款”任务模块，此时，获取第一概率值y1、y2、y3和y4的乘积作为预测标签p4，即p4＝y1*y2*y3*y4。

步骤S130：根据每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，确定每个所述行为预测任务对应的第一损失值。

步骤S140：基于每个所述行为预测任务对应的第一损失值，确定总损失值。

进一步地，在获取到每个样本用户对应的每个行为预测任务对应的预测标签之后，可以根据每个行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，确定每个行为预测任务对应的第一损失值，即得到每个行为预测任务某块的损失。

在一些实施方式中，对每个所述行为预测任务对应的第一损失值进行加权求和，得到总损失值。可以理解地，可以直接获取每个行为预测任务对应的第一损失值的和值，作为总损失值，以图5中的损失值为例，总损失值＝l1+l2+l3+l4。

当然，也可以根据针对每个行为预测任务预先设置权重系数k1、k2、k3、k4，对每个行为预测任务对应的第一损失值进行加权求和，得到总损失值。以图5中的损失值为例，总损失值＝k1*l1+k2*l2+k3*l3+k4*l4。

步骤S150：根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

最后，在获得基于每个行为预测任务对应的第一损失值计算的总损失值之后，可以对第一初始模型的网络执行反向传播算法，根据总损失值更新第一初始模型中的参数，同时，可以使用Adam优化函数，并确定批量大小为1024，初始学习率为0.02，每两轮对学习率进行减半衰减，以避免第一初始模型收敛得速度很快，跨过或忽略了最小值，导致一直来回震荡而无法使损失函数收敛到最小值等问题的发生，即保证第一初始模型可以及时收敛。进而在对基于总损失值对第一初始模型中的参数进行迭代更新，直至满足第一目标条件后，即可得到目标营销模型，并且将该目标营销模型的结构以及参数进行保存。

其中，第一目标条件可以为：总损失值小于预设值、总损失值不再变化、或者训练次数达到预设次数等。可以理解的，在根据第一用户特征数据集对第一初始模型进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对第一初始模型中参数进行优化，使得上述总损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示第一初始模型已收敛；当然也可以是在训练次数达到预设次数后，确定第一初始模型已经收敛，此时，则可以将收敛的第一初始模型作为上述目标营销模型。其中，预设值以及预设次数均为预先设置的，也可以根据不同的应用场景对其数值进行调整，本实施例对此不作限制。

可以理解地，在完成目标营销模型的训练之后，即可利用该目标营销模型的概率预测能力，预测用户群体中每个用户完成每个行为预测任务对应的目标行为的概率值，进而基于该概率值从用户群体中筛选出概率值大于预设概率值的用户群体，作为待推送用户群体。如此，通过目标营销模型筛选出的待推送用户群体的用户质量更高，在营销费用预算有限的情况，向通过目标营销模型筛选出的待推送用户群体中的用户发送信贷产品的产品推送信息，可以提高信贷产品的推送成功率，同时还能提高用户的授信率。

在本实施例中，通过多任务学习的网络架构，同时训练端到端多个目标任务预测模块，并且，根据每个目标任务预测模块的损失值计算总损值；再基于总损失值，对第一初始模型进行迭代训练，直至模型收敛后，得到目标营销模型。如此，采用多任务学习架构，每个目标任务预测模块均会充分利用到用户在借款前置环节(包括点击、实名以及申请授信)的信息，提升模型中各个目标任务预测模块的预测准确率。进而使得基于目标营销模型对用户进行贷款概率的预测，可以更为准确地从用户群体中圈出高质量的用户进行信贷产品的推送，避免了营销预算的浪费，同时也可以提高产品推送的效果，提高回报率。

请参照图7，图7为本申请另一实施例提供的一种模型训练方法的流程示意图。下面将结合图7对本申请实施例提供的模型训练方法进行详细阐述。该模型训练方法可以包括以下步骤：

步骤S210：获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为，所述样本用户特征数据是从目标信贷平台中提取得到的。

步骤S220：将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值。

在本实施例中，步骤S210至步骤S220的具体实施方式中可以参阅前述实例中的内容。

步骤S230：根据交叉熵损失函数，获取每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，作为每个所述行为预测任务对应的第二损失值。

其中，交叉熵损失函数可以表达为以下公式：

如此，可以通过交叉熵损失函数，衡量每个行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，来计算得到每个行为预测任务对应的第二损失值。并且，基于交叉熵损失函数来计算损失值，在进行梯度下降计算时可以避免出现梯度弥散，导致学习速率下降等问题的发生。

步骤S240：根据对称交叉熵损失函数，获取每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，作为每个所述行为预测任务对应的第三损失值。

其中，对称交叉熵函数可以表达为以下公式:

可以理解地，由于获取到的训练样本集中每个训练样本携带的多个目标标签可能存在误标的情况。例如，在大多数业务中，一般只会统计在短时间窗口内的转化，比如，只统计2天内用户完成“发送成功->点击”对应的目标行为，该用户则会被归为正样本，而在2天后用户完成“发送成功->点击”对应的目标行为，该用户就被归为负样本，这样的做法会导致一部分样本的标签不准确。

在本实施例中，由于使用交叉熵损失函数计算每个行为预测任务对应的第二损失值时，而交叉熵损失函数会促使第一初始模型对预测的概率值越小的训练样本给与更高的学习权重，从而加速模型拟合。但是，在包含噪声标签中，噪声标签的预测概率较小，交叉熵损失函数令模型拟合噪声标签，导致模型过拟合噪声，最终影响训练完成的第一初始模型的模型预测准确性。因此，可以通过结合对称交叉熵损失函数计算第三损失值，来对称地增强交叉熵，同时能够抑制第一初始模型对预测的概率值较小的训练样本进行学习，从而抑制第一初始模型的噪声过拟合，提高训练完成后的第一初始模型的预测准确率。

在另一些可能的实施方式中，还可以利用平均绝对误差(MAE)等其他的容错性损失函数来计算上述第三损失值，以及迭代交叉学习(ICL)、联合优化(Joint Optimization)等标签修订机制，来抑制第一初始模型对预测的概率小的训练样本学习，从而抑制模型噪声过拟合。

步骤S250：对每个所述行为预测任务对应的第二损失值以及每个所述行为预测任务对应的第三损失值进行加权求和，得到每个所述行为预测任务对应的第一损失值。

进一步地，可以根据第二损失值对应的第二预设权重以及第三损失值对应的第三预设权重，对对每个行为预测任务对应的第二损失值以及每个行为预测任务对应的第三损失值进行加权求和，得到每个行为预测任务对应的第一损失值。

具体地，可以通过以下公式计算每个行为预测任务对应的第一损失值：

Lj＝a

其中，Lj为第一损失值，a

可以理解得，不同行为预测任务对应的第二预设权重可以相同，也可以不同，同理，不同行为预测任务对应的第三预设权重可以相同，也可以不同，具体可以根据实际应用需求，对权重数值进行调整，本实施例对此不作限制。如此，通过引入第二预设权重以及第三预设权重可以很好的更好的平衡模型噪声的过拟合和欠拟合的问题，避免对称交叉熵损失函数过度抑制对预测概率小的训练样本进行学习。

步骤S260：基于每个所述行为预测任务对应的第一损失值，确定总损失值。

步骤S270：根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

在本实施例中，步骤S260至步骤S270的具体实施方式中可以参阅前述实例中的内容。

在本实施例中，采用多任务学习架构，充分利用前序环节样本以提升最后转化环节的准确性。同时结合噪声鲁棒损失函数，缓解样本标签不准确和难分类样本带来的影响，从而提升训练得到的目标营销模型对用户贷款意愿的预测准确率。

请参照图8，图8为本申请又一实施例提供的一种模型训练方法的流程示意图。下面将结合图8对本申请实施例提供的模型训练方法进行详细阐述。该模型训练方法可以包括以下步骤：

步骤S310：获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为，所述样本用户特征数据是从目标信贷平台中提取得到的。

步骤S320：将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值。

步骤S330：根据每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，确定每个所述行为预测任务对应的第一损失值。

步骤S340：基于每个所述行为预测任务对应的第一损失值，确定总损失值。

步骤S350：根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

在本实施例中，步骤S310至步骤S350的具体实施方式中可以参阅前述实例中的内容。

步骤S360：将第一目标用户群体中每个第一目标用户的用户特征数据输入至所述目标营销模型，得到每个所述第一目标用户完成每个所述行为预测任务的目标概率值。

在本实施例中，目标营销模型可以部署于spark计算平台，基于此，可以通过spark任务获取大盘活跃的第一目标用户群体的用户数据，并对用户数据进行数据预处理，再对数据预处理后的用户数据进行特征数据的提取，得到第一目标用户群体中每个第一目标用户的用户特征数据。其中，提取第一目标用户的用户特征数据的方式与前述模型训练阶段中提取样本用户的样本用户特征数据的原理相似，可以参阅前述实施例中的内容，在此不再赘述。其中，大盘活跃的第一目标用户群体可以包括在第一目标时间段内于信贷APP上线过或者在第二目标时间段内于信贷APP或者在信贷APP相关联的线下信贷公司办过信贷相关业务的用户。

基于此，将第一目标用户群体中每个第一目标用户的用户特征数据输入至目标营销模型，得到每个第一目标用户完成每个行为预测任务的目标概率值。也就是说，可以预测每个第一目标用户在接收到信贷产品的推送信息后，点击推送信息中的相关链接的目标概率值，在信贷APP中完成实名注册的目标概率值，在信贷APP完成授信的目标概率值，以及在信贷APP完成贷款的目标概率值。

步骤S370：根据每个所述第一目标用户完成每个所述行为预测任务的目标概率值，从所述第一目标用户群体中筛选出符合目标产品对应的目标推送条件的第二目标用户群体。

在一些实施方式中，请参阅图9，步骤S370可以包括步骤S371至步骤S373中的内容：

步骤S371：从多个所述行为预测任务中确定所述目标产品对应的行为预测任务，作为待筛选行为预测任务。

在本实施例中，目标产品可以是信贷产品，在实际应用中，信贷产品对应的行为预测任务一般为“发送成功->借款”，也就是说，针对信贷产品，一般是预测第一目标用户群体中每个第一目标用户的贷款意愿，即借款概率值。因此，可以将“发送成功->借款”作为待筛选行为预测任务。

在另一些实施方式中，待筛选行为预测任务还可以是其他的行为预测任务，具体可以根据目标产品的产品需求来设置，本实施例对此不作限制。

步骤S372：按照每个所述第一目标用户完成所述待筛选行为预测任务的所述目标概率值由大至小的顺序，对所述第一目标用户群体中的第一目标用户进行排序，得到第一目标用户序列。

进一步地，在确定出待筛选行为预测任务之后，则可以将每个第一目标用户完成待筛选行为预测任务的目标概率值由大至小的顺序，对第一目标用户群体中的第一目标用户进行排序，得到第一目标用户序列。其中，目标概率值即为前述实施例中提及的p4。显然，在第一目标用户序列中，越靠前的第一目标用户的贷款意愿越高。

在一些实施方式中，可以每隔预设时长，获取第一目标用户序列，并将每次获取到的第一目标用户序列保存至目标数据库中，供后续信贷产品的产品推送进行调用。

步骤S373：获取所述第一目标用户序列中的前M个第一目标用户，得到所述第二目标用户群体，所述M为正整数。

其中，M的数值可以是由目标产品对应的运营策略确定的，不同的目标产品对应的营销预算不同，因此，针对不同的目标产品制定对应的运营策略也不同。可以理解地，目标产品的营销预算越高，目标产品对应的运营策略中的M的数值则一般越大，即可以向更多的用户进行信贷产品的推送。

可选地，由于在第一目标用户序列中，越靠前的第一目标用户的贷款意愿越高，因此，可以获取第一目标用户序列中的前M个第一目标用户，得到第二目标用户群体。

步骤S380：向所述第二目标用户群体中的用户对应的电子设备推送所述目标产品对应的推送信息。

最后，在确定第二目标用户群体之后，可以通过预设推送方式，向第二目标用户群体中的用户对应的电子设备推送目标产品对应的推送信息。其中，预设推送方式可以是短信推送、邮件推送或APP弹窗推送等推送方式。如此，由于第二目标用户群体中的用户均为借款概率较高的用户，进而向该群体推送信贷产品的效果较好，同时也避免了由于向借款概率较低的用户推送信贷产品，而造成的营销预算费用的浪费。

在一些实施方式中，在营销预算充足的情况下，可以向第二目标用户群体的用户对应的电子设备以第一推送频率推送所述目标产品对应的推送信息，向第一目标用户序列中除第二目标用户群体之外的其他用户对应的电子设备以第二推送频率推送目标产品对应的推送信息。其中，第一推送频率大于第二推送频率，例如，第一推送频率为每两天推送四次，第二推送频率为仅推送1次，如此，多次向第二目标用户群体的用户推送目标产品对应的推送信息，可以防止因用户未看到推送信息，而导致无法获知到目标产品的存在等问题的发生，提高用户查看到该目标产品的推送信息的概率；同时，仅向借款意向低的其他用户发送一次推送信息，避免了营销预算的浪费。

在一些实施方式中，可以每个指定时长，从前述目标数据库中筛选出第二目标用户群体，进行信贷产品的推送，即实现产品的定时营销及推送。

在本实施例中，结合多任务学习和噪声鲁棒损失函数的方法，能够充分利用到用户在借款前置环节(包括点击、实名、申请授信)的信息，同时缓解标签噪声和难分类样本的问题，从而能提升目标营销模型的对用户行为的预测准确性，进而提高基于目标营销模型对用户的借款意愿的预测准确率；并基于预测得到的目标概率值，筛选出概率值较高的前M个第一目标用户进行目标产品的推送；如此，既避免了产品营销预算的浪费，同时也保证了产品推送的效果。

请参照图10，其中示出了本申请一实施例提供的一种模型训练装置400的结构框图。该装置400可以包括：训练样本获取模块410、标签预测模块420、第一损失值确定模块430、总损失值确定模块440和模型训练模块450。

训练样本获取模块410用于获取训练样本集，所述训练样本集中的每个训练样本携带有多个目标标签，多个所述目标标签与多个行为预测任务一一对应，每个所述训练样本包含一个样本用户的样本用户特征数据，所述目标标签用于表征所述样本用户是否完成所述行为预测任务对应的目标行为。

标签预测模块420用于将每个所述样本用户特征数据输入至第一初始模型，得到每个所述行为预测任务对应的预测标签，所述预测标签用于表征所述样本用户完成所述行为预测任务对应的目标行为的概率值。

第一损失值确定模块430用于根据每个所述行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，确定每个所述行为预测任务对应的第一损失值。

总损失值确定模块440用于基于每个所述行为预测任务对应的第一损失值，确定总损失值。

模型训练模块450用于根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型。

在一些实施方式中，所述第一初始模型包括多个目标任务预测模块，每个所述行为预测任务与至少一个所述目标任务预测模块相关联，标签预测模块可以具体用于：将每个所述样本用户特征数据分别输入至每个所述目标任务预测模块，得到每个所述目标任务预测模块输出的第一概率值；获取每个所述行为预测任务相关联的所述目标任务预测模块输出的第一概率值的乘积，作为每个所述行为预测任务对应的预测标签。

在一些实施方式中，第一损失值确定模块可以包括：交叉熵损失值获取单元、对称交叉熵损失值获取单元以及第一损失值获取单元。其中，交叉熵损失值获取单元可以用于根据交叉熵损失函数，获取每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，作为每个所述行为预测任务对应的第二损失值。对称交叉熵损失值获取单元可以用于根据对称交叉熵损失函数，获取每个所述行为预测任务对应的预测标签与每个所述行为预测任务对应的目标标签之间的差异程度，作为每个所述行为预测任务对应的第三损失值。第一损失值获取单元可以用于对每个所述行为预测任务对应的第二损失值以及每个所述行为预测任务对应的第三损失值进行加权求和，得到每个所述行为预测任务对应的第一损失值。

在一些实施方式中，模型训练装置400还可以包括：目标概率获取模块、用户群体筛选模块以及产品推送模块。其中，目标概率获取模块可以用于在所述根据所述总损失值，对所述第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的所述第一初始模型，作为目标营销模型之后，将第一目标用户群体中每个第一目标用户的用户特征数据输入至所述目标营销模型，得到每个所述第一目标用户完成每个所述行为预测任务的目标概率值。用户群体筛选模块可以用于根据每个所述第一目标用户完成每个所述行为预测任务的目标概率值，从所述第一目标用户群体中筛选出符合目标产品对应的目标推送条件的第二目标用户群体。产品推送模块可以用于向所述第二目标用户群体中的用户对应的电子设备推送所述目标产品对应的推送信息。

在该方式下，用户群体筛选模块可以具体用于从多个所述行为预测任务中确定所述目标产品对应的行为预测任务，作为待筛选行为预测任务；按照每个所述第一目标用户完成所述待筛选行为预测任务的所述目标概率值由大至小的顺序，对所述第一目标用户群体中的第一目标用户进行排序，得到第一目标用户序列；获取所述第一目标用户序列中的前M个第一目标用户，得到所述第二目标用户群体，所述M为正整数。

在一些实施方式中，训练样本获取模块410可以具体用于：从目标信贷平台获取样本数据集，所述样本数据集包括样本用户群体中每个所述样本用户的用户属性数据以及历史行为数据；提取每个所述样本用户的用户属性数据以及历史行为数据的特征数据，得到每个所述样本用户对应的样本用户特征数据；根据每个所述样本用户的历史行为数据，确定每个所述样本用户是否在目标时长内完成每个所述行为预测任务对应的目标行为，得到每个所述样本用户对应的多个所述目标标签；对每个所述样本用户对应的样本用户特征数据添加每个所述样本用户对应的多个所述目标标签，得到所述训练样本集。

在一些实施方式中，总损失值确定模块440可以具体用于对每个所述行为预测任务对应的第一损失值进行加权求和，得到所述总损失值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，获取训练样本集，训练样本集中的每个训练样本携带有多个目标标签，多个目标标签与多个行为预测任务一一对应，每个训练样本包含一个样本用户的样本用户特征数据，目标标签用于表征样本用户是否完成行为预测任务对应的目标行为，样本用户特征数据是从目标信贷平台中提取得到的；将每个样本用户特征数据输入至第一初始模型，得到每个行为预测任务对应的预测标签，预测标签用于表征样本用户完成行为预测任务对应的目标行为的概率值；根据每个行为预测任务对应的预测标签与每个行为预测任务对应的目标标签之间的差异程度，确定每个行为预测任务对应的第一损失值；基于每个行为预测任务对应的第一损失值，确定总损失值；根据总损失值，对第一初始模型进行迭代训练，直至满足第一目标条件，得到训练后的第一初始模型，作为目标营销模型。如此，采用多任务学习架构，训练模型对多个行为预测任务的预测能力，并且，基于对每个行为预测任务的进行预测时的损失值确定总损失值，基于该总损失值进行模型的迭代训练；即实现了多个行为预测任务之间的信息共享，相互补充，可以提升每个行为预测任务的预测表现，进而综合提高了模型的对用户的行为的预测能力，进而使得基于目标营销模型筛选的用户的质量更高，可以更为准确地从用户群体中圈出目标信贷平台中的高质量的用户进行信贷产品的推送，避免了营销预算的浪费，同时也可以提高产品推送的效果。。

下面将结合图11对本申请提供的一种计算机设备进行说明。

参照图11，图11示出了本申请实施例提供的一种计算机设备500的结构框图，本申请实施例提供的上述方法可以由该计算机设备500执行。该计算机设备可以是具有数据处理功能的电子终端，该电子终端包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、智能手表、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器以及智能家居设备等；当然，该计算机设备也可以是服务器，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中的计算机设备500可以包括一个或多个如下部件：处理器501、存储器502、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器502中并被配置为由一个或多个处理器501执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器501可以包括一个或者多个处理核。处理器501利用各种接口和线路连接整个计算机设备500内的各个部分，通过运行或执行存储在存储器502内的指令、程序、代码集或指令集，以及调用存储在存储器502内的数据，执行计算机设备500的各种功能和处理数据。可选地，处理器501可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器501中，单独通过一块通信芯片进行实现。

存储器502可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器502可用于存储指令、程序、代码、代码集或指令集。存储器502可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备500在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述各方法实施例中的步骤。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：苏婵菲;孔涛涛;林鹏;
专利申请人：深圳市与飞科技有限公司;

上一篇：一种基于水文协议的数据传输方法、系统、终端及介质
下一篇：一种空气净化用易降解杀菌过滤材料及其制备方法