掌桥专利:专业的专利平台
掌桥专利
首页

模型训练方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:22:51


模型训练方法、装置、设备及存储介质

技术领域

本申请的实施例涉及大数据技术领域,尤其涉及数据处理技术领域,特别涉及模型训练方法、装置、电子设备及存储介质。

背景技术

随着移动设备和互联网服务的发展,近年来出现了一系列的推荐系统,它帮助个人在网上做出无数选择。推荐系统吸引了越来越多的在线零售商和电子商务平台来满足用户多样化的需求,丰富和推广他们的网上购物体验。在实际应用中,用户的当前兴趣受到其历史行为的影响,例如当用户订购智能手机时,用户随后会选择和购买充电器、手机套等配件。这样的序列化的用户-条目依赖关系非常普遍,并刺激了用户序列预测系统的兴起。通过将用户历史行为序列视为一个动态序列,并考虑了序列依赖关系来描述当前用户的偏好,从而做出更准确的预测。这里的条目在预测系统中可以指代商品、文章、视频等在系统中与用户交互的实体。

针对序列预测,人们提出了一系列方法来捕捉用户历史行为中的序列动态,并预测下一个用户感兴趣的条目,其中,方法包括:马尔科夫链、循环神经网络、卷积神经网络、图神经网络和自注意力机制等。

发明内容

本申请提供了一种模型训练方法、装置、设备以及存储介质和一种用于生成信息的方法、装置、设备以及存储介质。

根据本申请的第一方面,提供了一种模型训练方法,包括:获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目;将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测;将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务。

在一些实施例中,辅助任务还包括时间一致性任务。

在一些实施例中,辅助任务还包括全局会话一致性任务。

在一些实施例中,用户行为预测模型的训练目标包括第二目标,第二目标为使第二模型输出的第二预选条目的概率分布与第一模型输出的第一预选条目的概率分布保持一致。

在一些实施例中,第一模型包括:第一预测子模型和第一分析子模型;将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,包括:将样本集中的用户行为序列输入至第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布;将第一预选条目的概率分布输入至第一分析子模型,得到与输入的第一预选条目的概率分布对应的第一目标条目。

在一些实施例中,第二模型包括:第二预测子模型和第二分析子模型;将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,包括:将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练;将第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练;将第二预测子模型和第二分析子模型进行合并,生成合并后的用户行为预测模型。

在一些实施例中,第二预测子模型的训练目标包括第三目标,第三目标为使第二预测子模型输出的第二预选条目的概率分布与第一预测子模型输出的第一预选条目的概率分布保持一致;和/或,第二分析子模型的训练目标包括第四目标,第四目标为使第二分析子模型输出的第二目标条目对应向量和第一分析子模型输出的第一目标条目对应向量保持一致。

在一些实施例中,第一模型和/或第二模型基于BERT4rec模型而构建。

根据本申请的第二方面,提供了一种用于生成信息的方法,包括:获取用户行为序列;将用户行为序列输入至预先训练的用户行为预测模型,生成与输入的用户行为序列对应的预选条目的概率分布和预选条目的概率分布对应的目标条目,其中,用户行为预测模型如上述模型训练方法中任一实施例的方法训练得到。

根据本申请的第三方面,提供了一种模型训练装置,包括:获取单元,被配置成获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目;确定单元,被配置成将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测;训练单元,被配置成将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务。

在一些实施例中,辅助任务还包括人格一致性任务。

在一些实施例中,辅助任务还包括全局会话一致性任务。

在一些实施例中,训练单元中的用户行为预测模型的训练目标包括第二目标,第二目标为使第二模型输出的第二预选条目的概率分布与第一模型输出的第一预选条目的概率分布保持一致。

在一些实施例中,确定单元中的第一模型包括:第一预测子模型和第一分析子模型;确定单元,包括:第一确定模块,被配置成将样本集中的用户行为序列输入至第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布;第二确定模块,被配置成将第一预选条目的概率分布输入至第一分析子模型,得到与输入的第一预选条目的概率分布对应的第一目标条目。

在一些实施例中,训练单元中的第二模型包括:第二预测子模型和第二分析子模型;训练单元,包括:第一训练模块,被配置成将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练;第二训练模块,被配置成将第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练;合并模块,被配置成将第二预测子模型和第二分析子模型进行合并,生成合并后的用户行为预测模型。

在一些实施例中,训练单元中的第二预测子模型的训练目标包括第三目标,第三目标为使第二预测子模型输出的第二预选条目的概率分布与第一预测子模型输出的第一预选条目的概率分布保持一致;和/或,训练单元中的第二分析子模型的训练目标包括第四目标,第四目标为使第二分析子模型输出的第二目标条目对应向量和第一分析子模型输出的第一目标条目对应向量保持一致。

在一些实施例中,确定单元中的第一模型和/或第二模型基于BERT4rec模型而构建。

根据本申请的第四方面,提供了一种用于生成信息的装置,包括:信息获取单元,被配置成获取用户行为序列;信息生成单元,被配置成将用户行为序列输入至预先训练的用户行为预测模型,生成与输入的用户行为序列对应的预选条目的概率分布和预选条目的概率分布对应的目标条目,其中,用户行为预测模型通过如上述模型训练方法中任一实施例的方法训练得到。

根据本申请的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面中任一实现方式描述的方法。

根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行如第一方面或第二方面中任一实现方式描述的方法。

根据本申请的技术采用获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目,将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务,实现一种数据增强的自监督模仿学习的模型训练方法,解决了现有序列预测模型在很大程度上依赖于观察到的用户项行为预测,表现力有限,无法训练出足够的表达性特征的问题。利用教师-学生的模仿学习框架及知识蒸馏技术,通过模仿教师模型中的条目表示(向量),有效地将学习到的更好的模型训练特征集成到学生模型的学习框架中。通过在模型训练中增加时间一致性增强的辅助任务,时间一致性反映了推荐者希望按照适当的顺序组织和显示条目以满足用户的兴趣,增强模型的条目表示能力,提高了模型的时间敏感性和模型的条目学习的能力,以学习到更好的条目表示,提升模型离线训练时的性能,进一步提升模型的预测能力。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。

图1是根据本申请的模型训练方法的第一实施例的示意图;

图2是可以实现本申请实施例的模型训练方法的场景图;

图3是根据本申请的模型训练方法的第二实施例的示意图;

图4是根据本申请的用于生成信息的方法的第一实施例的示意图;

图5是根据本申请的模型训练装置的一个实施例的结构示意图;

图6是根据本申请的用于生成信息的装置的一个实施例的结构示意图;

图7是用来实现本申请实施例的模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本申请的模型训练方法的第一实施例的示意图100。该模型训练方法,包括以下步骤:

步骤101,获取用户行为序列样本集。

在本实施例中,执行主体(例如服务器)可以通过有线连接或无线连接的方式从其他电子设备或者本地获取用户行为序列样本集。其中,样本集中的用户行为序列用于表征用户行为对应的各个条目。这里的条目是用户历史点击的各个实体,可以指代商品、文章、视频等在系统中与用户交互的实体。需要说明的是,上述无线连接方式可以包括但不限于3G、4G、5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤102,将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目。

在本实施例中,对于步骤101获取到的用户行为序列样本集中的用户行为序列,执行主体可以将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目。其中,第一模型为预先训练的教师模型,第一模型可以基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测。教师模型可以是预先利用样本集对任何可用于预测的神经网络进行有监督训练所得到的模型。通常,教师模型是复杂,但精度高推理速度慢的模型,其能力通常大于学生模型。

在本实施例的一些可选的实现方式中,第一模型可以基于BERT4rec模型而构建。利用深度推荐模型在训练阶段随机屏蔽用户历史行为序列中的某些条目,并用唯一的标识符来替换它们,然后根据上下文预测被屏蔽项的原始id,在测试阶段,模型在输入序列的末尾附加特殊标识符,然后根据最终结果预测下一个条目。

步骤103,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型。

在本实施例中,上述执行主体可以利用机器学习算法,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型。其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标除模型本身的训练目标以外还包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务中包括辅助任务,辅助任务包括时间一致性任务。时间一致性任务可以表征通过随机交换用户行为序列中子序列的顺序来对用户行为序列是否为预设顺序序列进行预测。第一目标可以是使学生模型输出的第二目标条目对应向量和教师模型输出的第一目标条目对应向量的平方差最小化,相当于第二模型(学生模型)对第一模型(教师模型)进行条目表示的模仿是通过最小化平方误差来实现的,即约束两个表示(向量)尽可能地一致。学生模型可以是任何可用于预测的神经网络,是否被预先训练均可。学生模型是精简并且低复杂度的模型,其能力通常小于教师模型。这里,对学生模型进行有监督训练,能够得到用户行为预测模型。通常,训练后的学生模型能够直接作为用户行为预测模型,在获取到用户行为序列后,直接利用训练后的学生模型对用户感兴趣的下一行为对应的条目进行预测,不再使用教师模型,从而提升预测速度。

这里,进一步对时间一致性任务进行说明,时间一致性任务可以捕获用户的行为序列,使得预测模型可以以合理的条目展示顺序,更好地满足用户的兴趣。首先,我们可以通过随机交换用户行为序列中的一些子序列的顺序来抽取正样本和负样本,然后我们在结尾添加一个唯一标记符,通过分类器来预测用户行为序列是否处于原始顺序。例如,用户-条目行为序列为[x

在本实施例的一些可选的实现方式中,辅助任务除时间一致性任务以外,还包括人格一致性任务和全局会话一致性任务。人格一致性任务用于表征对随机替换了条目的用户行为序列进行序列是否来自于同一用户的预测。全局会话一致性任务用于表征使选中的局部序列和除被选中的局部序列以外的全局序列会话之间的互信息最大化。通过增加人格一致性任务使模型能够从用户行为序列中感知不同的角色,避免现有技术中用户之间那些微妙且多样的人物角色差异被忽略的问题。通过将全局会话一致性引入到序列预测中,最大化全局和局部序列会话间的互信息来增强条目表示,解决了现有技术中因为学习条目表示的时候是在全局用户行为序列上,而预测模型在实际预测的时候只能看到局部的用户行为序列的问题,减轻了如果没有全局视角,模型仍然受到噪音行为和不一致预测的影响的缺陷,例如当用户无意中点击了错误的条目,系统很容易受到短期点击的影响,并立即做出不相关的预测。

进一步对人格一致性任务进行说明,人格一致性任务建模了不同用户之间不同的人格区别,正例是整个用户行为序列正好是同一用户,对于负例,我们随机地将某一个用户行为序列中的一些条目随机替换成其他用户的。然后让模型去预测,一个用户行为序列是来自同一个用户,还是来自多个用户。

进一步对全局会话一致性任务进行说明,给定一个用户行为序列,我们认为局部表示是序列中连续多个序列行为片段,全局表示是除了被选中的局部表示之外的其余部分。全局和局部序列都采用BERT4Rec模型编码,采用最后一个位置对应的表示作为全局或局部的区别表示,我们最大限度地实现了全局表示和局部表示之间的互信息最大。例如,对于一个用户行为序列为[x

在本实施例的一些可选的实现方式中,第二模型可以基于BERT4rec模型而构建。

在本实施例的一些可选的实现方式中,用户行为预测模型的训练目标包括第二目标,第二目标为使第二模型输出的第二预选条目的概率分布与第一模型输出的第一预选条目的概率分布保持一致。第二目标可以是最小化学生模型输出的第二预选条目的概率分布与教师模型输出的第一预选条目的概率分布之间的散度。利用教师-学生的模仿学习框架及知识蒸馏技术,通过模仿教师模型的预测行为和教师模型中的条目表示,有效地将学习到的更好的模型训练特征集成到学生模型的学习框架中。

需要说明的是,上述执行主体中可以存储有预先训练的第一模型、第二模型和用户行为预测模型,各个模型的网络架构预先定义,各个模型可以应用于不同种类的序列式推荐模型中,如HGN(Hierarchical gating networks for sequential recommendation)、GRU4Rec(Session-based recommendations with recurrent neural networks)、GREC(Future data helps training:Modeling future contexts for session-basedrecommendation)、S3-Rec(S3-rec:Self-supervised learning for sequentialrecommendation with mutual information maximization),还可应用于包括但不限于上述模型的各类基于神经网络的推荐系统当中,各个模型例如可以是数据表或计算公式等,本实施例不对此方面内容做任何限定。上述机器学习算法是目前广泛研究和应用的公知技术,在此不再赘述。

为了便于理解,提供可以实现本申请实施例的模型训练方法的场景,参见图2,本实施例的模型训练方法200运行于服务器201中。服务器201首先获取用户行为序列样本集202,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目,然后服务器201将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目203,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测,最后服务器201将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型204,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务。

本申请的上述实施例提供的模型训练方法采用获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目,将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务,实现一种数据增强的自监督模仿学习的模型训练方法,解决了现有序列预测模型在很大程度上依赖于观察到的用户项行为预测,表现力有限,无法训练出足够的表达性特征的问题。利用教师-学生的模仿学习框架及知识蒸馏技术,通过模仿教师模型中的条目表示(向量),有效地将学习到的更好的模型训练特征集成到学生模型的学习框架中。通过在模型训练中增加时间一致性增强的辅助任务,时间一致性反映了推荐者希望按照适当的顺序组织和显示条目以满足用户的兴趣,增强模型的条目表示能力,提高了模型的时间敏感性和模型的条目学习的能力,以学习到更好的条目表示,提升模型离线训练时的性能,进一步提升模型的预测能力。

进一步参考图3,其示出了模型训练方法的第二实施例的示意图300。该方法的流程包括以下步骤:

步骤301,获取用户行为序列样本集。

步骤302,将样本集中的用户行为序列输入至第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布。

在本实施例中,第一模型包括:第一预测子模型和第一分析子模型,执行主体可以将步骤301获取到的样本集中的用户行为序列输入至第一模型中的第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布。预选条目是指用户下个有可能点击的各个实体,第一预测子模型用于表征对用户下个有可能点击的各个实体的概率值进行预测。第一模型(即教师模型)的训练任务可以包括辅助任务,辅助任务可以包括:时间一致性任务、时间一致性任务和全局会话一致性任务中的一项或多项。

步骤303,将第一预选条目的概率分布输入至第一分析子模型,得到与输入的第一预选条目的概率分布对应的第一目标条目。

在本实施例中,执行主体可以将步骤302得到的第一预选条目的概率分布输入至第一分析子模型,通过对第一预选条目的概率分布进行分析,选取得到与输入的第一预选条目的概率分布对应的第一目标条目,第一分析子模型用于表征通过对第一预选条目进行选取得到用户感兴趣的下个行为对应的条目。

步骤304,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练。

在本实施例中,第二模型包括:第二预测子模型和第二分析子模型,执行主体可以利用机器学习算法,将步骤301获取到的样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练,得到第二预测子模型的模型参数。其中,第二预测子模型的训练目标包括第三目标,第三目标为使第二预测子模型输出的第二预选条目的概率分布与第一预测子模型输出的第一预选条目的概率分布保持一致。

步骤305,将第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练。

在本实施例中,执行主体可以利用机器学习算法,将步骤304中第二预测子模型输出的第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练,得到第二分析子模型的模型参数。其中,第二分析子模型的训练目标包括第四目标,第四目标为使第二分析子模型输出的第二目标条目对应向量和第一分析子模型输出的第一目标条目对应向量保持一致。

步骤306,将第二预测子模型和第二分析子模型进行合并,生成合并后的用户行为预测模型。

在本实施例中,执行主体可以基于第二预测子模型和第二分析子模型的训练结果,将第二预测子模型的模型参数和第二分析子模型的模型参数进行合并,生成合并后的用户行为预测模型。

在本实施例中,步骤301的具体操作与图1所示的实施例中的步骤101的操作基本相同,在此不再赘述。

从图3中可以看出,与图1对应的实施例相比,本实施例中的模型训练方法的示意图300采用将样本集中的用户行为序列输入至第一模型中的第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布,将第一预选条目的概率分布输入至第一模型中的第一分析子模型,得到与输入的第一预选条目的概率分布对应的第一目标条目,其中,第一模型的训练任务可以包括辅助任务,辅助任务可以包括:时间一致性任务、人格一致性任务和全局会话一致性任务中的一项或多项,然后将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练,其中,第二预测子模型的训练目标包括第三目标,第三目标为使第二预测子模型输出的第二预选条目的概率分布与第一预测子模型输出的第一预选条目的概率分布保持一致,再将第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练,其中,第二分析子模型的训练目标包括第四目标,第四目标为使第二分析子模型输出的第二目标条目对应向量和第一分析子模型输出的第一目标条目对应向量保持一致,最后将第二预测子模型和第二分析子模型进行合并,生成合并后的用户行为预测模型,利用教师-学生的模仿学习框架及知识蒸馏技术,通过模仿教师模型的预测行为(预备条目的概率分布)和教师模型的条目表示(向量),有效地将学习到的更好的模型训练特征集成到学生模型的学习框架中。通过在模型训练中增加时间一致性增强、人格一致性增强和全局会话一致性增强的辅助任务,增强模型的条目表示能力,提升模型离线训练时的性能。

进一步参考图4,其出了根据本公开的用于生成信息的方法的第一实施例的示意图400。该用于生成信息的方法,包括以下步骤:

步骤401,获取用户行为序列。

在本实施例中,执行主体(例如服务器或终端设备)可以通过有线连接或无线连接的方式从其他电子设备或者本地获取用户行为序列。

步骤402,将用户行为序列输入至预先训练的用户行为预测模型,生成与输入的用户行为序列对应的预选条目的概率分布和预选条目的概率分布对应的目标条目。

在本实施例中,执行主体可以将步骤401获取到的用户行为序列输入至预先训练的用户行为预测模型,生成与输入的用户行为序列对应的预选条目的概率分布和预选条目的概率分布对应的目标条目。用户行为预测模型如上述模型训练方法中任一实施例的方法训练得到。

从图4中可以看出,与图1对应的实施例相比,本实施例中的用于生成信息的方法的流程400突出了采用训练得到的用户行为预测模型,来生成目标条目的步骤。由此,本实施例描述的方案可以利用更加精准、高效的模型,实现不同类型、不同层级、不同深度的富有针对性的目标条目的预测。

进一步参考图5,作为对上述图1~3所示方法的实现,本申请提供了一种模型训练装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图1所示的方法实施例相同或相应的特征,以及产生与图1所示的方法实施例相同或相应的效果,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的模型训练装置500包括:获取单元501、确定单元502和训练单元503,其中,获取单元,被配置成获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目;确定单元,被配置成将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测;训练单元,被配置成将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务。

在本实施例中,模型训练装置500的获取单元501、确定单元502和训练单元503的具体处理及其所带来的技术效果可分别参考图1对应的实施例中的步骤101到步骤103的相关说明,在此不再赘述。

在本实施例的一些可选的实现方式中,辅助任务还包括人格一致性任务。

在本实施例的一些可选的实现方式中,辅助任务还包括全局会话一致性任务。

在本实施例的一些可选的实现方式中,训练单元中的用户行为预测模型的训练目标包括第二目标,第二目标为使第二模型输出的第二预选条目的概率分布与第一模型输出的第一预选条目的概率分布保持一致。

在本实施例的一些可选的实现方式中,确定单元中的第一模型包括:第一预测子模型和第一分析子模型;确定单元,包括:第一确定模块,被配置成将样本集中的用户行为序列输入至第一预测子模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布;第二确定模块,被配置成将第一预选条目的概率分布输入至第一分析子模型,得到与输入的第一预选条目的概率分布对应的第一目标条目。

在本实施例的一些可选的实现方式中,训练单元中的第二模型包括:第二预测子模型和第二分析子模型;训练单元,包括:第一训练模块,被配置成将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布作为输出,对第二预测子模型进行训练;第二训练模块,被配置成将第二预选条目的概率分布作为输入,将与输入的第二预选条目的概率分布对应的第二目标条目作为输出,对第二分析子模型进行训练;合并模块,被配置成将第二预测子模型和第二分析子模型进行合并,生成合并后的用户行为预测模型。

在本实施例的一些可选的实现方式中,训练单元中的第二预测子模型的训练目标包括第三目标,第三目标为使第二预测子模型输出的第二预选条目的概率分布与第一预测子模型输出的第一预选条目的概率分布保持一致;和/或,训练单元中的第二分析子模型的训练目标包括第四目标,第四目标为使第二分析子模型输出的第二目标条目对应向量和第一分析子模型输出的第一目标条目对应向量保持一致。

在本实施例的一些可选的实现方式中,确定单元中的第一模型和/或第二模型基于BERT4rec模型而构建。

继续参考图6,作为对上述图4所示方法的实现,本公开提供了一种用于生成信息的装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图4所示的方法实施例相同或相应的特征,以及产生与图4所示的方法实施例相同或相应的效果,该装置具体可以应用于各种电子设备中。

如图6所示,本实施例的用于生成信息的装置600包括:信息获取单元601和信息生成单元602,其中,信息获取单元,被配置成获取用户行为序列;信息生成单元,被配置成将用户行为序列输入至预先训练的用户行为预测模型,生成与输入的用户行为序列对应的预选条目的概率分布和预选条目的概率分布对应的目标条目,其中,用户行为预测模型通过如上述模型训练方法中任一实施例的方法训练得到。

在本实施例中,用于生成信息的装置600的信息获取单元601和信息生成单元602的具体处理及其所带来的技术效果可分别参考图4对应的实施例中的步骤401到步骤402的相关说明,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图7所示,是根据本申请实施例的模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的模型训练方法。

存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的模型训练方法对应的程序指令/模块(例如,附图5所示的获取单元501、确定单元502和训练单元503)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及模型训练,即实现上述方法实施例中的模型训练方法。

存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据模型训练电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至模型训练电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息,以及产生与模型训练电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案采用获取用户行为序列样本集,其中,样本集中的用户行为序列用于表征用户行为对应的各个条目,将样本集中的用户行为序列输入至第一模型,得到与输入的样本集中的用户行为序列对应的第一预选条目的概率分布和第一预选条目的概率分布对应的第一目标条目,其中,第一模型为预先训练的教师模型,第一模型基于历史的用户行为序列对用户感兴趣的下个行为对应的条目进行预测,将样本集中的用户行为序列作为输入,将与输入的样本集中的用户行为序列对应的第二预选条目的概率分布和第二预选条目的概率分布对应的第二目标条目作为输出,对第二模型进行训练,得到用户行为预测模型,其中,第二模型为待训练的学生模型,用户行为预测模型的训练目标包括第一目标,第一目标为使第二模型输出的第二目标条目对应向量和第一模型输出的第一目标条目对应向量保持一致,第一模型和/或第二模型的训练任务包括辅助任务,辅助任务包括时间一致性任务,实现一种数据增强的自监督模仿学习的模型训练方法,解决了现有序列预测模型在很大程度上依赖于观察到的用户项行为预测,表现力有限,无法训练出足够的表达性特征的问题。利用教师-学生的模仿学习框架及知识蒸馏技术,通过模仿教师模型中的条目表示(向量),有效地将学习到的更好的模型训练特征集成到学生模型的学习框架中。通过在模型训练中增加时间一致性增强的辅助任务,时间一致性反映了推荐者希望按照适当的顺序组织和显示条目以满足用户的兴趣,增强模型的条目表示能力,提高了模型的时间敏感性和模型的条目学习的能力,以学习到更好的条目表示,提升模型离线训练时的性能,进一步提升模型的预测能力。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 模型训练方法、模型训练装置、计算机设备和存储介质
  • 模型训练方法、模型训练装置、终端设备及存储介质
技术分类

06120113269287