掌桥专利:专业的专利平台
掌桥专利
首页

基于极少数据的用户点击率预测模型的建立方法及系统

文献发布时间:2024-04-18 20:01:30


基于极少数据的用户点击率预测模型的建立方法及系统

技术领域

本申请涉及数据处理的领域,尤其是涉及一种基于极少数据的用户点击率预测模型的建立方法及系统。

背景技术

随着网络广告的发展,广告主对广告效果的要求越来越高。

现有的广告投放模式是在获取到足够量的用户点击数据后通过固定的数据模型进行计算得到用户习惯数据,然后再根据用户习惯数据向广告主反馈用户标签,广告主根据合适的用户标签选择所需要的流量进行广告投放。

上述现有的广告投放若要达到需要的广告效果则需要进行大量的用户点击数据进行计算,而在极少量数据的基础上直接投放广告往往难以满足广告主对效果的要求,特别是在项目冷启动阶段,数据量极少,难以训练出合适的预测模型。

发明内容

为了在极小量用户点击数据的基础上提高广告效果,降低广告主成本,本申请提供一种基于极少数据的用户点击率预测模型的建立方法及系统。

一方面,本申请提供一种基于极少数据的用户点击率预测模型的建立方法,采用如下的技术方案:

一种基于极少数据的用户点击率预测模型的建立方法,包括如下步骤:

获取人群的行为数据形成行为数据集,从所述行为数据集中选取对应于第一预设行为的所述行为数据,提取选出的所述行为数据对应的原始特征形成原始特征集;

对所述原始特征集进行预处理,所述预处理的方法包括:填充缺失值或编码类别特征,检测特征异常值和处理;

使用所述原始特征集训练FM模型,捕捉所述原始特征之间的二阶交互,所述FM模型训练后输出每对所述原始特征间的交互权重,或者输出含有交互信息的新特征;

根据所述交互权重或含有交互信息的所述新特征从所述FM模型中获取二阶交互特征,并与所述原始特征集合并,生成新特征集;

使用所述新特征集训练GBDT模型,所述GBDT模型用于学习所述新特征集中特征元素的非线性关系和高阶交互;

将所述FM模型的输出和所述GBDT模型的输出通过多模型融合算法进行结合,以获得预测模型。

通过采用上述技术方案,通过在极少数据的情况下建立用户点击率预测模型,通过FM模型捕捉原始特征之间的二阶交互,再通过GBDT模型学习新特征集中特征元素的非线性关系和高阶交互,最后将两个模型的输出结合,获得预测模型;该方法能够有效地利用极少数据进行用户点击率的预测,提高预测的准确度。

可选地,方法还包括如下步骤:

多模型融合算法为多模型ab测试算法、交叉融合法或者瀑布融合法;

当所述多模型融合算法为交叉融合法时:根据所述FM模型的输出中所述交互权重或所述交互信息的变化速度值正相关调整所述FM模型的输出的融合占比;或者,根据所述GBDT模型的输出中所述非线性关系和所述高阶交互的平均变化速度值正相关调整所述GBDT模型的输出的融合占比。

通过采用上述技术方案,通过采用多模型ab测试方式应用来强化学习来优化广告投放策略,通过不断地与环境交互,学习如何做出更好的广告投放决策。

可选地,方法还包括如下步骤:

多模型融合算法为多模型ab测试算法、交叉融合法或者瀑布融合法;

当所述多模型融合算法为交叉融合法时,根据所述FM模型的输出中所述交互权重或所述交互信息的变化速度值a,以及根据所述GBDT模型的输出中所述非线性关系和所述高阶交互的平均变化速度值b,计算综合变化值c=a/b,再根据c正相关调整所述FM模型的输出的融合占比,并反相关调整所述GBDT模型的输出的融合占比。

通过采用上述技术方案,可以根据交叉融合法的特点,综合考虑FM模型和GBDT模型的输出,以获得更准确的用户点击率预测模型。

可选地,方法还包括如下步骤:

根据所述预测模型输出结果与所述点击数据集的性能差距,动态调整数据采集频率或数量;

如果性能差距上升,则增加数据采集的频率或数量,如果性能差距下降,则减小数据采集的频率或数量。

通过采用上述技术方案,可以根据模型的性能表现动态调整数据采集策略,以达到更好的预测效果和更高的效率。

可选地,所述选取对应于第一预设行为的所述行为数据的步骤中,还包括如下子步骤:

获取所述行为数据的生成时间O、生成耗时P与生成类型Q,另外,第一预设行为的生成时间o、生成耗时p与生成类型q;

若(O-o)+(P-p)+(Q-q)<X,则所述行为数据符合第一预设行为,其中X为预设的行为标准值。

通过采用上述技术方案,判断用户的行为是否符合某种预设的标准,例如判断广告点击是否真实有效、网站访问是否正常等。通过设定不同的行为标准值X,可以灵活地调整算法的严格程度,以适应不同的应用场景。

可选地,所述预处理的步骤中,还包括如下子步骤:

采用黑名单算法或者3σ算法对所述行为数据进行过滤;

或者,采用包括黑名单算法与3σ算法的多组合算法对所述行为数据进行过滤。

通过采用上述技术方案,黑名单算法和3σ算法都是用于数据过滤的方法,可以单独使用,也可以结合使用。可以先使用黑名单算法将已知的不良数据排除在外,然后再使用3σ算法对剩余的数据进行过滤,从而更加准确地识别和过滤掉异常数据。

可选地,方法还包括如下步骤:

使用交叉验证的值e、ROC曲线下与坐标轴围成的面积值f、精确率g与召回率h,计算所述预测模型的稳定值i=e/f+g/h。

通过采用上述技术方案,使用交叉验证、ROC曲线、精确率和召回率来计算预测模型的稳定值。

可选地,方法还包括如下步骤:

根据所述稳定值i通过网格搜索算法优化所述预测模型的参数;

定时根据获取的新的所述行为数据重新训练所述预测模型。

通过采用上述技术方案,通过结合网格搜索算法和定期重新训练,可以不断优化预测模型的性能,使其更好地适应动态变化的行为数据。

可选地,所述行为数据包括点击数据,所述点击数据包括单人在预设时间段内的点击量以及点击聚集度,所述点击集聚度为单人点击预设次数中数据最多的类型内容的占比;

或者,所述行为数据包括浏览数据,所述浏览数据包括单人在预设时间段内的浏览量以及浏览聚集度,所述浏览聚集度为单人浏览量最多的类型内容的占比。

通过采用上述技术方案,通过深入挖掘和分析点击数据和浏览数据,可以更好地了解用户的兴趣和行为特征,为产品设计和营销策略提供有力的支持。

可选地,所述行为数据M包括点击数据和浏览数据,所述点击数据包括单人在预设时间段内的点击量A以及点击聚集度B,所述点击集聚度为单人点击预设次数中数据最多的类型内容的占比;所述浏览数据包括单人在预设时间段内的浏览量C以及浏览聚集度D,所述浏览聚集度为单人浏览量最多的类型内容的占比;M=A

通过采用上述技术方案,通过深入挖掘和分析点击数据和浏览数据,可以更好地了解用户的行为特征和需求,为产品设计和营销策略提供有力的支持。

另一方面,本申请提供一种基于极少数据的用户点击率预测模型的建立系统,采用如下的技术方案:

一种基于极少数据的用户点击率预测模型的建立系统,包括处理器,所述处理器中运行有上述的基于极少数据的用户点击率预测模型的建立方法的程序。

综上所述,本申请包括以下至少一种有益技术效果:

利用本预测模型的建立方法,可以实现即使在用户点击数据较少的情况下也能生成有效的预测模型,测试结果显示预测误差较低。利用了FM在处理稀疏数据和捕捉二阶特征交互方面的优势,以及GBDT在处理非线性和高阶特征交互方面的能力,从而在CTR预测任务中实现了更好的性能。通过合理地设计特征和调整模型参数,FM+GBDT组合能够在广告点击率预测任务中获得较高的准确性。通过本发明的模型监控和更新流程,确保模型在长期运行中保持高准确性和稳定性。

附图说明

图1是本申请一种基于极少数据的用户点击率预测模型的建立方法的步骤图。

图2是本申请一种基于极少数据的用户点击率预测模型的建立方法,多模型融合算法的步骤图。

图3是本申请一种基于极少数据的用户点击率预测模型的建立方法,动态调整数据的步骤图。

图4是本申请一种基于极少数据的用户点击率预测模型的建立方法,动态调整数据的步骤图。

图5是本申请一种基于极少数据的用户点击率预测模型的建立方法,选取对应于第一预设行为的行为数据的步骤的子步骤图。

图6是本申请一种基于极少数据的用户点击率预测模型的建立方法,预处理的步骤中的子步骤。

图7是本申请一种基于极少数据的用户点击率预测模型的建立方法,计算预测模型的稳定值、网格搜索算法和定期重新训练的步骤图。

图8是本申请一种基于极少数据的用户点击率预测模型的建立方法,深入挖掘和分析点击数据和浏览数据的步骤图。

具体实施方式

下面详细描述本申请的实施方式,实施方式的示例在附图中示出。

在本说明书的描述中,参考术语“某些实施方式”、“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

本申请实施例公开一种基于极少数据的用户点击率预测模型的建立方法。

参照图1,一种基于极少数据的用户点击率预测模型的建立方法,包括如下步骤:

获取人群的行为数据形成行为数据集,从行为数据集中选取对应于第一预设行为的行为数据,提取选出的行为数据对应的原始特征形成原始特征集。人群的行为数据为有效人群,例如点击过广告的人群或打开app的人群。这些通常是真实的优质用户。建议收集的人群数量至少为1000万,并统计这些优质用户的点击率,唤醒率(打开app的数量)或其他效果。

对原始特征集进行预处理,预处理的方法包括:填充缺失值或编码类别特征,检测特征异常值和处理。通过缺失值填充或类别特征的编码,并进行异常值检测和处理,确保数据质量。其中,类别特征的编码如独热编码或哈希编码。

使用原始特征集训练FM模型,捕捉原始特征之间的二阶交互,FM模型训练后输出每对原始特征间的交互权重,或者输出含有交互信息的新特征。FM(factor Machine,因子分解机)算法是一种基于矩阵分解的机器学习算法,是为了解决大规模稀疏矩阵中特征组合问题。FM模型,是一种基于神经网络的推荐算法,可以捕捉原始特征之间的二阶交互,并将这些交互与原始特征集合并。在FM模型中,特征之间的二阶交互被建模为矩阵乘法操作。具体来说,假设原始特征向量为x,FM模型将这个向量分成两个矩阵相乘,即x=V*U,其中V是一个包含原始特征的矩阵,U是一个包含二阶交互特征的矩阵。在训练过程中,FM模型通过最小化预测误差来学习V和U的值。通过这种方式,FM模型能够捕捉到原始特征之间的复杂关系,并且能够更准确地预测用户的行为。FM模型具有较低的计算复杂度,可以处理大规模的数据集,并且具有良好的可扩展性。

根据交互权重或含有交互信息的新特征从FM模型中获取二阶交互特征,并与原始特征集合并,生成新特征集。从FM模型中获取二阶交互特征可以通过以下步骤进行:首先,需要对原始特征进行交互。这可以通过计算原始特征之间的乘积来实现,例如,对于两个原始特征x1和x2,它们的交互可以表示为x1*x2。然后,可以使用FM模型的参数来对交互特征进行加权。在FM模型中,交互特征的权重是通过优化模型的目标函数来学习的。最后,将得到的二阶交互特征与原始特征集合并,生成新的特征集。需要注意的是,在合并特征时,需要考虑到不同类型特征之间的差异。例如,某些特征可能是连续的,而其他特征可能是离散的。在这种情况下,需要采取适当的措施来处理这些差异,以确保新的特征集能够被有效地用于后续的机器学习任务。

使用新特征集训练GBDT模型,GBDT模型用于学习新特征集中特征元素的非线性关系和高阶交互。将FM模型的输出和GBDT模型的输出通过多模型融合算法进行结合,以获得预测模型。FM模型捕捉了原始特征之间的二阶交互,并学习一个线性关系,而GBDT模型则擅长学习特征之间的非线性关系和高阶交互。通过将这两种模型的输出进行融合,可以获得更全面的特征交互理解,从而得到更准确的预测模型。

具体来说,这种组合方法可能涉及以下步骤:使用新的特征集训练GBDT模型。GBDT模型是一种通过迭代地添加单棵决策树来优化损失函数的模型。在训练过程中,模型会学习特征之间的非线性关系和高阶交互,并生成一系列的决策树。将FM模型的输出和GBDT模型的输出结合起来。这可以通过多模型融合算法来实现。多模型融合是一种集成学习技术,它将多个模型的预测结果结合起来,以获得更好的预测性能。具体的融合方法可能因应用场景而异,例如,可以使用简单的加权平均,也可以使用更复杂的模型如Stacking。获得最终的预测模型。通过结合FM模型和GBDT模型的输出,得到一个包含二阶交互和非线性关系的预测模型。这个模型可以用于对新数据进行预测和分析。需要注意的是,这种方法的有效性可能会因数据集的特性、特征选择、模型参数等因素而异。

因此,通过在极少点击率数据的情况下建立用户点击率预测模型,通过FM模型捕捉原始特征之间的二阶交互,再通过GBDT模型学习新特征集中特征元素的非线性关系和高阶交互,最后将两个模型的输出结合,获得预测模型。该方法能够有效地利用极少数据进行用户点击率的预测,提高预测的准确度。

参照图2,方法还包括如下步骤:

多模型融合算法为多模型ab测试算法、交叉融合法或者瀑布融合法;

当多模型融合算法为交叉融合法时:根据FM模型的输出中交互权重或交互信息的变化速度值正相关调整FM模型的输出的融合占比;或者,根据GBDT模型的输出中非线性关系和高阶交互的平均变化速度值正相关调整GBDT模型的输出的融合占比。

该方法能够在极少数据的情况下,通过交叉融合法将FM模型和GBDT模型的输出进行融合,利用变化速度值调整各模型输出的融合占比,进一步提高预测的准确度和稳定性。交叉融合法能够综合考虑两个模型的优点,同时避免过度依赖单一模型,从而获得更可靠的预测结果。通过采用多模型ab测试方式应用来强化学习来优化广告投放策略,通过不断地与环境交互,学习如何做出更好的广告投放决策。

或者,参照图3,当多模型融合算法为交叉融合法时,以及根据FM模型的输出中交互权重或交互信息的变化速度值a,还可以综合根据GBDT模型的输出中非线性关系和高阶交互的平均变化速度值b,计算综合变化值c=a/b,再根据c正相关调整FM模型的输出的融合占比,并反相关调整GBDT模型的输出的融合占比。

具体的,可以使用以下公式进行融合占比的计算,FM模型融合占比=(FM模型输出占比+c×GBDT模型输出占比)/(1+c);GBDT模型融合占比=1-FM模型融合占比。可以根据交叉融合法的特点,综合考虑FM模型和GBDT模型的输出,以获得更准确的用户点击率预测模型。

参照图4,方法还包括如下步骤:

根据预测模型输出结果与点击数据集的性能差距,动态调整数据采集频率或数量;

如果性能差距上升,则增加数据采集的频率或数量,如果性能差距下降,则减小数据采集的频率或数量。

动态调整数据采集频率或数量的方法,可以根据预测模型输出结果与点击数据集的性能差距来进行调整。如果预测模型输出结果与点击数据集的性能差距上升,说明当前的数据量或数据采集频率不足以支持模型的准确预测,因此需要增加数据采集的频率或数量。这样可以提高模型的训练数据量,有助于提高模型的预测准确度。相反,如果预测模型输出结果与点击数据集的性能差距下降,说明当前的数据量或数据采集频率已经足够支持模型的准确预测,因此可以减小数据采集的频率或数量。这样可以节省数据采集的成本,同时避免过拟合的问题。通过这种方式,可以根据模型的性能表现动态调整数据采集策略,以达到更好的预测效果和更高的效率。

参照图5,选取对应于第一预设行为的行为数据的步骤中,还包括如下子步骤:

获取行为数据的生成时间O、生成耗时P与生成类型Q,另外,第一预设行为的生成时间o、生成耗时p与生成类型q;

若(O-o)+(P-p)+(Q-q)<X,则行为数据符合第一预设行为,其中X为预设的行为标准值。

判断用户的行为是否符合某种预设的标准,例如判断广告点击是否真实有效、网站访问是否正常等。通过设定不同的行为标准值X,可以灵活地调整算法的严格程度,以适应不同的应用场景。

参照图6,预处理的步骤中,还包括如下子步骤:

采用黑名单算法或者3σ算法对行为数据进行过滤;

或者,采用包括黑名单算法与3σ算法的多组合算法对行为数据进行过滤。

黑名单算法和3σ算法都是用于数据过滤的方法,可以单独使用,也可以结合使用。黑名单算法是一种简单直接的数据过滤方法,它将某些已知的不良数据(黑名单)排除在外,从而保证数据的纯净性。例如,可以将一些恶意用户的IP地址加入到黑名单中,避免他们的不良行为对数据产生干扰。3σ算法则是一种基于统计学的数据过滤方法,它认为一个正常的数据分布应该符合正态分布,因此对于超出3σ范围的数据可以认为是异常数据,需要进行过滤。例如,如果某个指标的正常波动范围是±3σ,那么大于3σ或小于-3σ的数据都可以认为是异常数据。多组合算法则是将黑名单算法和3σ算法结合起来使用的一种方法,它可以更加全面地过滤掉不良数据。具体来说,可以先使用黑名单算法将已知的不良数据排除在外,然后再使用3σ算法对剩余的数据进行过滤,从而更加准确地识别和过滤掉异常数据。以上是常见的两种数据过滤方法和一种组合使用的方法,可以根据实际需要选择合适的方法进行数据过滤。

参照图7,方法还包括如下步骤:

使用交叉验证的值e、ROC曲线下与坐标轴围成的面积值f、精确率g与召回率h,计算预测模型的稳定值i=e/f+g/h。

使用交叉验证、ROC曲线、精确率和召回率来计算预测模型的稳定值。

参照图7,方法还包括如下步骤:

根据稳定值i通过网格搜索算法优化预测模型的参数;

定时根据获取的新的行为数据重新训练预测模型。

根据稳定值i通过网格搜索算法优化预测模型的参数是一种常见的模型优化方法。网格搜索算法可以在预定义的参数空间内搜索最佳参数组合,以使模型在训练和测试数据上的性能达到最佳。

具体来说,可以根据稳定值i作为评价指标,使用网格搜索算法对预测模型的参数进行寻优。这可以通过以下步骤实现:

定义参数空间:确定预测模型的所有参数及其取值范围。

初始化网格:将参数空间划分为网格,每个网格点代表一组参数取值。

评估模型性能:对于每个网格点,使用交叉验证、ROC曲线、精确率和召回率等指标计算模型在训练和测试数据上的性能。

更新最优参数:根据稳定值i选择最优的网格点,即选择使稳定值i最大的参数组合。

重复步骤3和步骤4:不断迭代更新最优参数,直到达到预设的停止条件(例如迭代次数、时间限制等)。

在完成网格搜索后,得到了使稳定值i最大的参数组合,将这些参数应用于预测模型中,以获得更好的性能。

此外,定时根据获取的新的行为数据重新训练预测模型也是非常重要的。由于行为数据是动态变化的,因此需要定期更新模型以适应新的数据分布。

具体来说,可以设定一个时间间隔,例如每隔一个月或每季度重新训练一次预测模型。在每次重新训练时,使用最新的行为数据来更新模型的参数,以提高模型的准确性和泛化能力。

因此,通过结合网格搜索算法和定期重新训练,可以不断优化预测模型的性能,使其更好地适应动态变化的行为数据。

参照图8,行为数据包括点击数据,点击数据包括单人在预设时间段内的点击量以及点击聚集度,点击集聚度为单人点击预设次数中数据最多的类型内容的占比;

或者,行为数据包括浏览数据,浏览数据包括单人在预设时间段内的浏览量以及浏览聚集度,浏览聚集度为单人浏览量最多的类型内容的占比。

根据您提供的信息,行为数据可以包括点击数据或浏览数据。点击数据是指单人在预设时间段内的点击量以及点击聚集度,而浏览数据是指单人在预设时间段内的浏览量以及浏览聚集度。对于点击数据,点击量是指单人在预设时间段内点击的次数,而点击聚集度是指单人点击预设次数中数据最多的类型内容的占比。这种数据可以反映用户对某种类型内容的偏好程度。对于浏览数据,浏览量是指单人在预设时间段内浏览的次数,而浏览聚集度是指单人浏览量最多的类型内容的占比。这种数据可以反映用户对某种类型内容的兴趣程度。如果您需要进一步了解用户的行为特征和偏好,您可以在上述基础上进行更深入的分析。例如,您可以分析用户在不同时间段的点击或浏览行为,或者根据用户的年龄、性别、地域等特征进行分组分析,以更好地了解不同用户群体的行为特征和偏好。

总之,通过深入挖掘和分析点击数据和浏览数据,可以更好地了解用户的兴趣和行为特征,为产品设计和营销策略提供有力的支持。

参照图8,行为数据M包括点击数据和浏览数据,点击数据包括单人在预设时间段内的点击量A以及点击聚集度B,点击集聚度为单人点击预设次数中数据最多的类型内容的占比;浏览数据包括单人在预设时间段内的浏览量C以及浏览聚集度D,浏览聚集度为单人浏览量最多的类型内容的占比;M=A

行为数据M包括点击数据和浏览数据。点击数据包括单人在预设时间段内的点击量A以及点击聚集度B。点击聚集度B表示单人点击预设次数中数据最多的类型内容的占比。浏览数据则包括单人在预设时间段内的浏览量C以及浏览聚集度D。浏览聚集度D表示单人浏览量最多的类型内容的占比。这些数据可以用于分析用户的行为模式和兴趣偏好。例如,通过分析点击量和点击聚集度,可以了解用户对不同类型内容的兴趣程度和偏好。同样,通过分析浏览量和浏览聚集度,也可以了解用户对不同类型内容的浏览习惯和兴趣偏好。这些数据可以帮助更好地理解用户的行为特征和需求,从而优化产品设计和营销策略。例如,如果某种类型的内容在点击数据中占据了很大的比例,那么可以在产品中增加更多类似的内容,以满足用户的兴趣和需求。

总之,通过深入挖掘和分析点击数据和浏览数据,可以更好地了解用户的行为特征和需求,为产品设计和营销策略提供有力的支持。

通过使用本发明,即使在用户点击数据较少的情况下也能生成有效的预测模型,测试结果显示预测误差在10%以内。本发明是一个非常有效的广告效果预测工具。这个组合利用了FM在处理稀疏数据和捕捉二阶特征交互方面的优势,以及GBDT在处理非线性和高阶特征交互方面的能力,从而在CTR预测任务中实现了更好的性能。通过合理地设计特征和调整模型参数,FM+GBDT组合能够在广告点击率预测任务中获得很高的准确性。同时,通过本发明的模型监控和更新流程,能够确保模型在长期运行中保持高准确性和稳定性。

本申请实施例公开一种基于极少数据的用户点击率预测模型的建立系统,包括处理器,处理器中运行有上述的基于极少数据的用户点击率预测模型的建立方法的程序。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种高寒地区全株燕麦与紫花苜蓿混合青贮的方法
  • 一种高寒地区紫花苜蓿与玉米混合青贮方法
技术分类

06120116557881