导航：首页> 医学或兽医学；卫生学>广告投放请求发送方法、装置、设备和存储介质

广告投放请求发送方法、装置、设备和存储介质

文献发布时间：2024-04-18 19:54:45

技术领域

本申请中实施方式关于机器学习领域，具体涉及一种广告投放请求发送方法、装置、设备和存储介质。

背景技术

目前，电商平台的商家可以通过竞价形式，在电商平台的付费平台竞价得到广告位。商家可以基于机器学习模型出具广告报价。然而，电商市场变化较快，影响广告报价的因素随市场变化可能会产生较大的改变，用于预测广告报价的机器学习模型需要经常被更新迭代。

现有技术中，预测广告报价的机器学习模型每次更新迭代，都需要花费较多的时间，难以满足电商平台中商家的需求。

发明内容

有鉴于此，本申请多个实施方式致力于提供一种广告投放请求发送方法、装置、设备和存储介质，以在一定程度上提升了用于预测广告报价的机器学习模型的迭代速度。

本申请中多个实施方式提供一种广告投放请求发送方法，所述广告投放请求发送方法用于为具有指定预算的目标商品在多个时间片段发送广告投放请求；所述方法包括：基于所述指定预算使用指定强化学习模型生成目标时间片段的目标报价系数；其中，所述指定强化学习模型在训练过程中，具有约束报价系数的取值的约束条件；其中，所述约束条件包括：沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，以及通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量；根据所述目标报价系数生成所述目标时间片段的广告报价；在所述目标时间片段，向广告管理系统发送携带有所述广告报价的广告投放请求。

本申请的一个实施方式提供一种广告投放请求发送装置，所述广告投放请求发送装置用于为具有指定预算的目标商品在多个时间片段发送广告投放请求；所述装置包括：目标报价系数生成模块，用于基于所述指定预算使用指定强化学习模型生成目标时间片段的目标报价系数；其中，所述指定强化学习模型在训练过程中，具有约束报价系数的取值的约束条件；其中，所述约束条件包括：沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，以及通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量；广告报价生成模块，用于根据所述目标报价系数生成所述目标时间片段的广告报价；发送模块，用于在所述目标时间片段，向广告管理系统发送携带有所述广告报价的广告投放请求。

本申请实施方式提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述实施方式所述的方法。

本申请实施方式提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序被处理器执行时实现上述实施方式所述的方法。

本申请提供的多个实施方式，通过指定预算，使用依照约束条件训练得到的指定强化学习生成目标时间片段的目标报价系数，进一步地，通过目标报价系数生成目标时间段的广告报价并向广告管理系统发送携带有所述广告报价的广告投放请求，所述约束条件可以包括沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且所述多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，可以在一定程度上提升了用于预测广告报价的机器学习模型的迭代速度。

附图说明

图1为本申请的一个实施方式提供的广告投放请求发送系统的示意图。

图2为本申请的一个实施方式提供的广告投放请求发送方法的流程示意图。

图3为本申请的一个实施方式提供的广告投放请求发送装置的示意图。

图4为本申请的一个实施方式提供的计算机设备的示意图。

具体实施方式

在相关技术中，电商平台的商家可以通过竞价形式，在电商平台的付费平台竞价得到广告位。商家可以基于机器学习模型出具广告报价。然而，电商市场变化较快，影响广告报价的因素随市场变化可能会产生较大的改变，使得训练机器学习模型的训练数据不断更新，并且可能和历史训练数据之间具有较大的差异。因此，用于预测广告报价的机器学习模型可能需要基于新产生训练数据重新训练。

然而，用于预测广告报价的机器学习模型可能是强化学习模型，强化学习模型可能具有较多的参数，且具有较多约束条件，造成用于预测广告报价的机器学习模型可能的训练时间较长，从而导致广告投放请求发送方法无法较快上线。用户较难使用到迭代较快的机器学习模型预测广告报价。

因此，有必要提供一种广告投放请求发送方法，可以通过指定预算，使用依照约束条件训练得到的指定强化学习生成目标时间片段的目标报价系数，进一步地，通过目标报价系数生成目标时间段的广告报价并向广告管理系统发送携带有所述广告报价的广告投放请求，所述约束条件可以包括沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且所述多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，可以在一定程度上提升了用于预测广告报价的机器学习模型的迭代速度。

请参阅图1，本申请中提供一种广告投放请求发送系统的应用场景示例。

广告投放请求发送系统可以包括客户端和服务器。客户端可以接收针对多个时间段的总计预算量。服务器可以执行广告投放请求发送方法，向广告管理系统发送携带有针对时间段中每个时间片段的广告报价的广告投放请求。

广告管理系统可以根据不同账户针对同一个广告位的广告报价，基于竞拍模型，选择广告报价最高的账户的目标商品在相应的广告位投放广告。其中，广告投放的费用可以是广告报价乘以广告被点击的数量。未竞拍成功的账户不承担费用。

客户端可以接收到用户提供的针对目标商品的在多个时间段的总计预算量。具体的，客户端可以提供针对复合维生素这一目标商品在11月1日至11月12日大促期间投放广告的总计预算量为10万。其中，11月1日至11月12日中每一天均可以表示一个时间段。一天中的每一个小时可以表示相应的时间段的一个时间片段。

客户端可以将总计预算量发送给服务器。服务器可以基于总计预算量，随时间进度，在11月1日至11月12日中的每个时间片段，向广告管理系统发送携带有相应的广告报价的广告投放请求。

具体的，服务器可以根据历史广告报价数据生成初始广告报价。接着，服务器可以将初始广告报价输入第一天级量价关系模型，预测出每个时间段的初始广告点击量，即每一天的初始广告点击量。其中，第一天级量价关系模型可以表征广告报价和根据相应的广告报价预测得到相应时间段内的广告点击量的关系。同样的，服务器还可以根据预设的第二天级量价关系模型，计算出基于初始广告报价得到的每个时间段的广告花费量，即每天的广告花费量。进一步地，服务器可以将一天的广告点击量、历史的广告点击量与商品购买量的转换率、目标商品的平均客单价相乘得到的乘积结果，除以一天的广告花费量，得到该天的收益指数。

进一步，服务器可以依照公式1提供的运筹优化模型，以最大化每天的收益指数之和为目标，求解出总计预算量分摊到每个时间段的指定预算，即每天的指定预算。

公式1

公式1中，

在确定出每个时间段的指定预算后，服务器可以使用指定强化学习模型生成每个时间段内的时间片段的目标报价系数，并基于目标报价系数确定广告报价。具体的，服务器针对11月1日至11月12日中的每一天的第一个小时，服务器可以根据相应日期的指定预算，以及指定强化学习模型的初始状态概率，确定当前时间片段的决策行为，即生成该天的第一个小时的目标报价系数。并且，针对每一天的第一个小时，服务器还可以将由指定预算确定的基准广告报价，输入第一小时级量化关系模型和第二小时级量化关系模型，分别得到在所述目标时间片段内依照所述基准广告报价发送广告投放请求的情况下，预计产生的预计商品交易总额和预计潜在交易量。其中，第一小时级量化关系模型和第二小时级量化关系模型可以分别用于表示目标商品在一个时间片段内的广告报价，与相应时间片段内基于所述广告报价产生的商品交易总额之间的关系，以及所述广告报价，与相应时间片段内基于所述广告报价产生的潜在交易量之间的关系。

根据预计商品交易总额和预计潜在交易量的商，服务器可以作为估算的流量价值。进一步对，将每一天的第一个小时的流量价值和目标报价系数的乘积，可以作为第一个小时的广告报价，并将携带有所述广告报价的广告投放请求发送给广告管理系统。

针对11月1日至11月12日中的每一天的其余小时，服务器也可以使用指定强化学习模型，根据前一个小时内的观测数据和指定强化学习的状态转移概率等参数，生成当前小时的目标报价系数。其中，观测数据可以包括前一个小时内前广告的报价、点击量、花费等数据。接着，服务器还可以将前一个小时的广告报价，作为基准广告报价，并结合第一小时级量化关系模型和第二小时级量化关系模型，估计当前小时的流量价值，并进一步地依照流量价值和目标报价系数生成当前小时的广告报价，并将携带有所述广告报价的广告投放请求发送给广告管理系统。

请参阅图1，本申请实施方式提供广告投放请求发送系统。所述广告投放请求发送系统可以包括客户端和服务器。所述客户端可以是具有网络访问能力的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于所述电子设备中的软件。在一些情况下，所述客户端可以用于提供给用户提供不同时间片段的广告报价的展示界面。

服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。当然，所述服务器也可以是指运行于所述电子设备中的软体。所述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。在一些情况下，服务器可以用于执行广告投放请求发送方法。

请参阅图2，本申请的一个实施方式提供一种广告投放请求发送方法，所述广告投放请求发送方法用于为具有指定预算的目标商品在多个时间片段发送广告投放请求；所述广告投放请求发送方法可以包括以下步骤。

步骤S110：基于所述指定预算使用指定强化学习模型生成目标时间片段的目标报价系数；其中，所述指定强化学习模型在训练过程中，具有约束报价系数的取值的约束条件；其中，所述约束条件包括：沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且所述多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，以及通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量。

在一些情况下，广告投放的过程可以持续很长一个时间段。然而，广告投放的收益量除了与每个用户的广告报价相关以外，与广告位的竞争者的报价也息息相关。只有竞价成功的用户才可以投放广告，且根据广告点击量支付费用。因此，只有不断地调整广告报价，才可以通过投放广告并在竞拍成功的情况下，实现收益的最大化。然而，广告报价后，广告管理系统反馈给用户数据量十分庞大，且需要不断调整，用户较难实现通过的广告报价后反馈的数据，来实现广告报价的调整。因此，通过使用基于广告投放请求发送方法，使用强化学习模型来进行生成广告报价，可以提高用户进行报价的便捷性。

在本实施方式中，广告投放的过程可以包括多个时间片段。其中，所述多个时间片段可以是关联的时间片。例如，所述多个时间片段可以表示为每天的12点至13点。当然，所述时间片段也是时间维度上相邻的多个小时。所述多个时间片段可以具有指定预算。所述指定预算可以用于在所述多个时间片段投放广告，且可以根据不同的多个时间片段的进行调整。例如，多个时间片段为每天的12点至13点的情况下，时间片段处于午休阶段，可以提供更多的预算来吸引客户。或者，多个时间片段可以是一天的多个小时，基于广告投放的过程持续的天数，可以平均分配每一天的预算，得到多个时间片段的指定预算。

在一些实施方式中，所述指定预算可以具有取值约束。所述取值约束可以包括限定的指定预算的最小值和/或最大值等。当然，所述取值约束包括也可以包括限定的目标商品基于指定预算在所述多个时间片段发送广告投放请求后，目标商品在所述多个时间片段被展示的总计次数。在本实施方式中，报价系数可以表示广告报价和流量价值之间的比值。目标报价系数是可以表示较优的广告报价和流量价值之间的比值。具体的，请参考公式2，通过目标报价系数和流量价值，可以计算出可以实现较大收益的广告报价。

公式2

公式2中，

在一些情况下，强化学习模型可以根据奖励函数的机制，根据观测数据决策出能得到较高奖励值的决策行为。针对广告投放问题中的广告报价，通过强化学习模型来生成广告报价的目标报价系数，可以较好地通过观测数据来调整目标报价系数的取值，为用户提供能够获得最大收益的目标报价系数，提高目标报价系数确定的准确性。

在本实施方式中，指定强化学习模型可以是用于预测目标报价系数的模型。指定强化学习模型的状态和观测可以包括在广告投放过程中随时间进度产生的数据。指定强化学习模型的决策行为可以指向不同的目标报价系数，即指定强化学习模型的决策行为的搜索空间可以是报价系数的取值空间。指定强化学习模型可以具有针对时间段约束。具体的，例如，约束可以包括每个时间段的预算不大于预设阈值、回报率不低于指定阈值、广告的点击量不小于给定阈值等。当然，指定强化学习模型还可以包括奖励函数，奖励函数可以被配置为在每个时间段的最后一个时间片段触发以提供奖励，也可以被配置为奖励函数在每个时间片段结束后提供奖励。

在一些情况下，针对目标商品每个时间片段的广告报价、广告收益等描述广告投放过程的数据可能较为稀疏。如果指定强化学习模型的奖励函数只在一个时间段结束的时候提供奖励，可能会造成奖励稀疏的问题，导致在报价系数的取值空间中搜索出目标报价系数的效率较低。因此，可以基于自步引导的方法，通过构造一系列结构相近、且逼近较优解的替代问题，作为指定强化学习模型的“先修课程”，从而将目标报价系数的初始求解问题，转换为等价求解问题。等价求解问题可以使得指定强化学习模型在每个时间片段预测出该时间片段内收益量最大的报价系数，且限定最后一个时间片段的约束与初始求解问题的约束一致。基于等级求解问题构建的指定强化学习模型，通过提供相对稠密的奖励可以提高报价系数的搜索效率。具体的，等级求解问题构建的指定强化学习模型，可以基于初始求解问题限定的针对时间段的约束和奖励的基础上，给每个时间片段增加奖励并设置额外的约束。每个时间片段的优化目标可以设定为最大化每个时间片段累计的奖励并符合每个时间片段的累计约束。具体的，请参阅公式3，除了每个时间段的约束条件，还可以对每个时间片段增加约束条件。

公式3

公式3中，D

在一些实施方式中，指定强化学习模型可以参阅公式4和公式5构建。其中，指定强化学习模型的目标函数可以表示最大化奖励函数的输出的同时，使观测数据和决策行为趋于符合指定约束。其中，所述约束条件可以包括：通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量。通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量，可以在一定程度上降低多个时间片段内目标商品被展示的次数太少以使得目标商品的售卖量较小的概率。在一些实施方式中，目标商品的广告曝光量可以通过目标商品依照广告报价发送广告投放请求，且竞拍成功后目标商品在指定广告位被展现的次数确定。

公式4

公式5

其中，

在一些实施方式中，所述最少花费和所述广告曝光量之间关系可以通过根据历史数据训练得到的数学模型表示。具体的，例如，将指定的广告曝光量输入数学模型，可以生成在一个时间片段内投放的广告达到所述广告曝光量所需要的花费。

在一些情况下，相对稠密的奖励在提高报价系数的搜索效率的同时，可能会使得探索行为的代价较小导致解的指定强化学习模型生成的目标报价系数并不是取值空间中较优的取值。具体的，基于等价求解问题构建的指定强化学习模型探索得到目标报价系数的取值，可能在初始求解问题中得到的奖励值并不是较高的。因此，可以调整等价求解问题中约束的阈值，通过将阈值设置为随时间变化，以使在先约束的可以具有较为宽松的限定，而在后约束具有相对严格的限定，从而可以使得在针对在先的时间片段的报价系数的探索中，可以在更大范围的取值空间中探索，以提高探索到较优的报价系数的概率，而在后的时间片段的取值空间可以逐步限制，以最终与原始求解问题的约束保持一致。由此，指定强化学习模型可以在一定程度上提高报价系数取值的探索效率的同时在使得目标报价系数的取值处于一个较优的水平。

在本实施方式中，所述约束条件可以包括：沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且所述多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围。具体的，所述约束条件可以表示随着时间进度，报价系数的探索范围逐步减小。或者，所述约束条件可以也可以表示随着时间进度，报价系数的取值空间的探索范围可以在一个较大的范围保持若干时间片段后，调整为较小的探索范围。

在一些实施方式中，指定强化学习模型的训练样本可以根据历史的时间片段中的数据构建。当然，指定强化学习模型还可以在广告报价过程中，根据随时间进度生成的数据不断优化指定强化学习模型。

在本实施方式中，所述约束条件可以是预先设定有每个时间片段的约束，且所述约束符合上述探索范围与时间片段对应的时间之间的关系。当然，所述约束条件可以是设定有约束的阈值和时间片段对应的时间之间的函数关系，从而可以依照时间片段的先后时间，调整报价系数的探索范围。具体的，例如，通过公式4可以对报价系数的探索范围进行约束。

公式6

公式6中，

在一些情况下，约束的阈值越小，探索空间的范围可能越小。进一步地，如果在早期训练时，模型可以根据当前的学习状态，自适应地调节“先修课程”难易程度，这可以在一定程度上加快指定强化学习模型收敛的速率。因此，在一些实施方式中，针对随时间变化的约束的阈值，可以设置为指定强化学习模型在已经完成的广告报价过程中所产生的费用在时间维度的分布，与账户的流量分布之间的散度。即，

在一些实施方式中，基于公式4后构建的优化问题，可以通过公式5表示。

公式7

公式7，中，

然而，示性函数中的存在可能会导致目标函数关于

公式8

公式8中， x可以表示目标回报量或者预算，与相应的实际值之间的差值。v为超参数。

步骤S120：根据所述目标报价系数生成所述目标时间片段的广告报价。

在一些情况下，根据目标报价系数可以生成目标时间片段的广告报价。具体的，请参考公式2，目标报价系数是可以表示较优的广告报价和流量价值之间的比值。因此，通过将目标时间片段的流量价值和目标报价系数相乘得到乘积结果，可以作为所述目标时间片段的广告报价。其中，流量价值可以表示该条流量所带来的商家的收益量。

步骤S130：在所述目标时间片段，向广告管理系统发送携带有所述广告报价的广告投放请求。

在一些情况下，在确定广告报价后，服务器可以向广告管理系统发送携带有所述广告报价的广告投放请求。在通过所述广告报价竞拍成功的情况下，广告管理系统可以指示在指定广告位投放目标商品的广告，且广告投放的花费可以与广告点击量和广告报价的乘积相关。

在一些实施方式中，所述广告投放请求发送方法还可以包括：依照目标商品的广告报价与广告收益量之间的关联关系，将总计预算量分摊给多个时间段，使得所述多个时间段的广告收益量符合指定条件，得到目标时间段被分摊到的指定预算；其中，所述多个时间段包括所述目标时间段；所述目标时间段通过所述多个时间片段形成。

在一些情况下，广告投放的过程可能涉及多个时间段，且每个时间段之间投放广告的策略可能具有一定的差异。然而同一个时间段内的多个时间片段之间投放广告的策略可能具有一定的相似性。例如，对于11月1日至11月30日的时期内，包括大促日期和非大促日期。因此，不同日期商家的广告投放策略可能不同。而该时期的不同日期的同一个时间内，由于买家的购物习惯可能类似，因此对于一天内的不同时间片段，商家的广告投放策略可能类似。因此，目标商品的总计预算量的分摊较为复杂。

在一些实施方式中，为了提高目标商品的总计预算量的分摊的便捷性，可以将广告投放的过程划分为多个时间段，其中每个时间段可以包括多个时间片段，且每个时间段可以对应有指定预算。具体的，例如，时间段可以表示一天时间，时间片段可以表示为一天内的小时。通过针对不同日期分配预算，并在一天内的每个小时，使用指定强化学习模型生成目标报价系数并向广告管理系统发送广告报价，可以更好的兼顾广告投放过程中时间段的差异性和时间片段相似性，从而提高目标商品的总计预算量的分摊的便捷性。

在本实施方式中，时间段可以包括多个时间片段。时间段可以对应有指定预算。具体的，时间段中的多个时间片段可以是时间上相邻的时间片。例如，时间段可以指代一天，多个时间片段可以分别表示一天中的24个小时。当然，时间段也可以是通过多天中的指定小时组成的。不同时间段的指定小时不同。例如，一个时间段可以是多天中0点至1点的这些时间片段组成的。另一个时间段可以是多天中的1点至2点的这些时间片段组成的。在一些实施方式中，不同时间段之间，多个时间片段可以以指定周期循环。

在本实施方式中，总计预算量可以表示针对一个广告投放过程总计的预算。所述总计预算量可以是多个时间段的指定预算的总和。当然，总计预算量在分摊到多个时间段时也可以有一定保留。

在本实施方式中，广告收益量可以表示通过指定预算在多个时间片段进行广告投放所带来的目标商品收益的预估数量。具体的，广告收益量可以是通过目标商品的广告报价与广告收益量之间的关联关系预估得到。例如，通过广告报价和第一天级量化关系模型，可以预测出广告点击量。通过广告报价和第二天级量化关系模型，可以预测出广告花费量。将广告点击量、广告点击量至购买目标商品的数量的转化率、目标商品的平均客单价之间的乘积，和广告花费量作除法，可以得到广告收益量。

在本实施方式中，目标商品的广告报价与广告收益量之间的关联关系可以是根据目标商品的预算与广告收益量之间历史数据统计得到。当然，目标商品的广告报价与广告收益量之间的关联关系也可以包括目标商品在一个时间段内计划的广告报价与在所述时间段内预计产生的广告点击量之间的关系。相应的，广告收益量可以是通过广告点击量预估得到的。例如，广告收益量可以是广告点击量乘以转化率和目标商品的平均价格得到。

在本实施方式中，指定条件可以表示为广告收益量的取值最大，或者广告收益量大于指定阈值等条件。

在本实施方式中，依照目标商品的广告报价与广告收益量之间的关联关系，将总计预算量分摊给多个时间段，使得所述多个时间段的广告收益量符合指定条件，得到目标时间段被分摊到的指定预算的方法，可以是构建出目标商品的广告收益量和广告报价之间的函数。根据所述函数，通过广告报价预测到的每个时间段的广告收益量的和，作为待优化的目标函数，并设定约束，从而可以以广告收益量最大作为优化目标，通过优化方法调整广告报价，得到使得多个时间段的广告收益量最大的广告报价。接着，根据目标时间段的广告报价和表示广告报价和广告花费量之间的第二天级量化关系模型，可以计算出对应目标时间段的广告花费量，并确认出目标时间段被分摊到的指定预算。在一些实施方式中，依照目标商品的广告报价与广告收益量之间的关联关系，将总计预算量分摊给多个时间段，使得所述多个时间段的广告收益量符合指定条件，得到目标时间段被分摊到的指定预算的方法，也可以通过粒子群算法、遗传算法等优化算法搜索出优选的广告报价。

在一些实施方式中，所述目标商品的广告报价与广告收益量之间的关联关系包括通过第一天级量价关系模型表示的目标商品在一个时间段内计划出具的广告报价，和在所述时间段内依照所述广告报价预计产生的广告点击量之间的关系；依照目标商品的预算与广告收益量之间的关联关系，将总计预算量分摊给多个时间段，使得所述多个时间段的广告收益量符合指定条件，得到目标时间段被分摊到的指定预算的步骤，包括：将目标商品在不同时间段的初始广告报价输入第一天级量价关系模型，得到相应的初始广告点击量；其中，不同时间段的初始广告报价和根据初始广告报价预测得到相应时间片段内的初始广告点击量的乘积之和不大于所述总计预算量；通过初始广告点击量，确定出在对应时间段内预计得到的初始广告收益量；在多个时间段对应的初始广告收益量之和不符合指定条件的情况下，调整时间段的初始预算，至所述多个时间段对应的初始广告收益量之和符合所述指定条件，得到所述目标时间段中的所述多个时间片段的指定预算。

在一些情况下，广告报价和广告收益量之间的关系可以通过第一天级量价关系模型进行表征。通过训练完成的第一天级量化关系模型，可以较为便捷、准确地计算出广告报价对应的广告收益量。

在本实施方式中，针对多个时间段的广告报价和广告收益量之间的关联关系可以构建出待优化的目标函数。初始广告报价可以表示目标函数在优化过程中，广告报价的取值。初始广告报价可以是初始值可以是随机生成的，也可以根据历史经验设置。

在本实施方式中，初始广告点击量可以是通过初始广告报价预测得到的广告点击量。

在本实施方式中，广告报价和广告点击量乘积可以作为投放广告的花费。因此，不同时间段的初始广告报价和根据初始广告报价预测得到相应时间片段内的初始广告点击量的乘积之和可以满足不大于所述总计预算量这一限定条件。在一定程度可以避免不同时间段的花费之和超出了预算。在一些实施方式中，限定条件还可以广告投放的最小花费量、最大花费量、广告投放的最小收益回报率、各项费用的花费占比等约束条件。进一步的，在满足所述约束条件的广告报价的取值空间中，可以搜索出使得广告收益量符合指定条件的每个时间段的指定预算。在一些实施方式中，针对在时间维度相邻的多个时间段之间的广告花费量，可以首先广告花费速率的限定。具体的，例如，可以通过PID控制算法来平滑广告的花费速率。

在本实施方式中，第一天级量化关系模型可以表示目标商品在一个时间段内计划的广告报价与在所述时间段内预计产生的广告点击量之间的关系。所述第一天级量化关系模型可以是根据历史数据训练得到。具体的，第一天级量化关系模型可以采用贝叶斯广义分层线性（BGLM）模型建模，并假设广告点击量服从泊松分布以构建完成。当然，第一天级量化关系模型还可以包括先验函数，以提高在训练数据较为稀疏的情况下，第一天级量化关系模型的泛化能力和收敛速率。

在一些情况下，针对目标商品的不同关键词均可以进行报价。即用户在使用不同关键词搜索的过程中，依照不同商家针对不同关键词的竞拍结果，展示不同的广告。由此，处于头部的关键词相关的训练数据较多，第一天级量化关系模型对于头部关键词建模的量价关系较为准确，但对于占比较大的腰尾部关键词的预测准确度较低。考虑到腰尾部关键词的流量数据较为稀疏，多日的广告点击量可能为零，可以用于训练第一天级量化关系模型的训练数据较少，因此可以使用电商的大盘数据辅助模型在数据较为匮乏的情况下学习到一个时间段内计划的广告报价与在所述时间段内预计产生的广告点击量之间的关系，以提高第一天级量价关系模型的准确性。例如，第一天级量化关系模型受限于模型结构，在广告报价的出价非常高时，相应的广告点击量的取值的提高幅度可能较小，此时可以通过大盘数据作为出价到正无穷时的替代值。

在本实施方式中，将时间段的目标商品的初始广告报价输入第一天级量价关系模型，得到相应的初始广告点击量的方法，可以是通过第一天级量价关系模型预测初始广告点击量。

在本实施方式中，通过初始广告点击量，确定出对应的时间段内预计得到的初始广告收益量的方法，可以通过训练完成的模型进行预测。其中，训练完成的模型也可以通过贝叶斯广义分层线性（BGLM）模型建模得到的，且可以表征广告点击量和广告收益量之间的关系。当然，通过初始广告点击量，确定出对应的时间段内预计得到的初始广告收益量的方法，也可以是在进一步计算出广告点击量带来的商品交易总额的基础上，除以广告花费量得到。其中，广告花费量可以是通过第二天级量价关系模型预测得到。第二天级量价关系模型也可以是基于先验函数和机器学习模型构建得到。

在本实施方式中，在多个时间段对应的初始广告收益量之和不符合指定条件的情况下，调整时间段的初始预算，至多个时间段对应的初始广告收益量之和符合所述指定条件，得到所述目标时间段中多个时间片段的指定预算的方法，可以基于优化算法在初始广告报价的取值空间中搜索出较优值。优化算法可以包括粒子群算法、梯度下降和遗传算法以及多者的结合等。

在一些实施方式中，根据所述目标报价系数生成所述目标时间片段的广告报价的步骤，可以包括：根据指定时间片段内的基准广告报价，推测所述目标时间片段对应的预计流量价值；其中，所述指定时间片段的结束时间不晚于所述目标时间片段的起始时间；所述预计流量价值表示发送携带有所述基准广告报价的广告投放请求所预计带来的商品收益；通过所述预计流量价值和所述目标报价系数，计算出所述目标时间片段的广告报价。

在一些情况下，在每个时间段中的时间片段，可以向广告管理系统发送携带有广告报价的广告投放请求。并且，根据前一个时间片段的广告报价、以及根据所述广告报价进行投放广告，得到前一个时间片段的产生的商品销售量、广告花费等数据，可以推测当前时间片段内的预计流量价值。根据预计流量价值和指定强化学习模型生成的目标报价系数，可以较为便捷地计算出目标时间片段的广告报价。

在本实施方式中，指定时间片段可以表示结束时间不晚于所述目标时间片段的起始时间的时间片段。具体的，指定时间片段可以表示目标时间片段的前一时间片段。例如，指定时间片段的目标时间片段的在时间维度相邻或者指定时间片段的结束时间可以与目标时间片段的起始时间相同。当然，指定时间片段也可以表示时间在前的，且与目标时间片段同属于一个时间段的时间片段。具体的，例如，时间段可以是一天。当前的目标时间片段可以表示一天中的12点至1点这一个小时。指定时间片段可以表示当天的12点之前的时间包括的时间片段。

在本实施方式中，基准广告报价可以表示指定时间片段内的广告报价。其中，指定时间片段可以在目标时间片段之前，且已经完成广告投放任务。因此，指定时间片段可以具有广告报价，以及依照所述广告报价投放广告所产生的数据。具体的，例如，指定时间片段的广告报价可能是12元，可以将12元作为基准广告报价。进一步地，根据基准广告报价推测出目标时间片段内的预计流量价值。

在本实施方式中，预计流量价值可以表示发送携带有所述基准广告报价的广告投放请求所带来的商品收益。通过预计流量价值，结合目标报价系数，可以生成目标时间片段的广告报价。

在本实施方式中，根据指定时间片段内的基准广告报价，推测所述目标时间片段内的预计流量价值的方法，可以是根据指定时间片段内的基准广告报价，以及指定时间片段内商品交易量、收益量等数据，通过流量价值的计算规则，计算出指定时间片段内的流量价值，作为目标时间片段的预计流量价值。当然，根据指定时间片段内的基准广告报价，推测所述目标时间片段内的预计流量价值的方法，也可以是通过指定时间片段内的基准广告报价，和预先训练的表征广告报价和流量价值之间关系的模型，推测出所述预计流量价值。在一些实施方式中，还可以通过基准广告报价预测出流量价值的相关参数，并将通过相关参数计算出的流量价值，作为预计流量价值。

在本实施方式中，通过所述预计流量价值和所述目标报价系数，计算出所述目标时间片段的广告报价的方法，可以通过公式2进行计算。

在一些实施方式中，根据指定时间片段内的广告报价，生成目标时间片段内的预计流量价值的步骤，可以包括：将所述基准广告报价输入第一小时级量价关系模型，得到在所述目标时间片段内依照所述基准广告报价发送广告投放请求的情况下，产生的预计商品交易总额；其中，所述第一小时级量价关系模型表征目标商品在一个时间片段内的广告报价，与所述时间片段内基于所述广告报价产生的商品交易总额之间的关系；通过所述预计商品交易总额，预估所述预计流量价值。

在一些情况下，预计流量价值可以表示为商品交易总额和潜在交易量之间的比值。其中，商品交易总额可以通过基准广告报价和第一小时级量价关系模型生成。通过第一小时级量价关系模型可以针对不同的时间片段的特点进行预测，提高商品交易总额确定的速率和准确性。

在本实施方式中，预计商品交易总额可以表示预计的目标时间片段内目标商品被交易所产生的交易额的总量。

在本实施方式中，第一小时级量价关系模型可以表征时间片段内广告报价和该时间片段内商品交易总额之间的关系。第一小时级量价关系模型可以通过每个时间片段的历史数据训练得到。其中，第一小时级量价关系模型可以使用贝叶斯广义分层线性模型，也可以是用线性回归等其他的机器学习模型。

在一些实施方式中，所述广告投放请求发送方法还可以包括：根据所述基准广告报价，使用第二小时级量价关系模型，得到在所述目标时间片段内依照所述基准广告报价发送广告投放请求的情况下，目标商品的预计潜在交易量；其中，所述第二小时级量价关系模型表征目标商品在一个时间片段内的广告报价，与所述时间片段内基于所述广告报价产生的潜在交易量之间的关系；所述潜在交易量表示目标商品被购买方标记的数量；相应的，通过所述商品交易总额，预估所述预计流量价值的步骤，包括：将所述预计商品交易总额与所述预计潜在交易量之间的比值，确认为所述预计流量价值。

在一些情况下，预计潜在交易量可以通过第二小时级量价关系模型推测得到。通过预计潜在交易量和预计商品交易总额，可以较为快捷地计算出预计流量价值。

在本实施方式中，潜在交易量可以表示消费者终端在接收到投放的广告，消费者向终端反馈的表示目标商品的购买倾向的数据。具体的，例如，潜在交易量可以表示目标商品被购买方标记的数量。其中，目标商品被购买方标记可以表示目标商品被购买方加入收藏夹，或者目标商品被购买方加入购物车等情况。在一些实施方式中，潜在交易量可以表示未完成交易的商品的数量。相应的，预计潜在交易量可以表示目标商品在一个时间片段内受到广告投放作用，所预计产生的潜在交易量。

在本实施方式中，第二小时级量价关系模型可以表征目标商品在一个时间片段内的广告报价，与所述时间片段内基于所述广告报价产生的潜在交易量之间的关系。同样的，第二小时级量价关系模型可以通过每个时间片段的历史数据训练得到。其中，第二小时级量价关系模型可以使用贝叶斯广义分层线性模型，也可以是用线性回归等其他的机器学习模型。

在一些实施方式中，广告投放请求发送方法还可以涉及多个目标商品。其中，目标商品可以涉及多个关键字。同一个目标商品也可以针对多个关键字进行广告报价。相应的，可以构建出目标商品的关键字的广告报价算与广告收益量之间的目标函数，以将总计预算量分摊给多个时间段中的指定目标商品的指定关键字。进一步地，通过指定强化学习模型，可以针对不同的目标商品和相应的关键字，生成相应的目标报价系数，以进一步地通过针对相应的目标商品的目标关键字预测的得到的预计流量价值，生成目标广告报价。本申请实施方式提供一种较为通用广告投放请求发送方法，针对不同广告投放场景下的客观差异，可以采用同一种算法实现广告投放请求发送方法，以实现目标商品在广告投放期间任一个时间片段的广告报价。

在一些实施方式中，所述第一天级量价关系模型的训练过程可以包括：根据指定的机器学习模型和指定的先验函数，构建初始第一天级量价关系模型；通过所述目标商品的历史广告报价与历史广告点击量之间的历史数据和指定的损失函数训练所述初始第一天级量价关系模型，得到所述第一天级量价关系模型；其中，所述损失函数包括约束所述广告报价和所述广告点击量之间呈单调上升关系的约束项。

在一些情况下，第一天级量价关系模型可以用于预测时间段内的广告报价和广告点击量之间的关系。其中，由于时间段的数据较少。例如，目标商品每一天的广告报价的均值，可以作为第一天级量价关系模型的训练样本的特征之一。因此，每一天产生的数据只能产生一个均值。因此，可能会造成数据过于稀疏而无法较好地使得第一天级量价关系模型学习到时间段内的广告报价和广告点击量之间的关系。因此，在第一天级量价关系模型的构建过程中，可以指定有先验函数，以加快模型的训练速率和提高模型的准确性。同时，由于机器学习可能造成过拟合，可能使得广告报价和广告点击量之间呈非单调性的关系，这与广告报价和广告点击量的先验不符合。因此，可以在损失函数中增加约束所述广告报价和所述广告点击量之间呈单调上升关系的约束项，以提高训练得到的第一天级量价关系模型的准确性。

在一些实施方式中，所述第二天级量价关系模型的训练过程可以包括：根据指定的机器学习模型和指定的先验函数，构建初始量价关系模型；通过所述目标商品的历史广告报价与历史广告花费量之间的历史数据和指定的损失函数训练所述初始第二天级量价关系模型，得到所述第二天级量价关系模型；其中，所述损失函数包括约束所述广告报价和所述广告点击量之间呈单调上升关系的约束项。

在一些实施方式中，第一小时级量化关系模型和第二小时级量化关系模型之间可能具有一定的相似性。因此，第一小时级量化关系模型和第二小时级量化关系模型的建模过程中，可以通过多任务学习的思想，将同一个商品的在时间片段内的广告报价分别与商品交易总额、广告花费量、潜在交易量、广告点击量、商品销售量之间关系依照多任务学习进行训练。同时，为了提高模型的准确度，可以在损失函数中加入约束所述广告报价和所述预测值之间呈单调上升关系的约束项。具体的，损失函数可以包括多个部分，第一部分可以表示模型预测值和真实值之间的差异。第二部分则是约束条件的惩罚项。第三部分可以是对模型参数的约束条件。其中，针对损失函数的第二部分的惩罚项，可以根据经济学规则制定。例如，商品交易总额和销售数量之间的比值趋于恒定。其中，针对损失函数的第三部分，根据关键词的大盘数据可得商品交易额、广告点击量、广告花费量等值的存在着上限值。因此，可以对模型参数进行约束以使得广告报价趋于无限大时，模型输出的预测值也趋于相应的上限值。

请参阅图3，本申请的一个实施方式还提供一种广告投放请求发送装置。所述广告投放请求发送装置用于为具有指定预算的目标商品在多个时间片段发送广告投放请求。所述广告投放请求发送装置可以包括目标报价系数生成模块、广告报价生成模块和发送模块。

目标报价系数生成模块，用于基于所述指定预算使用指定强化学习模型生成目标时间片段的目标报价系数；其中，所述指定强化学习模型在训练过程中，具有约束报价系数的取值空间的约束条件；其中，所述约束条件包括：沿着时间的先后顺序，排在后面的时间片段的报价系数的探索范围，不大于在先的时间片段的报价系数的探索范围，且多个时间片段中最后一个时间片段的报价系数的探索范围小于至少一个在先的时间片段的报价系数的探索范围，以及通过约束目标商品在一个时间片段的最少花费限定目标商品的广告曝光量。

广告报价生成模块，用于根据所述目标报价系数生成所述目标时间片段的广告报价；

发送模块，用于在所述目标时间片段，向广告管理系统发送携带有所述广告报价的广告投放请求。

关于广告投放请求发送装置实现的具体功能和效果，可以参照本申请其他实施方式对照解释，在此不再赘述。所述广告投放请求发送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。所述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参阅图4，本申请实施方式还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一实施方式中的广告投放请求发送方法。

本申请实施方式还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述任一实施方式中的广告投放请求发送方法。

本申请实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的广告投放请求发送方法。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施方式，而非限制本发明的范围。

可以理解，在本申请中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施方式的实施过程构成任何限定。

可以理解，本申请中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施方式对此并不限定。

除非另有说明，本申请实施方式所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本申请实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本申请实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmableROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本申请所提供的几个实施方式中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：阿里健康科技(杭州)有限公司;

上一篇：一种通信方法、装置以及可读存储介质
下一篇：输注泵控制方法、输注设备及存储介质