掌桥专利:专业的专利平台
掌桥专利
首页

事件响应预测模型处理方法、装置和计算机设备

文献发布时间:2024-04-18 19:58:30


事件响应预测模型处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域,特别是涉及一种事件响应预测模型处理方法、装置、计算机设备、存储介质和计算机程序产品,以及一种事件响应预测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

提升建模是因果推断的一种方法,其目的是预测在添加某种干预事件后,不同对象之间因干预事件所产生响应的差异。提升建模能够在对象的个体级别上进行因果推断,在广告投放、推荐系统、搜索引擎和金融风控等领域得到了广泛的应用。例如,在广告和电商领域的折扣优惠上,通过提升建模可以预测触发干预事件,具体在投放广告或者增加折扣后商品的销售情况,以提高产品的转化率、提升客户的留存率等。

然而,提升建模的训练数据中存在类别不平衡的问题,即不同类别样本的数量失衡,导致提升建模中针对干预事件响应预测的准确性有限。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高事件响应预测准确性的事件响应预测模型处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,以及一种事件响应预测方法、装置、计算机设备、存储介质和计算机程序产品。

一方面,本申请提供了一种事件响应预测模型处理方法。所述方法包括:

获取账号响应样本,账号响应样本中包括正样本和负样本;正样本,是样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是样本账号针对历史干预事件未产生目标类别响应结果的样本;

当账号响应样本满足样本更新判定条件,根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本;

基于更新后的账号响应样本训练得到事件响应预测模型;

针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型;校准后的事件响应预测模型,用于预测账号针对干预事件所产生的响应结果。

另一方面,本申请还提供了一种事件响应预测模型处理装置。所述装置包括:

样本获取模块,用于获取账号响应样本,账号响应样本中包括正样本和负样本;正样本,是样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是样本账号针对历史干预事件未产生目标类别响应结果的样本;

样本欠采样模块,用于当账号响应样本满足样本更新判定条件,根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本;

预测模型训练模块,用于基于更新后的账号响应样本训练得到事件响应预测模型;

模型校准模块,用于针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型;校准后的事件响应预测模型,用于预测账号针对干预事件所产生的响应结果。

另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上事件响应预测模型处理方法的步骤。

另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上事件响应预测模型处理方法的步骤。

另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上事件响应预测模型处理方法的步骤。

上述事件响应预测模型处理方法、装置、计算机设备、存储介质和计算机程序产品,对于账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的负样本,在满足样本更新判定条件时,按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的正样本,得到更新后的账号响应样本,基于更新后的账号响应样本训练得到事件响应预测模型,并针对事件响应预测模型的预测输出进行校准,得到用于预测账号针对干预事件所产生的响应结果的校准后的事件响应预测模型。按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样,以获得样本类别数量平衡的更新后的账号响应样本,并针对基于更新后的账号响应样本训练得到的事件响应预测模型的预测输出进行校准,提高了校准后的事件响应预测模型的预测准确性。

一方面,本申请提供了一种事件响应预测方法。所述方法包括:

获取目标账号的账号信息;

通过校准后的事件响应预测模型针对账号信息进行预测,得到目标账号针对干预事件所产生的预测响应结果;

其中,校准后的事件响应预测模型是通过针对事件响应预测模型的预测输出进行校准得到的;事件响应预测模型是基于更新后的账号响应样本训练得到的;更新后的账号响应样本,是根据欠采样后的负样本和正样本得到的;欠采样后的负样本是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样得到的;正样本,是账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的样本。

另一方面,本申请还提供了一种事件响应预测装置。所述装置包括:

账号信息获取模块,用于获取目标账号的账号信息;

模型预测模块,用于通过校准后的事件响应预测模型针对账号信息进行预测,得到目标账号针对干预事件所产生的预测响应结果;

其中,校准后的事件响应预测模型是通过针对事件响应预测模型的预测输出进行校准得到的;事件响应预测模型是基于更新后的账号响应样本训练得到的;更新后的账号响应样本,是根据欠采样后的负样本和正样本得到的;欠采样后的负样本是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样得到的;正样本,是账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的样本。

另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上事件响应预测方法的步骤。

另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上事件响应预测方法的步骤。

另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上事件响应预测方法的步骤。

上述事件响应预测方法、装置、计算机设备、存储介质和计算机程序产品,通过校准后的事件响应预测模型针对账号信息进行预测,校准后的事件响应预测模型是针对事件响应预测模型的预测输出进行校准得到的,事件响应预测模型基于更新后的账号响应样本训练得到,更新后的账号响应样本根据欠采样后的负样本和账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的正样本得到,欠采样后的负样本是在满足样本更新判定条件时,按照根据欠采样策略确定的欠采样参数,针对账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的负样本进行欠采样得到的。校准后的事件响应预测模型是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样后,针对基于更新后的账号响应样本训练得到的事件响应预测模型的预测输出进行校准所得到的,通过校准后的事件响应预测模型可以准确预测目标账号针对干预事件所产生的预测响应结果。

附图说明

图1为一个实施例中事件响应预测模型处理方法的应用环境图;

图2为一个实施例中事件响应预测模型处理方法的流程示意图;

图3为另一个实施例中事件响应预测模型处理方法的流程示意图;

图4为一个实施例中欠采样处理的流程示意图;

图5为一个实施例中确定欠采样参数的示意图;

图6为一个实施例中分类欠采样的示意图;

图7为一个实施例中分层欠采样的示意图;

图8为一个实施例中朴素欠采样的示意图;

图9为一个实施例中事件响应预测方法的流程示意图;

图10为一个实施例中欠采样处理的效果示意图;

图11为一个实施例中训练提升模型的流程示意图;

图12为一个实施例中事件响应预测模型处理装置的结构框图;

图13为一个实施例中事件响应预测装置的结构框图;

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明。

本申请实施例提供的事件响应预测模型处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以单独设置,还可以放在云上或其他服务器上。用户可以通过所持有的账号在终端104上登录各种应用,具体可以包括音视频平台应用、搜索引擎应用等,在用户使用应用过程中,系统可以触发相应的干预事件,如可以针对进行内容或者商品推荐,系统可以记录各个账号针对干预事件的响应数据,从而形成携带账号信息的账号响应样本。服务器104可以从各个终端102中获得账号响应样本,对于账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的负样本,在满足样本更新判定条件时,服务器104按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样,服务器104根据欠采样后的负样本和账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的正样本,得到更新后的账号响应样本,服务器104基于更新后的账号响应样本训练得到事件响应预测模型,事件响应预测模型可以用于初步预测账号针对干预事件所产生的响应结果,即事件响应预测模型的预测输出可以表征账号针对干预事件所产生的响应结果,服务器104针对事件响应预测模型的预测输出进行校准,得到用于预测账号针对干预事件所产生的响应结果的校准后的事件响应预测模型。

本申请实施例提供的事件响应预测方法,也可以应用于如图1所示的应用环境中。用户可以通过所持有的目标账号在终端104上登录各种应用,具体可以包括音视频平台应用、搜索引擎应用等,在用户使用应用过程中,系统可以触发相应的干预事件,如可以针对进行内容或者商品推荐,服务器104可以获取目标账号的账号信息,并通过校准后的事件响应预测模型针对账号信息进行预测,得到目标账号针对干预事件所产生的预测响应结果。此外,服务器104还可以将预测响应结果向终端104进行反馈。

其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接。

其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as aService,基础设施即服务)层上可以部署PaaS(Platform as aService,平台即服务)层,PaaS层之上再部署SaaS (Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在一个实施例中,如图2所示,提供了一种事件响应预测模型处理方法,该方法由计算机设备执行,具体可以由终端或服务器等计算机设备单独执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,获取账号响应样本,账号响应样本中包括正样本和负样本;正样本,是样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是样本账号针对历史干预事件未产生目标类别响应结果的样本。

其中,事件可以包括添加的干预事件,如投放的广告、推荐的内容、搜索结果展示的排名、金融风控中提供业务或者更改业务内容等,由用户持有的账号针对事件可以产生不同的响应,具体在事件触发或者未触发时可能产生不同的响应结果。例如,对于用户A通过持有的账号A浏览购物平台的过程中,在未触发商品1的推荐时,账号A是否触发购买商品1的结果可以作为针对事件未触发时的响应结果1;而在触发商品1的推荐时,账号A是否触发购买商品1的结果可以作为针对事件触发时的响应结果2,基于响应结果1和响应结果2进行比对,则可以确定对于账号A而言,针对触发商品1的推荐的效果。事件响应预测模型用于预测账号针对干预事件所产生的响应结果,即通过训练事件响应预测模型,可以利用事件响应预测模型针对账号进行提升建模的预测,从而预先预测出在触发干预事件后,账号针对产生的响应结果。

账号响应样本包括样本账号的账号信息,样本账号是用于模型训练的历史账号,账号信息可以包括但不限于包括账号特征数据、历史干预事件或者账号针对历史干预事件的响应结果中的至少一种。账号特征数据可以包括账号的注册地点、注册时间、账号持有用户的注册信息或账号登录信息中的至少一种。在不同的应用场景中,账号特征数据或者历史干预事件的类别可以根据应用场景的实际需求进行配置,如在广告投放应用场景中,账号特征数据可以包括账号持有用户的注册信息或账号登录信息,历史干预事件可以包括投放的广告类别;又如在内容或商品推荐的应用场景下,账号特征数据可以包括注册地点、注册时间、账号持有用户的注册信息,历史干预事件可以包括针对推荐的内容或商品类别。

账号响应样本根据样本的类别可以划分为正样本和负样本,具体可以按照账号响应样本中包括的响应结果类别进行划分。正样本是样本账号针对历史干预事件产生目标类别响应结果的样本,而负样本是样本账号针对历史干预事件未产生目标类别响应结果的样本。目标类别响应结果根据应用场景的实际需求进行确定,如在广告投放应用场景中,目标类别响应结果可以是账号触发购买的响应结果;又在搜索引擎应用场景中,目标类别响应结果可以是账号触发访问相应搜索结果的响应结果。正样本和负样本之间存在互斥关系,即账号响应样本中的各个样本属于正样本或负样本中的一种。在具体应用时,目标类别响应结果可以是指产生的积极响应结果,积极响应结果可以是相应应用场景中所需要的响应结果,如广告投放中触发购买的响应结果、内容推荐中触发访问所推荐内容的响应结果、金融风控中产生违约响应结果等。

示例性地,服务器可以获取账号响应样本,账号响应样本可以基于相应应用场景中的历史数据得到,账号响应样本可以记录有各个样本账号针对历史干预事件所对应产生的响应结果。基于各个样本账号针对历史干预事件所对应产生的响应结果类别,服务器可以将账号响应样本进行类别划分,如服务器可以按照是否属于目标类别响应结果,将各个账号响应样本进行类别划分,得到正样本和负样本。

步骤204,当账号响应样本满足样本更新判定条件,根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本。

其中,样本更新判定条件用于判定是否针对账号响应样本触发样本更新处理,具体是否针对账号响应样本中的负样本触发欠采样处理。欠采样是调节高类别不平衡的一种方法,通过从占多数类的样本中随机采样一部分,以在类别数量上达到均衡,这样有助于提高个体层面因果推断的表现,尤其在电商广告等具有低转化率和中等数据规模的场景中。样本更新判定条件可以根据应用场景的需要进行设置,如可以根据账号响应样本中正样本和负样本各自样本数量进行判定,在正样本和负样本的样本数量类别不平衡的问题时,可以认为满足样本更新判定条件。在具体实现中,正样本和负样本的样本数量是否存在类别不平衡的问题,可以根据正样本和负样本各自样本数量的占比进行判定,如负样本的占比超过预设占比阈值时,可以认为正样本和负样本的样本数量存在类别不平衡的问题。欠采样策略是指针对账号响应样本确定欠采样参数的方式,具体可以包括但不限于包括分类欠采样方式、分层欠采样方式、朴素欠采样方式或者分裂欠采样方式中的至少一种,根据不同的欠采样策略中的欠采样方式可以确定不同欠采样参数,以针对账号响应样本实现不同的样本更新处理。

欠采样参数用于针对账号响应样本中的负样本进行欠采样处理参数,具体可以包括负样本中所需要保留的负样本比例,通过按照该负样本比例删除部分负样本,从而实现针对负样本的欠采样处理。欠采样后的负样本是按照欠采样参数从负样本进行欠采样处理后得到的。更新后的账号响应样本根据欠采样后的负样本和正样本得到,即更新后的账号响应样本是通过对账号响应样本中的负样本进行欠采样更新后得到的,通过对账号响应样本中的负样本进行欠采样,可以删除部分负样本,以调节正样本和负样本各自的样本数量,使得正样本和负样本的样本类别相对平衡,从而有利于提升建模效果。

具体地,服务器可以通过样本更新判定条件针对账号响应样本进行判定,以确定账号响应样本是否需要针对进行样本更新处理,如服务器可以分别统计账号响应样本中正样本和负样本各自的样本数量,并确定正样本的数量占比和负样本的数量占比,在负样本的数量占比超过样本更新判定条件中的占比阈值时,可以认为账号响应样本满足样本更新判定条件,需要针对进行样本更新。此外,在具体实现中,服务器也可以基于账号响应样本进行初步建模,基于初步建模的结果确定是否满足样本更新判定条件,如初步建模得到的模型预测的精度低于预设精度,则可以认为账号响应样本满足样本更新判定条件。

针对账号响应样本进行样本更新处理时,服务器可以获取欠采样策略,并基于欠采样策略确定账号响应样本的欠采样参数。在具体应用中,针对不同的账号响应样本、不同的应用场景或者不同的建模需求可以采用不同的欠采样策略,欠采样策略可以包括相应的欠采样方式,具体可以包括但不限于包括分类欠采样方式、分层欠采样方式、朴素欠采样方式或者分裂欠采样方式中的至少一种。其中,分类欠采样方式和分层欠采样方式针对账号响应样本中触发历史干预事件和未触发历史干预事件的样本分别确定各自的欠采样参数,朴素欠采样方式则直接针对账号响应样本确定欠采样参数,而分裂欠采样方式则针对账号响应样本中触发历史干预事件和未触发历史干预事件的样本确定欠采样参数组合,以通过欠采样参数组合的约束针对进行样本更新处理。在确定账号响应样本的欠采样参数时,服务器可以根据正样本和负样本的分布信息确定多个不同的候选参数,并基于多个不同的候选参数进行验证,以从多个不同的候选参数中确定所需的欠采样参数,如可以采用交叉验证方法针对多个不同的候选参数分别进行评估,根据评估结果确定账号响应样本的欠采样参数。

对于账号响应样本中的负样本,服务器通过确定的欠采样参数针对进行欠采样处理,具体服务器可以按照欠采样参数从负样本中删除部分数据,以减少负样本的样本数量,得到欠采样后的负样本。服务器可以根据欠采样后的负样本和账号响应样本中的正样本组合得到更新后的账号响应样本,从而实现针对账号响应样本的样本更新处理。更新后的账号响应样本中,通过对负样本进行欠采样减少了负样本的样本数量,从而调节了正样本和负样本之间的样本类别数量。

步骤206,基于更新后的账号响应样本训练得到事件响应预测模型。

其中,事件响应预测模型基于更新后的账号响应样本训练得到,用于预测账号针对干预事件所产生的响应结果。可选地,服务器可以利用更新后的账号响应样本进行建模,具体可以基于各种建模算法,如可以基于KNN(k-Nearest Neighbor,k近邻算法)、SVM(Support Vector Machine,支持向量机)、逻辑回归、决策树,随机森林、朴素贝叶斯、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(RecurrentNeural Network,循环神经网络)或Transformer(注意力机制)中至少一种算法建模训练得到事件响应预测模型。事件响应预测模型可以针对输入的账号信息进行预测,以输出账号针对干预事件所产生的响应结果,如可以预测账号A针对干预事件1在触发时和未触发时所产生响应结果的差异。在具体应用中,服务器可以基于更新后的账号响应样本分别训练两个预测模型,分别用于预测账号针对干预事件在触发时和未触发时所分别产生的响应结果,将两个预测模型组合可以得到事件响应预测模型,从而能够预测账号针对干预事件在触发时和未触发时所产生响应结果的差异。

步骤208,针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型;校准后的事件响应预测模型,用于预测账号针对干预事件所产生的响应结果。

其中,事件响应预测模型的预测输出可以包括账号针对干预事件所产生的响应结果,事件响应预测模型是基于更新后的账号响应样本训练得到的,导致事件响应预测模型的预测输出产生失真,影响了预测输出的准确性。示例性地,服务器针对事件响应预测模型的预测输出进行校准,如可以按照确定的校准映射关系将事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。校准后的事件响应预测模型可以预测账号针对干预事件所产生的响应结果,具体可以预测账号针对干预事件在触发时和未触发时所产生响应结果的差异。

在一具体应用中,如图3所示,对于账号响应样本301,其包括负样本301a和正样本301b,负样本301a是样本账号针对历史干预事件产生目标类别响应结果的样本,正样本301b是样本账号针对所述历史干预事件未产生所述目标类别响应结果的样本,每个空心圆圈用于表示10个负样本301a,每个填充斜线的圆圈表示10个正样本301b,在账号响应样本301中负样本301a占绝大多数,正样本301b只包括50个,即正负样本间存在类别不平衡的问题,此时认为账号响应样本301满足样本更新判定条件,服务器可以按照根据欠采样策略确定的欠采样参数对负样本301a进行欠采样,得到更新后的账号响应样本302,更新后的账号响应样本302中正负样本的数量均变成50个。服务器基于更新后的账号响应样本302训练得到事件响应预测模型,并针对的预测输出进行校准,得到用于预测账号针对干预事件所产生的响应结果的校准后的事件响应预测模型。

上述事件响应预测模型处理方法中,对于账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的负样本,在满足样本更新判定条件时,按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的正样本,得到更新后的账号响应样本,基于更新后的账号响应样本训练得到事件响应预测模型,并针对事件响应预测模型的预测输出进行校准,得到用于预测账号针对干预事件所产生的响应结果的校准后的事件响应预测模型。按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样,以获得样本类别数量平衡的更新后的账号响应样本,并针对基于更新后的账号响应样本训练得到的事件响应预测模型的预测输出进行校准,提高了校准后的事件响应预测模型的预测准确性。

在一个实施例中,如图4所示,欠采样处理,即根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本,包括:

步骤402,从账号响应样本中确定第一账号响应样本和第二账号响应样本。

其中,第一账号响应样本是账号响应样本中样本账号针对历史干预事件未触发时相应的样本,即第一账号响应样本中的响应结果是在未触发历史干预事件的条件下产生的,根据所产生响应结果的类别可以进行正负样本的进一步划分,得到第一正样本和第一负样本。其中,第一正样本是样本账号在未触发历史干预事件的条件下所产生目标类别响应结果的样本,第一负样本是样本账号在未触发历史干预事件的条件下未产生目标类别响应结果的样本。

示例性地,对于账号响应样本,服务器可以根据历史干预事件是否触发的条件进行划分,从而从账号响应样本中确定第一账号响应样本,第一账号响应样本是在未触发历史干预事件的条件下的样本,即第一账号响应样本中的第一正样本和第一负样本均是在未触发历史干预事件的条件下获得的。例如,对于广告投放的应用场景,历史干预事件可以是投放的各种广告信息,而第一账号响应样本则是未投放广告时,样本账号对应的响应结果,如第一正样本可以是未投放广告时样本账号触发购买的样本,第一负样本可以是未投放广告时样本账号未触发购买的样本。

第二账号响应样本是账号响应样本中样本账号针对历史干预事件触发时相应的样本,即第二账号响应样本中的响应结果是在触发了历史干预事件的条件下产生的,根据所产生响应结果的类别可以进行正负样本的进一步划分,得到第二正样本和第二负样本。其中,第二正样本是样本账号在触发历史干预事件的条件下所产生目标类别响应结果的样本,第二负样本是样本账号在触发历史干预事件的条件下未产生目标类别响应结果的样本。

具体地,对于账号响应样本,服务器可以根据历史干预事件是否触发的条件进行划分,从而从账号响应样本中确定第二账号响应样本,第二账号响应样本是在触发了历史干预事件的条件下的样本,即第二账号响应样本中的第二正样本和第二负样本均是在触发历史干预事件的条件下获得的。例如,对于广告投放的应用场景,历史干预事件可以是投放的各种广告信息,而第二账号响应样本则是投放广告时,样本账号对应的响应结果,如第二正样本可以是投放广告后样本账号触发购买的样本,第二负样本可以是投放广告后样本账号未触发购买的样本。

步骤404,根据欠采样策略确定第一账号响应样本对应的第一欠采样参数,根据欠采样策略确定第二账号响应样本对应的第二欠采样参数。

其中,第一欠采样参数是根据欠采样策略针对第一账号响应样本确定的欠采样参数,用于针对第一账号响应样本中的第一负样本进行欠采样处理。可选地,服务器可以获取欠采样策略,并按照欠采样策略中的欠采样方式针对第一账号响应样本确定第一欠采样参数。第二欠采样参数是根据欠采样策略针对第二账号响应样本确定的欠采样参数,用于针对第二账号响应样本中的第二负样本进行欠采样处理。具体地,服务器可以获取欠采样策略,并按照欠采样策略中的欠采样方式针对第二账号响应样本确定第二欠采样参数。

步骤406,根据第一欠采样参数对第一账号响应样本进行更新,得到更新后的第一账号响应样本,以及根据第二欠采样参数对第二账号响应样本进行更新,得到更新后的第二账号响应样本。

其中,更新后的第一账号响应样本是针对第一账号响应样本进行更新得到的,具体可以是根据第一欠采样参数对第一账号响应样本中的负样本进行欠采样处理后得到的。更新后的第二账号响应样本是针对第二账号响应样本进行更新得到的,具体可以是根据第二欠采样参数对第二账号响应样本中的负样本进行欠采样处理后得到的。

具体地,服务器可以根据第一欠采样参数对第一账号响应样本进行更新,具体可以按照第一欠采样参数针对第一账号响应样本中的第一负样本进行欠采样,以将第一负样本中的部分数据删除,得到欠采样后的第一负样本。服务器根据欠采样后的第一负样本和第一账号响应样本中的第一正样本组合得到更新后的第一账号响应样本,从而实现对第一账号响应样本的样本更新处理,以对第一账号响应样本中正负样本不平衡问题进行调节。服务器可以根据第二欠采样参数对第二账号响应样本进行更新,具体可以按照第二欠采样参数针对第二账号响应样本中的第二负样本进行欠采样,以将第二负样本中的部分数据删除,得到欠采样后的第二负样本。服务器根据欠采样后的第二负样本和第二账号响应样本中的第二正样本组合得到更新后的第二账号响应样本,从而实现对第二账号响应样本的样本更新处理,以对第二账号响应样本中正负样本不平衡问题进行调节。

步骤408,根据更新后的第一账号响应样本和更新后的第二账号响应样本,得到更新后的账号响应样本。

示例性地,服务器可以将更新后的第一账号响应样本和更新后的第二账号响应样本组合,得到更新后的账号响应样本,利用更新后的账号响应样本可以训练得到事件响应预测模型。

在一个具体应用中,如图5所示,账号响应样本501可以划分成第一账号响应样本502和第二账号响应样本503,其中,第一账号响应样本502以圆圈表征,每个圆圈表示一定数量的样本,如可以表示5个、10个或者100个样本,第一账号响应样本502包括第一正样本501a和第一负样本501b,第一正样本501a以填充斜线的圆圈表示,第一负样本501b以空心圆圈表示;第二账号响应样本503以三角形表征,每个三角形表示一定数量的样本,如可以表示5个、10个或者100个样本,第二账号响应样本503包括第二正样本501c和第二负样本501d,第二正样本501c以填充斜线的三角形表示,第二负样本501d以空心三角形表示。

具体地,对于第一账号响应样本502和第二账号响应样本503,可以分别确定各自的欠采样参数,具体针对第一账号响应样本502确定第一欠采样参数,针对第二账号响应样本503确定第二欠采样参数,按照各自的欠采样参数分别进行欠采样处理,可以得到更新后的第一账号响应样本504和更新后的第二账号响应样本505,根据更新后的第一账号响应样本504和更新后的第二账号响应样本505可以组合得到更新后的账号响应样本506。

本实施例中,服务器将账号响应样本划分成第一账号响应样本和第二账号响应样本,通过对第一账号响应样本和第二账号响应样本分别按照欠采样策略确定的欠采样参数进行欠采样处理,可以针对第一账号响应样本和第二账号响应样本分别进行样本类别数量平衡处理,可以确保更新后的账号响应样本的可信度,从而基于更新后的账号响应样本可以训练得到预测可信度更高的事件响应预测模型。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;欠采样策略包括分类欠采样方式;根据欠采样策略确定第一欠采样参数,包括:根据分类欠采样方式,基于第一正样本和第一负样本确定第一账号响应样本对应的第一正样本变化因子;根据第一正样本变化因子和第一正样本的样本分布参数得到第一欠采样参数。

其中,第一正样本是样本账号在未触发历史干预事件的条件下所产生目标类别响应结果的样本,第一负样本是样本账号在未触发历史干预事件的条件下未产生目标类别响应结果的样本。第二正样本是样本账号在触发历史干预事件的条件下所产生目标类别响应结果的样本,第二负样本是样本账号在触发历史干预事件的条件下未产生目标类别响应结果的样本。

分类欠采样方式是指针对第一账号响应样本和第二账号响应样本分别独立确定各自欠采样参数的方式。正样本变化因子用于表征针对账号响应样本进行欠采样处理前后正样本数量的变化,具体是可以欠采样处理前后正样本数量占比的变化。对于第一账号响应样本,第一正样本变化因子表示针对第一账号响应样本进行欠采样处理前后第一正样本数量的变化。第一欠采样参数表征针对第一账号响应样本中的第一负样本进行欠采样处理时所需要保留的第一负样本比例。第一欠采样参数可以基于第一正样本变化因子和第一正样本的样本分布参数计算得到,第一正样本的样本分布参数具体可以包括在第一账号响应样本中第一正样本的数量占比。

示例性地,在欠采样策略包括分类欠采样方式时,服务器按照分类欠采样方式,针对第一账号响应样本单独进行欠采样参数确定,具体服务器可以基于第一正样本和第一负样本确定第一正样本变化因子。第一正样本变化因子可以基于第一正样本和第一负样本采用交叉验证方法确定,如服务器可以基于第一正样本和第一负样本各自的样本数量配置多个不同的候选变化因子,服务器可以基于交叉验证方法针对多个不同的候选变化因子进行评估,根据评估结果从多个不同的候选变化因子中确定第一正样本变化因子。服务器确定第一正样本的样本分布参数,具体可以包括第一正样本的样本数量占比,服务器根据第一正样本变化因子和第一正样本的样本分布参数计算得到第一账号响应样本对应的第一欠采样参数。

进一步地,根据欠采样策略确定第二账号响应样本对应的第二欠采样参数,包括:根据分类欠采样方式,基于第二正样本和第二负样本确定第二正样本变化因子;根据第二正样本变化因子和第二正样本的样本分布参数得到第二账号响应样本对应的第二欠采样参数。

其中,对于第二账号响应样本,第二正样本变化因子表示针对第二账号响应样本进行欠采样处理前后第二正样本数量的变化。第二欠采样参数表征针对第二账号响应样本中的第二负样本进行欠采样处理时所需要保留的第二负样本比例。第二欠采样参数可以基于第二正样本变化因子和第二正样本的样本分布参数计算得到,第二正样本的样本分布参数具体可以包括在第二账号响应样本中第二正样本的数量占比。

具体地,在欠采样策略包括分类欠采样方式时,服务器按照分类欠采样方式,针对第二账号响应样本单独进行欠采样参数确定,具体服务器可以基于第二正样本和第二负样本确定第二正样本变化因子。第二正样本变化因子可以基于第二正样本和第二负样本采用交叉验证方法确定,如服务器可以基于第二正样本和第二负样本各自的样本数量配置多个不同的候选变化因子,服务器可以基于交叉验证方法针对多个不同的候选变化因子进行评估,根据评估结果从多个不同的候选变化因子中确定第二正样本变化因子。服务器确定第二正样本的样本分布参数,具体可以包括第二正样本的样本数量占比,服务器根据第二正样本变化因子和第二正样本的样本分布参数计算得到第二账号响应样本对应的第二欠采样参数。

在具体实现中,如图6所示,在欠采样策略包括分类欠采样方式时,可以针对第一账号响应样本502和第二账号响应样本503分别进行欠采样参数确定处理,具体针对第一账号响应样本502确定第一正样本变化因子和第一正样本的样本分布参数,并进一步根据第一正样本变化因子和第一正样本的样本分布参数得到第一欠采样参数;对于第二账号响应样本503,可以确定第二正样本变化因子和第二正样本的样本分布参数,并进一步根据第二正样本变化因子和第二正样本的样本分布参数得到第二欠采样参数。

本实施例中,服务器基于分类欠采样方式,针对第一账号响应样本和第二账号响应样本分别独立进行欠采样参数确定,具体包括独立确定正样本变化因子后进一步确定各自的欠采样参数,可以针对第一账号响应样本和第二账号响应样本分别进行样本类别数量平衡处理,能够确保更新后的账号响应样本的可信度,从而基于更新后的账号响应样本可以训练得到预测可信度更高的事件响应预测模型。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;欠采样策略包括分层欠采样方式;事件响应预测模型处理方法还包括:基于正样本和负样本确定正样本变化因子。

其中,分层欠采样方式是指针对第一账号响应样本和第二账号响应样本统一确定正样本变化因子,并进一步分别独立确定各自欠采样参数的方式。正样本变化因子用于表征针对账号响应样本进行欠采样处理前后正样本数量的变化,具体是可以欠采样处理前后正样本数量占比的变化。

示例性地,在欠采样策略包括分层欠采样方式时,服务器可以针对第一账号响应样本和第二账号响应样本统一确定正样本变化因子,具体服务器可以基于账号响应样本中的正样本和负样本确定正样本变化因子。正样本变化因子可以基于正样本和负样本采用交叉验证方法确定,如服务器可以基于正样本和负样本各自的样本数量配置多个不同的候选变化因子,服务器可以基于交叉验证方法针对多个不同的候选变化因子进行评估,根据评估结果从多个不同的候选变化因子中确定正样本变化因子。

进一步地,根据欠采样策略确定第一账号响应样本对应的第一欠采样参数,包括:按照分层欠采样方式,根据正样本变化因子和第一正样本的样本分布参数得到第一账号响应样本对应的第一欠采样参数。

其中,第一欠采样参数表征针对第一账号响应样本中的第一负样本进行欠采样处理时所需要保留的第一负样本比例。第一欠采样参数可以基于正样本变化因子和第一正样本的样本分布参数计算得到。具体地,在欠采样策略包括分层欠采样方式时,服务器按照分类欠采样方式,基于统一确定的正样本变化因子和第一正样本的样本分布参数计算得到第一账号响应样本对应的第一欠采样参数。第一正样本的样本分布参数具体可以包括第一正样本的样本数量占比。

进一步地,根据欠采样策略确定第二账号响应样本对应的第二欠采样参数,包括:按照分层欠采样方式,根据正样本变化因子和第二正样本的样本分布参数得到第二账号响应样本对应的第二欠采样参数。

其中,第二欠采样参数表征针对第二账号响应样本中的第二负样本进行欠采样处理时所需要保留的第二负样本比例。第二欠采样参数可以基于正样本变化因子和第二正样本的样本分布参数计算得到。可选地,在欠采样策略包括分层欠采样方式时,服务器按照分类欠采样方式,基于统一确定的正样本变化因子和第二正样本的样本分布参数计算得到第二账号响应样本对应的第二欠采样参数。第二正样本的样本分布参数具体可以包括第二正样本的样本数量占比。

在具体实现时,如图7所示,欠采样策略包括分层欠采样方式时,对于账号响应样本501可以统一确定正样本变化因子,在将账号响应样本501划分成第一账号响应样本502和第二账号响应样本503后,可以针对第一账号响应样本502确定第一正样本的样本分布参数,并结合正样本变化因子得到第一欠采样参数;对于第二账号响应样本503,可以针对确定第二正样本的样本分布参数,并结合正样本变化因子得到第二欠采样参数。

本实施例中,服务器基于账号响应样本中的正样本和负样本统一确定正样本变化因子,并基于分层欠采样方式,利用统一确定的正样本变化因子针对第一账号响应样本和第二账号响应样本分别独立进行欠采样参数确定,可以简化针对第一账号响应样本和第二账号响应样本分别进行样本类别数量平衡的处理,在确保更新后的账号响应样本的可信度的同时,提高事件响应预测模型处理的效率。

在一个实施例中,欠采样策略包括朴素欠采样方式;根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本,包括:根据朴素欠采样方式,基于正样本和负样本确定正样本变化因子;根据正样本变化因子和正样本的样本分布参数得到欠采样参数;按照欠采样参数从负样本中删除选定的负样本,得到欠采样后的负样本;将欠采样后的负样本和正样本组合得到更新后的账号响应样本。

其中,朴素欠采样方式是指不区分第一账号响应样本和第二账号响应样本,而直接针对全部账号响应样本统一确定欠采样参数的方式。欠采样参数表征针对账号响应样本中的负样本进行欠采样处理时所需要保留的负样本比例。欠采样参数可以基于正样本变化因子和正样本的样本分布参数计算得到,正样本的样本分布参数具体可以包括在账号响应样本中正样本的数量占比。

示例性地,在欠采样策略包括朴素欠采样方式时,服务器可以直接按照朴素欠采样方式,基于账号响应样本中的正样本和负样本确定正样本变化因子。正样本变化因子可以基于正样本和负样本采用交叉验证方法确定。服务器可以确定正样本的样本分布参数,具体可以包括正样本的样本数量占比,服务器根据正样本变化因子和正样本的样本分布参数计算得到欠采样参数。服务器基于欠采样参数从负样本中删除选定的负样本,即按照欠采样参数从负样本中删除部分数据,得到欠采样后的负样本,服务器将欠采样后的负样本和正样本组合得到更新后的账号响应样本。

在一个具体应用中,如图8所示,欠采样策略包括朴素欠采样方式时,对于账号响应样本501可以整体直接确定正样本变化因子,并结合正样本的样本分布参数得到欠采样参数,通过得到的欠采样参数针对账号响应样本501中的负样本进行欠采样处理,以得到更新后的账号响应样本。

本实施例中,服务器直接基于账号响应样本中的正样本和负样本统一确定正样本变化因子,并基于朴素欠采样方式,利用统一确定的正样本变化因子进一步确定欠采样参数,按照欠采样参数将从负样本中删除选定的负样本,将欠采样后的负样本和正样本组合得到更新后的账号响应样本,可以简化针对账号响应样本的欠采样处理,有利于提高事件响应预测模型处理的效率。

在一个实施例中,欠采样策略包括分裂欠采样方式;根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本,包括:从账号响应样本中确定第一账号响应样本和第二账号响应样本;根据分裂欠采样方式确定欠采样参数组合;欠采样参数组合中包括第一欠采样参数和第二欠采样参数;根据第一欠采样参数对第一账号响应样本进行更新,得到更新后的第一账号响应样本,以及根据第二欠采样参数对第二账号响应样本进行更新,得到更新后的第二账号响应样本;根据更新后的第一账号响应样本和更新后的第二账号响应样本,得到更新后的账号响应样本。

其中,分裂欠采样方式是指针对第一账号响应样本和第二账号响应样本各自的欠采样参数按照组合形式进行约束确定的方式。第一账号响应样本是账号响应样本中样本账号针对历史干预事件未触发时相应的样本,第二账号响应样本是账号响应样本中样本账号针对历史干预事件触发时相应的样本。欠采样参数组合中包括第一欠采样参数和第二欠采样参数,第一欠采样参数用于针对第一账号响应样本中的第一负样本进行欠采样处理,第二欠采样参数用于针对第二账号响应样本中的第二负样本进行欠采样处理。

示例性地,在欠采样策略包括分裂欠采样方式时,表示需要针对第一账号响应样本和第二账号响应样本分别选定各自的欠采样参数,并将各自的欠采样参数按照组合形式进行约束确定。具体服务器可以根据分裂欠采样方式,针对第一账号响应样本和第二账号响应样本构建多种不同的欠采样参数组合,每种欠采样参数组合中可以包括第一欠采样参数和第二欠采样参数。服务器可以根据第一欠采样参数对第一账号响应样本进行更新,并根据第二欠采样参数对第二账号响应样本进行更新,以得到更新后的第一账号响应样本和更新后的第二账号响应样本。具体实现时,服务器可以通过欠采样参数组合中的第一欠采样参数针对第一账号响应样本中的第一负样本进行欠采样,以将第一负样本中的部分数据删除,得到欠采样后的第一负样本,并根据欠采样后的第一负样本和第一账号响应样本中的第一正样本组合得到更新后的第一账号响应样本。服务器可以通过欠采样参数组合中的第二欠采样参数针对第二账号响应样本中的第二负样本进行欠采样,以将第二负样本中的部分数据删除,得到欠采样后的第二负样本,并根据欠采样后的第二负样本和第二账号响应样本中的第二正样本组合得到更新后的第二账号响应样本。服务器可以将更新后的第一账号响应样本和更新后的第二账号响应样本组合,得到更新后的账号响应样本,利用更新后的账号响应样本可以训练得到事件响应预测模型。

本实施例中,服务器依据是否触发历史干预事件将账号响应样本划分成第一账号响应样本和第二账号响应样本,通过对第一账号响应样本和第二账号响应样本综合确定欠采样参数组合,以通过欠采样参数组合中的第一欠采样参数和第二欠采样参数,针对第一账号响应样本和第二账号响应样本分别进行样本类别数量平衡处理,可以确保更新后的账号响应样本的可信度,从而基于更新后的账号响应样本可以训练得到预测可信度更高的事件响应预测模型。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;根据分裂欠采样方式确定欠采样参数组合,包括:根据分裂欠采样方式,基于第一正样本和第一负样本确定至少一个第一候选变化因子;根据分裂欠采样方式,基于第二正样本和第二负样本确定至少一个第二候选变化因子;基于至少一个第一候选变化因子和至少一个第二候选变化因子构建变化因子组合;变化因子组合中包括第一正样本变化因子和第二正样本变化因子,第一正样本变化因子属于至少一个第一候选变化因子,第二正样本变化因子属于至少一个第二候选变化因子;根据第一正样本变化因子和第一正样本的样本分布参数得到第一欠采样参数,根据第二正样本变化因子和第二正样本的样本分布参数得到第二欠采样参数;根据第一欠采样参数和第二欠采样参数得到欠采样参数组合。

其中,候选变化因子是基于正样本和负样本确定的正样本变化因子,用于表征针对账号响应样本进行欠采样处理前后正样本数量的变化,具体是可以欠采样处理前后正样本数量占比的变化。第一候选变化因子是基于第一正样本和第一负样本确定的,而第二候选变化因子是基于第二正样本和第二负样本确定的。变化因子组合中包括来自至少一个第一候选变化因子的第一正样本变化因子,以及来自至少一个第二候选变化因子的第二正样本变化因子。欠采样参数表征针对账号响应样本中的负样本进行欠采样处理时所需要保留的负样本比例。欠采样参数可以基于正样本变化因子和正样本的样本分布参数计算得到,正样本的样本分布参数具体可以包括在账号响应样本中正样本的数量占比。

具体地,在确定欠采样参数组合时,服务器可以根据裂欠采样方式独立针对第一账号响应样本中的第一正样本和第一负样本确定至少一个第一候选变化因子。如服务器可以基于第一正样本和第一负样本各自的样本数量配置至少一个第一候选变化因子。同样的,对于第二账号响应样本,服务器可以根据裂欠采样方式独立针对第二账号响应样本中的第二正样本和第二负样本确定至少一个第二候选变化因子。服务器可以基于至少一个第一候选变化因子和至少一个第二候选变化因子构建变化因子组合,使得变化因子组合中包括来自至少一个第一候选变化因子的第一正样本变化因子和来自至少一个第二候选变化因子的第二正样本变化因子。在具体应用中,服务器可以分别从至少一个第一候选变化因子和至少一个第二候选变化因子抽取一个候选变化因子进行组合,以构建至少一个候选变化因子组合。服务器可以针对至少一个候选变化因子组合进行验证,如可以基于交叉验证法针对各个候选变化因子组合进行评估,基于评估结果确定出所需的变化因子组合,确定出的变化因子组合中包括所需的第一正样本变化因子和第二正样本变化因子。

服务器可以确定第一正样本的样本分布参数,具体可以包括第一正样本的样本数量占比,服务器根据第一正样本变化因子和第一正样本的样本分布参数计算得到第一欠采样参数。同样的,服务器确定第二正样本的样本分布参数,具体可以包括第二正样本的样本数量占比,服务器根据第二正样本变化因子和第二正样本的样本分布参数计算得到第二欠采样参数。服务器可以将第一欠采样参数和第二欠采样参数进行组合,得到欠采样参数组合。

本实施例中,服务器根据分裂欠采样方式,基于第一账号响应样本和第二账号响应样本分别确定第一候选变化因子和第二候选变化因子,并基于第一候选变化因子和第二候选变化因子构建变化因子组合,通过变化因子组合中的第一正样本变化因子和第二正样本变化因子,进一步分别确定相应的第一欠采样参数和第二欠采样参数,从而得到欠采样参数组合,可以通过构建变化因子组合的方式,针对第一账号响应样本和第二账号响应样本确定欠采样参数组合以进行样本类别数量平衡处理,可以确保更新后的账号响应样本的可信度,从而基于更新后的账号响应样本可以训练得到预测可信度更高的事件响应预测模型。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;根据第一欠采样参数对第一账号响应样本进行更新,得到更新后的第一账号响应样本,包括:按照第一欠采样参数针对第一账号响应样本中的第一负样本进行欠采样,根据欠采样后的第一负样本和第一正样本得到更新后的第一账号响应样本。

具体地,针对第一账号响应样本,服务器按照第一欠采样参数对第一账号响应样本中的第一负样本进行欠采样,具体可以按照第一欠采样参数将第一负样本中的部分数据删除,得到欠采样后的第一负样本。欠采样参数用于针对账号响应样本中的负样本进行欠采样处理参数,具体可以包括负样本中所需要保留的负样本比例,通过按照该负样本比例删除部分负样本,从而实现针对负样本的欠采样处理。第一欠采样参数可以表示第一账号响应样本的第一负样本中所需要保留的负样本比例,即可以按照第一欠采样参数中的负样本比例删除部分第一负样本,实现对第一负样本的欠采样处理。服务器根据欠采样后的第一负样本和第一账号响应样本中的第一正样本组合得到更新后的第一账号响应样本。

进一步地,根据第二欠采样参数对第二账号响应样本进行更新,得到更新后的第二账号响应样本,包括:按照第二欠采样参数针对第二账号响应样本中的第二负样本进行欠采样,根据欠采样后的第二负样本和第二正样本得到更新后的第二账号响应样本。

示例性地,针对第二账号响应样本,服务器按照第二欠采样参数对第二账号响应样本中的第二负样本进行欠采样,具体可以按照第二欠采样参数将第二负样本中的部分数据删除,得到欠采样后的第二负样本。第二欠采样参数可以表示第二账号响应样本的第二负样本中所需要保留的负样本比例,即服务器可以按照第二欠采样参数中的负样本比例删除部分第二负样本,实现对第二负样本的欠采样处理。服务器根据欠采样后的第二负样本和第二账号响应样本中的第二正样本组合得到更新后的第二账号响应样本。

本实施例中,服务器通过对第一账号响应样本和第二账号响应样本分别按照各自的欠采样参数进行欠采样处理,可以针对第一账号响应样本和第二账号响应样本分别进行样本类别数量平衡处理,可以确保更新后的账号响应样本的可信度,从而基于更新后的账号响应样本可以训练得到预测可信度更高的事件响应预测模型。

在一个实施例中,针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型,包括:获得事件响应预测模型针对账号响应样本的样本预测输出;基于样本预测输出和账号响应样本的实际响应标签,确定针对事件响应预测模型的第一校准映射关系;按照第一校准映射关系对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

其中,样本预测输出是通过事件响应预测模型针对账号响应样本进行预测得到的预测结果。实际响应标签是账号响应样本真实的响应结果标签。第一校准映射关系用于表征事件响应预测模型的预测输出与实际响应结果之间的映射关系,通过第一校准映射关系可以对事件响应预测模型的预测输出进行校准。

可选地,服务器可以将账号响应样本输入到事件响应预测模型中进行预测,得到事件响应预测模型的样本预测输出。服务器可以获取账号响应样本的实际响应标签,并根据样本预测输出与实际响应标签,基于回归算法,如可以基于等比回归算法确定针对事件响应预测模型的第一校准映射关系。在具体应用中,服务器可以获取多个账号响应样本的样本预测输出,并基于多个样本预测输出与相应账号响应样本的实际响应标签之间的差异,构建第一校准映射关系,以表征事件响应预测模型的预测输出与实际响应结果之间的映射关系。服务器可以基于第一校准映射关系对事件响应预测模型的预测输出进行调整,例如事件响应预测模型的预测输出包括数值形式的预测输出时,服务器可以按照第一校准映射关系对数值形式的预测输出进行调整,从而得到校准后的事件响应预测模型。

本实施例中,服务器利用事件响应预测模型针对所述账号响应样本的样本预测输出以及账号响应样本的实际响应标签,确定第一校准映射关系,并基于第一校准映射关系对事件响应预测模型的预测输出进行调整,可以直接基于账号响应样本针对事件响应预测模型进行调整,能够确保校准后的事件响应预测模型的预测准确性。

在一个实施例中,针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型,包括:基于欠采样参数确定针对事件响应预测模型的第二校准映射关系;按照第二校准映射关系对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

其中,第二校准映射关系直接基于欠采样参数确定得到,用于表征事件响应预测模型的预测输出与实际响应结果之间的映射关系。示例性地,服务器可以直接基于欠采样参数针对实际响应结果进行拟合,如可以基于最大似然估计算法进行拟合,得到针对事件响应预测模型的第二校准映射关系。服务器可以基于第二校准映射关系对事件响应预测模型的预测输出进行调整,从而基于欠采样参数针对事件响应预测模型的预测输出进行局部邻域校准,以得到校准后的事件响应预测模型。

本实施例中,服务器直接基于欠采样参数确定针对事件响应预测模型的第二校准映射关系,并基于第二校准映射关系对事件响应预测模型的预测输出进行调整,可以直接基于欠采样参数针对事件响应预测模型进行调整,能够确保校准后的事件响应预测模型的预测准确性。

在一个实施例中,针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型,包括:按照正样本变化因子对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

其中,对于按照分层欠采样方式确定的欠采样参数进行欠采样处理而训练的事件响应预测模型,第一账号响应样本和第二账号响应样本采用了相同的正样本变化因子,则可以直接通过正样本变化因子针对事件响应预测模型的预测输出进行校准。具体地,在采样策略包括分层欠采样方式时,对于训练得到的事件响应预测模型,服务器可以直接通过正样本变化因子对事件响应预测模型的预测输出进行调整,如服务器可以直接将事件响应预测模型的预测输出按照正样本变化因子进行线性缩小,以得到校准后的事件响应预测模型。

本实施例中,对于按照分层欠采样方式确定的欠采样参数进行欠采样处理而训练的事件响应预测模型,服务器直接基于正样本变化因子对事件响应预测模型的预测输出进行调整,可以在确保校准后的事件响应预测模型的预测准确性的同时,简化了事件响应预测模型的校准处理。

在一个实施例中,基于更新后的账号响应样本训练得到事件响应预测模型,包括:基于更新后的账号响应样本中包括的更新后的第一账号响应样本,训练得到第一预测模型;第一预测模型,用于预测账号针对干预事件未触发时所产生的响应结果;更新后的第一账号响应样本,是通过针对第一账号响应样本进行欠采样得到的,第一账号响应样本,是样本账号针对历史干预事件未触发时产生响应结果的样本;基于更新后的账号响应样本中包括的更新后的第二账号响应样本,训练得到第二预测模型;第二预测模型,用于预测账号针对干预事件触发时所产生的响应结果;更新后的第二账号响应样本,是通过针对第二账号响应样本进行欠采样得到的,第二账号响应样本,是样本账号针对历史干预事件触发时产生响应结果的样本;根据第一预测模型和第二预测模型组合得到事件响应预测模型。

其中,第一预测模型基于更新后的账号响应样本中更新后的第一账号响应样本训练得到,第一预测模型用于预测账号针对干预事件未触发时所产生的响应结果,即第一预测模型用于预测在干预事件未触发的条件下账号所产生的响应结果。第二预测模型基于更新后的账号响应样本中更新后的第二账号响应样本训练得到,第二预测模型用于预测账号针对干预事件触发时所产生的响应结果,即第二预测模型用于预测在干预事件触发的条件下账号所产生的响应结果。事件响应预测模型根据第一预测模型和第二预测模型组合得到,可以用于预测账号针对干预事件所产生的响应结果,具体可以预测账号针对干预事件在触发时和未触发时所产生响应结果的差异。

示例性地,在更新后的账号响应样本中包括更新后的第一账号响应样本和更新后的第二账号响应样本。其中,更新后的第一账号响应样本通过针对第一账号响应样本进行欠采样得到,第一账号响应样本是样本账号针对历史干预事件未触发时产生响应结果的样本;更新后的第二账号响应样本通过针对第二账号响应样本进行欠采样得到,第二账号响应样本是样本账号针对历史干预事件触发时产生响应结果的样本。服务器可以基于更新后的第一账号响应样本训练得到第一预测模型,以预测账号针对干预事件未触发时所产生的响应结果;服务器可以基于更新后的第二账号响应样本训练得到第二预测模型,以预测账号针对干预事件触发时所产生的响应结果。对于第一预测模型和第二预测模型,服务器可以分别基于各种建模算法训练得到。服务器将第一预测模型和第二预测模型组合,得到事件响应预测模型,如服务器可以将第一预测模型和第二预测模型组合后得到用于计算第二预测模型与第一预测模型之间输出差的事件响应预测模型,使得事件响应预测模型能够预测账号针对干预事件在触发时和未触发时所产生响应结果的差异。

本实施例中,服务器针对更新后的账号响应样本中更新后的第一账号响应样本和更新后的第二账号响应样本分别训练得到第一预测模型以及第二预测模型,第一预测模型用于预测账号针对干预事件未触发时所产生的响应结果,第二预测模型用于预测账号针对干预事件触发时所产生的响应结果,通过组合第一预测模型和第二预测模型得到事件响应预测模型,事件响应预测模型基于样本类别数量平衡的更新后的账号响应样本训练得到,可以降低因正负样本类别不平衡引入的失真,提高事件响应预测模型的预测准确性。

在一个实施例中,如图9所示,提供了一种事件响应预测方法,该方法由计算机设备执行,具体可以由终端或服务器等计算机设备单独执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤902,获取目标账号的账号信息。

其中,目标账号是需要针对进行事件响应预测处理的账号,具体可以是用户持有的用于登录各种应用、平台的用户账号。账号信息可以包括但不限于包括账号特征数据、历史干预事件或者账号针对历史干预事件的响应结果中的至少一种。账号特征数据可以包括账号的注册地点、注册时间、账号持有用户的注册信息或账号登录信息中的至少一种。在不同的应用场景中,账号特征数据或者历史干预事件的类别可以根据应用场景的实际需求进行配置。

示例性地,服务器可以确定需要针对进行事件响应预测处理的目标账号,并获取目标账号的账号信息,具体可以基于目标账号的标识,如基于目标账号的账号ID(IdentityDocument,标识号)进行查询,得到目标账号的账号信息。

步骤904,通过校准后的事件响应预测模型针对账号信息进行预测,得到目标账号针对干预事件所产生的预测响应结果;其中,校准后的事件响应预测模型是通过针对事件响应预测模型的预测输出进行校准得到的;事件响应预测模型是基于更新后的账号响应样本训练得到的;更新后的账号响应样本,是根据欠采样后的负样本和正样本得到的;欠采样后的负样本是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样得到的;正样本,是账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的样本。

其中,校准后的事件响应预测模型可以预选训练并校准得到,具体可以采用以上事件响应预测模型处理方法获得校准后的事件响应预测模型,通过校准后的事件响应预测模型可以针对账号信息进行预测。具体地,服务器可以将目标账号的账号信息输入到校准后的事件响应预测模型,由校准后的事件响应预测模型输出目标账号针对干预事件所产生的预测响应结果。

上述事件响应预测方法中,通过校准后的事件响应预测模型针对账号信息进行预测,校准后的事件响应预测模型是针对事件响应预测模型的预测输出进行校准得到的,事件响应预测模型基于更新后的账号响应样本训练得到,更新后的账号响应样本根据欠采样后的负样本和账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的正样本得到,欠采样后的负样本是在满足样本更新判定条件时,按照根据欠采样策略确定的欠采样参数,针对账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的负样本进行欠采样得到的。校准后的事件响应预测模型是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样后,针对基于更新后的账号响应样本训练得到的事件响应预测模型的预测输出进行校准所得到的,通过校准后的事件响应预测模型可以准确预测目标账号针对干预事件所产生的预测响应结果。

本申请还提供一种应用场景,该应用场景应用上述的事件响应预测模型处理方法以及事件响应预测方法。具体地,该事件响应预测模型处理方法以及事件响应预测方法在该应用场景的应用如下:

本实施例提供的事件响应预测模型处理方法和事件响应预测方法主要面向广告投放、推荐系统、金融风控等领域,通过基于欠采样的提升建模,可以提高产品的个性化、推荐精准度和推荐效率,从而提升用户体验和产品价值。具体来说,对于推荐系统,通过学习用户的历史行为和偏好,预测用户可能感兴趣的物品,具体通过推荐某个特定的产品或内容,预测用户因为看到这一推荐而购买产品或点击内容的概率增加了多少,并向用户推荐相关的物品,例如电商网站可以使用提升建模来推荐商品,社交媒体可以使用提升建模来推荐好友或内容;对于搜索引擎,通过学习用户的搜索历史和点击行为,预测用户的搜索意图,并向用户提供相关的搜索结果,搜索引擎可以使用提升建模来预测用户的搜索关键词,或者根据用户的搜索历史和点击行为来调整搜索结果的排序;具体可以更改搜索算法或搜索结果的排名规则,以预测在搜索结果的更改后的点击率或满意度的变化,如更改了搜索算法,某个用户可能更有可能点击前三个搜索结果,提升建模可以辅助预测这种变化的大小和方向。

对于广告投放,通过学习用户的兴趣和操作,预测用户可能感兴趣的广告,并向用户投放相关的广告,例如广告平台可以使用提升建模来预测用户的兴趣和行为,或者根据用户的历史点击行为来调整广告投放策略;具体可以投放某种特定的广告后,预测用户因看到这一广告而进行的购买或点击的概率增加了多少;对于金融风控,通过学习用户的信用历史和历史操作,预测用户的信用风险,并采取相应的措施来降低风险,例如银行可以使用提升建模来预测用户的信用风险,或者根据用户的信用历史和历史操作来制定贷款策略。具体地,可以为某个客户提供贷款或更改贷款的利率,预测客户在获得贷款或在利率更改后的违约概率的变化,若为一个高风险的客户提供了贷款,则其违约概率可能会增加,提升建模可以辅助预测这种增加的幅度。

其中,提升建模是因果推断的一种方法,其目的是预测在某种干预事件后,如增加广告或折扣等后,不同个体之间因干预而产生的差异,其核心是估计发生和未发生干预事件时某事件的发生概率之间的差异。由于提升建模能够在个体级别上进行因果推断,因此在产品侧的应用非常广泛。例如在广告和电商领域的折扣优惠上,提升建模可以用于提高用户的购买率。此外提升建模还可用于提升客户留存率,预防客户流失,以及促进商品销售额的增长。总之提升建模在产品侧的应用非常广泛,可以用于提高客户的回报率、优化产品策略等。

当前的提升建模方法忽略了一个重要的问题,即训练数据存在高度的类别不平衡。例如在在线环境中,提升建模被用于优化广告和折扣的目标投放,但实际上很少有用户会点击广告或购买产品。解决分类不平衡问题的常见方法之一是对数据集进行欠采样。欠采样是治理高类别不平衡的一种方法,通过从占多数类的样本中随机采样一部分,以在类别数量上达到均衡,如此有助于提高个体层面因果推断的表现,尤其在电商广告等具有低转化率和中等数据规模的场景中。

类别不平衡在广告和电商领域普遍存在,商品转化率通常在0.1%-5%的范围内,转化行为的类型(例如点击、访问或购买)会影响该比率,越有价值的行为(例如购买),转化率越低。类别不平衡使建模变得困难,因为样本按其数量的比例对损失函数做出贡献,结果当算法忽略了少数类别时损失函数很容易被最小化。在分类任务中处理此问题的常见方法是通过欠采样,将来自多数类的样本删除以更好地平衡正负样本之间的比例。

欠采样在改善提升建模的表现方面非常有效但是在使用欠采样的模型在原始任务中时,需要进行有效的校准。因为欠采样会扭曲分类器的输出,使得输出得分不符合真实概率。因此需要进行校准,将得分映射为经验估计值,以得到更好的结果。校准是指在模型预测中对得出的概率进行调整,以使其更加准确反映真实概率的过程。在提升建模中,由于样本不平衡会引起概率失真,因此需要对概率进行校准。

具体来说,提升建模是对个体观察值的因果效应进行建模。因果效应是指一种事件或行为引起另一种事件或行为的结果,因果效应是一种重要的概念,它用于描述两个变量之间的关系,即一个变量的变化是否会导致另一个变量的变化。在电商和广告场景下,因果效应通常通过实验或观察研究来进行分析,例如可以在某个时间段内对某个产品进行广告投放,然后观察该产品的销售额变化情况,从而判断广告投放对销售额的影响。

提升建模可以定义为两个概率之间的差异,如下式(1)所示,

(1)

其中,提升建模的输出结果,即函数

由于提示建模需要计算概率的差异,因此需要考虑类别分布失衡可能导致的预测概率扭曲问题,为此本实施例提出了四种欠采样方法(包括分类欠采样、分层欠采样、分裂欠采样、和朴素欠采样方法)和三种新的校准方法(包括等比回归校准、重归一会校准和局部邻域校准),并在最大规模的数据集上进行了实证评估,这些数据集表现出高度的类别分布不平衡,并验证了该方法的普适性。

高度类别不平衡可以通过欠采样有效解决。当数据集足够大时,提升模型在考虑类别不平衡时都有所提升,本实施例的方法效果非常显著。基于类变量转换的方法如果不进行欠采样将根本无法工作,但在纠正了类别不平衡后将具有竞争力。在提升随机森林的分类器中,可以观察到在进行欠采样后准确率提高了50-60%;而在之前基于随机森林的方法表现不佳,通过欠采样纠正训练样本不平衡后将改变模型的效果。另外提升模型可以在少于200个少数类正样本的情况下可靠地估计提升效果,本实施例可以应用于提升建模以解决在极低转化率场景下训练数据不平衡的问题,具体将欠采样和校准方法应用于类别不平衡样本的提升建模中,解决了广告和电商推荐等类别不平衡场景下提升建模预估不准的问题。

对于类别不平衡,训练数据的“类别不平衡”在提升建模中已经被用于不同的方面,这个问题在分类的背景下有比较多的研究,但很少应用于提升建模场景中。在分类中处理高类别不平衡的主要技术有两种:赋权和抽样,包括过采样、欠采样和伪造抽样,此外过采样和欠采样有时会结合使用。在赋权时,在损失函数中将少数类的样本赋予更大的权重,以确保算法更多的学习到这些样本,而在过采样中,少数类样本会重新取样,使它们有多个副本。即使在提升建模的背景下,赋权和采样都有可能被使用,但主要使用欠采样,因为它适用于很多场景,例如电子商务、广告等领域,可以轻松地收集大量的负样本,通过欠采样负样本,可以减少训练数据集的大小,从而减少模型的训练时间,相反在这些情况下,过采样会导致极其庞大的训练集。

对于提升建模,本实施例中考虑数据是在随机试验中收集的学习场景,因此受干预事件和未受干预事件的观测结果来自相同的潜在分布

对于欠采样方法,本实施例提供了一种训练数据在高类别不平衡情况下的提升建模方法,可以使用欠采样作为技术解决方案,首先定义用于处理欠采样数据估计概率的基本概念和符号,提出了四种针对提升问题的不同欠采样策略,这些方法在丢弃哪些训练样本以及以什么比例丢弃存在差异。对于欠采样过程,欠采样是指随机丢弃大多数类别的样本,以更好地平衡正负样本之间的比率。对于所有提出的方法,可以始终保留所有正样本,并丢弃一些负样本,本实施例均在假设

在具体实现中,通过删除负样本实现欠采样,首先确定正样本(少数类)的数量,这将是欠采样后负样本(多数类)的目标数量;从负样本中随机选择与正样本数量相同的样本,这意味着随机删除多数类中的一些样本,直到它的数量与少数类相等;将随机选择的负样本与原始的正样本合并,形成一个新的平衡数据集;为了确保数据的随机性,可以选择重新打乱新的平衡数据集的顺序;在欠采样后,可以继续进行任何其他的数据处理步骤,如特征工程、数据标准化等。欠采样可能会导致信息丢失,因为实际上是在删除多数类的一些样本。因此欠采样可能不总是最佳选择,特别是当数据集非常不平衡时。在这种情况下可能需要考虑其他方法,如过采样、生成合成样本或使用特定的算法和评估指标来处理不平衡数据。

具体地,在进行欠采样处理时,可以计算要删除的负样本数量,首先基于欠采样参数s计算要从数据集中删除的负样本的数量;随机选择负样本进行删除,具体从原始数据集中随机选择上面计算出的负样本数量,并将它们从数据集中删除;更新数据集,具体删除选定的负样本后,得到一个新的数据集,其中正样本的占比是增加的,而负样本的数量是减少的。参数k和s之间的关系可以通过以下方式确定:即欠采样后,正样本和负样本的比例应该接近或等于k,因此可以根据所需的正负样本比例 k来选择合适的欠采样参数s。

具体可以定义正样本变化因子

(2)

其中,

可以定义欠采样参数

(3)

最终选择使用正样本变化因子

正样本变化因子

(4)

这直接来自于欠采样过程,将负训练样本的比例

进一步地,如图10所示,显示了欠采样的效果。在存在高类别不平衡的情况下,只有非常少的观测结果为正类(即填充斜线的圆圈)。为了改善这种情况,可以通过

在图10中,假设用最大似然法,具体根据正负样本比例的比率在

具体地,在提升建模中的欠采样处理过程中,上述处理适用于任何删除负样本的欠采样方法。为此本实施例提出了四种不同的欠采样方法,可用于改善提升建模中的类别平衡问题,这些方法在处理负样本被丢弃的比率上有所不同。为了表示这一点,引入了额外的符号,正样本变化因子k和欠采样参数s分别用

对于分类欠采样,二分类模型直接为已触发干预事件或未触发干预事件的样本分别训练两个模型,因此可以分别使用标准的分类欠采样方法,以提高这些模型的准确性。即可以分别为已触发干预事件或未触发干预事件的样本进行欠采样,始终只丢弃负样本。更正式地定义如下式(5),

(5)

其中,

对于朴素欠采样,在不考虑干预事件和未干预事件观测之间差异的情况下,均等概率地删除负样本,这对应于像分类问题一样进行欠采样,而没有考虑到干预和未干预观测之间的差异。干预和未干预观测通常具有不同的平均正率,导致类别不平衡严重程度不同。此外由于干预和未干预观测通常来自不同的底层分布,最佳欠采样率也会不同。朴素欠采样忽略了这些因素,并隐含地基于这样一个假设:干预和未干预观测的底层分布和类别不平衡严重程度相似,具体如下式(6)所示,

(6)

进一步地,可以通过公式(3)派生的单个欠采样参数

对于分层欠采样,与朴素欠采样类似,它使用一个共同的正样本变化因子

(7)

与朴素欠采样相反现在针对两个类别分别使用不同的欠采样参数

如式(4)所示,欠采样过程以非线性方式改变模型的预估概率。但是如果对于所有

对于分裂欠采样,使用不同的

(8)

这与分类欠采样的方程式等效,但是现在需要选择

(9)

其中,

对于上述欠采样方法,可以根据特定的应用场景、数据特性以及模型的目标进行选择,若触发干预事件的和未触发干预事件的样本之间的分布差异很大,那么需要考虑使用分类欠采样或分裂欠采样,因为这两种方法都允许对这两类样本使用不同的欠采样率。若触发干预事件的和未触发干预事件的样本的分布和类别不平衡程度相似,那么可以采用朴素欠采样。若目标是获得最佳的模型性能,那么可能需要尝试所有的方法,并使用交叉验证或留出验证集来评估每种方法的性能。若目标是简化模型和减少计算成本,那么可以选择朴素欠采样或分层欠采样,因为这两种方法处理过程相对简单。

对于校准方法,所有欠采样方法都以非线性方式扭曲了模型预估的概率,具体如式(4)所示。当仅需要对模型预估结果进行排序时,普通欠采样和分层欠采样都能产生充分准确的排序结果而无需校准。然而对于分类和分裂欠采样,则不是这种情况,这两种方法都改变了有干预组和无干预组的概率,因此最终提升建模的估计值与真实的值差异会很大。为此,需要校准提升建模的估计值以进行下游处理。例如,在在线商店中使用免费送货作为干预事件时,需要校准增益估计

其中,组合提升模型的两个模型是指在处理提升建模时,为有干预的和无干预的样本分别训练的两个模型。具体来说,第一个模型是针对有干预的样本(t=1)训练的模型,第一个模型预测在给定干预下,样本属于正类的概率;第二个模型是针对未经干预的样本(t=0)训练的模型,第二个模型预测在没有给定干预的情况下,样本属于正类的概率。

对于等比回归校准处理,等比回归通过产生一个函数

进一步地,等比回归校准是一种非参数的方法,用于校准分类器的预测概率。具体是找到一个回归函数,使得预测的概率和真实的概率之间的误差最小。具体地,将数据分为两部分,一部分用于训练分类器,另一部分用于校准;使用第一部分数据训练分类器,得到原始的预测概率;使用第二部分数据进行校准;根据分类器的原始预测概率对第二部分数据进行排序;数据被分为多个段,每个段内的数据点具有相似的原始预测概率;对于每个段,计算该段内所有数据点的真实标签的平均值,这个平均值代表了该段的真实概率;使用原始预测概率作为输入,使用每个段的真实概率作为目标输出,拟合一个非递减的线性函数,这个函数是分段线性的;对于新的数据点,首先使用分类器得到原始的预测概率p,然后使用等比回归函数调整这个原始概率p,得到校准后的概率。

对于重归一化校准处理,将重归一化用于校准分层欠采样的估计值。具体从欠采样数据中估计得到的

具体地,重归一化校准处理涉及的Platt缩放是一个参数方法,它假设分类器的输出可以通过逻辑函数进行校准。具体将分类器的原始输出p作为逻辑回归模型的输入,并使用真实的标签进行训练。Platt缩放的公式为:p_new = {1 + exp(A times p + B)} 其中,p是分类器的原始输出,A和B是通过逻辑回归学习的参数,结果是调整后的概率输出。在具体实现时,通常将数据分为两部分,一部分用于训练分类器,另一部分用于校准;然后使用第一部分数据训练分类器,使用第二部分数据进行校准。

对于局部邻域校准处理,使用两个输入概率来产生一个校准增益估计值。使用两个输入概率使得校准方法可以改变观察之间的提升模型估计值的排名。这是通过

(10)

其中,

(11)

(12)

假设模型的输出近似于

对于上述校准方法,可以根据模型的目的、欠采样的类型、模型的复杂性、数据的特性或者实验与验证等至少一个方面进行选择。具体地,若模型的主要目的是对预估结果进行排序,那么普通欠采样和分层欠采样可能已经足够,因为它们可以产生准确的排序结果而无需校准;但若模型需要更精确的概率估计,那么可能需要进一步的校准。进一步地,分类欠采样和分裂欠采样会更大地扭曲模型预估的概率,因此对于这两种方法,可能需要更复杂的校准方法,如局部邻域校准。此外,简单的模型可能只需要简单的校准方法,如重归一化校准,但对于更复杂的模型,可能需要使用等比回归或τ-等比回归来确保提升建模估计与真实情况相符。进一步地,若数据中存在很多噪声,或者样本不均衡非常严重,那么可能需要更复杂的校准方法来确保模型的准确性。此外,在实际应用中,最佳的方法是尝试多种校准方法,并使用交叉验证或其他模型验证技术来确定哪种方法最适合你的数据和模型。综合而言,选择校准方法的过程是迭代的,结合理论知识和实际验证来确定最佳策略,不同的数据集和业务场景可能需要不同的校准方法,因此重要的是要灵活并随时准备调整策略以获得最佳结果。

提升模型是一种预测模型,用于估计特定营销策略对潜在客户的影响,其目的是优化资源分配,确保营销活动针对最有可能产生正面响应的客户。提升模型可以确保营销资源被有效地分配给最有可能产生正面响应的客户,还能提高ROI(Return OnInvestment,投资回报率),即通过针对性的营销策略,提高投资回报率;还可以实现客户洞察,即能够了解哪些客户特征与正面响应最相关,为未来的营销策略提供洞察;还可以实现持续优化,即随着新数据的收集,模型可以持续进行优化,以适应市场变化。对于提升模型在的整体流程、输入、处理和输出,具体可以如下。

对于整体流程:进行数据收集,具体收集过去的营销活动数据,包括客户特征、购买历史、营销活动响应等;进行数据预处理,具体清洗数据,处理缺失值,进行特征工程;进行模型训练,具体使用历史数据训练提升模型;进行模型验证,具体使用验证集评估模型的性能;进行模型部署,具体将模型应用于实际的营销策略中;进行结果评估,具体检测并评估营销活动的效果,持续优化模型。

对于输入模块,可以包括账号特征、历史营销活动数据或者外部数据等,其中,账号特征可以包括账号持有用户的年龄、性别、地理位置、浏览历史、购买历史等;历史营销活动数据可以包括电子邮件营销、广告点击率、优惠券使用情况等;外部数据可以包括季节性、节假日、经济指标等,这些可能影响购买决策。

对于处理模块:进行数据预处理,具体包括标准化、归一化、处理缺失值、特征选择和特征工程;进行模型选择,包括选择合适的算法,如决策树、随机森林、梯度提升机、神经网络等;进行模型训练,具体可以使用训练数据集训练模型;进行模型优化,具体通过调整模型参数,进行交叉验证,避免过拟合。

对于输出模块,可以包括提升分数、目标客户列表、性能报告和策略建议等,其中,对于提升分数,具体为每个客户分配一个提升分数,表示营销策略对其产生正面响应的可能性;对于目标客户列表,具体基于提升分数,确定最有可能对营销活动产生正面响应的客户列表;对于性能报告,具体包括模型的准确率、召回率、F1分数(F1 Score)等指标;对于策略建议,可以基于模型结果,为电商营销团队提供策略建议,如哪种营销策略最适合哪些客户群体。

在一具体实现时,以电商领域为例,整体流程如图11所示,包括:步骤1102,收集账号浏览数据和转化数据分别作为正负样本;具体正样本可以是账号触发购买商品的样本,负样本可以是账号未触发购买商品的样本;步骤1104,针对负样本进行欠采样,重新生成训练数据;具体可以根据负样本的数量占比确定欠采样参数,基于欠采样参数从负样本中删除部分样本,以重新生成训练数据;步骤1106,针对不同的电商营销策略,训练提升模型;具体基于重新生成的训练数据针对不同的电商营销策略训练相应的提升模型,提升模型具体可以包括二分类器,以对账号针对不同电商营销策略的响应进行预测;步骤1108,针对提升模型做校准;步骤1110,将校准后提升模型应用于营销策略投放中,商家可以根据校准后提升模型的预测结果,针对进行营销策略投放,以提高商品的转化率。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的事件响应预测模型处理方法的事件响应预测模型处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个事件响应预测模型处理装置实施例中的具体限定可以参见上文中对于事件响应预测模型处理方法的限定,在此不再赘述。

在一个实施例中,如图12所示,提供了一种事件响应预测模型处理装置1200,包括:样本获取模块1202、样本欠采样模块1204、预测模型训练模块1206和模型校准模块1208,其中:

样本获取模块1202,用于获取账号响应样本,账号响应样本中包括正样本和负样本;正样本,是样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是样本账号针对历史干预事件未产生目标类别响应结果的样本;

样本欠采样模块1204,用于当账号响应样本满足样本更新判定条件,根据欠采样策略确定账号响应样本的欠采样参数,并按照欠采样参数针对负样本进行欠采样,根据欠采样后的负样本和正样本得到更新后的账号响应样本;

预测模型训练模块1206,用于基于更新后的账号响应样本训练得到事件响应预测模型;

模型校准模块1208,用于针对事件响应预测模型的预测输出进行校准,得到校准后的事件响应预测模型;校准后的事件响应预测模型,用于预测账号针对干预事件所产生的响应结果。

在一个实施例中,样本欠采样模块1204,还用于从账号响应样本中确定第一账号响应样本和第二账号响应样本;根据欠采样策略确定第一账号响应样本对应的第一欠采样参数,根据欠采样策略确定第二账号响应样本对应的第二欠采样参数;根据第一欠采样参数对第一账号响应样本进行更新,得到更新后的第一账号响应样本,以及根据第二欠采样参数对第二账号响应样本进行更新,得到更新后的第二账号响应样本;根据更新后的第一账号响应样本和更新后的第二账号响应样本,得到更新后的账号响应样本。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;欠采样策略包括分类欠采样方式;样本欠采样模块1204,还用于根据分类欠采样方式,基于第一正样本和第一负样本确定第一正样本变化因子;根据第一正样本变化因子和第一正样本的样本分布参数得到第一账号响应样本对应的第一欠采样参数;根据分类欠采样方式,基于第二正样本和第二负样本确定第二正样本变化因子;根据第二正样本变化因子和第二正样本的样本分布参数得到第二账号响应样本对应的第二欠采样参数。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;欠采样策略包括分层欠采样方式;样本欠采样模块1204,还用于基于正样本和负样本确定正样本变化因子;按照分层欠采样方式,根据正样本变化因子和第一正样本的样本分布参数得到第一账号响应样本对应的第一欠采样参数;按照分层欠采样方式,根据正样本变化因子和第二正样本的样本分布参数得到第二账号响应样本对应的第二欠采样参数。

在一个实施例中,欠采样策略包括朴素欠采样方式;样本欠采样模块1204,还用于根据朴素欠采样方式,基于正样本和负样本确定正样本变化因子;根据正样本变化因子和正样本的样本分布参数得到欠采样参数;按照欠采样参数从负样本中删除选定的负样本,得到欠采样后的负样本;将欠采样后的负样本和正样本组合得到更新后的账号响应样本。

在一个实施例中,欠采样策略包括分裂欠采样方式;样本欠采样模块1204,还用于从账号响应样本中确定第一账号响应样本和第二账号响应样本;根据分裂欠采样方式确定欠采样参数组合;欠采样参数组合中包括第一欠采样参数和第二欠采样参数;根据第一欠采样参数对第一账号响应样本进行更新,得到更新后的第一账号响应样本,以及根据第二欠采样参数对第二账号响应样本进行更新,得到更新后的第二账号响应样本;根据更新后的第一账号响应样本和更新后的第二账号响应样本,得到更新后的账号响应样本。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;样本欠采样模块1204,还用于根据分裂欠采样方式,基于第一正样本和第一负样本确定至少一个第一候选变化因子;根据分裂欠采样方式,基于第二正样本和第二负样本确定至少一个第二候选变化因子;基于至少一个第一候选变化因子和至少一个第二候选变化因子构建变化因子组合;变化因子组合中包括第一正样本变化因子和第二正样本变化因子,第一正样本变化因子属于至少一个第一候选变化因子,第二正样本变化因子属于至少一个第二候选变化因子;根据第一正样本变化因子和第一正样本的样本分布参数得到第一欠采样参数,根据第二正样本变化因子和第二正样本的样本分布参数得到第二欠采样参数;根据第一欠采样参数和第二欠采样参数得到欠采样参数组合。

在一个实施例中,第一账号响应样本中包括第一正样本和第一负样本;第二账号响应样本中包括第二正样本和第二负样本;样本欠采样模块1204,还用于按照第一欠采样参数针对第一账号响应样本中的第一负样本进行欠采样,根据欠采样后的第一负样本和第一正样本得到更新后的第一账号响应样本;按照第二欠采样参数针对第二账号响应样本中的第二负样本进行欠采样,根据欠采样后的第二负样本和第二正样本得到更新后的第二账号响应样本。

在一个实施例中,模型校准模块1208,还用于获得事件响应预测模型针对账号响应样本的样本预测输出;基于样本预测输出和账号响应样本的实际响应标签,确定针对事件响应预测模型的第一校准映射关系;按照第一校准映射关系对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

在一个实施例中,模型校准模块1208,还用于基于欠采样参数确定针对事件响应预测模型的第二校准映射关系;按照第二校准映射关系对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

在一个实施例中,模型校准模块1208,还用于按照正样本变化因子对事件响应预测模型的预测输出进行调整,得到校准后的事件响应预测模型。

在一个实施例中,预测模型训练模块1206,还用于基于更新后的账号响应样本中包括的更新后的第一账号响应样本,训练得到第一预测模型;第一预测模型,用于预测账号针对干预事件未触发时所产生的响应结果;更新后的第一账号响应样本,是通过针对第一账号响应样本进行欠采样得到的,第一账号响应样本,是样本账号针对历史干预事件未触发时产生响应结果的样本;基于更新后的账号响应样本中包括的更新后的第二账号响应样本,训练得到第二预测模型;第二预测模型,用于预测账号针对干预事件触发时所产生的响应结果;更新后的第二账号响应样本,是通过针对第二账号响应样本进行欠采样得到的,第二账号响应样本,是样本账号针对历史干预事件触发时产生响应结果的样本;根据第一预测模型和第二预测模型组合得到事件响应预测模型。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的事件响应预测方法的事件响应预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个事件响应预测装置实施例中的具体限定可以参见上文中对于事件响应预测方法的限定,在此不再赘述。

在一个实施例中,如图13所示,提供了一种事件响应预测装置1300,包括:账号信息获取模块1302和模型预测模块1304,其中:

账号信息获取模块1302,用于获取目标账号的账号信息;

模型预测模块1304,用于通过校准后的事件响应预测模型针对账号信息进行预测,得到目标账号针对干预事件所产生的预测响应结果;

其中,校准后的事件响应预测模型是通过针对事件响应预测模型的预测输出进行校准得到的;事件响应预测模型是基于更新后的账号响应样本训练得到的;更新后的账号响应样本,是根据欠采样后的负样本和正样本得到的;欠采样后的负样本是按照根据欠采样策略确定的欠采样参数针对负样本进行欠采样得到的;正样本,是账号响应样本中样本账号针对历史干预事件产生目标类别响应结果的样本;负样本,是账号响应样本中样本账号针对历史干预事件未产生目标类别响应结果的样本。

上述事件响应预测模型处理装置、事件响应预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储事件响应预测模型数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种事件响应预测模型处理方法和/或一种事件响应预测方法。

本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 文本处理方法、装置、计算机可读存储介质和计算机设备
  • 数据处理方法、装置、计算机设备及计算机可读存储介质
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 基于预测模型的健康管理方法、装置和计算机设备
  • 基于预测模型计算保险价格的方法、装置和计算机设备
  • 目标对象异常预测模型的处理方法、装置和计算机设备
  • 基于WEB的事件响应方法、装置、计算机设备和存储介质
技术分类

06120116498861