掌桥专利:专业的专利平台
掌桥专利
首页

基于双模型的到店预测方法、系统、电子设备及存储介质

文献发布时间:2023-06-19 10:24:22


基于双模型的到店预测方法、系统、电子设备及存储介质

技术领域

本发明属于数据处理领域,尤其涉及一种基于双模型的到店预测方法、系 统、电子设备及存储介质。

背景技术

线下商店的客户资源在下单付款之前通常要经历四个阶段:普通客户-留资 客户(即留存资料)-意向客户-下单付款。客户成为意向客户也就是表现出到 店咨询的行为,通常意味着客户具有较高的下单倾向。

机构的销售人员根据留资客户的基本信息、行为特征,构建模型预测每个 留资客户的到店几率,根据客户得分有针对性地进行线下活动邀约。这样可以 将有限的销售人员分配到更具有到店意向的客户身上,进而提高公司的销售额。 因此,一种准确的到店率评价方法对于提高企业的效益至关重要。

现有的技术方案通常根据留资客户的属性数据、行为数据,构建二分类模 型预测客户的到店概率。LightGBM模型由于其预测精确度高、训练速度快等优 点,是现有技术方案中最常使用的模型。而上述模型虽然模型预测精度高,但 是预测概率分布较为极端,预测为正样本的客户概率都集中在1附近,因此无 法对这些客户的到店概率给出一个合理的排序。

发明内容

本申请实施例提供了一种基于双模型的到店预测方法、系统、电子设备及 存储介质,以至少解决客户到店率评价方法中存在预测概率分布较为极端的问 题。

第一方面,本申请实施例提供了一种基于双模型的到店预测方法,包括: 数据获取步骤,获取客户的特征数据;概率预测步骤,使用一第一模型根据所 述特征数据对所述客户的到店概率进行预测,并输出预测结果;概率排序步骤, 使用一第二模型对到店概率不为0的客户进行排序预测,得出客户到店概率的 排序结果,并根据所述排序结果选取邀约对象。

优选的,还包括一模型建立步骤:将所述特征数据划分为训练集和测试集, 并根据所述训练集和测试集对所述第一模型和所述第二模型进行训练和测试, 以建立所述第一模型和所述第二模型。

优选的,所述第一模型为LightGBM模型。

优选的,所述第二模型为逻辑回归模型。

第二方面,本申请实施例提供了一种基于双模型的到店预测系统,适用于 上述一种基于双模型的到店预测方法,包括:数据获取单元,获取客户的特征 数据;概率预测单元,使用一第一模型根据所述特征数据对所述客户的到店概 率进行预测,并输出预测结果;概率排序单元,使用一第二模型对到店概率不 为0的客户进行排序预测,得出客户到店概率的排序结果,并根据所述排序结 果选取邀约对象。

在其中一些实施例中,还包括一模型建立单元:将所述特征数据划分为训 练集和测试集,并根据所述训练集和测试集对所述第一模型和所述第二模型进 行训练和测试,以建立所述第一模型和所述第二模型。

在其中一些实施例中,所述第一模型为LightGBM模型。

在其中一些实施例中,所述第二模型为逻辑回归模型。

第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及 存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行 所述计算机程序时实现如上述第一方面所述的一种基于双模型的到店预测方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现如上述第一方面所述的一种基于双模型 的到店预测方法。

相比于相关技术,本申请实施例提供的一种基于双模型的到店预测方法解 决了现有方案中客户到店概率分布较为极端的问题,能够提高客户到店概率的 区分度,便于企业销售人员根据打分排序进行线下活动邀约。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:

图1为本发明的基于双模型的到店预测方法流程图;

图2为本发明的基于双模型的到店预测系统的框架图;

图3为本发明的电子设备的框架图;

以上图中:

1、数据获取单元;2、模型建立单元;3、概率预测单元;4、概率排序单 元;60、总线;61、处理器;62、存储器;63、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用 以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通 技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本 申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于 本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些 附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过 程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关 的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些 设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的 内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短 语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的 实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施 例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属 技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一 个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申 请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖 不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、 产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤 或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单 元。

LigthGBM是boosting集合模型中的新进成员,由微软提供,它和XGBoost 一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函 数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LightGBM在很 多方面会比XGBoost表现的更为优秀。它有以下优势:更快的训练效率;低内 存使用;更高的准确率;支持并行化学习;可处理大规模数据;支持直接使用 category特征。LightGBM使用的是histogram算法,占用的内存更低,数据分 隔的复杂度更低。其思想是将连续的浮点特征离散成k个离散值,并构造宽度 为k的Histogram。然后遍历训练数据,统计每个离散值在直方图中的累计统计 量。在进行特征选择时,只需要根据直方图的离散值,遍历寻找最优的分割点。

逻辑回归模型(LR)又称logistic回归分析,主要在流行病学中应用较多, 比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概 率,等等。逻辑回归(Logistic Regression)是一种用于解决二分类(0or1) 问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的 可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。注 意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非 数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特 征值加权求和,而非直接相乘。

支持向量机(support vector machines,SVM)是一种二分类模型,它的 基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于 感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的的学习 策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则 化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优 化算法。

以下,结合附图详细介绍本发明的实施例:

图1为本发明的基于双模型的到店预测方法流程图,请参见图1,本发明 基于双模型的到店预测方法包括如下步骤:

S1:获取客户的特征数据。

在具体实施中,线下商店的客户资源在下单付款之前通常要经历四个阶段: 普通客户-留资客户(留过联系方式)-意向客户(到店咨询相关课程)-下单付 款;获取留资客户特征数据,包括但不限于客户基本属性数据、行为统计数据。

S2:将所述特征数据划分为训练集和测试集,并根据所述训练集和测试集 对所述第一模型和所述第二模型进行训练和测试,以建立所述第一模型和所述 第二模型。

在具体实施中,对步骤S1中形成的数据集进行数据预处理,然后按照比 例划分为训练集与测试集;训练集和测试集按照随机比例划分,可选的,划分 比例按照经验选取7:3或者8:2。

可选的,所述第一模型为LightGBM模型。

可选的,所述第二模型为逻辑回归模型。在具体实施中,任意一种预测结 果区分度较大的模型均可作为第二模型,如SVM模型。

在具体实施中,采用LightGBM和逻辑回归(LR)模型分别对训练集数 据构建二分类模型预测客户到店概率,得到训练完成的模型M

在具体实施中,采用训练得到的模型M

S3:使用LightGBM模型根据所述特征数据对所述客户的到店概率进行预 测,并输出预测结果。

S4:使用逻辑回归模型对到店概率不为0的客户进行排序预测,得出客户 到店概率的排序结果,并根据所述排序结果选取邀约对象。

在具体实施中,将训练好的模型部署于线上的生产环境,首先对新来的留 资客户采用LightGBM模型进行到店概率预测,而后对其中预测为到店的客户 再采用逻辑回归模型进行第二次预测,根据逻辑回归模型的打分得出到店客户 的排序,该排序为线下活动推荐邀约客户。

在具体实施中,对LightGBM模型预测为到店的客户采用逻辑回归模型进 行二次预测得到这部分客户的排序,根据得分从高到低依次选取邀约客户,直 到满足预先设定的邀约客户的数量。如果LightGBM模型预测为到店的客户数 量不能够满足预设的邀约数量,则选取全部LightGBM模型预测的到店客户为 邀约客户。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如 一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻 辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步 骤。

本申请实施例提供了一种基于双模型的到店预测系统,适用于上述的一种 基于双模型的到店预测方法。如以下所使用的,术语“单元”、“模块”等可以 实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以 软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。

图2为根据本发明的基于双模型的到店预测系统的框架图,请参见图2, 包括:

数据获取单元1:获取客户的特征数据。

在具体实施中,线下商店的客户资源在下单付款之前通常要经历四个阶段: 普通客户-留资客户(留过联系方式)-意向客户(到店咨询相关课程)-下单付 款;获取留资客户特征数据,包括但不限于客户基本属性数据、行为统计数据。

模型建立单元2:将所述特征数据划分为训练集和测试集,并根据所述训 练集和测试集对所述第一模型和所述第二模型进行训练和测试,以建立所述第 一模型和所述第二模型。

在具体实施中,对步骤数据获取单元1中形成的数据集进行数据预处理, 然后按照比例划分为训练集与测试集;训练集和测试集按照随机比例划分,可 选的,划分比例按照经验选取7:3或者8:2。

可选的,所述第一模型为LightGBM模型。

可选的,所述第二模型为逻辑回归模型。在具体实施中,任意一种预测结 果区分度较大的模型均可作为第二模型,如SVM模型。

在具体实施中,采用LightGBM和逻辑回归(LR)模型分别对训练集数据 构建二分类模型预测客户到店概率,得到训练完成的模型M

在具体实施中,采用训练得到的模型M

概率预测单元3:使用LightGBM模型根据所述特征数据对所述客户的到 店概率进行预测,并输出预测结果。

概率排序单元4:使用逻辑回归模型对到店概率不为0的客户进行排序预 测,得出客户到店概率的排序结果,并根据所述排序结果选取邀约对象。

在具体实施中,将训练好的模型部署于线上的生产环境,首先对新来的留 资客户采用LightGBM模型进行到店概率预测,而后对其中预测为到店的客户再 采用逻辑回归模型进行第二次预测,根据逻辑回归模型的打分得出到店客户的 排序,该排序为线下活动推荐邀约客户。

在具体实施中,对LightGBM模型预测为到店的客户采用逻辑回归模型进 行二次预测得到这部分客户的排序,根据得分从高到低依次选取邀约客户,直 到满足预先设定的邀约客户的数量。如果LightGBM模型预测为到店的客户数量 不能够满足预设的邀约数量,则选取全部LightGBM模型预测的到店客户为邀约 客户。

另外,结合图1描述的一种基于双模型的到店预测方法可以由电子设备来 实现。图3为本发明的电子设备的框架图。

电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。

具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配 置成实施本申请实施例的一个或多个集成电路。

其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而 非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘 驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光盘、磁光 盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB)驱动器或者 两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不 可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内 部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。 在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM) 和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下, 该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory, 简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简 称为EPROM)、电可擦除PROM(ElectricallyErasable Programmable Read-Only Memory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。 在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory, 简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态 随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称 为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文 件,以及处理器61所执行的可能的计算机程序指令。

处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上 述实施例中的任意一种基于双模型的到店预测方法。

在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中, 如图3所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互 间的通信。

通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、 数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总 线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus, 简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构 (Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand) 互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架 构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、 串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA) 总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的 组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描 述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的一种基于双模型的到店预测方法。

另外,结合上述实施例中的一种基于双模型的到店预测方法,本申请实施 例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计 算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一 种基于双模型的到店预测方法。

而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory, 简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或 者光盘等各种可以存储程序代码的介质。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技 术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

相关技术
  • 基于双模型的到店预测方法、系统、电子设备及存储介质
  • 基于BP网络模型的核用锆-4合金耐腐蚀性能预测方法、电子设备、存储介质
技术分类

06120112531256