掌桥专利:专业的专利平台
掌桥专利
首页

交易转化分析方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:54:11


交易转化分析方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种交易转化分析方法、装置、设备及存储介质。

背景技术

随着移动互联网的飞速发展,用户在各种APP上停留的时间越来越长,由此产生了海量的用户日志数据。这些数据有很多记录了用户的行为信息,包括登录行为、浏览行为、问诊医疗数据、搜索数据、购物交易数据、阅读文章数据等等,通过分析用户的行为数据可以对企业决策产生重要的影响。对于部分互联网公司来说,预测新注册用户的交易转化率是一种现实的需求。在人口红利结束的时代,流量的获取越来越难,获取新客成本越来越高,在这种前提下,如何引导新注册用户快速产生交易,预测交易转化情况,挖掘影响交易转化行为的因素排名,是一项具有理论意义和实践意义的重要需求,例如在科技金融领域或电商领域,通过对金融产品或商品的潜在客户进行预测从而进行策略调整,提高产品转化率。

传统的新注册用户交易转化的预测,主要从宏观角度利用专家经验法自上而下的探索影响因素大类,再定性的分析交易用户的特点,但专家经验法受制于专家的专业水平和权威性、专家的心理状态、专家对影响因素的兴趣等等,都可能影响结论的准确程度,导致结果的准确度较低,同时由于流程较为复杂,耗时较长,导致效率较低。

发明内容

本发明的主要目的在于解决现有的对用户的交易转化预测,准确度和效率均较低的技术问题。

本发明第一方面提供了一种交易转化分析方法,包括:

基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

识别所述历史用户数据集中各样本在预设时间内的交易行为,并基于所述交易行为将所述历史用户数据集进行正负样本划分,得到正样本集和负样本集,其中,所述交易行为包括发生交易和不发生交易,所述正样本集为在预设时间内所有发生交易的样本的集合,所述负样本集为在预设时间内所有不发生交易的样本的集合;

分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

将所述模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

接收待预测用户集中的待预测用户的用户行为数据,并将所述用户行为数据输入至所述交易预测模型中,得到所述待预测用户的预测交易结果;

根据所述预测交易结果,计算所述待预测用户集的交易转化率。

可选的,在本发明第一方面的第一种实现方式中,在所述分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据之前,还包括:

根据预设的时间间隔,对所述历史用户数据集进行分组,得到至少一组历史用户数据组;

计算所述历史用户数据组中的各样本之间的夹角余弦相似度。

可选的,在本发明第一方面的第二种实现方式中,所述分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据包括:

确定所述历史用户数据组中的第一样本,并从历史用户数据组中的其它样本中筛选与所述第一样本之间的夹角余弦相似度最大的n个样本,其中,n为不小于三的自然数;

当所述第一样本是正样本时,则确定所述n个样本中负样本的数量;

若所述n个样本中负样本的数量大于n/2,则将所述n个样本中的负样本从所述历史用户数据组中删除;

当所述第一样本是负样本时,则确定所述n个样本中正样本的数量;

若所述n个样本中正样本的数量大于n/2,则将所述第一样本从所述历史用户数据组中删除;

根据其他样本之间的夹角余弦相似度,重复上述数据清洗过程,直至对历史用户数据集中的所有样本均进行数据清洗处理;

将数据清理后剩余的样本作为模型输入数据。

可选的,在本发明第一方面的第三种实现方式中,所述神经网络由卷积神经网络和长短记忆人工神经网络构成,所述将所述模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型包括:

将所述模型训练数据输入所述神经网络的嵌入层中,生成所述模型训练数据的特征向量;

通过所述神经网络的中的卷积神经网络,提取所述特征向量的特征序列;

将所述特征序列输入所述神经网络中的长短期记忆人工神经网络,获取所述特征序列的历史时间序列,并将所述输入所述神经网络的全连接层,得到二维预测结果;

根据所述二维预测结果计算神经网络的损失函数,并采用梯度下降方法循环迭代使得所述损失函数收敛,反向传播更新所述神经网络的网络参数;

基于所述网络参数调整所述神经网络,得到交易预测模型。

可选的,在本发明第一方面的第四种实现方式中,所述将所述模型训练数据输入所述神经网络的嵌入层中,生成所述模型训练数据的特征向量包括:

将所述模型训练数据中的每个字符转化独热码向量;

将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的特征向量。

可选的,在本发明第一方面的第五种实现方式中,在所述基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集之前,还包括:

定义埋点内容,并根据所述埋点内容在所述交易客户端上埋点;

当用户在操作所述交易客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;

采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;

将所述分布式文件系统HDFS中的目标字段作为历史用户数据存储至hive数据仓库工具中。

可选的,在本发明第一方面的第六种实现方式中,其特征在于,所述预测交易结果包括预设时间内进行交易和预设时间内不进行交易;

所述根据所述预测交易结果,计算所述待预测用户集的交易转化率包括:

获取所述待预测用户集中待预测用户的第一用户数量;

获取所述待预测用户集中预测交易结果为预设时间内进行交易的待预测用户的第二用户数量;

将所述第二用户数量除以所述第一用户数量,得到所述待预测用户集的交易转化率。

本发明第二方面提供了一种交易转化分析装置,包括:

数据获取模块,用于基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

样本划分模块,用于识别所述历史用户数据集中各样本在预设时间内的交易行为,并基于所述交易行为将所述历史用户数据集进行正负样本划分,得到正样本集和负样本集,其中,所述交易行为包括发生交易和不发生交易,所述正样本集为在预设时间内所有发生交易的样本的集合,所述负样本集为在预设时间内所有不发生交易的样本的集合;

数据清洗模块,用于分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

模型训练模块,用于将所述模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

数据输入模块,用于接收待预测用户集中的待预测用户的用户行为数据,并将所述用户行为数据输入至所述交易预测模型中,得到所述待预测用户的预测交易结果;

转化率计算模块,用于根据所述预测交易结果,计算所述待预测用户集的交易转化率。

可选的,在本发明第二方面的第一种实现方式中,所述交易转化分析装置还包括相似度计算模块,所述相似度计算模块具体用于:

根据预设的时间间隔,对所述历史用户数据集进行分组,得到至少一组历史用户数据组;

计算所述历史用户数据组中的各样本之间的夹角余弦相似度。

可选的,在本发明第二方面的第二种实现方式中,所述数据清洗模块具体用于:

确定所述历史用户数据组中的第一样本,并从历史用户数据组中的其它样本中筛选与所述第一样本之间的夹角余弦相似度最大的n个样本,其中,n为不小于三的自然数;

当所述第一样本是正样本时,则确定所述n个样本中负样本的数量;

若所述n个样本中负样本的数量大于n/2,则将所述n个样本中的负样本从所述历史用户数据组中删除;

当所述第一样本是负样本时,则确定所述n个样本中正样本的数量;

若所述n个样本中正样本的数量大于n/2,则将所述第一样本从所述历史用户数据组中删除;

根据其他样本之间的夹角余弦相似度,重复上述数据清洗过程,直至对历史用户数据集中的所有样本均进行数据清洗处理;

将数据清理后剩余的样本作为模型输入数据。

可选的,在本发明第二方面的第三种实现方式中,所述神经网络由卷积神经网络和长短记忆人工神经网络构成,所述模型训练模块具体用于:

将所述模型训练数据输入所述神经网络的嵌入层中,生成所述模型训练数据的特征向量;

通过所述神经网络的中的卷积神经网络,提取所述特征向量的特征序列;

将所述特征序列输入所述神经网络中的长短期记忆人工神经网络,获取所述特征序列的历史时间序列,并将所述输入所述神经网络的全连接层,得到二维预测结果;

根据所述二维预测结果计算神经网络的损失函数,并采用梯度下降方法循环迭代使得所述损失函数收敛,反向传播更新所述神经网络的网络参数;

基于所述网络参数调整所述神经网络,得到交易预测模型。

可选的,在本发明第二方面的第四种实现方式中,所述模型训练模块具体还用于:

将所述模型训练数据中的每个字符转化独热码向量;

将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的特征向量。

可选的,在本发明第二方面的第五种实现方式中,所述交易转化分析装置还包括数据存储模块,所述数据存储模块具体用于:

定义埋点内容,并根据所述埋点内容在所述交易客户端上埋点;

当用户在操作所述交易客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;

采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;

将所述分布式文件系统HDFS中的目标字段作为历史用户数据存储至hive数据仓库工具中。

可选的,在本发明第二方面的第六种实现方式中,所述预测交易结果包括预设时间内进行交易和预设时间内不进行交易;所述转化率计算模块具体用于:

获取所述待预测用户集中待预测用户的第一用户数量;

获取所述待预测用户集中预测交易结果为预设时间内进行交易的待预测用户的第二用户数量;

将所述第二用户数量除以所述第一用户数量,得到所述待预测用户集的交易转化率。

本发明第三方面提供了一种交易转化分析设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述交易转化分析设备执行上述的交易转化分析方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的交易转化分析方法的步骤。

本发明的技术方案中,通过基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;根据预测交易结果,计算待预测用户集的交易转化率。这种组合神经网络的模型对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

附图说明

图1为本发明实施例中交易转化分析方法的第一个实施例示意图;

图2为本发明实施例中交易转化分析方法的第二个实施例示意图;

图3为本发明实施例中交易转化分析方法的第三个实施例示意图;

图4为本发明实施例中交易转化分析方法的第四个实施例示意图;

图5为本发明实施例中交易转化分析方法的第五个实施例示意图;

图6为本发明实施例中交易转化分析装置的一个实施例示意图;

图7为本发明实施例中交易转化分析装置的另一个实施例示意图;

图8为本发明实施例中交易转化分析设备的一个实施例示意图。

具体实施方式

本发明的技术方案中,通过基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;根据预测交易结果,计算待预测用户集的交易转化率。这种组合神经网络的模型对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中交易转化分析方法的第一个实施例包括:

101、基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

可以理解的是,本发明的执行主体可以为交易转化分析装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要强调的是,为保证数据的私密和安全性,上述历史用户数据集可以存储于一区块链的节点中。

在本实施例中,通过交易客户端埋点对用户原始数据进行实时采集,各交易终端将实时采集到的用户原始数据发送至服务器,服务器将用户原始数据存储至数据库中,将存储在数据库中的不同用户的用户原始数据作为历史用户数据集,其中,所述用户原始数据包括经纬度、国家、时区、网络ip、手机品牌、app版本、手机型号、手机操作系统、用户登录时间、用户在APP页面所有具体制定位置的轨迹时间、携带参数等,根据上述需要的数据事先定义埋点内容并进行埋点,当用户触发产生用户原始数据时,上传采集到的用户原始数据,通过大数据storm处理,批写入Kafka,然后每个小时一个分区写入HDFS上,最终导入到hive(数据仓库工具)中,数据每小时插入上一小时的数据,由此追踪用户行为轨迹并进行解析分析。

102、识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;

在本实施例中,交易行为包括发生交易和不发生交易,正样本集为在预设时间内所有发生交易的样本的集合,负样本集为在预设时间内所有不发生交易的样本的集合。

在本实施例中,从数据仓库工具hive中获取到的历史用户数据集,并进行OLAP(联机分析处理)规范化提取特征制作二维表,提取的特征具体包括:注册时间、性别、昵称、用户类型、生日、省份、城市、身高、体重、年龄、注册渠道、会员等级、手机品牌、app版本、设备id、最后一次访问ip,最近7天访问天数、最近30天访问天数;最近7天问诊天数、最近30天问诊天数,累计问诊次数、问诊过的科室数量、问诊次数最多科室、问诊次数第二多科室、问诊时长、问诊对话消息数、问诊推处方次数、问诊处方支付数、问诊处方成交金额、所有拟诊标签;最近一次访问商品详情页时间、最近一次付款时间、最近7天购买量、最近30天购买量、购买次数最多的一级类目、购买次数最多的二级类目、购买订单总数、最近30天GMV口径订单总量;首次搜索时间、最近一次搜索时间、最近7天搜索次数、最近7天搜索关键字;最近一次浏览健康头条、最近7天点赞健康头条,在注册日期当天起始30天/60天/90天内是否有交易行为等。生成的二维表如下表所示:

103、分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

在实际应用中,交易客户端中的大部分用户为在预设时间内为未进行交易的用户,为多数集,少部分为预设时间内进行了交易的用户为少数集,数据倾斜现象严重,在这样的数据分布的情况下,运用机器学习算法的预测模型可能会无法做出准确的预测,最后的模型显然是趋向于预测多数集的,少数集可能会被当做噪点或被忽视,相比多数集,少数集被错分的可能性很大。从本质上讲,机器学习算法就是从大量的数据集中通过计算得到某些经验,进而判定某些数据的正常与否。但是,不均衡数据集,显然少数类的数量太少,模型会更倾向于多数集。因此采用分段下采样进行样本均衡处理,将历史用户数据集中的部分样本进行剔除,并将剩余的正样本和负样本作为模型输入数据。

在本实施例中,主要使用Tomek Link,Tomek Link表示不同类别之间距离最近的一对样本,即这两个样本互为最近邻且分属不同类别。这样如果两个样本形成了一个TomekLink,则要么其中一个是噪音,要么两个样本都在边界附近。这样通过移除Tomek Link就能“清洗掉”类间重叠样本,使得互为最近邻的样本皆属于同一类别,从而能更好地进行分类。

104、将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

在本实施例中,将数据清洗后的正样本和负样本统一作为模型输入数据,神经网络结构为CNN-lstm-全连接层。模型输入使用CNN,将模型输入数据处理成数值向量,对其中的离散特征如注册时间、性别等通过one-hot处理成独热码,然后通过卷积神经网络的嵌入层(embedding)生成二维稠密不稀疏的特征向量,CNN由接收用户历史行为特征的输入层、对接LSTM输入层的输出层以及多个隐层组成,卷积层可以全面准确的获得影响用户交易转化的核心影响因素,隐层使用最大池化方法进行降维用户行为特征经过卷积操作后,传入池化层进一步降维,同时可以减少过拟合,LSTM接收CNN提取的特征序列,其特有的遗忘门、输入门和输出门可以改变历史记忆状态,更新历史时间序列的神经单元来保持用户行为信息的长时间持续存在,从而预测较长时间后的行为。在实际应用中,在实际应用中使用样本人群30天内的历史观察数据,属于标准的时序数据,使用LSTM相比于XGBoost、GBDT等树模型更适合处理时序数据,最后一层为全连接层,包括两个神经元,对应输出的二维预测结果0,1的概率值。

在本实施例中,模型参数有CNN层卷积的偏置项系数、卷积核的个数和权重,激活函数选择Relu,减轻梯度消失;池化层需要调节最合适的步长和池化尺寸。LSTM部分由于存在遗忘门、输入门、输出门来改变细胞状态,所以要调节的参数包括每个门的输入权重,各个门的循环权重,但是这些参数均为LSTM依据CNN层输出向量自主学习,最开始设置为随机分布,待模型训练开始后根据优化函数,使用梯度下降方法最终将损失函数收敛,最终得到最佳参数,获得交易预测模型。

105、接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;

在本实施例中,将一段时间内交易客户端中新注册的用户作为待预测用户,最终预测这些待预测用户的交易转化率,通过客户端埋点获取待预测用户的用户行为数据,并输入至交易预测模型中,输出结果为一个二维向量,向量的两维表示交易和不交易的概率,一般默认取0.5作为阈值从而翻译为会交易和不会交易。

106、根据预测交易结果,计算待预测用户集的交易转化率。

在本实施例中,例如在待预测用户集中包括有待预测用户100名,通过输入交易预测模型中得到每个待预测用户的预测交易结果,根据预测交易结果为每个待预测用户打上会交易和不会交易两种标签,假设其中待预测用户集中包括有打上会交易标签的用户为30个,则待预测用户集的交易转化率为30%。根据上述交易转化率。若计算得到的待预测用户集的交易转化率较低,则需要对当前的经营策略进行调整。

在本实施例中,通过获取交易客户端埋点采集的历史用户的历史用户数据集;根据所述历史用户在预设时间内是否存在交易行为,将所述历史用户数据集进行正负样本划分,得到正样本和负样本,其中,所述正样本为在预设时间内存在交易行为的样本,所述负样本为在预设时间内不存在交易行为的样本;对所述正样本和所述负样本进行数据清洗处理,将数据清洗后剩余的正样本和负样本作为模型输入数据;根据所述模型输入数据和预设的神经网络,训练得到交易预测模型;将待预测用户的用户行为数据输入至所述交易预测模型中,得到预测交易结果;根据所述预测交易结果,计算所述待预测用户的交易转化率。这种组合神经网络的模型对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

请参阅图2,本发明实施例中交易转化分析方法的第二个实施例包括:

201、基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

202、识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;

本实施例中的步骤201-202与第一实施例中的步骤101-102相似,此处不再赘述。

203、根据预设的时间间隔,对历史用户数据集进行分组,得到至少一组历史用户数据组;

204、计算历史用户数据组中的各样本之间的夹角余弦相似度;

在本实施例中,由于预测样本数据具有时间衰减的特性,所以对历史用户数据集中的样本按照预设的时间间隔进行分组,在本实施例中,将历史用户数据集中的样本按天分组,同一天的正样本和负样本均在同一历史用户数据组内,并分别对每组历史用户数据组内的样本进行数据清洗。

205、确定历史用户数据组中的第一样本,并从历史用户数据组中的其它样本中筛选与第一样本之间的夹角余弦相似度最大的n个样本;

206、当第一样本是正样本时,则确定n个样本中负样本的数量;

207、若n个样本中负样本的数量大于n/2,则将n个样本中的负样本从历史用户数据组中删除;

208、当第一样本是负样本时,则确定n个样本中正样本的数量;

209、若n个样本中正样本的数量大于n/2,则将第一样本从历史用户数据组中删除;

210、根据其他样本之间的夹角余弦相似度,重复上述数据清洗过程,直至对历史用户数据集中的所有样本均进行数据清洗处理;

211、将数据清理后剩余的样本作为模型输入数据;

在本实施例中,主要使用Tomek Link进行数据清洗,Tomek Link表示不同类别之间距离最近的一对样本,即这两个样本互为最近邻且分属不同类别。这样如果两个样本形成了一个Tomek Link,则要么其中一个是噪音,要么两个样本都在边界附近。这样通过移除Tomek Link就能“清洗掉”类间重叠样本,使得互为最近邻的样本皆属于同一类别,从而能更好地进行分类,在本实施例中,主要通过计算不同样本之前的夹角余弦相似度,根据夹角余弦相似度判断两个样本是否为最近邻的样本,针对每个样本均找到预设数量的最近邻样本,在本实施例中,预设数量为3,本发明对预设数量不做限定,针对每个样本通过夹角余弦相似度找出最近的三个样本,若该样本是负标签且最近的三个样本有两个为正标签,则删除它;反之,当最近的三个样本有两个负标签,则去除最近邻中的未购买用户,其余情况全部保留样本。

在本实施例中,每个样本为一个数值向量,向量的每个维度为上述特征的数值表示,其中,对于连续特征,如问诊对话消息数为数值本身,对于离散特征如注册时间离散特征如注册时间,通过将样本表示为数值向量,方便计算两向量之间的余弦夹角相似度。

212、将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

213、接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;

214、根据预测交易结果,计算待预测用户集的交易转化率。

本实施例中的步骤212-214与第一实施例中的步骤104-106相似,此处不再赘述。

本实施例在上一实施例的基础上,详细描述了对正样本和负样本进行数据清洗处理,将数据清洗后剩余的正样本和负样本作为模型输入数据的过程,通过确定历史用户数据组中的第一样本,并从历史用户数据组中的其它样本中筛选与第一样本之间的夹角余弦相似度最大的n个样本,其中,n为不小于三的自然数;当第一样本是正样本时,则确定n个样本中负样本的数量;若n个样本中负样本的数量大于n/2,则将n个样本中的负样本从历史用户数据组中删除;当第一样本是负样本时,则确定n个样本中正样本的数量;若n个样本中正样本的数量大于n/2,则将第一样本从历史用户数据组中删除;根据其他样本之间的夹角余弦相似度,重复上述数据清洗过程,直至对历史用户数据集中的所有样本均进行数据清洗处理;将数据清理后剩余的样本作为模型输入数据。通过本方法对样本进行数据清洗,能够数据倾斜现象,使得后续生成的模型准确率更高。

请参阅图3,本发明实施例中交易转化分析方法的第三个实施例包括:

301、基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

302、识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;

303、分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

本实施例中的步骤301-303与第一实施例中的步骤101-103相似,此处不再赘述。

304、将模型训练数据中的每个字符转化独热码向量;

305、将模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的特征向量;

306、通过神经网络的中的卷积神经网络,提取特征向量的特征序列;

307、将特征序列输入神经网络中的长短期记忆人工神经网络,获取特征序列的历史时间序列,并将输入神经网络的全连接层,得到二维预测结果;

308、根据二维预测结果计算神经网络的损失函数,并采用梯度下降方法循环迭代使得损失函数收敛,反向传播更新神经网络的网络参数;

309、基于网络参数调整神经网络,得到交易预测模型;

在本实施例中,模型输入使用CNN(卷积神经网络),清洗好的数据处理成数值向量,并进行one-hot处理,通过embedding压缩成稠密不稀疏的特征向量。CNN由接收用户历史行为特征的输入层、对接LSTM(长短期记忆人工神经网络)输入层的输出层以及多个隐层表示,卷积层可以全面准确的获得影响用户交易转化的核心影响因素,隐层使用最大池化方法进行降维。卷积运算可以全面准确的获得海量用户行为的有用局部特征,用户行为特征经过卷积操作后,传入池化层进一步降维,同时可以减少过拟合。LSTM接收CNN提取的特征序列,其特有的遗忘门、输入门和输出门可以改变历史记忆状态,更新历史时间序列的神经单元来保持用户行为信息的长时间持续存在,从而预测较长时间后的行为。在实际应用中使用样本人群一个月的历史观察数据,属于标准的时序数据,相比于XGBoost、GBDT等树模型更适合处理时序数据。最后一层为全连接层,包括两个神经元,对应输出的二维预测结果0,1的概率值。模型参数有CNN层卷积的偏置项系数、卷积核的个数和权重,激活函数选择Relu,减轻梯度消失;池化层需要调节最合适的步长和池化尺寸。LSTM部分由于存在遗忘门、输入门、输出门来改变细胞状态,所以要调节的参数包括每个门的输入权重,各个门的循环权重,但是这些参数均为LSTM依据CNN层输出向量自主学习,最开始设置为随机分布,待模型训练开始后根据优化函数,使用梯度下降方法最终将损失函数收敛,获取最佳参数。

310、接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;

311、根据预测交易结果,计算待预测用户集的交易转化率。

本实施例中的步骤310-311与第一实施例中的步骤105-106相似,此处不再赘述。

本实施例在前实施例的基础上,详细描述了训练交易预测模型的过程。通过将模型训练数据输入神经网络的嵌入层中,生成模型训练数据的特征向量;通过神经网络的中的卷积神经网络,提取特征向量的特征序列;将特征序列输入神经网络中的长短期记忆人工神经网络,获取特征序列的历史时间序列,并将输入神经网络的全连接层,得到二维预测结果;根据二维预测结果计算神经网络的损失函数,并采用梯度下降方法循环迭代使得损失函数收敛,反向传播更新神经网络的网络参数;基于网络参数调整神经网络,得到交易预测模型。通过本方法训练得到交易预测模型模型,对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

请参阅图4,本发明实施例中交易转化分析方法的第四个实施例包括:

401、定义埋点内容,并根据埋点内容在交易客户端上埋点;

402、当用户在操作交易客户端产生埋点数据时,与服务器建立连接,将埋点数据上传至服务器,通过服务器解析埋点数据,得到目标字段,并将目标字段发送至Kafka消息队列;

403、采用流式计算框架storm对Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;

404、将分布式文件系统HDFS中的目标字段作为历史用户数据存储至hive数据仓库工具中;

在本实施例中,埋点内容主要为交易客户端中涉及的各类事件,如页面浏览事件(page_evt)、用户事件(user_evt)、启动(start_evt)和退出事件(quit_evt)、点击事件(click_evt),当上述的埋点内容也无法满足业务统计需要时,可对当前的操作定义为自定义事件(custom_evt),通过上述事件,获取用户的经纬度、国家、时区、网络ip、手机品牌、app版本、手机型号、手机操作系统、用户登录时间、用户在APP页面所有具体制定位置的轨迹时间、携带参数等信息并解析为目标字段发送至Kafka消息队列,并通过大数据storm处理,然后每个小时一个分区写入HDFS上。

在本实施例中,目标字段的真实数据存储在分布式文件系统HDFS中,而hive既不存储数据也不直接计算数据,hive上的数据库只是逻辑上的数据库,hive不支持事物,所以不支持OLTP(连接事物处理),更适用与OLAP(联机分析处理),而在后续的阶段中,需要进行OLAP规范化提取特征制作二维表,所以需要将HDFS中的目标字段存储至hive中。

405、基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

406、识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;

407、分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

408、将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

409、接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;

410、根据预测交易结果,计算待预测用户集的交易转化率。

本实施例中的步骤405-410与第一实施例中的步骤101-106相似,此处不再赘述。

本实施例中实施例的基础上,详细描述了数据存储的过程,通过定义埋点内容,并根据所述埋点内容在所述交易客户端上埋点;

当用户在操作所述交易客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;将所述分布式文件系统HDFS中的目标字段作为历史用户数据存储至hive数据仓库工具中。通过本方法,够将用户在客户端中的行为存储为历史用户数据,便于后续进行模型训练。

请参阅图5,本发明实施例中交易转化分析方法的第五个实施例包括:

501、基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

502、识别历史用户数据集中各样本在预设时间内的交易行为,并基于交易行为将历史用户数据集进行正负样本划分,得到正样本集和负样本集;

503、分别对正样本集和负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

504、将模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

505、接收待预测用户集中的待预测用户的用户行为数据,并将用户行为数据输入至交易预测模型中,得到待预测用户的预测交易结果;

本实施例中的步骤501-505与第一实施例中的步骤101-105相似,此处不再赘述。

506、获取待预测用户集中待预测用户的第一用户数量;

507、获取待预测用户集中预测交易结果为预设时间内进行交易的待预测用户的第二用户数量;

508、将第二用户数量除以第一用户数量,得到待预测用户集的交易转化率。

本实施例在前实施例的基础上,详细描述了根据所述预测交易结果,计算所述待预测用户集的交易转化率的过程,通过获取所述待预测用户集中待预测用户的第一用户数量;获取所述待预测用户集中预测交易结果为预设时间内进行交易的待预测用户的第二用户数量;将所述第二用户数量除以所述第一用户数量,得到所述待预测用户集的交易转化率。本方法对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

上面对本发明实施例中交易转化分析方法进行了描述,下面对本发明实施例中交易转化分析装置进行描述,请参阅图6,本发明实施例中交易转化分析装置一个实施例包括:

数据获取模块601,用于基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

样本划分模块602,用于识别所述历史用户数据集中各样本在预设时间内的交易行为,并基于所述交易行为将所述历史用户数据集进行正负样本划分,得到正样本集和负样本集,其中,所述交易行为包括发生交易和不发生交易,所述正样本集为在预设时间内所有发生交易的样本的集合,所述负样本集为在预设时间内所有不发生交易的样本的集合;

数据清洗模块603,用于分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

模型训练模块604,用于将所述模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

数据输入模块605,用于接收待预测用户集中的待预测用户的用户行为数据,并将所述用户行为数据输入至所述交易预测模型中,得到所述待预测用户的预测交易结果;

转化率计算模块606,用于根据所述预测交易结果,计算所述待预测用户集的交易转化率。

需要强调的是,为保证数据的私密和安全性,上述历史用户数据集可以存储于一区块链的节点中。

本发明实施例中,所述交易转化分析装置运行上述交易转化分析方法,所述交易转化分析方法包括:获取交易客户端埋点采集的历史用户的历史用户数据集;根据所述历史用户在预设时间内是否存在交易行为,将所述历史用户数据集进行正负样本划分,得到正样本和负样本,其中,所述正样本为在预设时间内存在交易行为的样本,所述负样本为在预设时间内不存在交易行为的样本;对所述正样本和所述负样本进行数据清洗处理,将数据清洗后剩余的正样本和负样本作为模型输入数据;根据所述模型输入数据和预设的神经网络,训练得到交易预测模型;将待预测用户的用户行为数据输入至所述交易预测模型中,得到预测交易结果;根据所述预测交易结果,计算所述待预测用户的交易转化率。这种组合神经网络的模型对于处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

请参阅图7,本发明实施例中交易转化分析装置的第二个实施例包括:

数据获取模块601,用于基于交易客户端中预先设定的埋点,从交易数据库中采集历史用户的历史用户数据,形成历史用户数据集;

样本划分模块602,用于识别所述历史用户数据集中各样本在预设时间内的交易行为,并基于所述交易行为将所述历史用户数据集进行正负样本划分,得到正样本集和负样本集,其中,所述交易行为包括发生交易和不发生交易,所述正样本集为在预设时间内所有发生交易的样本的集合,所述负样本集为在预设时间内所有不发生交易的样本的集合;

数据清洗模块603,用于分别对所述正样本集和所述负样本集进行数据清洗处理,将数据清洗后的正样本集和负样本集作为模型输入数据;

模型训练模块604,用于将所述模型输入数据输入至预设的神经网络中进行模型的训练,得到交易预测模型;

数据输入模块605,用于接收待预测用户集中的待预测用户的用户行为数据,并将所述用户行为数据输入至所述交易预测模型中,得到所述待预测用户的预测交易结果;

转化率计算模块606,用于根据所述预测交易结果,计算所述待预测用户集的交易转化率。

其中,所述交易转化分析装置还包括相似度计算模块607,所述相似度计算模块607具体用于:

根据预设的时间间隔,对所述历史用户数据集进行分组,得到至少一组历史用户数据组;

计算所述历史用户数据组中的各样本之间的夹角余弦相似度。

可选的,所述数据清洗模块603具体用于:

确定所述历史用户数据组中的第一样本,并从历史用户数据组中的其它样本中筛选与所述第一样本之间的夹角余弦相似度最大的n个样本,其中,n为不小于三的自然数;

当所述第一样本是正样本时,则确定所述n个样本中负样本的数量;

若所述n个样本中负样本的数量大于n/2,则将所述n个样本中的负样本从所述历史用户数据组中删除;

当所述第一样本是负样本时,则确定所述n个样本中正样本的数量;

若所述n个样本中正样本的数量大于n/2,则将所述第一样本从所述历史用户数据组中删除;

根据其他样本之间的夹角余弦相似度,重复上述数据清洗过程,直至对历史用户数据集中的所有样本均进行数据清洗处理;

将数据清理后剩余的样本作为模型输入数据。

可选的,所述神经网络由卷积神经网络和长短记忆人工神经网络构成,所述模型训练模块604具体用于:

将所述模型训练数据输入所述神经网络的嵌入层中,生成所述模型训练数据的特征向量;

通过所述神经网络的中的卷积神经网络,提取所述特征向量的特征序列;

将所述特征序列输入所述神经网络中的长短期记忆人工神经网络,获取所述特征序列的历史时间序列,并将所述输入所述神经网络的全连接层,得到二维预测结果;

根据所述二维预测结果计算神经网络的损失函数,并采用梯度下降方法循环迭代使得所述损失函数收敛,反向传播更新所述神经网络的网络参数;

基于所述网络参数调整所述神经网络,得到交易预测模型。

可选的,所述模型训练模块604具体还用于:

将所述模型训练数据中的每个字符转化独热码向量;

将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的特征向量。

其中,所述交易转化分析装置还包括数据存储模块608,所述数据存储模块608具体用于:

定义埋点内容,并根据所述埋点内容在所述交易客户端上埋点;

当用户在操作所述交易客户端产生埋点数据时,与服务器建立连接,将所述埋点数据上传至服务器,通过所述服务器解析所述埋点数据,得到目标字段,并将所述目标字段发送至Kafka消息队列;

采用流式计算框架storm对所述Kafka消息队列中的目标字段进行拓扑处理,并将拓扑处理后的目标字段按照预设的时间间隔存储至分布式文件系统HDFS;

将所述分布式文件系统HDFS中的目标字段作为历史用户数据存储至hive数据仓库工具中。

可选的,所述预测交易结果包括预设时间内进行交易和预设时间内不进行交易;所述转化率计算模块606具体用于:

获取所述待预测用户集中待预测用户的第一用户数量;

获取所述待预测用户集中预测交易结果为预设时间内进行交易的待预测用户的第二用户数量;

将所述第二用户数量除以所述第一用户数量,得到所述待预测用户集的交易转化率。

本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部分模块的单元构成,通过本装置,能够对处理长时间观察的时序样本有很好的作用,同时特征的自动筛选机制可以更有效的降低特征工程中对专家经验的依赖,提高对新注册用户交易转化预测的效率和准确度。

上面图6和图7从模块化功能实体的角度对本发明实施例中的中交易转化分析装置进行详细描述,下面从硬件处理的角度对本发明实施例中交易转化分析设备进行详细描述。

图8是本发明实施例提供的一种交易转化分析设备的结构示意图,该交易转化分析设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对交易转化分析设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在交易转化分析设备800上执行存储介质830中的一系列指令操作,以实现上述交易转化分析方法的步骤。

交易转化分析设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的交易转化分析设备结构并不构成对本申请提供的交易转化分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述交易转化分析方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 交易转化分析方法、装置、设备及存储介质
  • 企业交易信息分析方法、装置、计算机设备及存储介质
技术分类

06120113098723