掌桥专利:专业的专利平台
掌桥专利
首页

一种基于在线拍卖行业的商品人气分预测方法及系统

文献发布时间:2023-06-19 09:46:20


一种基于在线拍卖行业的商品人气分预测方法及系统

技术领域

本发明涉及电商人气预测技术领域,具体涉及一种基于在线拍卖行业的商品人气分预测方法及系统。

背景技术

在电商平台中,量化和预测每个商品的受欢迎程度,也就是我们所说的商品人气分,有着重要的商业意义,它的目标在于流量运营的效率最大化,即,在平台商业规则等因素的基础上,把流量倾斜给高人气的商品。在个性化推荐、搜索排序、竞价广告、营销活动等场景中,商品的人气分被广泛应用。

人气分预测模型在普通电商平台上的通用做法是:利用商品的冷启动阶段的销量时序特征,结合平台、商家历史及上下文特征等信息,来预测未来的销量。但在拍卖模式下,人气分模型的难点在于:拍卖没有“销量”的概念,一旦达成一笔交易就意味着商品生命周期的结束,因此普通电商人气分模型最重要的冷启动阶段的时序特征,在拍卖模式下是缺失的。所以,当前在线拍卖商品的人气分通常会用店铺的人气分代替,通过店铺的历史成交趋势、好评度等多维度综合打分方式给店铺一个综合分作为店铺下商品的人气分,这样做的缺陷是粒度不够细致,无法区分同个店铺下不同商品的人气差异,也容易给商家钻空子:通过来运营一些高人气的商品来带动其他品质不高的商品的销量。

现有技术中,基于店铺经营健康度的线性模型,是在线拍卖行业当前比较常用的人气分建模方法,通过对店铺人气值的预测来作为商品人气分值。通常的建模过程如下:

1)店铺的经验健康度特征挖掘,通常会通过挖掘店铺的长、中、短期的不同时间维度下的成拍、流拍、流量转化率、销量、售后好评率等特征,也就是我们模型中的第一部分的内容。

2)店铺人气值的正负样本定义,通常会通过业务专家定义一些热门店铺和冷门店铺的规则,把符合规则的两种店铺作为模型预测的正负样本

3)线性模型构建,通常通过逻辑回归的算法来训练模型,模型的输出分会在0-1之间,因此作为店铺的人气分。

建模的方式是:

假设我们设定的店铺健康度特征为X={x

现有人气店铺的建模方式主要存在如下缺点:

一、只计算到店铺维度,颗粒度太粗,无法区分同个店铺下不同商品的人气差异;

二、规则上容易被商家钻空子,通过运营1-2件人气商品带动其他低质商品的销量;

三、无法体现商品卖点差异对人气的影响;

四、无法体现不同的商品标题表达形式对用户购买意愿的影响;

五、建模的过程通常只关注样本的整体排序性,而忽略了头尾部的可靠性。

基于当前的业务问题,我们摒弃了传统的建模策略,创新性地提出了一套基于深度学习且贴合拍卖模式业务的人气分模型构建方法。经实验证明,我们的人气分模型可以使得消费者对平台的商品出价意愿提升10%。

发明内容

本发明提供了一种基于在线拍卖行业的商品人气分预测方法及系统,从店铺累积人气、细分行业热度、商品卖点挖掘和商品的标题内容表达4个方面挖掘商品的人气相关性特征,并作为特征输入给深度学习的模型,能够更准确地实时预测该商品的人气值,使得消费者对平台的商品出价意愿提升。

一种基于在线拍卖行业的商品人气分预测方法,其特征在于,包括以下步骤:

1)对店铺的每日运营数据清洗,挖掘各个时间维度上的健康度指标,得到店铺特征;

2)对细分行业的数据清洗,挖掘行业热度指标,得到行业特征;

3)对商品的内容采用命名实体识别(NER)技术挖掘商品的卖点,得到商品卖点特征;

4)商品表达挖掘模块采用自然语言(NLP)技术挖掘商品标题中的营销亮点,得到标题特征;

5)采用深度学习模块对步骤1)的店铺特征、步骤2)的行业特征、步骤3)的商品卖点特征和步骤4)的标题特征进行模型训练,得到模型训练后的深度学习模块;

6)在商品发布平台上发布商品后,采用模型训练后的深度学习模块对商品进行商品人气分预测。

步骤1)中,通过挖掘店铺的长、中、短期的不同时间维度下的成拍、流拍、流量转化率、销量、售后好评率等能代表店铺经营状况健康度的一系列指标作为店铺的累积人气特征表达,即店铺特征。

步骤2)中,对细分行业的数据清洗,挖掘行业热度指标,得到行业特征,具体包括:

A)对于连续型变量,会等距地将变量分成N份,离散化;

对于离散型变量,用变量的不同取值作为离散化分桶方法;

空值单独作为一个分桶,对于一个变量x,WOE化后第i个分桶的值为

B)WOE化后,x变量转化为n个特征变量x→{x

行业特征工程模块:数据清洗,基于细分行业的数据,挖掘行业热度指标。

步骤3)中,所述的商品的卖点包括:商品的关键属性,包括品牌、核心功能点,所述的核心功能点是指最能代表产品价值的特征,如翡翠的产地、画的作家、等级等。

步骤4)中,所述的营销亮点包括:营销词、产品词、细节词。处理商品的标题,进行分词处理、停止词清洗等操作,并通过规则、词典等运用挖掘标题中的营销词、产品词、细节词等;

商品表达挖掘模块采用自然语言(NLP)技术挖掘商品标题中的营销亮点,得到标题特征,具体包括:

1)将商品标题T转化为n个词的组合T→{w

2)基于tf-idf(term frequency-inverse document frequency)算法结合行业词典的标题关键词挖掘,计算每个标题词i在每个商品j中的权重(同个词在不同商品里的权重会有不同,因此必须分开计算),公式:

f

对所有词计算权重后,过滤权重最低10%的词,得到标题特征。

对于处理后的标题词编码后,进入深度学习模型。

步骤5)中,所述的模型训练包括:

a)对步骤1)的店铺特征、步骤2)的行业特征、步骤3)的商品卖点特征和步骤4)的标题特征归纳分类成训练集、验证集和测试集;

b)采用卷积神经网络和注意力机制模型采用训练集和验证集进行训练和验证,通过测试集测试通过后,进行KS评估值的验证,验证通过后完成模型训练。

步骤b)中,KS评估值的验证采用以下计算公式:

Score

在KS计算过程中,首先对测试集按预测人气分Score

1)

2)Count

3)

4)Count

对每条记录i计算

基于KS值的离线评估保证模型的质量。KS值(全称:Kolmogorov-Smirnov)通常在风控领域用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值,在我们的场景中用于评估对正负样本商品的区分能力。

步骤6)中,模型部署模块:将模型部署到机器学习平台,对接商品发布平台。

基于在线拍卖行业的商品人气分预测方法,还包括以下步骤:

7):监控每日的商品人气分分布,具体包括:

对每日全量商品的人气分进行分段,分成10段,通过PSI((特征稳定性))指数对比每个分段占比的每日波动,与模型第一天上线的情况对比,:

一种基于在线拍卖行业的商品人气分预测系统,包括:

店铺特征工程模块,用于数据清洗,挖掘各个时间维度上的健康度指标;

行业特征工程模块,用于数据清洗,基于细分行业的数据,挖掘行业热度指标;

商品卖点挖掘模块,用于运用NER(命名实体识别)技术基于商品的内容(文本描述)挖掘商品的卖点;

商品表达挖掘模块,用于利用自然语言(NLP)技术,处理商品的标题,进行分词处理、停止词清洗操作;

深度学习训练模块,用于店铺特征工程模块、行业特征工程模块、商品卖点挖掘模块和商品表达挖掘模块的产出,进行模型训练;

模型评估模型,用于基于KS值的离线评估深度学习训练模块的质量;

模型部署模块,用于将模型部署到机器学习平台,对接商品发布平台;

模型监控模块,用于监控每日的商品人气分分布。

与现有技术相比,本发明具有如下优点:

本发明中,基于消费者在平台上的行为进行多维度的分析,将在线拍卖平台的商品人气分归因为1)店铺累积人气2)细分行业热度3)商品卖点4)商品的内容表达(标题),能够更准确地实时预测该商品的人气值,使得消费者对平台的商品出价意愿提升。建模方法(如attention机制)引入到商品人气分预测模型中,将风控建模中的离线评估指标KS值引入人气分建模方法,通过更细粒度的人气分预测,更好的进行流量效率的优化,更准确地挖掘了人气商品,更好地进行了商家之间的流量分配,让一些小众商家的优质拍品有更多机会呈现经过我们多次的实验,本发明可以让用户对拍卖商品的出价率提升10%。

本发明解决了在线拍卖行业的商品人气模型的问题,本发明的思想可以推广到“秒杀”、“活动抽奖”等所有需要个性化内容呈现,但缺失历史交易行为的“即时性”商品人气预测场景,在当前在线拍卖行业的场景中,本发明可以:通过更细粒度的人气分预测,更好的进行流量效率的优化,更准确地挖掘了人气商品;更好地进行了商家之间的流量分配,让一些小众商家的优质拍品有更多机会呈现;经过我们多次的实验,本发明可以让用户对拍卖商品的出价率提升10%。

附图说明

图1为本发明基于在线拍卖行业的商品人气分预测方法的流程和结构示意图;

图2为本发明中深度学习模块的网络结构的示意图,其中,Embedding层为嵌入层:将输入的特征转化为向量;Conv层为卷积网络层;Dense层为神经网络全连接层;Attention层为注意力机制层;Bert为google提供的NLP词向量预训练模型。

具体实施方式

本发明中,术语解释:

在线拍卖行业:将线下拍卖的商业模式搬到线上,商家在电商平台发布商品后,消费者在限定时间内进行竞价,最终价高者得。

商品点击率:电商平台用来衡量商品受欢迎程度的指标之一,计算公式为:点击击次数/商品展示次数

商品出价率:在线拍卖平台用来衡量商品受欢迎程度的指标之一,计算公式为:出价次数/商品被浏览次数

成拍:拍卖行业专有名词,表示一件商品最终被消费者竞价成功,与流拍相反。

流拍:拍卖行业专有名词,表示一件商品在约定的时间范围内,最终因无人出价而交易终结。

KS值:风控建模的最重要的离线评估指标,0-1之间的值,用来衡量模型对好坏样本的区分度,值越大,效果越好,一般意义上大于0.3则表示模型对好坏样本有区分度。

NER技术:从非结构的文本内容中,抽取实体的机器学习算法,“实体”指的是,包括人名、品牌名、类目名等含有商业或者专门意义的专有名词。

卷积网络:深度学习中的一种网络结构,在图像和文本算法中最常用,用来学习局部特征对整体的影响。

注意力机制:深度学习中的一种模型网络构建方式,在图像和文本算法中最常用,用来学习局部特征之间的相关性。

源数据来自来个内容:1)卖家发布商品时填写的商品标题,和商品描述内容2)消费者在在线拍卖平台上的行为日志,包括点击、浏览、出价、支付等数据。本发明所产生的目标数据主要用到流量效率优化的场景,如:a)个性化推荐场景中,作为过滤的条件,在符合用户个性化需求的候选商品中,把人气分低于某个阈值的商品过滤掉,防止用户看到“不靠谱”的商品,过滤的阈值由使用过程中不断调试确定;b)搜索场景:在搜索结果页中,优先展现高人气值的商品,增加转化率。

首先,我们通过对在线拍卖平台的大数据分析,将商品的人气归因为4个方面的因素,这4个方面因素的数据挖掘构成了人气分模型的核心特征:1)店铺累积人气2)细分行业热度3)商品卖点挖掘4)商品的标题内容表达,其中:

1)店铺累积人气。我们通过挖掘店铺的长、中、短期的不同时间维度下的成拍、流拍、流量转化率、销量、售后好评率等能代表店铺经营状况健康度的一系列指标作为店铺的累积人气特征表达。

2)细分行业热度。商品所在的细分行业,其本身在当前的电商平台商业环境下,加上季节等因素影响,有一定的人气差异,这些构成了商品人气分的先验概率。我们通过挖掘该细分行业的长、中、短期,去年同期等不同时间维度下的成拍、流拍、流量转化率、销量等一系列指标作为该行业细分热度的特征表达。

3)商品卖点。商品卖点,构成了商品是否受欢迎的、是否能成爆款的核心特征。我们通过NER技术,挖掘商品本身的卖点,比如翡翠的款式、题材等。

4)商品的标题内容表达。我们通过对商品标题的文本分析,挖掘一些表达中容易博眼球的关键词内容,通过向量化的表示输入深度学习模型学习关键词与人气之间的相关性。

综上所述,我们从4个方面挖掘商品的人气相关性特征,并作为特征输入给深度学习的模型。

第二,我们通过深度学习的模型,充分挖掘上述4个方面特征的隐含信息。在模型学习目标的定义上,我们将商品最终的成拍和流拍作为模型的目标,并且为了消除selection bias,我们将不同曝光量的商品做了不同的权重处理,保证正负样本是在公平的环境下对比。在模型的网络结构上,基于上述的特征工程,我们整合了DNN(Deep NeuralNetworks,深度神经网络)模型来预测人气分。模型采用上述4部分的特征各自组成子网络,最终通过concat层组合到最终的目标。在商品/类目/商品卖点特征部分,采用通用的Dense层学习细粒度的权重;在商品标题信息上,我们采用了Bert+finetuning作为预训练模型,通过CNN(Convolutional Neural Networks,卷积神经网络)+attention机制(注意力机制)来学习不同的词对最终成拍的不同影响权重。

第三,在离线评估指标上,我们充分结合人气分的应用场景特点,借鉴了风控模型中的建模思路:对我们的业务目标来说,对好坏样本的区分度要求要高于样本的排序性,即,人气分的头部和尾部的可靠性要求要高于整体排序性,因此我们模型最终采用KS值作为离线评估指标,作为模型提升人气分在高分段和低分段的准确率的主要考察标准,这个也是我们模型的一大创新点。

第四,我们将模型部署在商品的发布端,当商家发布一个商品后,实时预测该商品的人气值,并接入商品库,保证分数的时效性。

第五,我们部署了一套监控的机制,每日监控当前的人气值分布,防止分数出现抖动,而使得业务场景应用时出现偏差。监控人气值分布,防止抖动的主要方法是,监控每个细分行业下,不同分数段的在线商品量占比,在稳定的模型下,商品量占比的分布应该稳定在确定的范围内小幅度变动,如果发现变动幅度有增大的趋势,则需要重新训练模型。

如图1所示,本发明包含以下模块:

1、店铺特征工程模块:数据清洗,基于店铺的短、中、长期运营数据,挖掘各个时间维度上的健康度指标;具体流程:

1)变量初筛:通过数据清洗,得到所有店铺维度的健康度指标X={x

店铺的最近3/7/15/30/60/90/180天的浏览次数、

店铺的最近3/7/15/30/60/90/180天的搜索引导浏览次数、

店铺的最近3/7/15/30/60/90/180天的出价次数、

店铺的最近3/7/15/30/60/90/180天的成拍次数、

店铺的最近3/7/15/30/60/90/180天的支付订单数、

店铺的最近3/7/15/30/60/90/180天的成交均价、

店铺的最近3/7/15/30/60/90/180天的点击到曝光点击率、

店铺的最近3/7/15/30/60/90/180天的点击到出价转化率、

店铺最近3/7/15/30/60/90/180天的成拍率、

店铺最近3/7/15/30/60/90/180天的流拍率、

店铺最近3/7/15/30/60/90/180天的好评率、

店铺最近3/7/15/30/60/90/180天的投诉率、

店铺最近3/7/15/30/60/90/180天的处罚率、

店铺最近3/7/15/30/60/90/180天的退款率、

店铺最近3/7/15/30/60/90/180天的发拍量、

店铺最近3/7/15/30/60/90/180天的刷单量、

店铺最近3/7/15/30/60/90/180天的流拍商品数、

店铺最近3/7/15/30/60/90/180天的新增粉丝、

店铺在线时长、

店铺等级、

店铺总粉丝数等18个业务维度,6个时间维度上的111个指标。

初筛的策略是:用

2)基于IV值((Information Value))的变量二次筛选。基于第一步初筛得到的变量,再计算每个变量的IV值,在本发明中任意变量x,对应的IV值公式是

3)通过二次过滤,最终得到top50的变量进入模型

2、行业特征工程模块:数据清洗,基于细分行业的数据,挖掘行业热度指标。具体流程:

1)基于WOE(全称:weight of evidence,通常用来表示变量的权重)化的特征加工。因为行业的特征变量来自行业下的所有店铺,所以一般变量值较大,为了深度学习模型更好的收敛,我们先采用了变量的WOE化处理,对于连续型变量,首先我们会等距地将变量分成N份(离散化),对于离散型变量,我们直接用变量的不同取值作为离散化分桶方法,无论是离散还是连续型变量,空值单独作为一个分桶。所有对于一个变量x,WOE化后第i个分桶的值为

2)WOE化后,x变量转化为n个特征变量x→{x

3、商品卖点挖掘模块:基于商品的内容(文本描述),运用NER(命名实体识别)技术,挖掘商品的卖点。命名实体识别通常在工业界用来进行文章中的人名、机构名、地名、时间、日期、货币和百分比的识别,本发明引入这项技术用来识别文玩商品的关键属性(也就是卖点)。经过NER识别后的卖点,会进行标准化处理,主要是指全局唯一的编码。商品对应的{产地:新疆;颜色:翠绿;等级:A货}会编码为:{10:1001;11:1002;12:1003},以此类推,保证每个属性对应的编码是全局唯一的,编码后的商品卖点进入模型。

4、商品表达挖掘模块:利用NLP(Natural Language Processing,自然语言处理)技术,处理商品的标题,进行分词处理、停止词清洗等操作,并通过规则、词典等运用挖掘标题中的营销词、产品词、细节词等。具体流程:

1)对商品标题预处理,1>分词;2>过滤停止词(停止词是指NLP里常见的对介词、助词、语气词等不影响语义的词,通常会有通用的停止词典),预处理完成后,商品标题T转化为n个词的组合T→{w

2)基于tf-idf结合行业词典的标题关键词挖掘。计算每个标题词i在每个商品j中的权重(同个词在不同商品里的权重会有不同,因此必须分开计算),公式:

3)对于处理后的标题词编码后,进入深度学习模型。

5、深度学习训练模块:利用上述3个模块的产出,进行模型训练。模型的网络结构如下:

1)X

2)X

3)X

4)X

如图2所示,前两部分会各自区分连续型和离散型变量,连续型变量直接进Dense层(全连接层),离散型变量进Embedding层(嵌入层)后进入卷积,再和连续型变量的Dencse层组合在一起进Concat层:Concat

后两部分各自Embedding(嵌入层)后,进入Attention层(注意力机制):Attention

Concat

Concat(Conv

最后进入一个全连接层得到最终结果:y

预测的结果与样本的真实值做交叉熵损失函数,并用随机梯度下降求解:

6、模型评估模型:基于KS值的离线评估保证模型的质量。KS值(全称:Kolmogorov-Smimov)通常在风控领域用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值,在我们的场景中用于评估对正负样本商品的区分能力。计算公式:

在KS计算过程中,首先对测试集按预测人气分Score

1)

2)Count

3)

4)Count

对每条记录i计算

7、模型部署模块:将模型部署到机器学习平台,对接商品发布平台。

8、模型监控模块:监控每日的商品人气分分布,保证模型的稳定性和不偏移。具体的监控方式是:对每日全量商品的人气分进行分段,分成10段,通过PSI指数对比每个分段占比的每日波动(与模型第一天上线的情况对比):

本发明中,整个商品人气分模型的流程如下:

1、特征工程阶段:对接在线拍品平台的商品及用户行为数据,产出4个内容的数据1)店铺特征工程模块,产出店铺健康度相关特征2)行业特征工程模块,产出细分行业的热度相关特征3)商品卖点挖掘模块,产出商品的卖点内容特征4)商品表达挖掘模块,产出商品的标题分词及NLP处理结果的特征。4类特征分别输入到深度学习模型。

2、深度学习阶段:对4类特征,构建4个子网络,每个网络各自训练,其中离散型特征采用embedding方法,卖点及标题文本特征使用CNN+Attention层,最终汇总到一个dense层进行训练。

3、模型部署阶段:深度学习的模型部署到机器学习平台,对接商品发布平台,对每个新发布的商品产出一个人气分记录到商品发布平台,及同步到数据仓库

4、模型监控:对同步到数据仓库的人气分,每日进行监控,查看不同行业的人气分分布变化。

本发明通过更细粒度的人气分预测,更好的进行流量效率的优化,更准确地挖掘了人气商品,更好地进行了商家之间的流量分配,让一些小众商家的优质拍品有更多机会呈现,经过我们多次的实验,本发明可以让用户对拍卖商品的出价率提升10%。

相关技术
  • 一种基于在线拍卖行业的商品人气分预测方法及系统
  • 一种基于二分数据修补与扰动因子的商品价格预测方法
技术分类

06120112295479