掌桥专利:专业的专利平台
掌桥专利
首页

一种基于长短期记忆神经网络的货源投放方法及系统

文献发布时间:2023-06-19 18:37:28


一种基于长短期记忆神经网络的货源投放方法及系统

技术领域

本发明涉及烟草的数字营销技术领域,更具体的,涉及一种基于长短期记忆神经网络的货源投放方法及系统。

背景技术

中国经济由高速增长阶段转向高质量发展阶段,新一轮科技革命和产业变革成为引领内生动力、结构优化的关键。在这样的背景下,新型基础设施建设在中央与国家级别会议被多次提及,根据发改委定义新型基础设施是提供数字转型、智能升级、融合创新等服务的体系,其中数据中心被列入信息基础设施的范畴,数字产业化正在向产业数字化转型升级。

数字营销围绕数据、内容和触点的全面优化展开,其中数据环节包括第一方数据运营、第三方数据、数据中台和数据分析等细分赛道。数字营销的目的在于以全链路的客户数据采集与分析,帮助企业形成更加完整的客户画像,从而精准触达目标客户,提高营销活动的投入产出比。企业需要从渠道接入和整合、全域客户洞察等维度考虑,选择合适的系统,因此,系统的灵活性和扩展性受到格外的关注,以期令企业能够更加从容地应对未来的市场变化。

近年来,烟草行业积极推进数字化技术应用,然而,很多烟草公司现有的货源投放系统、零售终端系统、库存管理系统等数字化系统之间存在着严重的数据孤岛化问题,随着对接系统的增多,数据量日趋庞大,数据利用率显著降低甚至出现数据过载的情况,并没有发挥出数据在数字化转型过程中应有的价值。因此,我们在传统烟草营销过程注重数据存留与筛选的基础上,应用深度学习领域算法等数字化前沿技术,进行数据收集、挖掘与分析,依据数据呈现出的规律,完成对卷烟货源精准投放系统的信息化模块构建,实现全流程的信息化操作闭环和系统的自动运算、生成、应用。

时间序列分析(Time-Series Analysis)是根据已有的历史数据来得到数据随时间序列的变化规律,进而预测未来时间点上数据的方法。根据调查可知,消费者对卷烟的偏好、人员的流动等市场因素都与时间有关,因此我们从时间的维度来进行卷烟销量预测,从而明确市场需求。由于卷烟货源每周投放一次,所以我们据此每周统计一次卷烟的销售情况,选择“周”作为时间序列单位。

长短期记忆(Long Short-Term Memory,LSTM)神经网络是一种特殊的循环神经网络(Recurrent Neural Network,RNN),RNN在训练中很容易出现梯度爆炸或者梯度消失的问题,导致无法处理较长序列数据,从而无法获取长距离数据的信息,而LSTM很好地克服了这一点。显而易见的是,货源投放策略会影响客户的订购量,因此我们将货源投放策略作为神经网络的输入,客户订购量作为神经网络的输出,训练神经网络,从而明确未来订购情况。

RNN展开后由多个相同的单元连续连接,实际上是一个自我不断循环的结构,随着输入数据的不断增加,这个自我循环的结构把上一次的状态传递给当前输入,一起作为新的输入数据进行当前轮次的训练和学习,一直到输入或者训练结束,最终得到的输出即为最终的预测结果。LSTM与RNN的区别在于普通的RNN单个循环结构内部只有一个状态,而LSTM的单个循环结构(又称为细胞)内部有四个状态,相比于RNN,LSTM的循环结构之间保持着一个持久的单元状态不断传递下去,用于决定哪些信息要遗忘或者继续传递下去。一层LSTM是由单个循环结构组成,既由输入数据的维度和循环次数决定单个循环结构需要自我更新几次,而不是多个单个循环结构连接组成,即当前层LSTM的参数总个数只需计算一个循环单元即可。

现有技术有一种基于神经网络的烟草投放量研判方法及系统,属于机器学习及数据挖掘领域,技术方案为:该方法是使用神经网络模型构建卷烟投放量模型,根据烟草市场的特点,将卷烟的特征作为卷烟投放量模型的读取指标,卷烟投放量模型根据训练条件计算出符合要求的卷烟投放量,为客户提供在不同投放量下卷烟的模拟周投放情况,即根据用户所期望卷烟达到订足率条件下,提供用户卷烟的参考投放量;具体如下:S1、获取卷烟的特征数据;S2、对卷烟的相关特征的数据进行预处理;S3、训练卷烟投放量模型;S4、卷烟投放量模型结果展示与使用。

然而现有技术存在对数据利用不充分、价值量低的问题,因此如何发明一种能够充分利用数据,价值量高的货源投放方法,是本技术领域亟需解决的问题。

发明内容

本发明为了解决现有货源投放技术对数据利用不充分、价值量低的问题,提供了一种基于长短期记忆神经网络的货源投放方法及系统,其具有模块化、标准化、智能化的特点。

为实现上述本发明目的,采用的技术方案如下:

一种基于长短期记忆神经网络的货源投放方法,包括以下步骤:

S1.收集货源数据,并对收集到的货源数据进行预处理;通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图;

S2.根据数据地图,构建投放策略;训练长短期记忆神经网络模型,即LSTM模型;

S3.结合时间序列分析,通过训练好的长短期记忆神经网络模型预测当前投放策略的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化;

S4.循环步骤S3,直到达到设定的优化阈值,得到最优投放策略;

S5.输出调控后的货源的投放策略结果。

优选的,所述的步骤S1中,对收集到的货源数据进行预处理,具体为:

S101.在pyecharts库中,使用global包进行全局设置,使用charts包画图,对货源数据中的数据进行描述性统计,绘制html图表;

S102.根据统计后的货源数据,在sklearn库中,使用preprocessing包进行货源数据的预处理,得到预处理数据。

进一步的,所述的步骤S102中,在sklearn库中,使用preprocessing包进行货源数据的预处理,具体步骤为:

S1101.提取货源数据中的主要特征,包括:“客户编码”“档位”“地理位置”“经营规模”“终端细分”“经度”“纬度”“订购量”“销售量”;

S1102.检查提取主要特征是否存在空值或错值,若有则进行填补;

S1103.将主要特征除去“客户编码”“经度”“纬度”之外的特征分为数值特征和分类特征两类;

S1104.对数值特征中的“订购量”和“销售量”特征采用z-score的形式进行标准化;分类特征包括“档位”“地理位置”“经营规模”“终端细分”;对分类特征进行编码,若种类数多于2则进行one-hot编码。

更进一步的,所述的步骤S1中,通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图,具体步骤为:

S1201.将预处理后的货源数据除去“客户编码”“经度”“纬度”后分为K组,随机选取K个数据样本作为初始聚类中心;

S1202.计算每个样本到各个聚类中心的距离,把每个样本分配给距离它最近的聚类中心,聚类中心以及分配给它们的样本就代表一个聚类;

S1203.每被分配一个样本,该聚类的聚类中心就根据聚类中所有现存的样本被重新计算;

S1204.重复步骤S1202和步骤S1203过程直到聚类不再发生变化,得到聚类数据;

S1205.结合“客户编码”、“经度”、“纬度”、聚类数据,形成数据地图。

更进一步的,所述的步骤S2中,训练长短期记忆神经网络模型,具体步骤为:

S201.得到训练用数据集和验证用数据集;

S202.通过训练用数据集构建单层LSTM基础模型,将每个LSTM单元描述为:

f

其中,判定为无用或不相关的历史信息将被遗忘门抛弃,f

将t-1周保留的信息与t周输入的信息共同更新为输入门状态:

i

A

A

其中,i

将t周的客户订购量表示为:

h

其中,h

S203.使用验证集测试模型,根据准确率判断模型是否满足设定的要求;若不满足则调整参数W、b,直到满足设定的要求。

更进一步的,所述的步骤S3中:

时间序列分析,具体为:采用一次指数平滑法进行时间序列分析:

f

其中,f

更进一步的,所述的步骤S3中,计算存销比、订购率、订足率,对当前投放策略进行优化具体步骤为:

S301.计算当前投放策略下货物的存销比,并确定该货物-所处的价位区间和生命周期,判断是否轮换或停止投放,若为是,则完成投放策略调控,否则继续调控;

S302.计算当前投放策略下货物的订足率和订购率,判断是否增加投放限量,若为否,则完成货源投放调控,若为是,则继续调控;

S303.计算当前投放策略下货物的各档位的订足率,并确定该货物所处的市场维度和订单维度,选择投放限量增加的数目。

更进一步的,所述的步骤S301和S302中,生命周期、市场维度、订单维度具体通过以下步骤得到:

S3101.计算货物的增长态势、市场份额两个指标,通过波士顿矩阵,判断品牌规格的生命周期处于导入期、成长期、成熟期或衰退期;波士顿矩阵中,市场份额为X轴、增长态势为Y轴,将主导规格品类内占比5%和销量同比增长0%这两个数值作为划分四个象限的依据,其中:

品牌增长态势=某规格增速与该品类整体增速差值;

品牌市场份额=某规格销量与该品类整体销售比值;

S3102.从市场维度选取社会存销比、条价格指数两项反映市场维度的指标,从订单维度选取订足率、订足面两项反映客户订单维度的指标,引入指标评分表和状态阈值区间表,评价品牌当前在两个维度上所处的“俏、紧、平、松、软”状态。

更进一步的,所述的步骤S5中,采用了集成数据库和web开发技术,采用MySQL,通过终端界面输出调控后的货源的投放策略结果。

一种基于长短期记忆神经网络的货源投放系统,包括数据处理模块、算法仿真模块、终端展示模块;

所述的数据处理模块用于:

收集货源数据,并对收集到的货源数据进行预处理;通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图;

所述的算法仿真模块用于:

根据数据地图,构建投放策略;训练长短期记忆神经网络模型,即LSTM模型;结合时间序列分析,通过训练好的长短期记忆神经网络模型预测当前投放策略的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化;循环优化得到最优投放策略;

所述的终端展示模块用于:

输出调控后的货源的投放策略结果。

本发明的有益效果如下:

本发明构建了基于统计方法和人工智能的货源精准投放系统,通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图,将现有的数据孤问题打通,整合烟草行业相关数据,形成系统方案,构建数据中心原型。本发明还通过结合时间序列分析,通过训练好的长短期记忆神经网络模型预测货物的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化,得到最优投放策略和引入存销比、订购率、订足率,作为货源投放的监测指标;根据监测指标进一步调控投放策略,改变了低效采集数据、简单应用数据、人工处理数据的现状,转为使用高效、智能、便捷的数据管理手段,通过组合市场调控、销量预测等方法,助力营销工作,得到最优的投放策略结果。由此,本发明解决了现有货源投放技术对数据利用不充分、价值量低的问题,具有模块化、标准化、智能化的特点。

附图说明

图1是本发明一种基于长短期记忆神经网络的货源投放方法的流程图。

图2是本发明一种基于长短期记忆神经网络的货源投放系统的整体结构图。

图3是实施例2中本发明一种基于长短期记忆神经网络的货源投放方法的K-means聚类结果图。

图4是实施例2中本发明一种基于长短期记忆神经网络的货源投放方法的基于LSTM神经网络的仿真实验流程图。

图5是实施例2中本发明一种基于长短期记忆神经网络的货源投放方法的信息系统开发流程图。

图6是实施例2中本发明一种基于长短期记忆神经网络的货源投放方法的数据库的表关系图。

图7是实施例2中本发明一种基于长短期记忆神经网络的货源投放方法的品规卷烟的订购量预测图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示,一种基于长短期记忆神经网络的货源投放方法,包括以下步骤:

S1.收集货源数据,并对收集到的货源数据进行预处理;通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图;

S2.根据数据地图,构建投放策略;训练长短期记忆神经网络模型,即LSTM模型;

S3.结合时间序列分析,通过训练好的长短期记忆神经网络模型预测当前投放策略的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化;

S4.循环步骤S3,直到达到设定的优化阈值,得到最优投放策略;

S5.输出调控后的货源的投放策略结果。

实施例2

一种基于长短期记忆神经网络的货源投放方法,包括以下步骤:

S1.收集货源数据,并对收集到的货源数据进行预处理;通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图;

S2.根据数据地图,构建投放策略;训练长短期记忆神经网络模型,即LSTM模型;

S3.结合时间序列分析,通过训练好的长短期记忆神经网络模型预测当前投放策略的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化;

S4.循环步骤S3,直到达到设定的优化阈值,得到最优投放策略;

S5.输出调控后的货源的投放策略结果。

在一个具体实施例中,所述的步骤S1中,对收集到的货源数据进行预处理,具体为:

S101.在pyecharts库中,使用global包进行全局设置,使用charts包画图,对货源数据中的数据进行描述性统计,绘制html图表;

本实施例中,html图表可以嵌入到信息系统中直观地展示市场中各项数据的情况,例如某月内某客户对某品牌在各投放周内的订购量与销售量、某月内各项市场指标(订足率、订足面、存销比、动销比等)在各投放周的变化情况、某月内粗中细支卷烟的销量、某月内销量前十的品规等。

S102.根据统计后的货源数据,在sklearn库中,使用preprocessing包进行货源数据的预处理,得到预处理数据。

在一个具体实施例中,所述的步骤S102中,在sklearn库中,使用preprocessing包进行货源数据的预处理,具体步骤为:

S1101.提取货源数据中的主要特征,包括:“客户编码”“档位”“地理位置”“经营规模”“终端细分”“经度”“纬度”“订购量”“销售量”;

S1102.检查提取主要特征是否存在空值或错值,若有则进行填补;

S1103.将主要特征除去“客户编码”“经度”“纬度”之外的特征分为数值特征和分类特征两类;

S1104.对数值特征中的“订购量”和“销售量”特征采用z-score的形式进行标准化;分类特征包括“档位”“地理位置”“经营规模”“终端细分”;对分类特征进行编码,若种类数多于2则进行one-hot编码。

在一个具体实施例中,所述的步骤S1中,通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图,具体步骤为:

S1201.将预处理后的货源数据除去“客户编码”“经度”“纬度”后分为K组,随机选取K个数据样本作为初始聚类中心;

S1202.计算每个样本到各个聚类中心的距离,把每个样本分配给距离它最近的聚类中心,聚类中心以及分配给它们的样本就代表一个聚类;

S1203.每被分配一个样本,该聚类的聚类中心就根据聚类中所有现存的样本被重新计算;

S1204.重复步骤S1202和步骤S1203过程直到聚类不再发生变化,得到聚类数据;

S1205.结合“客户编码”、“经度”、“纬度”、聚类数据,形成数据地图。

本实施例中,数据地图,即在地图上标明每一个客户的地理位置,不同颜色代表聚类后不同种类的客户,如图3所示。

在一个具体实施例中,所述的步骤S2中,训练长短期记忆神经网络模型,具体步骤为:

S201.得到训练用数据集和验证用数据集;

S202.通过训练用数据集构建单层LSTM基础模型,将每个LSTM单元描述为:

f

其中,判定为无用或不相关的历史信息将被遗忘门抛弃,f

将t-1周保留的信息与t周输入的信息共同更新为输入门状态:

i

A

A

其中,i

将t周的客户订购量表示为:

h

其中,h

S203.使用验证集测试模型,根据准确率判断模型是否满足设定的要求;若不满足则调整参数W、b,直到满足设定的要求。

在一个具体实施例中,所述的步骤S3中:时间序列分析,具体为:

采用一次指数平滑法进行时间序列分析:

f

其中,f

本实施例中,市场状态的各项指标能反应某品牌规格在该价位段的竞争状况,以及确定该品牌规格是否执行市场状态调控规则,但是如何制定调控规则,需要进一步挖掘监测指标的内在联系,分析指标的变化趋势。制定货源投放调控规则时,指标引入过多,会影响货源投放的效率,实践表明投放策略制定要抓住关键指标。

本实施例中,制定的货源投放调控规则包括基于存销比的货源投放决策表、基于订购率和订足率的货源投放面调控策略矩阵、基于各档位订足率的货源投放限量调控策略矩阵。

在一个具体实施例中,所述的步骤S3中,计算存销比、订购率、订足率,对当前投放策略进行优化具体步骤为:

S301.计算当前投放策略下货物的存销比,并确定该货物-所处的价位区间和生命周期,判断是否轮换或停止投放,若为是,则完成投放策略调控,否则继续调控;

本实施例中,计算当前投放策略下货物的存销比后,构建了基于存销比的货源投放决策表,通过存销比的货源投放决策表优化当前投放策略,具体为:

S302.计算当前投放策略下货物的订足率和订购率,判断是否增加投放限量,若为否,则完成货源投放调控,若为是,则继续调控;

本实施例中,计算当前投放策略下货物的订足率和订购率后,构建了基于订购率和订足率的货源投放面调控策略矩阵,通过基于订购率和订足率的货源投放面调控策略矩阵优化当前投放策略,具体为:

S303.计算当前投放策略下货物的各档位的订足率,并确定该货物所处的市场维度和订单维度,选择投放限量增加的数目。

本实施例中,计算当前投放策略下货物的各档位的订足率后,构建了基于各档位订足率的货源投放限量调控策略矩阵,通过基于各档位订足率的货源投放限量调控策略矩阵优化当前投放策略,具体为:

如图6所示,在一个具体实施例中,所述的步骤S301和S302中,生命周期、市场维度、订单维度具体通过以下步骤得到:

S3101.计算货物的增长态势、市场份额两个指标,通过波士顿矩阵,判断品牌规格的生命周期处于导入期、成长期、成熟期或衰退期;波士顿矩阵中,市场份额为X轴、增长态势为Y轴,将主导规格品类内占比5%和销量同比增长0%这两个数值作为划分四个象限的依据,其中:

品牌增长态势=某规格增速与该品类整体增速差值;

品牌市场份额=某规格销量与该品类整体销售比值;

S3102.从市场维度选取社会存销比、条价格指数两项反映市场维度的指标,从订单维度选取订足率、订足面两项反映客户订单维度的指标,引入指标评分表和状态阈值区间表,评价品牌当前在两个维度上所处的“俏、紧、平、松、软”状态。

本实施例中,市场维度指标评分表、订单维度指标评分表,状态区间阈值表,具体为:

市场维度指标评分表

订单维度指标评分表

状态阈值区间表

在一个具体实施例中,所述的步骤S5中,采用了集成数据库和web开发技术,采用MySQL,通过终端界面输出调控后的货源的投放策略结果。

如图5所示,本实施例中,在开发本发明的系统时,首先通过python系统处理输入的基础数据,然后应用MySQL数据库就昂处理数据入库,然后通过Java系统提取数据并按需求计算处结果,然后根据许可证号提取信息展示,然后进入VUE页面1和VUE页面2展示数据,流程完结。

本实施例中,终端展示在开发时提供数据接口为后续研究提供可用数据,将入库的数据可视化,集中展示整个系统的功能,包括操作入口界面以及结果展示界面,使用者可以通过页面点选的方式,连接数据库进行相应的后台处理操作,之后将结果展示在终端界面。

本实施例中,在开发的信息系统中,输入的初始投放策略可以使用历史投放策略,也可以是根据数据地图随机生成的一份投放策略,将其以表格文件的形式(csv或者xlsx)输入到程序中。

输入投放策略文件后点击确定,然后输入想要保存结果的文件路径,再点击确定,即可得到LSTM神经网络预测的订购量结果,并可以查看各品规在各档位的订购趋势。

进行仿真实验时,所用的投放策略文件的数据格式与历史投放策略文件格式一致,数值为随机生成。

生成结果文件的第1列代表卷烟牌号,与卷烟品规一一对应,第2-16列为各档位订购量预测结果。根据预测结果,再加上通过时间序列分析获得的销售量预测结果,计算订足率、存销比,制定该货物的货源投放调控规则,基于该货物的货源投放调控规则对输入系统中的投放策略进行修改,从而生成更好的投放策略。

生成的投放策略再度输入到系统中,重复上述步骤,直到无法基于规则修改投放策略为止,通过程序预测→计算指标→修改策略的循环,从而获得最优的投放策略。

本发明还可视化了各个品牌在各个档位的订购趋势,选择想要的品牌和档位查看预测结果图,系统内提供了分别选择品牌和档位的操作。

如图7所示,以一个品规为例,展示了其在第四档位上前37个投放周期(含历史订购数据)上的订购量趋势预测。

经过历史数据的训练,LSTM神经网络仿真模型的预测准确率非常高,训练均方误差只有0.0094,作为仿真模型,其可靠度达到较高水平。

本发明推动营销模式从粗放营销向数据营销、智慧营销、精益营销转型升级,将体现营销现状和营销结果的数据进行分析比对,推动建立营销服务新模式,能够真正把差异化、个性化服务落实到位,客户服务将更加精准到位;通过探索优化新的管理模式,针对不同市场单元提出差异化管理目标、营销策略、实现路径和考评方式,能够提高营销管理的针对性和有效性,促进营销队伍快速响应市场变化能力和创新发展能力,同时对于客户评价、品牌培育、库存管理等课题的研究也能起到一定积极作用。

实施例3

如图2所示,一种基于长短期记忆神经网络的货源投放系统,包括数据处理模块、算法仿真模块、终端展示模块;

所述的数据处理模块用于:

收集货源数据,并对收集到的货源数据进行预处理;通过K-means算法对预处理后的货源数据进行聚类分析,得到数据地图;

所述的算法仿真模块用于:

根据数据地图,构建投放策略;训练长短期记忆神经网络模型,即LSTM模型;本实施例中,数据处理模块主要应用了Python中的数据分析工具pandas、numpy、sklearn和数据可视化工具pyecharts,统计客户指标,特征提取,数据预处理,K-means聚类,绘制图表;

结合时间序列分析,通过训练好的长短期记忆神经网络模型预测当前投放策略的订购量和销售量,并计算存销比、订购率、订足率,对当前投放策略进行优化;循环优化得到最优投放策略;

引入存销比、订购率、订足率,作为货源投放的监测指标;根据监测指标进一步调控投放策略;

本实施例中,算法仿真模块对历史销售流水数据进行时间序列分析,预测各品规未来卷烟销售量,根据历史投放策略和客户投放周订购数据,训练长短期记忆神经网络,预测各品规未来卷烟订购量,计算指标,最后基于该货物的货源投放调控规则,调整投放策略;

本实施例中,算法仿真模块基于一种迭代的思想构建仿真流程,改进投放策略后,新的投放策略需要再度输入系统中,直到无法改进投放策略为止,通过程序预测→计算指标→修改策略的循环,从而获得最优的投放策略。

所述的终端展示模块用于:

输出调控后的货源的投放策略结果。

本实施例中,终端展示模块,集成数据库和web开发技术,主要用于集中展示整个系统的功能,包括操作入口界面以及结果展示界面,使用者可以通过页面点选的方式,连接数据库进行相应的后台处理操作,之后将结果展示在终端界面。

本实施例中,终端展示模块开发时前后端分离,数据库设计包含客户信息、品规信息、订购信息,并构造了他们之间的表关系。

本发明在烟草行业数字化转型的背景下,针对数据利用不充分、价值量低的难题,为烟草公司提供了一种卷烟货源精准投放方法,采用成熟的数据处理技术,采用比一般神经网络具有更强学习泛化能力的长短期记忆神经网络来进行时间序列分析。设计的数字系统具有模块化、标准化、智能化的特点,可以方便后续基于模型的先进控制算法的设计。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

技术分类

06120115633100