掌桥专利:专业的专利平台
掌桥专利
首页

位置预测方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:23


位置预测方法、装置、设备及存储介质

技术领域

本申请涉及预测技术领域,尤其涉及一种位置预测方法、装置、设备及存储介质。

背景技术

在烟草零售行业,部分商贩为获取更多的利润会贩卖仿制的烟草制品,即假烟。目前对于贩卖假烟的打击主要依赖于电话举报,即消费者购买到假烟后再电话举报,但这种依赖于举报的方法较为被动,获取假烟信息效率较低。

发明内容

本申请的主要目的在于提供一种位置预测方法、装置、设备及存储介质,旨在解决目前获取假烟信息效率较低的技术问题。

为实现上述目的,本申请提供一种位置预测方法,所述位置预测方法包括以下步骤:

对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;

基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;

基于所述聚类结果中各聚类族群的地理位置生成各目标位置。

可选地,所述从所述调查数据中提取仿制烟草制品的目标特征的步骤包括:

从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征;

从所述调查数据中仿制烟草制品的出现时间的第二文本描述,提取所述时间特征;

从所述调查数据中仿制烟草制品的品牌的第三文本描述,提取所述种类特征。

可选地,所述从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征的步骤包括:

若所述第一文本描述不为空,则从所述第一文本描述中提取所述位置特征;

若所述第一文本描述为空,则将所述调查数据生成时的位置信息作为所述位置特征,或者,将所述调查数据填写人员的住址信息作为所述位置特征。

可选地,所述基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果的步骤包括:

通过误差平方和确定所述聚类结果中族群的数量;

通过K均值聚类算法对各所述调查数据进行聚类,得到所述数量的聚类族群。

可选地,所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤包括:

对于所述聚类结果中的任意一个聚类族群,提取所述聚类族群中各调查数据的位置特征得到族群位置特征集;

基于位置特征对所述族群位置特征集进行二次聚类,得到二次聚类族群;

将所述二次聚类族群的族群中心作为所述目标位置。

可选地,在所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤之后,所述方法包括:

对于任意一个目标位置,获取所述目标位置周边预设范围内的烟草制品经营点;

将各烟草制品经营点的经营信息输入至预设风险估计模型,得到各所述烟草制品经营点的风险概率,其中,所述经营信息包括经营人员个人信息以及所述烟草制品流水信息;

将各所述烟草制品经营点和对应风险概率关联输出。

可选地,在所述将各烟草制品经营点的经营信息输入至预设风险估计模型的步骤之前,所述方法包括:

获取历史仿制烟草制品的第一贩卖记录集合和历史正常烟草制品的第二贩卖记录集合,其中,所述第一贩卖记录集合中第一贩卖记录的数量与所述第二贩卖记录集合中第二贩卖记录的数量相同;

基于所述第一贩卖记录集合和第二贩卖记录集合生成训练样本集,其中,所述训练样本集中任意一条训练样本由所述第一贩卖记录或所述第一贩卖记录所记载的经营信息构成,且所述训练样本的标签为正常或仿制;

通过所述训练样本集对所述预设风险估计模型进行训练更新。

此外,为实现上述目的,本申请还提供一种位置预测装置,所述位置预测装置包括:

提取模块,用于对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;

聚类模块,用于基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;

生成模块,用于基于所述聚类结果中各聚类族群的地理位置生成各目标位置。

此外,为实现上述目的,本申请还提供一种位置预测设备,所述位置预测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的位置预测程序,所述位置预测程序被所述处理器执行时实现上述的位置预测方法的步骤。

此外,为实现上述目的,本申请还提供一种存储介质,所述可读存储介质为计算机可读存储介质,所述可储介质上存储有位置预测程序,所述位置预测程序被处理器执行时实现如上述的位置预测方法的步骤。

本申请实施例提出的一种位置预测方法、装置、设备及存储介质。在本实施例中,对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;基于所述聚类结果中各聚类族群的地理位置生成各目标位置。也即,本申请实施例,将从仿制烟草制品调查数据集中的各调查数据提取仿制烟草制品的目标特征,其中,目标特征包括位置特征、时间特征以及种类特征,通过这些目标特征可对调查数据进行聚类处理,得到聚类结果。其中,聚类结果中同一聚类族群的各调查数据所具有的目标特征较为相似,故可认为同一聚类族群的各调查数据所表征的仿制烟草制品信息来源于同一个源头,即同一个商铺。故根据各聚类族群的地理位置生成各目标位置后,目标位置可作为打击贩卖仿制烟草制品的参考信息。相比于传统的电话举报渠道,本申请综合调查数据生成可疑的目标位置作为参考,一方面可提高信息获取的主动性,另一方面,每批次的调查数据可得到多个目标位置,故也可提高信息的获取效率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本申请位置预测方法的第一实施例的流程示意图;

图3为本申请位置预测方法中的第二实施例的流程示意图;

图4为本申请位置预测方法中的第三实施例的流程示意图;

图5为本申请位置预测装置的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

如图1所示,图1是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请实施例的设备可以是服务器,也可以是智能手机、PC、平板电脑、便携计算机等电子终端设备。

如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

此外,如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及位置预测程序。

在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户终端(用户端),与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的位置预测程序,并执行以下操作:

对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;

基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;

基于所述聚类结果中各聚类族群的地理位置生成各目标位置。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

所述从所述调查数据中提取仿制烟草制品的目标特征的步骤包括:

从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征;

从所述调查数据中仿制烟草制品的出现时间的第二文本描述,提取所述时间特征;

从所述调查数据中仿制烟草制品的品牌的第三文本描述,提取所述种类特征。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

所述从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征的步骤包括:

若所述第一文本描述不为空,则从所述第一文本描述中提取所述位置特征;

若所述第一文本描述为空,则将所述调查数据生成时的位置信息作为所述位置特征,或者,将所述调查数据填写人员的住址信息作为所述位置特征。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

所述基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果的步骤包括:

通过误差平方和确定所述聚类结果中族群的数量;

通过K均值聚类算法对各所述调查数据进行聚类,得到所述数量的聚类族群。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤包括:

对于所述聚类结果中的任意一个聚类族群,提取所述聚类族群中各调查数据的位置特征得到族群位置特征集;

基于位置特征对所述族群位置特征集进行二次聚类,得到二次聚类族群;

将所述二次聚类族群的族群中心作为所述目标位置。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

在所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤之后,所述方法包括:

对于任意一个目标位置,获取所述目标位置周边预设范围内的烟草制品经营点;

将各烟草制品经营点的经营信息输入至预设风险估计模型,得到各所述烟草制品经营点的风险概率,其中,所述经营信息包括经营人员个人信息以及所述烟草制品流水信息;

将各所述烟草制品经营点和对应风险概率关联输出。

在一可行实施方式中,处理器1001可以调用存储器1005中存储的位置预测程序,还执行以下操作:

在所述将各烟草制品经营点的经营信息输入至预设风险估计模型的步骤之前,所述方法包括:

获取历史仿制烟草制品的第一贩卖记录集合和历史正常烟草制品的第二贩卖记录集合,其中,所述第一贩卖记录集合中第一贩卖记录的数量与所述第二贩卖记录集合中第二贩卖记录的数量相同;

基于所述第一贩卖记录集合和第二贩卖记录集合生成训练样本集,其中,所述训练样本集中任意一条训练样本由所述第一贩卖记录或所述第一贩卖记录所记载的经营信息构成,且所述训练样本的标签为正常或仿制;

通过所述训练样本集对所述预设风险估计模型进行训练更新。

参照图2,本申请位置预测方法的第一实施例,所述位置预测方法包括:

步骤S10,对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;

需要说明的是,目前在烟草行业,烟草公司在每季度都会对用户的满意度进行调查,通常调查的方式是采用问卷调查,例如,线上线下发放满意度调查问卷进行调查。其中,满意度调查问卷上可以包括针对仿制烟草制品售卖的选项,例如,设置“您周围是否存在假烟或私烟的售卖现象”的问题,若被调查人员选择有,可设置进一步的选项,如,假烟或私烟售卖现象出现的位置、出现的时间以及出现的品牌(其中,私烟可认为是一类品牌)等。将各调查问卷回收后,各满意度调查问卷上针对仿制烟草制品售卖的选项内容即可作为仿制烟草制品调查数据集。

示例性的,对于仿制烟草制品数据调查数据集中的任意一人调查数据,将从该调查数据中提取出仿制烟草制品的目标特征。其中,目标特征可包括有仿制烟草制品出现位置的位置特征、仿制烟草制品出现时间的时间特征以及仿制烟草制品的种类特征。可以理解的,调查数据主要为文本数据,因此,对于位置特征、时间特征以及种类特征的提取,可对文本数据中的文本进行分割得到词组,再从各词组中分别识别不同类型的关键词,得到位置特征、时间特征以及种类特征。具体文本分割和关键词的识别,可参考现有方案,此处,不再赘述。

在一可行的实施方式中,所述从所述调查数据中提取仿制烟草制品的目标特征的步骤包括:

步骤S110,从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征;

步骤S120,从所述调查数据中仿制烟草制品的出现时间的第二文本描述,提取所述时间特征;

步骤S130,从所述调查数据中仿制烟草制品的品牌的第三文本描述,提取所述种类特征。

可以理解的是,在调查问卷中对于仿制烟草制品出现位置、仿制烟草制品出现时间以及仿制烟草制品的种类的填写区域可预先进行划分。可直接区分调查数据中仿制烟草制品的出现位置的第一文本描述、仿制烟草制品的出现时间的第二文本描述以及调查数据中仿制烟草制品的品牌的第三文本描述。因此,对于位置特征提取,可将第一文本描述进行文本分割得到词组,再识别位置类型的词组作为关键词,也即位置特征。同样的,对于时间特征和种类特征的提取,可参照上述位置特征的提取过程,分别对第二文本描述以及第三文本描述进行分词和关检词识别得到时间特征和种类特征,此处将不再赘述。

此外,需要说明的是,调查问卷中设置的问题为“您周围是否存在假烟或私烟的售卖现象”,因此,对于假烟或私烟的售卖可能是填写人员的亲身经历,也可能是填写人员的听说的他人经历,故第一文本描述可能是精确的地址、也可能是模糊的位置,故从第一文本描述提取到的位置特征可精确到具体商铺时,则可直接将该位置作为目标位置。

在一可行的实施方式中,所述从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征的步骤包括:

步骤S111,若所述第一文本描述不为空,则从所述第一文本描述中提取所述位置特征;

步骤S112,若所述第一文本描述为空,则将所述调查数据生成时的位置信息作为所述位置特征,或者,将所述调查数据填写人员的住址信息作为所述位置特征。

需要说明的是的,对于部分调查数据可能会出现第一文本描述缺失的情况,如调查数据填写人员未对出现位置进行描述,则需要对这部分数据进行填补。

示例性的,若第一文本描述不为空,即存在有第一文本描述,则从第一文本描述中提取位置特征即可。若第一文本描述为空,则将调查数据生成时的位置信息作为位置特征,例如,填写调查数据时,可通过填写人员所使用的填写设备(例如智能手机)获取到当前的位置信息(例如,定位),并直接将位置信息作为位置特征即可。或者,将调查数据填写人员的住址信息作为位置特征。通过上述方式对缺失的信息进行填补,保证信息的完整性。

步骤S20,基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;

示例性的,可通过预设的聚类算法,并根据各调查数据的目标特征(如,位置特征、时间特征以及种类特征等)进行聚类。需要说明的是,目前聚类算法种类较多,例如,K均值聚类算法、DBSCAN聚类算法(Density-Based Spatial Clustering of Applications withNoise,基于密度的聚类算法)以及标签聚类算法等。技术人员可根据实际需求选取不同的聚类算法,此处,不进行限制。可以理解的是,在聚类结果中属于同一个聚类族群的调查数据其具有的目标特征是相似的,故可认为属于同一个聚类族群的调查数据所表征的仿制烟草制品信息来源于同一个源头,例如,各仿制烟草制品来源于同一家商店。

在一可行的实施方式中,所述基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果的步骤包括:

步骤S210,通过误差平方和确定所述聚类结果中族群的数量;

步骤S220,通过K均值聚类算法对各所述调查数据进行聚类,得到所述数量的聚类族群。

需要说明的是,在本实施例中,可选用K均值聚类算法,对调查数据进行聚类处理,通常在聚类之前可对调查数据的各目标特征向量化以便于进行聚类,且还需要确定K值,也即聚类结果中族群的数量。其中,K值也可由技术人员随机设置。

示例性的,通过误差平方和确定所述聚类结果中族群的数量,误差平方和也即为SSE(error sum of squares)。例如,可先选取一组K值,并这组K值进行聚类得到聚类结果,并计算每种K值的聚类结果的误差平方和。可选取这组K值中误差平方和最小的K值作为确定的族群的数量,或通过这组K值与这组K值对应的误差平方和得到K值与误差平方之间线性拟合关系,再通过线性拟合关系确定误差平方和最小时对应的K值,并将误差平方和最小时对应的K值作为聚类结果中族群的数量。确定族群的数量(或K值)后,再通过K均值聚类算法对各所述调查数据进行聚类得到所述数量的聚类族群,即K个聚类族群。目前,K均值聚类算法较为成熟,故具体的聚类过程可参考现有方案,此处不再赘述。

步骤S30,基于所述聚类结果中各聚类族群的地理位置生成各目标位置。

示例性的,对于聚类结果中的任意一个聚类族群,可将该聚类族群中各调查数据表征的仿制烟草制品的信息视为一个源头产生的,即视该聚类族群中各调查数据中仿制烟草制品的目标特征均指向一个仿制烟草制品流出地(或者是一个商铺)。可以理解的是,该聚类族群中各调查数据包括有位置特征,将各位置特征所代表的各位置点中相邻的位置点连接,从而形成聚类族群所对应的区域也即地理位置,可将聚类族群所对应的区域的中心位置作为目标位置,也将可以将对应的区域所包括的贩卖烟草制品商品的位置作为目标位置。目标位置即为具有较高的风险存在有仿制烟草制品售卖的位置,从而为打击贩卖假烟行为提供参考。

在一可行的实施方式中,所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤包括:

步骤S310,对于所述聚类结果中的任意一个聚类族群,提取所述聚类族群中各调查数据的位置特征得到族群位置特征集;

步骤S320,基于位置特征对所述族群位置特征集进行二次聚类,得到二次聚类族群;

步骤S330,将所述二次聚类族群的族群中心作为所述目标位置。

示例性的,对于聚类结果中的任意一个聚类族群,提取聚类族权中各调查数据的位置特征得到族群位置特征集。需要说明的是,在本实施例中的二次聚类,仅考虑位置特征,以估计出聚类族群所对应的仿制烟草制品流出地的精确位置。再基于位置特征对族群位置特征集进行二次聚类,值的注意的是,二次聚类时同样可使用K均值聚类算法进行聚类且二次聚类的K值为1即二次聚类的目的在于在仅考虑位置特征的因素的情况下重新确定族群中心,以估计得到精确的仿制烟草制品流出地,也即将族群中心作为述目标位置。

在本实施例中,对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;基于所述聚类结果中各聚类族群的地理位置生成各目标位置。也即,本申请实施例,将从仿制烟草制品调查数据集中的各调查数据提取仿制烟草制品的目标特征,其中,目标特征包括位置特征、时间特征以及种类特征,通过这些目标特征可对调查数据进行聚类处理,得到聚类结果。其中,聚类结果中同一聚类族群的各调查数据所具有的目标特征较为相似,故可认为同一聚类族群的各调查数据所表征的仿制烟草制品信息来源于同一个源头,即同一个商铺。故根据各聚类族群的地理位置生成各目标位置后,目标位置可作为打击贩卖仿制烟草制品的参考信息。相比于传统的电话举报渠道,本申请综合调查数据生成可疑的目标位置作为参考,一方面可提高信息获取的主动性,另一方面,每批次的调查数据可得到多个目标位置,故也可提高信息的获取效率。

参照图3,基于本申请位置预测方法的第一实施例,提出本申请位置预测方法的第二实施例,在本实施例中,与上述实施例相同或相似的部分,可参照上述内容,此处不再赘述。在所述基于所述聚类结果中各聚类族群的地理位置生成各目标位置的步骤之后,所述方法包括:

步骤S40,对于任意一个目标位置,获取所述目标位置周边预设范围内的烟草制品经营点;

步骤S50,将各烟草制品经营点的经营信息输入至预设风险估计模型,得到各所述烟草制品经营点的风险概率,其中,所述经营信息包括经营人员个人信息以及所述烟草制品流水信息;

步骤S60,将各所述烟草制品经营点和对应风险概率关联输出。

需要说明的是,在本申请中生成的目标位置,可能并非是针对某家烟草制品经营点,故对于仿制烟草制品的稽查人员,需人工对周边烟草制品经营点一一排查,人工成本较高。故在本申请中经将进一步通过预设风险估计模型,来给出各烟草制品经营点贩卖仿制烟草制品的风险概率。

示例性的,对于任意一个目标位置,获取该目标位置周边预设范围内的烟草制品经营点,周边预设范围的大小可由技术人员根据实际需求设置,也可将该目标位置所在聚类族群的区域作为上述周边预设范围。将各烟草制品经营点的经营信息输入至预设风险估计模型,得到各烟草制品经营点的风险概率,经营信息包括经营人员个人信息和烟草制品流水信息。其中,经营人员个人信息可以是经营人员在办理相关经营许可手续时录入的个人信息,例如,性别、年龄、文化程度以及征信等。其中,烟草制品流水信息可以是每月的进货量或销售量等。而上述预设风险估计模型,预先经过训练,例如,使用历史发生过售卖仿制烟草制品的经营信息生成训练样本,并通过训练样本对预设风险估计模型进行训练,使得预设风险估计模型具有评估烟草制品经营点售卖仿制烟草制品的风险概率。得到各烟草制品经营点的风险概率后,可将烟草制品经营点和对应风险概率关联输出,而烟草制品经营点的风险概率越高,则其售卖仿制烟草制品的可能性就越高,因此,输出的烟草制品经营点的风险概率可为稽查人员提供参考,使得稽查人员行动时更由针对性,避免一一排查,减少人工成本。

参照图4,基于本申请位置预测方法的第一实施例、第二实施例,提出本申请位置预测方法的第三实施例,在本实施例中,与上述实施例相同或相似的部分,可参照上述内容,此处不再赘述。在所述将各烟草制品经营点的经营信息输入至预设风险估计模型的步骤之前,所述方法包括:

步骤S01,获取历史仿制烟草制品的第一贩卖记录集合和历史正常烟草制品的第二贩卖记录集合,其中,所述第一贩卖记录集合中第一贩卖记录的数量与所述第二贩卖记录集合中第二贩卖记录的数量相同;

步骤S02,基于所述第一贩卖记录集合和第二贩卖记录集合生成训练样本集,其中,所述训练样本集中任意一条训练样本由所述第一贩卖记录或所述第一贩卖记录所记载的经营信息构成,且所述训练样本的标签为正常或仿制;

步骤S03,通过所述训练样本集对所述预设风险估计模型进行训练更新。

示例性的,在本实施例中将对预设风险估计模型进行训练。首先,需要生成训练样本,例如,获取历史仿制烟草制品的第一贩卖记录集合以及历史正常烟草制品的第二贩卖记录集合,第一贩卖记录集合中可记录各曾经有过售卖仿制烟草制品行为的烟草制品经营点的经营信息,即第一贩卖记录,同样的,第二贩卖记录集合中可记录曾经没有售卖仿制烟草制品行为的烟草制品经营点的经营信息,即第二贩卖记录。为保证训练效果,将第一贩卖记录集合中第一贩卖记录的数量与第二贩卖记录集合中第二贩卖记录的数量设置为相同。再通过所述第一贩卖记录集合和第二贩卖记录集合生成训练样本集,例如,对于第一贩卖记录集合中的第一贩卖记录,将该第一贩卖记录记载的经营信息作为样本特征,再将仿制作为该样本特征的标签,从而得到一条训练样本,同样的,对于第二贩卖记录集合中的第二贩卖记录,将第二贩卖记录记载的经营信息作为样本特征,再将正常作为该样本特征的标签,得到一条训练样本。得到训练样本集,在对预设风险估计模型进行训练,例如,对于训练样本集的任意一条训练样本,将训练样本的样本特征输入至预设风险估计模型得到估计结果(为仿制或正常),再基于估计结果与该训练样本的标签之间的差异,对预设风险估计模型的模型参数进行更新,至此完成一轮训练,当达到预设的训练条件后可停止训练,例如,预设的训练条件可以是预设的训练次数,也可以损失函数收敛,也可参照现有的训练方式,此处不再赘述。此外,还需要说明的是,预设风险估计模型在实际中输出的结果可以是仿制或正常,也可以是为仿制的风险概率。

此外,为实现上述目的,参照图5,本申请还提供一种位置预测装置100,所述位置预测装置100包括:

提取模块10,用于对于仿制烟草制品调查数据集中的任意一份调查数据,从所述调查数据中提取仿制烟草制品的目标特征,其中,所述目标特征包括仿制烟草制品出现位置的位置特征、所述仿制烟草制品出现时间的时间特征以及所述仿制烟草制品的种类特征;

聚类模块20,用于基于所述目标特征对各所述调查数据进行聚类处理,得到聚类结果;

生成模块30,用于基于所述聚类结果中各聚类族群的地理位置生成各目标位置。

可选地,所述提取模块10还用于:

从所述调查数据中仿制烟草制品的出现位置的第一文本描述,提取所述位置特征;

从所述调查数据中仿制烟草制品的出现时间的第二文本描述,提取所述时间特征;

从所述调查数据中仿制烟草制品的品牌的第三文本描述,提取所述种类特征。

可选地,所述提取模块10还用于:

若所述第一文本描述不为空,则从所述第一文本描述中提取所述位置特征;

若所述第一文本描述为空,则将所述调查数据生成时的位置信息作为所述位置特征,或者,将所述调查数据填写人员的住址信息作为所述位置特征。

可选地,所述聚类模块20还用于:

通过误差平方和确定所述聚类结果中族群的数量;

通过K均值聚类算法对各所述调查数据进行聚类,得到所述数量的聚类族群。

可选地,所述生成模块30还用于:

对于所述聚类结果中的任意一个聚类族群,提取所述聚类族群中各调查数据的位置特征得到族群位置特征集;

基于位置特征对所述族群位置特征集进行二次聚类,得到二次聚类族群;

将所述二次聚类族群的族群中心作为所述目标位置。

可选地,所述位置预测装置100还包括估计模块40,所述估计模块40用于:

对于任意一个目标位置,获取所述目标位置周边预设范围内的烟草制品经营点;

将各烟草制品经营点的经营信息输入至预设风险估计模型,得到各所述烟草制品经营点的风险概率,其中,所述经营信息包括经营人员个人信息以及所述烟草制品流水信息;

将各所述烟草制品经营点和对应风险概率关联输出。

可选地,所述位置预测装置100还包括训练模块50,所述训练模块50用于:

获取历史仿制烟草制品的第一贩卖记录集合和历史正常烟草制品的第二贩卖记录集合,其中,所述第一贩卖记录集合中第一贩卖记录的数量与所述第二贩卖记录集合中第二贩卖记录的数量相同;

基于所述第一贩卖记录集合和第二贩卖记录集合生成训练样本集,其中,所述训练样本集中任意一条训练样本由所述第一贩卖记录或所述第一贩卖记录所记载的经营信息构成,且所述训练样本的标签为正常或仿制;

通过所述训练样本集对所述预设风险估计模型进行训练更新。

本申请提供的位置预测装置,采用上述实施例中的位置预测方法,旨在解决目前获取假烟信息效率较低的技术问题。与现有技术相比,本申请实施例提供的位置预测装置的有益效果与上述实施例提供的位置预测方法的有益效果相同,且该位置预测装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。

此外,为实现上述目的,本申请还提供一种位置预测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的位置预测程序,所述位置预测程序被所述处理器执行时实现如上述的位置预测方法的步骤。

本申请设备的具体实施方式与上述位置预测方法各实施例基本相同,在此不再赘述。

此外,为实现上述目的,本申请还提供一种存储介质,所述可读存储介质为计算机可读存储介质,所述存储介质上存储有位置预测程序,所述位置预测程序被处理器执行时实现如上述的位置预测方法的步骤。

本申请存储介质具体实施方式与上述位置预测方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • 柔性显示模组及其驱动方法、柔性显示装置
  • 一种显示模组、显示装置及显示装置的制造方法
  • 一种显示模组、显示装置及显示模组的制作方法
  • 柔性模组、显示面板及具有该显示面板的显示装置
  • 一种棱镜组件、光源模组、背光模组及显示装置
  • 一种柔性显示模组及滑卷显示装置
  • 柔性显示模组和滑卷显示装置
技术分类

06120116551090