一种电商数据分析方法
文献发布时间:2023-06-19 15:47:50
技术领域
本发明涉及一种电商数据分析方法。
背景技术
随着电子商务的蓬勃发展,网络购物已成为了时下的必需品,电商平台也在发展中产生了海量的数据;由于大数据技术和人工智能技术的发展,为电商平台带来了全新的模式和价值,现有电商平台用户数据仓库积累数据没有充分利用,导致缺乏面向整个电商企业的统一、完整的数据视图。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种通过分析挖掘互联网电商交易大数据,对采集得到的电商数据进行分析,提供不同维度的信息支持政府对区域电商的管控和趋势的预警的电商数据分析方法。
为了实现上述目的,本发明采用了如下技术方案:一种电商数据分析方法,步骤如下:
(1)数据采集:采集互联网电商交易数据;
(2)数据存储;
(3)数据处理:首先判断数据的质量和特征,然后对数据进行清洗、集成、规范化处理;
(4)数据分析:通过专用工具对采集的数据进行分析;
(5)可视化展示:通过前端展示软件对数据和分析的结果进行展示。
进一步的,数据采集:包括数据产生的时间、条件、格式、内容、长度、限制条件。
进一步的,数据存储:采用基于Hadoop的并行处理技术和非关系型数据库,搭建非结构化的数据管理云平台,满足大数据的海量存储、高并发读写、数据可靠性、复杂关联分析和高可扩展性要求。
进一步的,数据处理:首先判断数据的质量和特征,然后对数据进行清洗、集成、规范化处理;
判断数据质量主要是检查原始数据中是否存在脏数据;
清洗是数据中存在的缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据进行替换或者删除;
集成是将不同的信息采集表按照一定的规则进行合并,生成完成的信息表以供后续处理;
规范化处理主要是对工商地址信息进行处理,根据标准的省市县划分对采集的企业地址进行划分。
进一步的,数据处理:包括店铺刷单、信息乱码、离散值和缺失值的处理,店铺和商品的销售额的对应、店铺和企业信息的对应。
进一步的,数据分析:利用Python对数据进行分析,包括总体分析、B2B分析、B2C分析和对获取的电商数据按平台、地区、领域、行业、品牌、商品类别、时间维度进行分析,生成分析报表。
进一步的,前端展示软件包括:EXCEL、PPT、Word。
进一步的,根据最新采集的企业信息对数据库中已有的企业信息进行更新替换,最新采集的企业数据在数据库中没有的,按照标准的省市县划分将其按照地址进行划分入库;
对商品信息进行预处理、农产品数据分离将采集到的商品信息中存在刷单的数据进行删除,按照商品类目id将属于农产品的商品数据分离开来单独保存;
根据不同平台店铺信息分别计算本月销售额环比,对店铺信息、企业信息和商品信息汇总;
按照不同的平台,将处理好的店铺表、店铺评分表、商品表、企业信息表按照店铺对应的商品计算销售额,店铺的企业名称和企业信息一一对应汇总成完整的平台店铺销售信息表;
对异常店铺进行处理筛选出当月销售额前100家的店铺,查看其商品是否是直播或者刷单商品,然后对其进行处理;
核实店铺销售额信息有无异常店铺商品排查完之后,对处理的商品进行记录,修改其对应的店铺销售额。分平台整体查看当月所采集的店铺销售额趋势是否存在异常,如果有排查问题并解决。
进一步的,将汇总归集好的数据导入至相应的数据库中,在数据库中再对数据进行整体分析排查有无异常。
进一步的,按照不同维度输出不同的报表,然后根据地址、店铺主营行业、农业、店铺评分维度在数据库中生成不同维度信息表,供后续进行使用。
本发明的有益效果是:通过用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。通过分析挖掘互联网电商交易大数据,对采集得到的电商数据进行分析,并与企业基本信息相匹配来完善电商企业销售额、销售量、区域电商概况等信息。进而对数据按照不同的维度进行归类和核算,维度包括但不限于地区、领域、平台、行业、品牌、商品类别等;
通过分析挖掘互联网电商交易大数据,对采集得到的电商数据进行分析,提供不同维度的信息支持政府对区域电商的管控和趋势的预警。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合图1对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1一种电商数据分析方法,步骤如下:
(1)数据采集:采集互联网电商交易数据;
(2)数据存储;
(3)数据处理:首先判断数据的质量和特征,然后对数据进行清洗、集成、规范化处理;
(4)数据分析:通过专用工具对采集的数据进行分析;
(5)可视化展示:通过前端展示软件对数据和分析的结果进行展示。
一种电商数据分析方法,数据采集:包括数据产生的时间、条件、格式、内容、长度、限制条件。
一种电商数据分析方法,数据存储:采用基于Hadoop的并行处理技术和非关系型数据库,搭建非结构化的数据管理云平台,满足大数据的海量存储、高并发读写、数据可靠性、复杂关联分析和高可扩展性要求。
一种电商数据分析方法,数据处理:首先判断数据的质量和特征,然后对数据进行清洗、集成、规范化处理;
判断数据质量主要是检查原始数据中是否存在脏数据;
清洗是数据中存在的缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据进行替换或者删除;
集成是将不同的信息采集表按照一定的规则进行合并,生成完成的信息表以供后续处理;
规范化处理主要是对工商地址信息进行处理,根据标准的省市县划分对采集的企业地址进行划分。
一种电商数据分析方法,数据处理:包括店铺刷单、信息乱码、离散值和缺失值的处理,店铺和商品的销售额的对应、店铺和企业信息的对应。
一种电商数据分析方法,数据分析:利用Python对数据进行分析,包括总体分析、B2B分析、B2C分析和对获取的电商数据按平台、地区、领域、行业、品牌、商品类别、时间维度进行分析,生成分析报表。
一种电商数据分析方法,前端展示软件包括:EXCEL、PPT、Word。
一种电商数据分析方法,根据最新采集的企业信息对数据库中已有的企业信息进行更新替换,最新采集的企业数据在数据库中没有的,按照标准的省市县划分将其按照地址进行划分入库;
对商品信息进行预处理、农产品数据分离将采集到的商品信息中存在刷单的数据进行删除,按照商品类目id将属于农产品的商品数据分离开来单独保存;
根据不同平台店铺信息分别计算本月销售额环比,对店铺信息、企业信息和商品信息汇总;
按照不同的平台,将处理好的店铺表、店铺评分表、商品表、企业信息表按照店铺对应的商品计算销售额,店铺的企业名称和企业信息一一对应汇总成完整的平台店铺销售信息表;
对异常店铺进行处理筛选出当月销售额前100家的店铺,查看其商品是否是直播或者刷单商品,然后对其进行处理;
核实店铺销售额信息有无异常店铺商品排查完之后,对处理的商品进行记录,修改其对应的店铺销售额。分平台整体查看当月所采集的店铺销售额趋势是否存在异常,如果有排查问题并解决。
一种电商数据分析方法,将汇总归集好的数据导入至相应的数据库中,在数据库中再对数据进行整体分析排查有无异常。
一种电商数据分析方法,按照不同维度输出不同的报表,然后根据地址、店铺主营行业、农业、店铺评分维度在数据库中生成不同维度信息表,供后续进行使用。
通过用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。通过分析挖掘互联网电商交易大数据,对采集得到的电商数据进行分析,并与企业基本信息相匹配来完善电商企业销售额、销售量、区域电商概况等信息。进而对数据按照不同的维度进行归类和核算,维度包括但不限于地区、领域、平台、行业、品牌、商品类别等;
通过分析挖掘互联网电商交易大数据,对采集得到的电商数据进行分析,提供不同维度的信息支持政府对区域电商的管控和趋势的预警。
Python由荷兰数学和计算机科学研究学会的Guido van Rossum 于1990 年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。
NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
MySQL是一个关系型数据库管理系统,是最流行的关系型数据库管理系统之一,在WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。
结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
VBA(Visual Basic for Applications)是Visual Basic的一种宏语言,是在其桌面应用程序中执行通用的自动化(OLE)任务的编程语言。主要能用来扩展Windows的应用程序功能,特别是Microsoft Office软件。它也可说是一种应用程式视觉化的 Basic 脚本。
Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。