一种基于互联网大数据的服务提供方法

文献发布时间：2023-06-19 12:13:22

技术领域

本发明属于互联网大数据技术领域，特别涉及一种基于互联网大数据的服务提供方法。

背景技术

目前，随着社会经济的发展以及互联网的发达，带来了规模庞大的数据资源，这些数据资源相较于以前的数据来说，具有明显的新的特征。4V：Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。在各行各业均存在大数据，但巨量信息和资讯纷繁复杂，需要进行再次处理提炼出其深层次的规律。

一方面，互联网的发展为大数据的发展提供了更多数据、信息与资源；另一方面，大数据的发展为互联网的发展提供了更多支撑、服务与应用。而大数据因为其4V特征，原本通用的数据处理方式，现阶段已经无法去高效地完成处理了，所以就引入大数据技术来完成。通常来说，大数据处理采用分布式计算架构，依托云计算的分布式处理、分布式数据库、云存储和虚拟化等技术来完成。

互联网大数据包含企业在日常生产、经营、管理过程中由本身产生的或从企业外部得到的有意义的数据资源。

如何对这些互联网大数据进行有效的利用、将数据进行资产化定位，使得相关数据资产得到有效的安全保障，从而更好地被相关企业利用达到经济上的效益，是同行从业人员研究的热点。

发明内容

本发明的主要目的在于提供一种至少部分解决上述技术问题的一种基于互联网大数据的服务提供方法。

为实现上述目的，本发明采取的技术方案为：

一种基于互联网大数据的服务提供方法，包括：

采集步骤，采集互联网采集业务系统中的所有节点作业过程中产生的数据，包括：物理参数数据、传感数据、状态数据、日志数据、RFID标签和二维码数据；

处理步骤，采用分布式计算架构，依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术，对采集步骤采集的大数据进行初步归类及预处理；

存储步骤，将所述处理步骤处理后的数据，分为若干个独立的数据单元，将数据单元依次按照时间轴的顺序存储到数据库集合中；

提供服务步骤，基于所述存储步骤存储的数据，提供可视化分析、数据挖掘、预测性分析、语义引擎、数据质量管理接口，实现对互联网大数据的高效利用。

进一步地，所述采集步骤中采集的来源包括数据库、网络和文件系统；

其中，当从所述数据库中采集数据时，基于Sqoop、ETL、Kettle和Talend工具，从关系型数据库MySQL、Oracle，或从分布式数据存储hdfs，hbase和Nosq数据库中采集数据；

当从所述网络采集数据时，借助网络爬虫、网站公开API、网站订阅服务，从网页获取非结构化或半结构化数据，并将其统一结构化为本地数据的数据采集方式；

从所述文件系统实时采集和处理技术日志。

进一步地，所述处理步骤基于行业关键词对采集的大数据进行初步归类；预处理过程包括：数据清理、数据集成、数据转换和数据归约。

进一步地，所述数据清理为利用ETL、Informatica、Datastage清洗工具，对遗漏数据、噪音数据、不一致数据进行处理。

进一步地，所述数据集成为将不同数据源中的数据，合并存放到统一数据库中，并处理模式匹配、数据冗余、数据值冲突检测。

进一步地，所述数据转换对所抽取出来的数据中存在的不一致情况进行处理，保证数据的格式统一。

进一步地，所述数据归约为在最大限度保持数据原貌的基础上，最大限度精简数据量，以得到较小数据集的操作，包括：数据方聚集、维规约、数据压缩、数值规约和概念分层。

进一步地，所述存储步骤中使用MPP架构的新型数据库集群、Hadoop和大数据一体机进行存储。

与现有技术相比，本发明具有如下有益效果：

一种基于互联网大数据的服务提供方法，包括：采集步骤，采集互联网采集业务系统中的所有节点作业过程中产生的数据，包括：物理参数数据、传感数据、状态数据、日志数据、RFID标签和二维码数据；处理步骤，采用分布式计算架构，依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术，对采集步骤采集的大数据进行初步归类及预处理；存储步骤，将所述处理步骤处理后的数据，分为若干个独立的数据单元，将数据单元依次按照时间轴的顺序存储到数据库集合中；提供服务步骤，基于所述存储步骤存储的数据，提供可视化分析、数据挖掘、预测性分析、语义引擎、数据质量管理接口，实现对互联网大数据的高效利用。

(1)本发明对这些互联网大数据进行有效的利用、将数据进行资产化定位，使得相关数据资产得到有效的安全保障，从而更好地被相关企业利用达到经济上的效益。

(2)该方法可根据智慧工厂技术体系不同层次的互联化、数据化、信息化、智能化和智慧化目标，提供数据采集、数据融合、数据分析、数据应用、数据交易等诸多功能，使智慧工厂的技术体系实现与发挥智慧化效用。

附图说明

图1为基于互联网大数据的服务提供方法流程图。

图2为基于MPP架构的新型数据库集群示意图。

图3为MPP与Hadoop技术融合的产品架构图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

大数据的定义：大数据，又称巨量资料，指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的特点：数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据，但是众多的信息和咨询是纷繁复杂的，我们需要搜索、处理、分析、归纳、总结其深层次的规律。

参照图1所示，本发明提供的一种基于互联网大数据的服务提供方法，包括：

采集步骤，采集互联网采集业务系统中的所有节点作业过程中产生的数据，包括：物理参数数据、传感数据、状态数据、日志数据、RFID标签和二维码数据。比如以生产PCB电路板为例，物理参数分别为长10cm、宽5cm、厚0.6cm；传感数据包括：硬度、抗压性；状态数据包括：是否正常或存在瑕疵；日志数据，比如生产时间、工序步骤等；RFID标签可以用于溯源；二维码数据可用于鉴别真伪等；

比如以物联网采集数据为例，物物互联层主要面向包含生产设备、计算机与操作人员在内的物理制造资源，针对要收集的多源制造数据，通过配置各类传感器、RFID标签和二维码来收集制造数据，并运用工业互联网、无线网络、蓝牙、红外等，依照约定的协议进行数据交换和通信。采集物物互联中所涉及的相关数据。

处理步骤，采用分布式计算架构，依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术，对采集步骤采集的大数据进行初步归类及预处理；比如可根据数据间属性连接和主题相关性，搭建以数据为节点、数据相关性为边的数据关系复杂网络；通过数据关联分析手段，从复杂网络模型中获取数据间的耦合作用机理，搭建数据演化规律预测模型，从而实现对制造过程变化规律的精准描述，实现初步归类。

存储步骤，将所述处理步骤处理后的数据，分为若干个独立的数据单元，将数据单元依次按照时间轴的顺序存储到数据库集合中；

下面分别对上述各个步骤进行详细的说明：

1.大数据的采集：科学技术及互联网的发展，推动着大数据时代的来临，各行各业每天都在产生数量巨大的数据碎片，数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。本步骤中，从数据库、网络和文件系统三个方面来进行说明。

1)数据库采集：基于Sqoop、ETL、Kettle和Talend工具，从关系数据库MySQL、Oracle，或从分布式数据存储hdfs，hbase和Nosq数据库中采集数据。Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如：MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。Kettle则属于ETL的一个工具，也可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(DataLakeInjection)、对数据进行各种清洗(Cleasing)、转换(Transformation)、混合(Blending)，并支持多维联机分析处理(OLAP)和数据挖掘(Datamining)。Talend作为公共云和私有云以及本地环境提供一体化的数据集成平台。

2)网络数据采集：借助网络爬虫、网站公开API或网站订阅服务，从网页获取非结构化或半结构化数据，并将其统一结构化为本地数据的数据采集方式。

3)文件采集：包括实时文件采集和处理技术flume、基于ELK的日志采集和增量采集等等。Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。ELK是三个开源软件的缩写，分别表示：Elasticsearch,Logstash,Kibana,它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash。

2.大数据的处理，采用分布式计算架构，依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术，对采集步骤采集的大数据进行初步归类及预处理。比如可基于行业关键词对采集的大数据进行初步归类；预处理指的是在进行数据分析之前，先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作，旨在提高数据质量，为后期分析工作奠定基础。

数据预处理主要包括四个部分：

a)数据清理：指利用ETL、Informatica、Datastage等清洗工具，对有遗漏数据(缺少感兴趣的属性)、噪音数据(数据中存在着错误、或偏离期望值的数据)、不一致数据进行处理。其中，Informatica、Datastage工具的部署使用，可参照市面上公开的技术即可。此处只对其可实现的功能进行说明。

a.1)不同数据源的规整：如果需要将不同数据源的同纬度数据合并用于后续分析步骤，则毫无疑问需要进行规整处理：包括如用户的归一化(是否为同一个用户，这个有难度，一般需要深层次分析才能大致确定，预计比例不高的情况下可以容忍)，采样周期的归一化(比如1个50次/t，1个100次/t)，速度数据的归一化(比如一个是40公里/小时，一个是40码/小时)。

a.2)数据源内单字段的清洗：一般主要是超过数值区间，比如汽车120KM/h的时速这种很好识别。但是350KM/h的速度呢？这种一般可删除。

b)数据集成：是指将不同数据源中的数据，合并存放到统一数据库的，存储方法，着重解决三个问题：模式匹配、数据冗余、数据值冲突检测与处理。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。在企业数据集成领域，已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统，这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

c)数据转换：是指对所抽取出来的数据中存在的不一致，进行处理的过程。它同时包含了数据清洗的工作，即根据业务规则对异常数据进行清洗，以保证后续分析结果准确性。比如包括以下几种方式：

c.1)平滑处理

帮助除去数据中的噪声，主要技术方法有Bin方法、聚类方法和回归方法。

c.2)合计处理

对数据进行总结或合计操作。例如，每天的数据经过合计操作可以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多粒度的分析。

c.3)数据泛化处理

用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。

例如，街道属性可以泛化到更高层次的概念，如城市、国家，数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。

c.4)规格化处理

将有关属性数据按比例投射到特定的小范围之中。例如，将工资收入属性值映射到0到1范围内。该方法对被初始数据进行一种线性转换。

例如，假设属性的最大值和最小值分别是98000元和12000元，利用最大最小规格化方法将“顾客收入”属性的值映射到0～1的范围内，则“顾客收入”属性的值为73600元时，对应的转换结果如下。

(73600-12000)/(98000-12000)*(1.0-0.0)+0＝0.716

计算公式的含义为“(待转换属性值-属性最小值)/(属性最大值-属性最小值)*(映射区间最大值-映射区间最小值)+映射区间最小值”。

c.5)属性构造处理

根据已有属性集构造新的属性，以帮助数据处理过程。

d)数据归约：是指在最大限度保持数据原貌的基础上，最大限度精简数据量，以得到较小数据集的操作，包括：数据方聚集、维规约、数据压缩、数值规约、概念分层等。数据归约主要有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录。

假定在公司的数据仓库选择了数据，用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间，使得这种分析不现实或不可行。

数据归约技术可以用来得到数据集的归约表示，它虽然小，但仍大致保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。

数据归约分类包括：特征规约、样本规约和特征值规约；以特征规约为例：特征规约是从原有的特征中删除不重要或不相关的特征，或者通过对特征进行重组来减少特征的个数。其原则是在保留、甚至提高原有判别能力的同时减少特征向量的维度。特征规约算法的输入是一组特征，输出是它的一个子集。在领域知识缺乏的情况下进行特征归约时一般包括3个步骤:

(1)搜索过程:在特征空间中搜索特征子集，每个子集称为一个状态由选中的特征构成。

(2)评估过程:输入一个状态，通过评估函数或预先设定的阈值输出一个评估值搜索算法的目的是使评估值达到最优。

(3)分类过程:使用最终的特征集完成最后的算法。

特征归约处理的效果：

①更少的数据，提高挖掘效率

②更高的数据挖掘处理精度

③简单的数据挖掘处理结果

④更少的特征。

3.大数据存储，指用存储器，以数据库的形式，存储分为若干个独立的数据单元，将数据单元依次按照时间轴的顺序存储到数据库集合中，可包含三种典型路线：

A、基于MPP架构的新型数据库集群

参照图2所示，采用SharedNothing架构，结合MPP架构的高效分布式计算模式，通过列存储、粗粒度索引等多项大数据处理技术，重点面向行业大数据所展开的数据存储方式。具有低成本、高性能、高扩展性等特点，在企业分析类应用领域有着广泛的应用。

较之传统数据库，其基于MPP产品的PB级数据分析能力，有着显著的优越性。自然，MPP数据库，也成为了企业新一代数据仓库的最佳选择。

B、基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装，是针对传统关系型数据库难以处理的数据和场景(针对非结构化数据的存储和计算等)，利用Hadoop开源优势及相关特性(善于处理非结构、半结构化数据、复杂的ETL流程、复杂的数据挖掘和计算模型等)，衍生出相关大数据技术的过程。

伴随着技术进步，其应用场景也将逐步扩大，目前最为典型的应用场景：通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑，其中涉及了几十种NoSQL技术。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

C、大数据一体机

这是一种专为大数据的分析处理而设计的软、硬件结合的产品。它由一组集成的服务器、存储设备、操作系统、数据库管理系统，以及为数据查询、处理、分析而预安装和优化的软件组成，具有良好的稳定性和纵向扩展性。

在该步骤中，参照图3所示，新型数据库将逐步与Hadoop生态系统结合混搭使用，用MPP处理PB级别的、高质量的结构化数据，同时为应用提供丰富的SQL和事务支持能力；用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。

4.提供服务

从可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面，对杂乱无章的数据，进行萃取、提炼和分析的过程。

I可视化分析

可视化分析，指借助图形化手段，清晰并有效传达与沟通信息的分析手段。主要应用于海量数据关联分析，即借助可视化数据分析平台，对分散异构数据进行关联分析，并做出完整分析图表的过程。

II数据挖掘算法

数据挖掘算法，即通过创建数据挖掘模型，而对数据进行试探和计算的，数据分析手段。它是大数据分析的理论核心。

数据挖掘算法多种多样，且不同算法因基于不同的数据类型和格式，会呈现出不同的数据特点。但一般来讲，创建模型的过程却是相似的，即首先分析用户提供的数据，然后针对特定类型的模式和趋势进行查找，并用分析结果定义创建挖掘模型的最佳参数，并将这些参数应用于整个数据集，以提取可行模式和详细统计信息。

III预测性分析

预测性分析，是大数据分析最重要的应用领域之一，通过结合多种高级分析功能(特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等)，达到预测不确定事件的目的。

帮助分用户析结构化和非结构化数据中的趋势、模式和关系，并运用这些指标来预测将来事件，为采取措施提供依据。

IV语义引擎

语义引擎，指通过为已有数据添加语义的操作，提高用户互联网搜索体验。

V数据质量管理

指对数据全生命周期的每个阶段(计划、获取、存储、共享、维护、应用、消亡等)中可能引发的各类数据质量问题，进行识别、度量、监控、预警等操作，以提高数据质量的一系列管理活动。

本发明提供的一种基于互联网大数据的服务提供方法，加上5G技术和工业互联网，可助力智能工厂的蓬勃发展；无人值守的车间将是常态，生产线部署5G：真正实现实时监控，生产效率极高，品质极好。该方法可根据智慧工厂技术体系不同层次的互联化、数据化、信息化、智能化和智慧化目标，提供数据采集、数据融合、数据分析、数据应用、数据交易等诸多功能，使智慧工厂的技术体系实现与发挥智慧化效用。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王旸;
专利申请人：北京德风新征程科技有限公司;

上一篇：一种妇产科临床器械辅助移动设备
下一篇：一种用于建筑泥浆湿法生产免烧砖的压砖设备