掌桥专利:专业的专利平台
掌桥专利
首页

一种基于物联网中间件的多源异构海量数据采集与治理系统

文献发布时间:2024-04-18 20:02:18


一种基于物联网中间件的多源异构海量数据采集与治理系统

技术领域

本发明涉及物联网中间件应用技术领域,具体为一种基于物联网中间件的多源异构海量数据采集与治理系统。

背景技术

随着各区域城市运行管理服务的建设应用,所涉及的数据范围在不断扩大,包括但不限于水务局、规自局、消防支队、市监局、林业局、住建局、城管局和应急局等相关的业务部门。由于各个平台的生态壁垒,无法实现多源化数据的统一接入以及管理。城市生命线数据平台按照城市运管服数据规范及标准实现多源数据的统一接入,且实现国家、省级、市级平台纵向的互联互通、业务协同,同时可以与横向的多部门参与的城市运行管理服务业务联动。

基于物联网中间件的物联网海量数据处理方法,包括数据接入处理、数据仓库、数据治理和能力开放服务四部分组成;数据库基于ClickHouse列式数据库进行设计,存储在一个数据库内的数据具有相同的数据特征;列式数据是将物理相关的数据放在一起,压缩效果显著,节省存储空间以及降低存储成本;针对不同的列类型,可以选择更适用的压缩算法,优化压缩比;高压缩比意味着同等内存大小,能够存放更多数据,系统cache效果更好,同时增加数据传输速度。能满足包括但不限于海量的物联网感知数据采集以及城市安全多源基础应用数据场景中不断增长且容量巨大的存储和数据管理的业务需求;采用本发明提供的大数据运算调度平台,并发入库和查询统计的效果明显提升。

数仓数据处理分为批量处理和实时处理两种,主要包括数据解析、加工、计算、存储等数据流处理环节。批量数据处理采用SQL和调度工具相结合;实时数据处理采用kafka分布式消息队列,对海量采集数据进行数据解耦,且通过Flink对消息队列中的采集数据进行实时流批处理,形成指标数据,最后将数据写入ClickHouse列式存储数据库中。由于数仓采用Clickhouse(MPP数据库),数据加工速度快,再通过调度程序循环调用,可实现批量处理秒级延时。基于Flink流批处理引擎的低延时、高吞吐量等特点,实现海量物联网采集数据的快速接入处理,同时根据不同的数据模型结构,通过配置文件的方式形成不同的任务实例,任务与任务之间逻辑隔离,物理上共享相同集群节点的计算资源。

因此,研发设计一种基于物联网中间件的多源异构海量数据采集与治理系统具有重要意义,以实现多源异构数据的标准化接入,对外提供统一的数据服务。

发明内容

为了解决现有技术中存在的问题,本发明提供了一种基于物联网中间件的多源异构海量数据采集与治理系统,以实现多源异构数据的标准化接入,对外提供统一的数据服务。

本发明解决上述技术问题所采用的技术方案如下:

一种基于物联网中间件的多源异构海量数据采集与治理系统,包括数据接入层、数据接入处理层、数据体系层以及数据服务层;

所述数据接入层,用于标准化接入感知设备数据、业务数据以及第三方系统对接数据,并按照标准化数据模型对数据进行序列化和反序列化处理;

所述数据接入处理层,采用流批一体计算引擎对数据进行提取、清洗、关联、比对、标签、纠错、存储和标识操作,以实现各类数据的标准化结构,并支持实时、离线计算以及批量处理操作;

所述数据体系层,包括数据仓库、数据治理模块,数据仓库以建设标准规范构建原始库ODS、资源库CDM以及专题库ADS,并定义数据规范和数据标准;

所述数据服务层,提供数据开放的统一标准体系,通过API接口方式提供平台服务以支持应用开发。

作为本发明进一步改进的技术方案,所述数据接入处理层通过消费数据共享交换方式采集实时数据和离线数据,并对采集的数据进行解析、清洗、加工和数据分析操作,同时利用调度服务对相关数据任务进行编排执行。

作为本发明进一步改进的技术方案,所述数据接入处理层在数据传输过程中支持分布式数据传输方式,在数据处理过程中引入流批计算引擎实现结构化和非结构化数据的处理,采用内存计算技术提升数据价值密度,为数据应用实现数据增值、数据准备和数据抽象。

作为本发明进一步改进的技术方案,所述数据接入层提供结构化数据和非/半结构化数据的标准化接入,并提供数据校验、实时数据生成、数据异常判断、阈值告警判断、数据采样、业务自定义、数据拉宽以及历史数据生成处理环节。

作为本发明进一步改进的技术方案,所述数据校验处理环节是将消费数据共享交换中的实时数据和离线数据,根据数据模型校验数据的指标名和指标值是否符合标准;所述实时数据生成处理环节是将感知数据按照默认或可选方式存储到redis,供业务系统读取展示;所述数据异常判断处理环节是对设备上传的非合法时间段、指标超量程的异常类型进行判断;所述阈值告警判断处理环节是根据感知数据以及业务系统向阈值接口配置的阈值信息,进行告警判断、告警推送;所述数据采样处理环节是将高频的感知数据按照业务要求对其进行指定规则的降频;所述业务自定义步骤用于对专项要求自定义的功能;所述数据拉宽处理环节是将物联网感知数据与基础库中的相关信息进行关联,形成支持复杂查询、聚合的分析功能;所述历史数据生成步骤将处理后的感知数据写入底层存储库,供接口查询调用、历史曲线展示和数据分析。

作为本发明进一步改进的技术方案,所述原始库ODS对非结构化数据的关键信息提取、数据分级、分类和标签处理,并提供了查询、比对、推送服务,同时为后续的数据血缘追踪提供溯源支持;

所述资源库CDM对原始库ODS的数据进行清洗标准化及轻度整合,形成全量数据的持久化层,并对结构化数据进行提取和清洗去重以净化数据;资源库CDM的数据再通过对象化提取、清洗归并以实现关联和标识,并输出至专题库ADS;

所述专题库ADS的数据来源包括从原始库ODS、资源库CDM的数据获取,或由外部数据导入,专题库ADS为特定的业务活动提供基础数据、临时数据、分析统计类数据和挖掘类数据,并记录业务过程中总结及发现的相关知识。

作为本发明进一步改进的技术方案,对所述专题库ADS提供的数据进行数据质量校验,包括数据完整性校验、数据准确性校验、数据唯一性校验、数据规范性校验和数据一致性校验。

作为本发明进一步改进的技术方案,所述数据治理模块通过管理数据资源目录、元数据、分级分类、血缘关系信息保障数据汇聚与融合的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据生命周期的高质量运行,通过数据运营变现数据价值。

作为本发明进一步改进的技术方案,所述数据资源目录通过对所述原始库ODS和资源库CDM进行元数据抽取获得,包括城市运行管理数据、城市运行生命线-燃气、城市运行生命线-桥梁、燃气卫士、消防安全、水环境、城市综合评价、城市照明和电梯。

作为本发明进一步改进的技术方案,所述血缘关系信息记录数据从产生、处理、加工、融合、流转、消亡的全生命周期中的链路关系,最细粒度为字段级,以供数据问题溯源和业务理解。

与现有技术相比,本发明的有益效果是:

1、本发明通过制定统一的接口标准,如接口数据规范、字段要求、业务标示等。接收或者拉取多个数据源的数据,通过业务标识进行分类写入到对应的消息队列中,然后通过流批计算引擎处理并写入clickhouse标准表中;当接口字段未定义,且数据源、数据种类很多时,可以将源端字段全部序列化,并配上该数据的标识内容,写入到消息队列中,然后流批计算引擎处理并写入clickhouse表中,其中该表为两部分,第一个部分为这条数据的标识,如源端类型、业务类型等,第二部分为序列化字段内容。当下游需要使用数据时,可以通过分布式列式存储引擎物化视图和解析函数实时转换为定义好的结构化数据。

2、本发明通过多源异构公共安全大数据采集的汇聚需求,建立标准的数据规范、数据模型以及技术对接方案,并依据可靠连接、异构网络多样化接入,实现多源化数据的实时采集、数据接入处理以及数据转发。系统采用流批一体计算引擎,通过开窗计算以及数据背压机制实现在一个流式任务中将实时计算与批量写入组合处理的方式,降低数据访问延迟。通过数据汇聚平台,实现多源异构数据的标准化接入,有效解决了由于各种异构数据,导致各数据处理环节复杂,从而导致数据异常问题排查复杂等问题。

3、本发明的数据仓库对数据进行分层建设,每层均具有特定的功能,使得数据结构更加清晰,同时也统一了数据口径。当数据出现问题时,则可以根据分层特性将复杂问题简单化,逐级排查,如ODS层原始数据、DWD层明细数据、DWS汇总数据和ADS应用数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的多源异构海量数据采集与治理系统原理图。

图2为本发明的数据接入层的数据处理流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,皆属于本发明的保护范围。

实施例一:

参照图1和图2,本实施例公开了一种基于物联网中间件的多源异构海量数据采集与治理系统,包括数据接入层、数据接入处理层、数据体系层以及数据服务层;

数据接入层用于标准化接入感知设备数据、业务数据以及第三方系统对接数据,并按照标准化数据模型对数据进行序列化和反序列化处理。

本实施例中,数据接入层提供结构化数据和非/半结构化数据的标准化接入,并提供数据校验、实时数据生成、数据异常判断、阈值告警判断、数据采样、业务自定义、数据拉宽以及历史数据生成处理环节。

其中,数据校验处理环节是将消费数据共享交换中的实时数据和离线数据,根据数据模型校验数据的指标名和指标值是否符合标准;实时数据生成处理环节是将感知数据按照默认或可选方式存储到redis,供业务系统读取展示;数据异常判断处理环节是对设备上传的非合法时间段、指标超量程的异常类型进行判断;阈值告警判断处理环节是根据感知数据以及业务系统向阈值接口配置的阈值信息,进行告警判断、告警推送;数据采样处理环节是将高频的感知数据按照业务要求对其进行指定规则的降频;业务自定义步骤用于对专项要求自定义的功能;数据拉宽处理环节是将物联网感知数据与基础库中的相关信息进行关联,形成支持复杂查询、聚合的分析功能;历史数据生成步骤将处理后的感知数据写入底层存储库,供接口查询调用、历史曲线展示和数据分析。

数据接入处理层采用流批一体计算引擎对数据进行提取、清洗、关联、比对、标签、纠错、存储和标识操作,以实现各类数据的标准化结构,并支持实时、离线计算以及批量处理操作。

本实施例中,数据接入处理层通过消费数据共享交换方式采集实时数据和离线数据,并对采集的数据进行解析、清洗、加工和数据分析操作,同时利用调度服务对相关数据任务进行编排执行。

数据接入处理层在数据传输过程中支持分布式数据传输方式,在数据处理过程中引入流批计算引擎实现结构化和非结构化数据的处理,采用内存计算技术提升数据价值密度,为数据应用实现数据增值、数据准备和数据抽象。

数据体系层包括数据仓库、数据治理模块,数据仓库以建设标准规范构建原始库ODS、资源库CDM以及专题库ADS,并定义数据规范和数据标准;原始库ODS对非结构化数据的关键信息提取、数据分级、分类和标签处理,并提供了查询、比对、推送服务,同时为后续的数据血缘追踪提供溯源支持;资源库CDM对原始库ODS的数据进行清洗标准化及轻度整合,形成全量数据的持久化层,并对结构化数据进行提取和清洗去重以净化数据;资源库CDM的数据再通过对象化提取、清洗归并以实现关联和标识,并输出至专题库ADS;专题库ADS的数据来源包括从原始库ODS、资源库CDM的数据获取,或由外部数据导入,专题库ADS为特定的业务活动提供基础数据、临时数据、分析统计类数据和挖掘类数据,并记录业务过程中总结及发现的相关知识。

本实施例中,数据治理模块通过管理数据资源目录、元数据、分级分类、血缘关系信息保障数据汇聚与融合的效果,规范数据组织形式;同时对数据质量进行管控,通过运维手段确保数据生命周期的高质量运行,通过数据运营变现数据价值。血缘关系信息记录数据从产生、处理、加工、融合、流转、消亡的全生命周期中的链路关系,最细粒度为字段级,以供数据问题溯源和业务理解。

数据资源目录通过对原始库ODS和资源库CDM进行元数据抽取获得,包括城市运行管理数据、城市运行生命线-燃气、城市运行生命线-桥梁、燃气卫士、消防安全、水环境、城市综合评价、城市照明和电梯。

数据服务层提供数据开放的统一标准体系,通过API接口方式提供平台服务以支持应用开发。对专题库ADS提供的数据进行数据质量校验,包括数据完整性校验、数据准确性校验、数据唯一性校验、数据规范性校验和数据一致性校验。

本实施例公开的一种基于物联网中间件的多源异构海量数据采集与治理系统的工作原理为:(1)数据治理模块同时对数据质量进行管控,通过运维手段确保数据生命周期的高质量运行,通过数据运营变现数据价值;(2)统一数据标准:对数据进行分类、口径、模型等规则的标准化统一管理;(3)元数据管理:以建立数据模型、指标体系为切入,将业务分类、业务规则等纳入元数据管理;(4)数据质量管理:建立跨行业、全过程的数据质量管理体系,保障数据信息的准确、规范、完整和一致;(4)数据生命周期管理:实现数据生命周期的多级管理,将数据使用频度和资源占用合理分配;(5)数据安全管控:对数据管理全过程的数据资产、传输、环境、访问控制等方面进行全面的安全管控。

以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

技术分类

06120116581737