掌桥专利:专业的专利平台
掌桥专利
首页

一种特种设备多源数据处理平台及处理方法

文献发布时间:2023-06-19 09:26:02


一种特种设备多源数据处理平台及处理方法

技术领域

本发明涉及特种设备领域,尤其是一种用于特种设备的多源数据处理平台及处理方法。

背景技术

特种设备是指涉及生命安全、危险性较大的锅炉、压力容器(含气瓶)、压力管道、电梯、起重机械、客运索道、大型游乐设施和场(厂)内专用机动车辆。截止到2018年底,全国特种设备一千多万台,另有压力容器1亿多只。我国对特种设备的生产(包括设计、制造、安装、改造、修理)、经营、使用、检验、检测实施分类的、全过程的监督管理。但是由于特种设备数量大,单纯依靠人力管理难度大,因而近年来信息技术在特种设备领域应用越来越广泛,特种设备安全监管部门针对特种设备的行政许可、使用登记、监督检查等业务均构建了相应的政务系统,检验机构构建了检验系统,特种设备生产、经营、使用等行业企业根据自身安全管理等需要建设了各自的物联网系统和信息化管理系统。在大数据、云计算等新一代信息技术不断发展的背景下,数据已成为重要的资源。为进一步运用数据支撑特种设备安全管理决策,运用数据集成技术方法,实现数据的融合与共享共用已成为研究重点。

目前,特种设备的数据特点主要表现在以下方面:(1)多源,数据的产生来源于多个数据源,包括不同单位构建的特种设备数据库和各设备在工作过程中获取的生产、检验记录及台账等数据等,以及物联网设备、互联网舆情数据等等,其数据存储的平台和方式不同,导致了特种设备数据多源的特征。(2)异构,特种设备数据类型复杂、数据结构多样,涉及多种类型的结构化数据、半结构化数据和非结构化数据,具体的数据类型包括:Oracle/Sql Server/Mysql/Access等数据库数据,Word、Excel、Xml、PDF文件以及图片、视频等文件类数据。由于在系统建设的过程中缺乏明确统一的标准,导致了设备数据异构的特征;上述两个方面使得特种设备的管理面临巨大困难。

发明内容

基于特种设备多源异构的特点,通过对数据集成方法的研究,设计提出本方案,本方案通过对数据的采集、转换、清洗、存储后得到统一的数据,给工作人员管理特种设备的生命周期、进行检验监测预警提供了数据支撑。

本方案是通过如下方案实现的:一种特种设备多源数据处理平台,

包括数据采集模块、数据转换模块、数据清洗模块、数据验证模块、数据存储模块、数据存储模块、数据访问模块和数据展示模块,这样就可以实现对多源的特种设备数据进行统一化的处理,得到标准唯一的数据,为后续管理提供数据参考。

数据采集模块用于采集特种设备的多源数据并分析采集数据的数据格式、数据格式、数据量、部署方式,确定数据接入方式、数据增量方式,分配认证信息;将数据分为结构化数据和非结构化数据;数据采集模块通过数据库驱动、ESB、ETL、文件导入方式与第三方系统进行服务整合访问采集数据,根据数据的类型、格式、实时性要求、数据量、存储方式部署方式等确定数据接入方式、数据增量方式,分配认证信息,其中的所述的结构化数据包括:生产数据、监管数据、检验数据、充装数据;非结构化数据包括:生产设计数据、充装视频、检验视频、检验报告、监检报告。

数据转换模块用于对采集的数据,根据元数据和标准库,进行数据拆分和重组、格式转换和语义转换,然后将数据送到数据清洗模块,数据清洗模块用于对转换后的数据依据定义好的规则库进行清洗,包括重复数据清洗、缺失数据处理、错误数据处理;数据清洗模块清洗数据时,统一数据规则,时间格式统一转换为年-月-日格式,特种设备容积单位统一为L,缺失容积的特种设备容积设置为80L;特种设备压力单位统一为Mpa,缺失特种设备的压力设置为20Mpa。

数据验证模块,对清洗后的数据进行验证,验证数据完整、一致和唯一;根据登记证编号+特种设备编号确定记录唯一性,判断重复记录。

数据存储模块用于将采集到的结构化数据和非结构化数据作为基础支撑数据进行存储,包括特种设备生产设计文件、定检报告、监检报告、特种设备充装视频做长久保存;将经过清洗、验证的数据储存到主数据仓库、分布式数据库;存储时,根据数据性质和用途分别存储于主数据仓库、分布式数据库中,其中主数据仓库存储特种设备档案数据、特种设备作业人员数据以及特种设备生产单位、充装单位、检验单位、监管单位等单位数据;分布式数据库用于完成明细数据和轻度汇总数据的加工生成,包括充装记录、检验记录明细和汇总数据,所述的分布式数据包括的分布式开源数据库HDFS和分布式列数据库HBase,其中半结构化数据如:充装记录、检验记录、维保记录、监察记录、实时监测数据、明细数据等存储在分布式列数据库HBase;非结构化数据如:文本/文件(设计文件、型式试验报告、监督检验报告、事故报告等)、视频(监测视频等)、图片(事故/故障图片等)数据存储在分布式开源数据库HDFS。

数据应用展示模块,根据数据性质的不同,采用不同的数据计算引擎实现数据应用展示,对于历史数据,采用Spark批处理计算引擎计算,提供数据检索服务、数据比对服务、分类统计、共享服务等常用功能以及趋势分析、相关性分析等挖掘功能的应用服务,对特种设备设计、制造、安装、改造、修理、检验、使用环节提供优化指标,提供设备综合健康指数和健康发展趋势的参考意见。对实时性要求较高的数据计算,选择Spark Streaming计算框架,利用其迅速的流数据处理能力,对设备的运行参数、监控图像和视频等实时数据进行快速的分析挖掘,进行设备质量安全预测预警,对发生的异常或故障进行分析判断,提出预防预案。在对数据进行访问时,通过数据访问接口提供数据服务,数据访问方式包括ETL工具、利用web service方式、提供API数据接口,不采用直接访问数据库的方式,这样可以确保数据的安全性,提升数据的访问速度。数据展示模块,用于展示上述的各种数据,使人们直观的感受各种数据。

一种利用上述系统进行特种设备多源数据处理方法,包括如下步骤:1)获取特种设备的多源数据,并将获得的多源数据作为基础支撑数据进行存储,其中多源数据的采集通过数据库驱动、ESB、ETL、文件导入方式采集;2)对采集的多源数据,据元数据和标准库,进行数据拆分和重组、格式转换和语义转换;3)将转换后的数据进行清洗、验证,使数据格式统一,且均为唯一数据;4)将清洗验证后的数据存储到主数据仓库、分布式数据库。这样不仅可以采集多源的数据,而且对数据进行处理,使得各种数据变成唯一的数据,便于使用者直观、准确的掌握数据,主数据仓库用于存储特种设备基本档案数据、特种设备作业人员数据以及特种设备生产单位数据、充装单位数据、检验单位数据、监管单位数据;分布式数据库用于完成明细数据和轻度汇总数据的加工生成,包括充装记录、检验记录明细和汇总数据。

上述方法中多源数据包括结构化数据和非结构化数据,其中的结构化数据包括:生产数据、监管数据、检验数据、充装数据;非结构化数据包括:生产设计数据、充装视频、检验视频、检验报告、监检报告,所述的分布式数据包括的分布式开源数据库HDFS和分布式列数据库HBase,其中半结构化数据如:充装记录、检验记录、维保记录、监察记录、实时监测数据、明细数据等存储在分布式列数据库HBase;非结构化数据如:文本/文件(设计文件、型式试验报告、监督检验报告、事故报告等)、视频(监测视频等)、图片(事故/故障图片等)数据存储在分布式开源数据库HDFS。。

上述方法中对数据进行清洗、验证时,时间格式统一转换为年-月-日格式,特种设备容积单位统一为L,缺失容积标记的特种设备统一设置为80L;特种设备压力单位统一为Mpa,缺失的特种设备压力设置为20Mpa。

在本方案的上述系统和方法中,数据是特种设备管理、监控等的核心,数据的安全是保证平台运行的基础,数据安全采用多种安全策略,确保集成数据的存储、传输、访问与展示安全。其中:数据存储采用数据加密、数据备份、防复制管理等技术,满足数据完整性、数据加密与数据备份的要求;数据传输采用CA证书满足通讯完整性与保密性的要求;数据访问采用统一权限管理实现满足身份识别、访问控制、安全审计与资源控制要求;数据展示采用数据加密与脱敏技术;并且本系统中采用SQOOP技术实现批量数据加载以及Kafka+Spark技术实现增量数据或实时数据的接收和加载利用Spark、 Map Reduce、Hive等技术实现各类数据的交换、集成、清洗和转换, 基于HDFS、HBASE、MySql等方式对外提供时序类、结构化、半结构化和非结构化数据、空间数据的有效管理和存储, 构建不同类型的数据库,包括文件数据库、关系数库及No SQL数据库等。

本方案的系统和方法实现了特种设备制造、使用登记、充装、检验等多源异构数据的汇聚,可以对多种用途的特种设备(如车用压力容器)动态管理现状进行了分析,实现了基于大屏端的可视化展示,为进一步开展车用特种设备安全管理提供了直观、准确的数据支撑。

本方案做到了大数据平台对数据处理的主要流程包括:

(1)通过将对各接入业务系统、监测系统的源数据进行采集,根据不同数据类型采用不同的采集方式进行数据采集;

(2)对采集好的数据数据的转换、清洗、验证,处理成完整、正确、规范、唯一的数据;

(3)将通过清洗后的基础数据包括单位、设备、人员信息加载到主数据仓库MySql中,包括新增、修改、删除操作;

(4)数据清洗、转换后的操作记录和监测数据加载到分布式数据库Hbase,在分布式数据库内完成明细数据和汇总数据的加工生成;将汇总后的数据保存至主数据仓库Mysql中,已便于进行可视化展示和OLAP分析;

(5)非结构化数据和半结构化数据通过FTP到Hadoop平台做长久保存;

(6)将存储在 HDFS 中的半结构化、非结构化数据,通过MapReduce进行结构化处理,并按照主题数据模型整合数据并生成汇总,将明细数据存入HBase中。

附图说明

图1为本发明的系统框图。

图2为本发明的数据框图。

图3为本发明的数据流向图。

图4为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的具体实施方式仅仅是本发明一种具体实施方式,而不是全部的具体实施方式。基于本发明中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

具体实施方式一

通过附图1、2、3可以看出本方案的特种设备多源数据处理平台, 包括数据采集模块、数据转换模块、数据清洗模块、数据验证模块、数据存储模块、数据存储模块、数据访问模块和数据展示模块这样可以对采集到的多源数据进行完全的处理,利于后续展示和查询监控。

数据采集模块,用于采集特种设备的多源数据并分析采集数据的数据格式、数据格式、数据量、部署方式,确定数据接入方式、数据增量方式,分配认证信息;将数据分为结构化数据和非结构化数据,结构化数据包括:生产数据、监管数据、检验数据、充装数据;非结构化数据包括:生产设计数据、充装视频、检验视频、检验报告、监检报告。数据采集模块通过数据库驱动、ESB、ETL、文件导入方式采集数据。其中的数据转换模块,对采集的数据,根据元数据和标准库,进行数据拆分和重组、格式转换和语义转换;采集数据时,支持日志、时间戳、触发器等增量方式和全量方 式、实时方式获取数据,根据数据的类型、格式、实时性要求、数据量、存储方式部署方式等确定不同的数据采集方式。

数据清洗模块,对转换后的数据依据定义好的规则库进行清洗,包括重复数据清洗、缺失数据处理、错误数据处理,清洗数据时,统一数据规则,时间格式统一转换为年-月-日格式,特种设备容积单位统一为L,缺失容积的特种设备容积设置为80L;特种设备压力单位统一为Mpa,缺失特种设备的压力设置为20Mpa;根据登记证编号+特种设备编号确定记录唯一;数据验证模块,对清洗后的数据进行验证,验证数据完整、一致和唯一。

数据存储模块,将采集到的结构化数据和非结构化数据作为基础支撑数据进行存储;将经过清洗、验证的数据储存到主数据仓库、分布式数据库;数据访问模块,通过数据访问接口提供数据服务,数据访问方式包括ETL工具、利用web service方式、提供API数据接口;数据展示模块,用于展示上述的各种数据,数据存储模块中,主数据仓库存储特种设备档案数据、特种设备作业人员数据以及特种设备生产单位数据、充装单位数据、检验单位数据、监管单位数据;分布式数据库用于完成明细数据和轻度汇总数据的加工生成,包括充装记录、检验记录明细和汇总数据;所述的分布式数据包括的分布式开源数据库HDFS和分布式列数据库HBase,其中半结构化数据如:充装记录、检验记录、维保记录、监察记录、实时监测数据、明细数据等存储在分布式列数据库HBase;非结构化数据如:文本/文件(设计文件、型式试验报告、监督检验报告、事故报告等)、视频(监测视频等)、图片(事故/故障图片等)数据存储在分布式开源数据库HDFS。

数据应用展示模块,根据数据性质的不同,采用不同的数据计算引擎实现数据应用展示。对于历史数据,采用Spark批处理计算引擎计算,提供数据检索服务、数据比对服务、分类统计、共享服务等常用功能以及趋势分析、相关性分析等挖掘功能的应用服务,对特种设备设计、制造、安装、改造、修理、检验、使用环节提供优化指标,提供设备综合健康指数和健康发展趋势的参考意见。对实时性要求较高的数据计算,选择Spark Streaming计算框架,利用其迅速的流数据处理能力,对设备的运行参数、监控图像和视频等实时数据进行快速的分析挖掘,进行设备质量安全预测预警,对发生的异常或故障进行分析判断,提出预防预案。

本平台中,数据是核心,数据的安全是保证平台运行的基础,数据安全采用安全策略,确保集成数据的存储、传输、访问与展示安全。其中:数据存储时,对数据加密、备份、防复制,满足数据完整性、数据加密与数据备份的要求;数据传输采用CA证书满足通讯完整性与保密性的要求;数据访问采用统一权限管理实现满足身份识别、访问控制、安全审计与资源控制要求;数据展示采用数据加密与脱敏技术。

具体实施方式二

通过附图4可以看出,本方案的特种设备多源数据处理方法,1)获取特种设备的多源数据,并将获得的多源数据作为基础支撑数据进行存储;多源数据包括结构化数据和非结构化数据,其中的结构化数据包括:生产数据、监管数据、检验数据、充装数据;非结构化数据包括:生产设计数据、充装视频、检验视频、检验报告、监检报告。2)对采集的多源数据,据元数据和标准库,进行数据拆分和重组、格式转换和语义转换;3)将转换后的数据进行清洗、验证,使数据格式统一,且均为唯一数据;在对数据进行清洗、验证时,时间格式统一转换为年-月-日格式,特种设备容积单位统一为L,缺失容积标记的特种设备统一设置为80L;特种设备压力单位统一为Mpa,缺失的特种设备压力设置为20Mpa;4)将清洗验证后的数据存储到主数据仓库、分布式数据库。

上述步骤中,多源数据的采集通过数据库驱动、ESB、ETL、文件导入方式采集。主数据仓库用于存储特种设备基本档案数据、特种设备作业人员数据以及特种设备生产单位数据、充装单位数据、检验单位数据、监管单位数据;分布式数据库用于完成明细数据和轻度汇总数据的加工生成,包括充装记录、检验记录明细和汇总数据。

本方案的方法面向特种设备生产、使用、检验等各环节多源构数据集成问题,研究面向数据融合的数据集成平台总体架构,通过数据采集、清洗、加工、处理、存储等流程,实现主数据、分布式数据的汇聚、共享与应用;实现多元异构气瓶安全管理相关数据的集成,并实现了气瓶行业基本情况分析和大屏可视化展示,进一步验证了数据集成方法的可行性和适用性,为下步开展特种设备行业大数据资源构建打下了基础。

以上具体实施方式只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上的改变之处,均在本发明的保护范围内,故本说明书内容不应理解为对本发明的限制。

相关技术
  • 一种特种设备多源数据处理平台及处理方法
  • 一种配用电多源数据系统及多源数据的处理方法
技术分类

06120112164776