掌桥专利:专业的专利平台
掌桥专利
首页

一种基于数据融合的大气生态环境分析方法

文献发布时间:2023-06-19 11:19:16


一种基于数据融合的大气生态环境分析方法

技术领域

本发明属于大气生态环境保护技术领域,特别涉及一种基于数据融合的大气生态环境分析方法。

背景技术

随着社会经济的快速发展,人口急剧增加,能源消耗飞速增长,大气环境形势日趋严峻,当大气环境中的污染物呈现足够浓度、达到足够时间,就会对人体健康、工农业生产、大气和气候带来严重危害。

为了使有关生态环境部门对将来可能的环境质量发展趋势做出准确的判断和预测,采用有效的大气生态环境监测及分析方法势在必行,不但可以大气环境数据监测节点的重复建设,使环境信息资源能够被有效利用,还可以为城域物联感知平台提供环境信息资源的信息共享,以利于政府各部门对环境状况及时做出合理的决策。

发明内容

发明目的:为了解决数据标准不统一、数据源分散、数据融合性低的问题,提供一种基于数据融合的大气生态环境分析方法。

技术方案:一种基于数据融合的大气生态环境分析方法,包括以下步骤:

包括以下步骤:

步骤1,进行大气环境数据的采集、治理和任务的监控;

步骤2,进行数据资源目录分类,以及公共属性、元数据、标准表管理;

步骤3,进行数据资源管理与质量监控;

步骤4,进行大气环境数据的分析研判。

步骤1包括:

步骤1-1,配置大气生态各各业务系统表的源数据,制定如下规则抽取大气环境质量业务数据:通过数据交换区和批量导入的方式,上传时效性要求较低的数据;通过数据实时接入接口,实时同步时效性要求较高的数据;通过关系型数据采集集群采集数据源中的结构化数据,通过业务系统ETL(数据仓库技术,Extract-Transform-Load) 技术采集数据源中的非结构化数据;

步骤1-2,将需要校验的源数据字段注册到唯一性校验规则表中,使用shell脚本md5校验方法对抽取的源数据接口文件、相关记录进行唯一性检查;对字段类型、字段长度、数字精度、取值范围、可否为空、忽略字符、正则表达式一致性等内容开展记录级校验;

步骤1-3,定义异构数据源的处理流程,设置统一类型格式、完整性规则、准确性规则,将源数据转换为目标数据,并录入大气环境信息资源库,包括:将来源于不同业务系统的相同类型的数据进行统一处理,如时间、数值、字符、计量单位等内容,确保类型格式统一;按照数据仓库粒度对数据进行统一归整、对空值进行替换配置,确保数据完整性;将源数据转换为目标数据,并录入大气环境信息资源库,确保数据准确性;

步骤1-4,展示当前自定义数据处理流程的实时监控情况,包括完成、运行中、运行失败状态,当状态异常时自动报警。

步骤2包括:

步骤2-1,进行分类编目和分级管理;

步骤2-2,进行环境信息公共属性管理;

步骤2-3,进行元数据管理;

步骤2-4,进行标准表管理。

步骤2-1包括:按照环境信息资源分类编码规则对大气环境信息资源库中的数据资源和服务资源进行提取,建设项目信息资源采集目录,根据目录名称、资源分类名称、资源分类上下级信息开展资源分类管理,将非规范化数据转为规范化数据或半规范化数据(参考文献:GB/T 21063.4-2007《政务信息资源目录体系第4部分:政务信息资源分类》)。分类编目依托目录分类、共享属性分类、层级属性分类、涉密属性分类;分级管理具体包括资源编目、资源注册、资源发布、资源访问和资源目录管理。

步骤2-2包括:大气环境信息公共实体指跨部门共用的信息实体,大气环境信息公共属性是指公共实体间的关键检索属性,通过关联关键检索信息,实现公共实体间的关联、支持不同实体间的汇总、统计、分析,关键检索信息包括自动站信息、污染源信息。设置大气环境信息公共属性的管理流程,即属性查询、属性注册、属性更新、属性发布、属性维护,展现大气环境公共实体数据表(包括但不限于自动站信息、污染源信息、断面信息等)之间的血缘关系。

步骤2-3包括:通过对大气环境信息资源库结构的管理维护,实现大气环境信息资源元数据和数据字典的提取和定义,并以目录的形式进行组织和管理,并构建元数据中心,在此基础上形成可视化的大气环境数据地图、血缘分析;通过元数据新增、元数据保存提交、元数据修改、元数据审核、元数据注册至资源目录、注册审核、资源目录元数据视图等七项功能,实现分类、资源名称、信息资源代码、信息资源提供方、信息资源摘要、信息资源格式、信息项信息、共享属性、开放属性、更新周期、发布日期等十一项元数据模型的管理。

将元数据中心存储的信息资源发布到专项应用库中,同时从专项应用库中采集元数据内容进行稽核,提供元数据服务,元数据服务包括数据质量、维护管理。

步骤2-4包括:梳理和整合业务系统中的数据资源,在标准表中形成空气质量预报、环境信用评价、空气自动监测、大气污染防治等大气质量分类类别,抽取各业务系统数据库中的报表,将报表中的字段与梳理出的标准表类别进行对比,并最终形成标准表数据。

步骤3包括:

步骤3-1,利用大气环境数据资源库统一的数据标准及数据管理、交互机制,对数据资源进行管理,包括注册数据源、表管理、字段管理、E-R(实体-联系,EntityRelationship)关系管理、管理数据源;本发明支持MYSQL、SQLSERVER、ORACLE (mangodb、Nosql)三种类型数据源,对数据表的完整性、及时性、有效性,字段的值域范围等信息进行管理。

步骤3-2,设计包括数据到达时间及时性、字段阈值有效性、关键属性空值的数据质量监控规则;通过设计的数据质量监控规则捕捉大气环境质量的现状指标及发展趋势。本发明中设置的数据质量规则主要包含监控规则、告警规则,围绕数据的及时性、完整性、有效性进行展开,提供数据质量综合指数排名分析。

步骤4包括:

步骤4-1,进行数据健康度诊断,诊断内容包括数据波动异常和数据缺失,数据波动异常的捕捉内容为在一个时间段通过折线图反映出异常的一次性波动、周期性波动和持续性波动情况,或者本该有波动的数据无波动;通过折线图发现一个时间段数据丢失或者通过柱状图诊断显示数据为0反应出来的数据缺失情况,即数据缺失的捕捉;

步骤4-2,构建数据集市:构建空气质量小时报、省控站点空气质量指数日报、国控站点空气质量指数日报、城市空气质量指数小时报、首要污染物统计报表共五类数据集市报表,通过空气质量指数展示空气质量指数、首要污染物、空气质量指数级别;

步骤4-3,数据服务管理:基于大气环境数据资源库,以REST(表现层状态转移,REpresentational State Transfer)方式提供数据服务,对用户申请的服务的服务名称、申请人、申请时间信息进行审核,通过token(令牌)认证调用数据服务过程,数据服务管理包含服务开发、数据服务视图、服务申请审核,服务开发完成服务地址或自定义 SQL的填写并创建数据封装服务,数据服务视图提供浏览及申请数据功能,服务申请审核对服务内容信息进行审查;

步骤4-4,数据分析研判。

步骤4-4包括:以大气环境信息资源库数据信息为基础,实现对大气环境污染物、大气环境污染源、监测站业务信息的统计分析,以数据云图的形式展现大气环境实况分析情况、数据采集分析情况、趋势研判分析情况,实时展现大气污染环境事件定位和预警。

进一步的,所述步骤1还包括:

(11)获取大气生态环境源数据

制定规则抽取大气环境质量业务数据,包括但不限于实时、非实时数据,批量、增量数据,结构化数据、半结构化数据、非结构化数据。

(12)开展数据清洗校验

对抽取的数据开展文件级、记录级校验,数据唯一性检查、外键完整性检查,数据抽取任务完成后,通过对数据源与目标数据库之间的数据进行对比分析,从而进一步来分析、发现与解决在数据抽取过程可能产生的异常错误信息。

(13)数据转换

将来源于不同业务系统的相同类型的数据进行统一处理,如时间、数值、字符、计量单位等内容,确保类型格式统一;按照数据仓库粒度对数据进行统一归整、对空值进行替换配置,确保数据完整性;将源数据转换为目标数据,并录入大气环境信息资源库,确保数据准确性。

(14)进行任务监控

对Job(任务)的运行状态、代理节点的任务执行情况、任务执行结果、任务集群、节点资源状况开展监控。

有益效果:本发明提供了一种基于数据融合的大气生态环境分析方法,对异构数据源中的数据进行治理,最终构建具备数据健康度诊断、数据集市、数据管理服务、数据分析研判为一体的大气生态环境分析体系,可实现大气生态环境变化的快速溯源和未来发展趋势的实时预测。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。

图1是大气环境质量检测整体流程图;

图2是大气环境信息资源分类编码规则图;

图3是大气环境信息资源目录总体架构图;

图4是大气环境数据加工流程图。

具体实施方式

如图1所示,本发明提供了一种基于数据融合的大气生态环境分析方法,包括以下步骤:

(1)大气环境数据的采集、治理和任务的监控;

(11)制定规则对大气环境数据进行采集校验

从不同业务系统的多种数据源(SQL Server、MySQL、ORACLE、DB2、Hadoop、 MPP等)中进行指定规则的数据提取/抽取作业,并根据制定的规则、基础数据、数据映射关系,执行数据校验。

(12)开展数据清洗

配置管理数据任务(Job)涉及的逻辑和处理流程,使用统一调度来驱动数据处理过程来完成对业务数据处理计算操作。

(13)数据转换

将来源于不同业务系统的相同类型的数据进行统一处理,如时间、数值、字符、计量单位等内容,确保类型格式统一;按照数据仓库粒度对数据进行统一归整、对空值进行替换配置,确保数据完整性;将源数据转换为目标数据,并录入大气环境信息资源库,确保数据准确性。

(14)进行任务监控

Job组监控和查询是通过对某一正在运行的Job中node指针的运行状态及node详细信息展现的,方便管理员监控node的运行情况。Job组中展现该Job所在的Job组中所有的调度信息,就完成了所执行监控任务的标注。

(2)数据资源目录分类,公共属性、元数据、标准表管理;

(21)分类编目和分级管理

如图2、图3所示,按照大气环境信息资源分类编码规则对大气环境信息资源库中的数据资源和服务资源进行提取,对共享资源进行核心元数据管理,包括目录注册、目录发布、目录查询、目录管理、目录服务等,将非规范化数据按要求转为规范化数据或半规范化数据,并提供目录及其描述。

(22)公共属性管理

环境信息公共属性是指公共实体间的关键检索属性,通过关联各业务系统之间的公共属性,实现实体间的关联、支持不同实体间的汇总、统计、分析。

(23)元数据管理

在构建元数据中心基础上,提供数据地图、影响分析、血缘分析、生命周期分析、主数据分布等信息查询;通过开发管理过程,将产生的信息存储到元数据中心。在上线的时候,将元数据中的生产要素信息发布到生产平台,进行生产运行;同时从生产平台采集元数据内容来进行稽核元数据的质量和一致性;元数据通过元数据服务向数据质量、维护管理等提供元数据的服务。

(24)标准表管理

如图4所示,经过加工后的标准数据会形成新的数据结构,并和公共属性进行关联。

(3)数据资源管理与质量监控;

(31)数据资源管理

利用大气环境数据资源库统一的数据标准及数据管理、交互机制,对应用资源进行管理,包括注册数据源、表管理、字段管理、ER关系管理、管理数据源等功能。

(32)数据质量监控规则设计

设置的质量监控规则可有效捕捉大气环境质量的现状指标及发展趋势。根据实际需求从及时性、有效性、完整性设计告警项算法,如表1所示。

表1

数据质量监控分析围绕数据的及时性、完整性、有效性进行展开,通过设置质量指标并完成综合指数排名分析,如:

及时性指数:监控时间点,更新数据>0,则得100分,否则得0分。

完整性指数:根据配置的更新数量来算占比,如配置了100条,本周期更新了80条,则得80分。如果超过配置的更新数量,得100分。

有效性指数:分成空值校验(40%)和字段值域校验(60%)。空值校验按照非空的占比来计算,如100条记录,有10条是空的,则得90分。字段值域校验,根据在值域范围内的数据记录占比来计算。如100条记录,有20条某字段的值不在值域范围内,则得80分。空值校验得分*40%+字段值域得分*60%,则为有效性得分。

综合指数:依据以上计算出的及时性指数、完整性指数、有效性指数,分别按照40%,30%,30%的权重,计算得出数据质量综合指数。

(4)大气环境数据的分析研判。

(41)数据健康度诊断

数据健康度是对数据业务KPI考核体系的完善,诊断内容主要包括数据波动异常和数据缺失。如数据波动异常的主要捕捉内容为在某个时间段通过折线图反应数据波动比较大,或者本该有波动的数据无波动;通过折线图发现某个时间段数据丢失或者柱状图显示数据为0等情况造成的数据缺失都能够通过系统反应出来,即数据缺失的捕捉。

(42)构建数据集市

构建空气质量小时报、省控站点空气质量指数日报、国控站点空气质量指数日报、城市空气质量指数小时报、首要污染物统计报表等五类数据集市报表。主要影响指标有SO2、NO、NO2、NOx,PM10、PM2.5、O3和CO等。通过AQI(空气质量指数) 展示空气质量指数、首要污染物、空气质量指数级别等数据信息。

(43)数据服务管理

基于数据中心数据提供数据服务,服务以REST方式提供,需进行审核操作,并且调用服务过程需经过token认证,有效拦截不合法的数据请求。数据服务管理包含服务开发、数据服务视图、服务申请审核等内容。

(44)数据分析研判

通过对大气环境主题数据库的分析和研判,以云图形式展现大气环境实况分析、数据采集分析、趋势研判分析,并实时展现大气污染环境事件定位和预警。

本发明提供了一种基于数据融合的大气生态环境分析方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

相关技术
  • 一种基于数据融合的大气生态环境分析方法
  • 一种基于遥感数据融合的输电线路地质灾害分析方法
技术分类

06120112879818