掌桥专利:专业的专利平台
掌桥专利
首页

一种城市通行健康码信息数据治理系统

文献发布时间:2023-06-19 10:41:48


一种城市通行健康码信息数据治理系统

技术领域

本发明涉智慧城市数据治理技术领域,具体是指一种城市通行健康码信息数据治理系统。

背景技术

防疫健康码在疫情中作为常用的技术手段,在社会各方面得到了极大的的应用。由于健康码标准不统一、数据不共享、缺乏互认机制、存在信息泄露风险等问题,给人员跨地区流动带来了不便,成为制约疫情有效控制的重要因素。

因此,设计出一种城市通行健康码信息数据治理系统势在必行。

发明内容

本发明要解决的技术问题是现有的健康码机制在功能设计上存在诸多不足:(1)城市中出现的各类健康码格式标准不统一,多源异构,难以作为数据资产发挥应有的作用,当有疫情时间发生时,疫情指挥部门调取信息时,商店、药店、社区、菜市场、超市、学校、公交站等地统计登记的人员信息和系统后台统计的信息数据格式多种多样,使用价值不高,在数据治理、修订过程中花费了大量的人力、物力、精力,并且存在信息填写错误的问题;

(2)防疫数据仅仅留存在各区域,互相之间不共享,成为一个个数据孤岛,去到每个公共场所都需要重新测量体温、出示健康码,多次的数据展示及录入会使数据缺少位置信息、时间信息等关键内容;

(3)现有健康码承载的信息有限,只能展示“红码、黄码、绿码”,在疫情防控常态化的新形势下,已经不能很好的适应,根据健康码来进行人员的轨迹查询;

(4)老年人、无智能手机等特殊人群在使用现有健康码方面存在一定的使用不便,造成出行困难;

(5)现有的健康码的生成结果主要靠个人对日常体温、活动轨迹、是否有密切接触行为等信息的自觉上报,存在风险人群故意隐瞒信息获取绿码的现象。

为解决上述技术问题,本发明提供的技术方案为:一种城市通行健康码信息数据治理系统,包括系统架构,系统架构包括数据接入层、数据存储层、数据管理层和数据治理层,数据接入层通过人工上报录入、数据库共享接入、接口对接、message对接及socket对接的途径,将汇入的城市健康码数据通过ETL工具抽取到系统中的原始数据库,为数据治理提供数据来源;数据存储层采用并行和分布式系统,通过构建原始库、基础库、资源库、主题库、业务库将城市全量的健康码数据进行统一存储,达到统一存储、分布式部署、集中分析、高效访问、统一决策的目的;数据管理层对系统的主数据生命周期管理、数据资源管理、数据质量管理、元数据管理、数据模型管理、数据标准管理、数据安全管理进行调控配置,实现健康码数据的统一入口、统一标准、统一分发、统一管理机制;数据治理层作为系统的核心开发层,用于对健康码数据的数据清洗和数据质量进行保证,利用Hadoop的集群技术构建高度可伸缩的分布式集群架构,使得数据治理系统在架构方面能够支持海量数据、高并发和复杂分析的需求;

系统的的整体运行流程如下:S1、针对健康码数据制定一套标准;S2、获取城市现在分散在不同地区、不同信息系统内的多源异构数据;S3、对数据进行统一的清洗治理;S4、将治理后的数据进行统一存储;

系统可作为其它智慧应用系统的统一数据来源,提供详尽的标准化数据集,供上层的智慧应用系统进行大数据的分析、展示、关联、预测、指挥、调度;

系统架构内传输的健康码数据类型包括重复的数据、不完整的数据和不正确的数据三种。

本发明与现有技术相比的优点在于:(1)为城市疫情管控提供了一种效率高、操作简便、适用范围较为广泛的健康码治理系统,利用智慧化的技术手段解放人力,提高效率,降低成本;

(2)可以将不同的健康码信息进行自动清洗及加工处理,最终给疫情防控中心提供标准数据格式的信息,方便信息的存储及使用;

(3)治理完成后的健康码可在商店、药店、社区、菜市场、超市、学校、公交站等场所进行互认,并可以将实时的位置、测温信息进行动态的更新,大大方便了健康码的使用;

(4)提供丰富的健康码内容信息,经过数据治理后的健康码不仅仅包含红码、黄码、绿码信息,还包含身份、测温、核酸检测、位置轨迹等的各种实用信息,方便在疫情发生后进行人员追溯;

(5)实体健康码具有与电子健康码完全相同的功能,老人、儿童等没有智能手机的特殊人群可以方便的使用实体健康码,解决他们的出行难题;

(6)系统与公安身份信息、国家政务平台、微信、支付宝、运营商及防疫监测站点的数据进行比对分析,通过数据的碰撞可迅速找出存在误报、故意瞒报行为的数据,为疫情防控提供了有利的技术保障。

作为改进,S1步骤中健康码数据标准制定一整套的数据规范是保证城市健康码数据一致性的关键,通过健康码数据标准的制定,规范疫情防控所需个人健康信息的数据结构、数据元属性和数据管理要求,实现多个不同类型的健康码数据转化成统一的格式表示,为数据治理提供方便;

健康码数据类型包括红黄绿码信息、个人基本信息、个人健康信息、个人行程轨迹信息、个人核酸检测信息、个人密切接触信息、个人实时测温信息和个人医疗信息。

作为改进,数据治理层的分布式集群系统中,包括基于相同架构的接口层、整合层、汇总层和共享层,清单数据由接口层并行入库,在整合层中经批量计算和分层存储后生成关联的整合数据,整合数据输入汇总层进行数据汇总并生成主体数据,主体数据通过共享层经数据封装后生成基础数据组件。

作为改进,重复的数据在管理时先将数据库中的记录排序,通过比较邻近记录是否相等来检测完全重复记录,并将重复的记录进行合并,保存为一条单一的数据。

作为改进,不完整的数据在管理时利用数据源之间的字段值并非相互独立的特性,通过识别字段值之间的关系可以推断出缺失的字段值。

作为改进,不正确的数据在管理时通过检测数据表中单个字段的值,并结合检测字段之间以及记录之间的关系来发现错误数据,通过推断字段和它们的值之间的关系来对确实的数据进行替换。

附图说明

图1是一种城市通行健康码信息数据治理系统的运行流程示意图。

图2是一种城市通行健康码信息数据治理系统与其他系统数据关联示意图。

图3是一种城市通行健康码信息数据治理系统的城市通行健康码数据标准类型示意图。

图4是一种城市通行健康码信息数据治理系统的系统架构示意图。

图5是一种城市通行健康码信息数据治理系统的Hadoop分布式集群数据处理架构示意图。

图6是一种城市通行健康码信息数据治理系统的重复健康码数据的治理流程示意图。

图7是一种城市通行健康码信息数据治理系统的不完整健康码数据的治理流程示意图。

图8是一种城市通行健康码信息数据治理系统的不正确健康码数据的治理流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明在具体实施时,一种城市通行健康码信息数据治理系统,包括系统架构,所述系统架构包括数据接入层、数据存储层、数据管理层和数据治理层,所述数据接入层通过人工上报录入、数据库共享接入、接口对接、message对接及socket对接的途径,将汇入的城市健康码数据通过ETL工具抽取到系统中的原始数据库,为数据治理提供数据来源;所述数据存储层采用并行和分布式系统,通过构建原始库、基础库、资源库、主题库、业务库将城市全量的健康码数据进行统一存储,达到统一存储、分布式部署、集中分析、高效访问、统一决策的目的;所述数据管理层对系统的主数据生命周期管理、数据资源管理、数据质量管理、元数据管理、数据模型管理、数据标准管理、数据安全管理进行调控配置,实现健康码数据的统一入口、统一标准、统一分发、统一管理机制;所述数据治理层作为系统的核心开发层,用于对健康码数据的数据清洗和数据质量进行保证,利用Hadoop的集群技术构建高度可伸缩的分布式集群架构,使得数据治理系统在架构方面能够支持海量数据、高并发和复杂分析的需求;

所述系统的的整体运行流程如下:S1、针对健康码数据制定一套标准;S2、获取城市现在分散在不同地区、不同信息系统内的多源异构数据;S3、对数据进行统一的清洗治理;S4、将治理后的数据进行统一存储;

所述系统可作为其它智慧应用系统的统一数据来源,提供详尽的标准化数据集,供上层的智慧应用系统进行大数据的分析、展示、关联、预测、指挥、调度;

所述系统架构内传输的健康码数据类型包括重复的数据、不完整的数据和不正确的数据三种。

所述S1步骤中健康码数据标准制定一整套的数据规范是保证城市健康码数据一致性的关键,通过健康码数据标准的制定,规范疫情防控所需个人健康信息的数据结构、数据元属性和数据管理要求,实现多个不同类型的健康码数据转化成统一的格式表示,为数据治理提供方便;

健康码数据类型包括红黄绿码信息、个人基本信息、个人健康信息、个人行程轨迹信息、个人核酸检测信息、个人密切接触信息、个人实时测温信息和个人医疗信息。

所述数据治理层的分布式集群系统中,包括基于相同架构的接口层、整合层、汇总层和共享层,清单数据由接口层并行入库,在整合层中经批量计算和分层存储后生成关联的整合数据,整合数据输入汇总层进行数据汇总并生成主体数据,主体数据通过共享层经数据封装后生成基础数据组件。

所述重复的数据在管理时先将数据库中的记录排序,通过比较邻近记录是否相等来检测完全重复记录,并将重复的记录进行合并,保存为一条单一的数据。

所述不完整的数据在管理时利用数据源之间的字段值并非相互独立的特性,通过识别字段值之间的关系可以推断出缺失的字段值。

所述不正确的数据在管理时通过检测数据表中单个字段的值,并结合检测字段之间以及记录之间的关系来发现错误数据,通过推断字段和它们的值之间的关系来对确实的数据进行替换。

本发明的工作原理:本系统结合疫情管控的实际需求制定数据标准,利用大数据处理技术将现有的不同标准、不同格式的健康码多源异构数据按照统一的规则进行数据清洗,实现数据的“不同格式输入,标准格式输出”;通过技术手段将分散在不同地区、不同系统中的防疫健康码信息进行互联互通,防疫数据数据在本地存储的同时同步上传至云端的城市防疫大数据指挥中心,实现数据的统一存储;将健康码作为唯一的身份认证识别标志,健康码与身份信息、测温信息、核酸检测信息、人员轨迹信息等进行绑定并实时更新,在所有需要出示健康码进行登记的场合只用出示唯一的健康码,扫描健康码即可显示以上所有信息,实现真正的“一码通”;没有智能手机的特殊人群可以通过将电子健康码打印为实体健康码随身携带的方式来使用,在所有需要出示健康码的场合均可以出示实体码,方便老人出行。

本发明为城市防疫健康码的使用提供一套数据治理系统,为健康码建立数据标准、构建模型、配置规则,通过数据中台软件将不同格式、不同类型的健康码进行数据质量检测、数据类别整理、数据格式修正来完成对数据的清洗、加工与集成融合,并在国家标准健康码数据字段的基础上增加提高健康码数据的质量,最终达到“不同格式数据输入,标准格式数据输出”。经过治理后的数据可以作为数据资源支撑城市防疫各项智慧应用如绘制大数据疫情可视化一张图、人员流向地图等,并可协助放一部门迅速圈定可能被影响到的人群,快速对这些人进行核酸检测。

本系统整体的运行流程如图1所示,分别为:(1)针对健康码数据制定一套标准;(2)获取城市现在分散在不同地区、不同信息系统内的多源异构数据;(3)对数据进行统一的清洗治理;(4)将治理后的数据进行统一存储。

本系统可作为其它智慧应用系统的统一数据来源,为他们提供详尽的标准化数据集,供上层的智慧应用系统进行大数据的分析、展示、关联、预测、指挥、调度等。

在本系统的健康码数据标准制定方面,针对健康码制定一整套的数据规范,是保证城市健康码数据一致性的关键,通过健康码数据标准的制定,规范疫情防控所需个人健康信息的数据结构、数据元属性和数据管理要求。从而可以将现有的众多个不同类型的健康码数据转化成统一的格式表示,从而为数据治理提供方便。城市健康码数据标准参考现有的国家标准,并针对本系统所对应的应用场景进行了合理的扩展,丰富了数据的内容。

系统的详细架构设计方面,数据接入层将通过人工上报录入、数据库共享接入、接口对接、message对接及socket对接等各种途径依标汇入的城市健康码数据将通过ETL工具抽取到数据治理系统中的原始数据库,为数据治理提供数据来源。数据存储层采用并行和分布式系统,通过构建原始库、基础库、资源库、主题库、业务库将城市全量的健康码数据进行统一存储,达到统一存储、分布式部署、集中分析、高效访问、统一决策的目的。数据管理层涉及对系统的主数据生命周期管理、数据资源管理、数据质量管理、元数据管理、数据模型管理、数据标准管理、数据安全管理等几个领域,实现健康码数据的统一入口、统一标准、统一分发、统一管理机制。数据治理层作为本系统的核心,主要完成对健康码数据的数据清洗和数据质量的保证,如图5所示,利用Hadoop的集群技术构建高度可伸缩的分布式集群架构,使得数据治理系统在架构方面能够支持海量数据、高并发和复杂分析的需求。

对健康码进行数据治理的主要场景可以分为:重复的数据、不完整的数据、不正确的数据,其中:

(1)重复的健康码数据

健康码数据治理中的重复数据主要因不同的系统重复上报而产生,要清理健康码数据源中的相似重复记录,需要通过专门的方法检测出相似重复记录,然后采取一定的策略清除这些重复记录。具体的实现方法是先将数据库中的记录排序,然后,通过比较邻近记录是否相等来检测完全重复记录,最后将重复的记录进行合并,保存为一条单一的数据。

(2)不完整的健康码数据

在防疫数据采集中,不完整的数据主要是由于数据录入过程中的错误而产生,比如:将18位的身份证号码填写为17位。详细数据录入的不完整是产生数据质量问题的一个重要因素,具体是指数据源中的字段值产生了缺失。治理的实现方法是:利用数据源之间的字段值并不是相互独立的,通过识别字段值之间的关系可以推断出缺失的字段值。

(3)不正确的健康码数据

健康码中的不正确数据主要是因为填写错误的问题产生,比如姓名:36.5℃;体温:张三;健康码颜色:核酸检测阴性。在健康码的数据治理中需要对错误数据进行专门治理。治理的实现方法是:通过检测数据表中单个字段的值,并结合检测字段之间以及记录之间的关系来发现错误数据,并通过推断字段和它们的值之间的关系来对确实的数据进行替换。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”,“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种城市通行健康码信息数据治理系统
  • 一种基于二维码识别的健康信息管理系统
技术分类

06120112640008