一种非实时数据传递方法
文献发布时间:2023-06-19 11:35:49
技术领域
本发明涉及数据传输技术,尤其涉及一种非实时数据传递方法。
背景技术
从国家治理的角度,需要汇集各地方各部门各类经营过程数据,之后在国家平台、部委平台进行大数据事后分析,发现问题线索,向各级政府部门和企业提供数据产品服务。行业管理很多情况下并不需要实时数据远距离传递的支持,代价太高,也没有实质性作用。目前国家各行业各地方政务大数据中心基本上都存在一系列问题,包括能耗过高、利用率低等问题,这些问题和数据传递效率低也有直接关系。非实时海量数据跨省跨国跨星全域、接近无限容量、安全高效传递出入各类数据中心数据仓库的问题急需解决。
发明内容
本发明的目的在于解决非实时海量数据安全高效传递出入各类数据中心数据仓库的问题。
为解决上述问题,本发明实施例提供了一种非实时数据传递方法,包括:
接收订单信息,所述订单信息包括源数仓地址、目标数仓地址和数据文件信息,所述源数仓地址指向源数仓;
根据所述源数仓各个存储介质安装位的存储介质的可用情况和目标数仓地址,确定目标存储介质,所述目标存储介质满足所述数据文件信息的需求;
将所述数据文件信息指示的数据同步到所述目标存储介质,并将所述目标存储介质运输到目标数仓地址。
可选的,根据所述源数仓各个存储介质安装位的存储介质的可用情况,确定目标存储介质,包括:
遍历所述源数仓各个存储介质安装位的存储介质关联的地址信息;
根据所述地址信息判断是否存在地址信息与所述目标数仓地址相同的同目的地存储介质;
若存在所述同目的地存储介质,则判断能否根据数据文件信息和可用情况从所述同目的地存储介质中确定目标存储介质;
若可以从所述同目的地存储介质中确定目标存储介质,则从所述同目的地存储介质中确定目标存储介质;
若无法从所述同目的地存储介质中确定目标存储介质,则从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质,所述新的存储介质的存储空间未被占用。
可选的,所述若可以从所述同目的地存储介质中确定目标存储介质,则从所述同目的地存储介质中确定目标存储介质之后,还包括:
确定所述目标存储介质对应的订单信息,所述订单信息包括订单号;
以所述运单号为名称建立运单目录;
将每个订单信息对应的数据对应的存储在所述运单目录下。
可选的,还包括:
若不存在所述同目的地存储介质,则从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
可选的,所述判断能否根据数据文件信息和可用情况从所述同目的地存储介质中确定目标存储介质,包括:
从数据文件信息中确定运送安全条件、运送时限条件和数据大小;
判断所述同目的地存储介质中是否有符合所述运送安全条件和运送时限条件的预选存储介质;
若存在预选存储介质,则判断所述预选存储介质的可用情况是否满足所述数据大小;
若满足所述数据大小,则从所述预选存储介质中确定目标存储介质可以从同目的地存储介质中确定目标存储介质。
可选的,所述判断所述同目的地存储介质中是否有符合所述运送安全条件和运送时限条件的预选存储介质,包括:
确定所述同目的地存储介质的运送安全条件;
若所述同目的地存储介质的运送安全条件高于所述数据文件信息中确定的运送安全条件,则确定所述同目的地存储介质中存在预选存储介质。
可选的,所述判断所述同目的地存储介质中是否有符合所述运送安全条件和运送时限条件的预选存储介质,包括:
确定所述同目的地存储介质的运送时限条件;
若所述同目的地存储介质的运送时限条件严格于所述数据文件信息中确定的运送时限条件,则确定所述同目的地存储介质中存在预选存储介质。
可选的,还包括:
若不存在预选存储介质,则从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
可选的,还包括:
若所述预选存储介质的可用情况不满足所述数据大小,则从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
可选的,所述将所述数据文件信息指示的数据同步到所述目标存储介质之后,还包括:
热拔所述目标存储介质;
在所述目标存储介质对应的存储介质安装位上安插备用的存储介质安装位的存储介质;
更新源数仓各个存储介质安装位的存储介质的可用情况。
通过本发明提供的方案,从技术上实现几乎无限带宽、数仓机架存储介质安装位到数仓机架存储介质安装位、跨省跨国、城乡全覆盖、分级分类、安全高效的非实时海量数据交换传递。
附图说明
图1为本发明具体实施方式提供的一种非实时数据传递方法的流程图;
图2为本发明具体实施方式提供的确定目标存储介质的方法的流程图;
图3为本发明具体实施方式提供的判断能否根据数据文件信息和可用情况从同目的地存储介质中确定目标存储介质的方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明具体实施方式提供的一种非实时数据传递方法的流程图。参考图1,本发明包括如下步骤:
S10、接收订单信息。
所述订单信息是通过数字媒质专递服务系统(用户端/大客户端)手机/网站下单,生成数字媒质专递运单的信息,一般包括源数仓地址、目标数仓地址和数据文件信息,其中,源数仓地址指向源数仓,目标数仓地址指向目的数仓,数据文件信息包括需要传输的数据的大小、运送安全条件、运送时限条件等。
当然,在实际使用中,订单信息还包括:源数仓联系人、单位、手机号,目的数仓联系人、单位、手机号。
在此基础上,数据内容说明文件需要对媒质所承载的数据的目录结构、文件记录格式、数据项详细情况说明以便接收方解析入库;加密数据文件需从保密途径传送解密信息。
其中,加密数据文件是为了防止数据泄漏,数据摘要是为了防篡改。加密方式包括普通点到点加密解密,也可包括通过区块链实现端到端的数据加密防篡改。密钥推荐使用符合国密要求的密码机生成,如无实施条件或保密要求不高也可以通过计算机算法产生伪随机密码等低密级方法。
S20、根据所述源数仓各个存储介质安装位的存储介质的可用情况和目标数仓地址,确定目标存储介质。
源数仓服务器(需支持分布式文件系统,如HDFS)根据当天需处理运单情况配置存储备份策略,通过配置同步工具自动同步到源数仓交换区数个指定存储介质安装位中的存储设备(如挂载的硬盘,互为备份)。
其中,HDFS有着高可用性分布式文件系统的特点,设计用来部署在低廉的(low-cost)硬件上,支持多种存储备份策略,适合超大OLAP在线分析数据集(large data set)。
交换至远端的数据修改删除支持说明:传统的数据库日志打开后,在定期(如一周一次)全量备份数据库并交换的基础上可短期(如每天)增量备份新日志记录以支持增量数据交换;传统数据库日志一般包括增删改等DDL/DML操作记录,定期交换增量数据库日志即可修改删除远端库中数据。数仓hive/hdfs主要用于存储大量过程监管数据,而这些数据主要用于系统留痕事后分析处理,一般没有删改需求。可通过加密、摘要等安全机制实现交换数据的一致性和保密要求。
源数仓包括多个存储介质安装位的存储介质。一般的,源数仓通过表单对每个存储介质安装位的存储介质进行管理。由于源数仓与目的数仓之间的存储设备的传递不是实时的,因此可能存在源数仓接收到订单信息时,发现这一订单信息的目标数仓地址与之前某一订单信息的目标数仓地址一致。此时可以考虑将两个目标数仓地址一致的订单信息指示的数据存储在相同的存储设备中。也就是从多个存储介质安装位的存储介质中选择满足数据文件信息的需求的目标存储介质。
参考图2,步骤S20还可以包括如下的步骤:
S21、遍历所述源数仓各个存储介质安装位的存储介质关联的地址信息。
遍历源数仓各个存储介质安装位的存储介质关联的地址信息,一般的,地址信息包括两类,地址信息为空和地址信息不为空。此次遍历主要是筛选出地址信息不为空的存储介质安装位的存储介质。
S22、根据地址信息判断是否存在地址信息与目标数仓地址相同的同目的地存储介质。若存在,则执行步骤S23;若不存在,则执行步骤S25。
从地址信息不为空的存储介质安装位的存储介质中判断是否有地址信息与目标数仓地址相同的存储介质安装位的存储介质。如果有,则将其确定为同目的地存储介质。并判断能否根据数据文件信息和可用情况从同目的地存储介质中确定目标存储介质。如果没有,从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
S23、判断能否根据数据文件信息和可用情况从同目的地存储介质中确定目标存储介质。若可以则执行步骤S24;若不能,则执行步骤S25。
根据文件信息和可用情况对同目的地存储介质再次进行筛选,确定唯一的目标存储介质。
参考图3,步骤S23还可以包括如下的步骤:
S231、从数据文件信息中确定运送安全条件、运送时限条件和数据大小。
运送安全条件包括安全保护等级。运送时限条件包括最迟运送到目标数仓地址的时间限制。
S232、判断同目的地存储介质中是否有符合运送安全条件和运送时限条件的预选存储介质。若有,则执行步骤S223;若没有,则执行步骤S235。
从运送安全条件来看:
确定所述同目的地存储介质的运送安全条件;若所述同目的地存储介质的运送安全条件高于所述数据文件信息中确定的运送安全条件,定所述同目的地存储介质中存在预选存储介质。
从运送时限条件来看:
确定所述同目的地存储介质的运送时限条件;若所述同目的地存储介质的运送时限条件严格于所述数据文件信息中确定的运送时限条件,定所述同目的地存储介质中存在预选存储介质。
S233、判断所述预选存储介质的可用情况是否满足所述数据大小。若满足,则执行步骤S224;若不满足,则执行步骤S235。
S234、则从所述预选存储介质中确定目标存储介质。
当然,同目的地存储介质中可能存在多个符合条件的存储介质。可以从这些符合条件的存储介质中选择剩余空间最小的存储介质架作为目标存储介质。
S235、从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
S24、从所述同目的地存储介质中确定目标存储介质。
将去往同一目标数仓地址的数据存储到同一目标存储介质中,既可以节约占用存储设备的数量,也可以节约运输的成本。
此时存在一个目标存储介质中有多个订单信息的情况,为了便于区分,可以确定所述目标存储介质对应的订单信息,所述订单信息包括订单号;以所述运单号为名称建立运单目录;将每个订单信息对应的数据对应的存储在所述运单目录下。
S25、从所述源数仓中初始化一个新的存储介质挂载作为目标存储介质。
S30、将所述数据文件信息指示的数据同步到所述目标存储介质,并将所述目标存储介质运输到目标数仓地址。
将所述数据文件信息指示的数据同步到所述目标存储介质之后,还包括:更新源数仓各个存储介质安装位存的储介质的可用情况。
源数仓服务器(需支持分布式文件系统,如HDFS)根据当天需处理运单情况配置存储备份策略,通过配置同步工具自动同步到源数仓交换区数个指定存储介质安装位中的存储设备(如挂载的存储介质,互为备份)。
将所述数据文件信息指示的数据同步到所述目标存储介质之后,还包括:热拔所述目标存储介质;在所述目标存储介质对应的存储介质安装位上安插备用的存储介质安装位的存储介质;更新源数仓各个存储介质安装位的存储介质的可用情况。
根据当天到期需运送的存储介质安装位热拔对应存储设备,放入数据媒质专递箱,上锁;快递员手持终端生成运单标签,贴在专递箱上,动态密码发给收件人(存在于订单信息中),运送途中可根据数据媒质专递箱位置信息进行实时跟踪。数据媒质专递箱运送到目的数仓,用户端/大客户端用户向快递员报密码,快递员开锁取出存储设备,热插上目的数仓交换区服务器;自动加载数据文件至目的数仓文件系统,通过ETL工具或文件系统数据备份策略进行数据备份操作,实现数据入库。
在此基础上,数据媒质专递箱具备防震、防压、防水、防火、防盗、防雷电、防磁、可跟踪等产品特性。
通过本发明提供的方案,从技术上实现几乎无限带宽、数仓机架存储介质安装位到数仓机架存储介质安装位、跨省跨国、城乡全覆盖、分级分类、安全高效的非实时海量数据交换传递。
虽然,上文中已经用一般性说明、具体实施方式及试验,对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
- 一种非实时数据传递方法
- 一种实时数据传递与交换方法