掌桥专利:专业的专利平台
掌桥专利
首页

用于多集群的数据汇集系统和方法

文献发布时间:2023-06-19 11:08:20


用于多集群的数据汇集系统和方法

技术领域

本发明涉及数据同步技术领域,具体地说,尤其涉及一种用于多集群的数据汇集系统和方法。

背景技术

集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。

随着互联网服务的高速发展,企业组织在提供互联网服务时,为了提高服务响应速度,或者为了部分敏感数据合规,通常采用集群技术会在多国家甚至多洲建立多个业务独立的数据中心,即多集群架构。

但是在实际使用中发现,由于每一个数据中心都是独立的,因而在企业组织需要进行统一数据分析时,这些多集群数据之间相互隔离,从而导致无法统一汇聚起来进行数据分析。例如,存在多个跨州或跨境的数据中心集群,每个集群日产生数据量达到几个T,现有的多个数据中心数据汇集通常采用实时同步汇集,即分集群接收到一条消息,会通过跨州网络同步给主集群,在数据同步过程中,因为距离远,网络抖动等原因经常出现数据不一致的情况,从而无法统一汇聚起来进行数据分析。

因此,亟需开发一种克服上述缺陷的用于多集群的数据汇集系统和方法,以解决现有数据汇集方法由于距离远、网络抖动等原因导致的分集群与主集群数据不一致,以及实时同步汇集未压缩数据导致浪费带宽和流量的技术问题。

发明内容

本申请实施例提供了一种用于多集群的数据汇集系统和方法,以至少解决现有数据汇集方法由于距离远、网络抖动等原因导致的分集群与主集群数据不一致,以及实时同步汇集未压缩数据导致浪费带宽和流量的技术问题。

第一方面,本申请实施例提供了一种用于多集群的数据汇集系统,其中,包括:一主集群和至少一分集群,所述主集群输出数据汇集请求至所述分集群,所述分集群根据所述数据汇集请求对原始数据文件进行处理后获得压缩文件和第一签名文件并发送至所述主集群,所述主集群对所述第一签名文件进行验证,验证成功后所述主集群装载所述原始数据文件。

上述的数据汇集系统,其中,每一所述分集群包括:

分集群数据中心,存储所述原始数据文件;

分集群数据接口服务,根据所述数据汇集请求调取所述分集群数据中心存储的所述原始数据文件,并对所述原始数据文件进行压缩处理获得所述压缩文件,所述分集群数据接口服务还对所述原始数据文件进行MD5计算获得所述第一签名文件。

上述的数据汇集系统,其中,所述主集群包括:

主集群数据中心,输出所述数据汇集请求至所述分集群数据接口服务;

主集群数据接口服务,对所述第一签名文件进行验证,验证成功后所述主集群数据接口服务将所述原始数据文件装载至所述主集群数据中心。

上述的数据汇集系统,其中,所述主集群数据接口服务对所述压缩文件进行解压处理获得所述原始数据文件,所述主集群数据接口服务对所述原始数据文件进行MD5计算获得第二签名文件,所述主集群数据接口服务将所述第一签名文件与所述第二签名文件进行比对生成比对结果。

上述的数据汇集系统,其中,当所述比对结果为所述第一签名文件与所述第二签名文件一致时,所述主集群数据接口服务将所述原始数据文件装载至所述主集群数据中心;当所述比对结果为所述第一签名文件与所述第二签名文件不一致时,所述主集群数据中心根据所述比对结果再次输出所述数据汇集请求至所述分集群数据接口服务。

第二方面,本申请实施例提供了一种用于多集群的数据汇集方法,其中,包括:

请求步骤:主集群输出数据汇集请求至分集群;

数据返回步骤:所述分集群根据所述数据汇集请求对原始数据文件进行处理后获得压缩文件和第一签名文件并发送至所述主集群;

验证处理步骤:所述主集群对所述第一签名文件进行验证,验证成功后所述主集群装载所述原始数据文件。

上述的数据汇集方法,其中,所述数据返回步骤包括:

原始数据文件调取步骤:分集群数据接口服务根据所述数据汇集请求调取分集群数据中心存储的所述原始数据文件;

压缩文件获得步骤:所述分集群数据接口服务对所述原始数据文件进行压缩处理获得所述压缩文件;

第一签名文件获得步骤:所述分集群数据接口服务对所述原始数据文件进行MD5计算获得所述第一签名文件。

上述的数据汇集方法,其中,所述验证处理步骤包括:

验证步骤:主集群数据接口服务对所述第一签名文件进行验证并输出比对结果;

处理步骤:主集群数据接口服务根据所述比对结果处理所述原始数据文件。

上述的数据汇集方法,其中,所述验证步骤包括:

原始数据文件获得步骤:所述主集群数据接口服务对所述压缩文件进行解压处理获得所述原始数据文件;

第二签名文件获得步骤:所述主集群数据接口服务对所述原始数据文件进行MD5计算获得第二签名文件;

比对结果获得步骤:所述主集群数据接口服务将所述第一签名文件与所述第二签名文件进行比对生成比对结果。

上述的数据汇集方法,其中,所述处理步骤中包括:当所述比对结果为所述第一签名文件与所述第二签名文件一致时,所述主集群数据接口服务将所述原始数据文件装载至主集群数据中心;当所述比对结果为所述第一签名文件与所述第二签名文件不一致时,所主集群数据中心根据所述比对结果再次输出所述数据汇集请求至所述分集群数据接口服务。

相比于现有技术本发明的功效在于,解决了现有数据汇集方法由于距离远、网络抖动等原因导致的分集群与主集群数据不一致,以及实时同步汇集未压缩数据导致浪费带宽和流量的技术问题,尤其适用于具有数据集群距离远,数据量大,数据一致性要求高等数据汇集需求的数据集群。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明的用于多集群的数据汇集系统的结构示意图;

图2为本发明的用于多集群的数据汇集方法的流程图;

图3为图2中步骤S2的分步骤流程图;

图4为图2中步骤S3的分步骤流程图;

图5为图4中步骤S31的分步骤流程图;

图6为本发明实施例提供的一电子设备的框架图。

其中,附图标记为:

主集群11;

主集群数据中心111;

主集群数据接口服务112;

分集群12;

分集群数据中心121;

分集群数据接口服务122;

60、总线;

61、处理器;

62、存储器;

63、通信接口。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参照图1,图1为本发明的用于多集群的数据汇集系统的结构示意图。如图1所示,本发明的用于多集群的数据汇集系统包括:一主集群11和至少一分集群12,所述主集群11输出数据汇集请求至所述分集群12,所述分集群12根据所述数据汇集请求对原始数据文件进行处理后获得压缩文件和第一签名文件并发送至所述主集群11,所述主集群11对所述第一签名文件进行验证,验证成功后所述主集群11装载所述原始数据文件。

由此,本发明的分集群通过高度压缩和生成签名的方式,将分集群的数据文件高效、完整的传输到主集群,满足了多数据中心数据同步,统一分析的需求;同时传输的为高度压缩后的数据文件,避免在数据集群远,数据量大时的昂贵传输费用;并且传输数据文件同时,传输签名文件,保证在大数据量,长距离传输时的数据完整性。

其中,分集群与主集群物理隔离,数据单独存放,通常是分散在不同国家甚至不同洲之间。每个集群(包含分集群与主集群)都有一个自己的数据接口服务,数据接口服务开通外网IP,相互之间可以访问。各个独立集群之间的数据同步均是通过数据接口服务来的。

具体地说,每一所述分集群12包括:分集群数据中心121及分集群数据接口服务122;分集群数据中心121存储所述原始数据文件;分集群数据接口服务122根据所述数据汇集请求调取所述分集群数据中心121存储的所述原始数据文件,并对所述原始数据文件进行压缩处理获得所述压缩文件,所述分集群数据接口服务122还对所述原始数据文件进行MD5计算获得所述第一签名文件。

所述主集群11包括:主集群数据中心111及主集群数据接口服务112;主集群数据中心111输出所述数据汇集请求至所述分集群数据接口服务122;主集群数据接口服务112对所述第一签名文件进行验证,验证成功后所述主集群数据接口服务112将所述原始数据文件装载至所述主集群数据中心。其中,所述主集群数据接口服务112对第一签名文件和压缩文件进行解压、验签和装载,具体地说主集群数据接口服务112对所述压缩文件进行解压处理获得所述原始数据文件,所述主集群数据接口服务112对所述原始数据文件进行MD5计算获得第二签名文件,所述主集群数据接口服务112将所述第一签名文件与所述第二签名文件进行比对生成比对结果,当所述比对结果为所述第一签名文件与所述第二签名文件一致时,所述主集群数据接口服务112将所述原始数据文件装载至所述主集群数据中心111;当所述比对结果为所述第一签名文件与所述第二签名文件不一致时,所述主集群数据中心111根据所述比对结果再次输出所述数据汇集请求至所述分集群数据接口服务122。

以下结合图1,以一具体实施例说明本发明的用于多集群的数据汇集系统的工作过程,需要说明的是本实施例中通过一个分集群与一个主集群进行说明,但本发明并不对分集群的数量进行限制,具体工作为:

1、主集群数据中心111向分集群数据接口服务122请求数据文件1;

2、分集群数据接口服务122收到请求,查找分集群数据中心121的磁盘上的数据文件1;

3、分集群数据接口服务122对数据文件1即原始数据文件进行MD5计算,生成签名文件1;

4、分集群数据接口服务122对数据文件1进行高度压缩,生成压缩文件1;

5、分集群数据接口服务122将签名文件1和压缩文件1返回给主集群数据接口服务112;

6、主集群数据接口服务112获得压缩文件1和签名文件1;

7、主集群数据接口服务112解压压缩文件1,生成原始数据文件;

8、主集群数据接口服务112对原始数据文件进行MD5计算,生成第二签名文件,并与第6步获得的签名文件1比对是否一致;

9、如果比对结果一致,证明传输过来的数据文件1完整无损,并装载到主集群数据中心111中进行后续ETL计算;

10、如果比对结果不一致,证明数据传输过程中出现损坏。需要重新向分集群数据接口服务122请求数据文件1,重新从第1步开始,直至所有数据文件完整无损的传输过来。

请参照图2,图2为本发明的用于多集群的数据汇集方法的流程图。如图2所示,本发明的用于多集群的数据汇集方法包括以下步骤:

请求步骤S1:主集群输出数据汇集请求至分集群;

数据返回步骤S2:所述分集群根据所述数据汇集请求对原始数据文件进行处理后获得压缩文件和第一签名文件并发送至所述主集群;

验证处理步骤S3:所述主集群对所述第一签名文件进行验证,验证成功后所述主集群装载所述原始数据文件。

进一步地,请参照图3,图3为图2中步骤S2的分步骤流程图。如图3所示,所述数据返回步骤S2包括:

原始数据文件调取步骤S21:分集群数据接口服务根据所述数据汇集请求调取分集群数据中心存储的所述原始数据文件;

压缩文件获得步骤S22:所述分集群数据接口服务对所述原始数据文件进行压缩处理获得所述压缩文件;

第一签名文件获得步骤S23:所述分集群数据接口服务对所述原始数据文件进行MD5计算获得所述第一签名文件。

再进一步地,请参照图4,图4为图2中步骤S3的分步骤流程图。如图4所示,所述验证处理步骤S3包括:

验证步骤S31:主集群数据接口服务对所述第一签名文件进行验证并输出比对结果;

处理步骤S32:主集群数据接口服务根据所述比对结果处理所述原始数据文件。

更进一步地,请参照图5,图5为图4中步骤S31的分步骤流程图。如图5所示,所述验证步骤S31包括:

原始数据文件获得步骤S311:所述主集群数据接口服务对所述压缩文件进行解压处理获得所述原始数据文件;

第二签名文件获得步骤S312:所述主集群数据接口服务对所述原始数据文件进行MD5计算获得第二签名文件;

比对结果获得步骤S313:所述主集群数据接口服务将所述第一签名文件与所述第二签名文件进行比对生成比对结果。

其中,所述处理步骤S32中包括:当所述比对结果为所述第一签名文件与所述第二签名文件一致时,所述主集群数据接口服务将所述原始数据文件装载至主集群数据中心;当所述比对结果为所述第一签名文件与所述第二签名文件不一致时,所主集群数据中心根据所述比对结果再次输出所述数据汇集请求至所述分集群数据接口服务,重新从步骤S2开始,直至所有数据文件完整无损的传输过来。

另外,结合图2-图5描述的一种用于多集群的数据汇集方法可以由电子设备来实现。图6为本发明实施例提供的一电子设备的框架图。

电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。

具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。

处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种AR辅助的机械模拟操作方法。

在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图6所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。

通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的一种用于多集群的数据汇集方法。

另外,结合上述实施例中的一种用于多集群的数据汇集方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种AR辅助的机械模拟操作方法。

而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

综上所述,本发明的分集群通过高度压缩和生成签名的方式,将分集群的数据文件高效、完整的传输到主集群,满足了多数据中心数据同步,统一分析的需求;同时传输的为高度压缩后的数据文件,避免在数据集群远,数据量大时的昂贵传输费用;并且传输数据文件同时,传输签名文件,保证在大数据量,长距离传输时的数据完整性。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 用于多集群的数据汇集系统和方法
  • 用于分布式集群系统的系统退出方法及分布式集群系统
技术分类

06120112810450