掌桥专利:专业的专利平台
掌桥专利
首页

一种云网络架构下的大数据存储方法及装置

文献发布时间:2023-06-19 12:13:22


一种云网络架构下的大数据存储方法及装置

技术领域

本申请涉及信息技术领域,尤其涉及一种云网络架构下的大数据存储方法及装置。

背景技术

云计算(Cloud computing)是继20世纪80年代由大型计算机向客户端/服务器(C/S)模式大转变后,信息技术的又一次革命性变化。2006年8月9日,Google首席执行官EricSchmidt在搜索引擎大会(SES San Jose 2006)上首次提出云计算概念。云计算是网格计算,分布式计算,并行计算、效用技术、网络存储、虚拟化和负载均衡等传统计算机和网络技术发展融合的产物。其目的是通过基于网络的计算方式,将共享的软件/硬件资源和信息进行组织整合,按需提供给计算机和其他系统使用。

云计算网络架构主要可分为四层。第一是显示层。多数数据中心云计算架构的这层主要是用于以友好的方式展现用户所需的内容和服务体验。第二是中间层。这层是承上启下的,它在下面的基础设施层所提供资源的基础上提供了多种服务,比如缓存服务和REST服务等,而且这些服务即可用于支撑显示层,也可以直接让用户调用。第三是基础设施层,这层作用是为给上面的中间件层或者用户准备其所需的计算和存储等资源。第四是管理层,这层是为横向的三层服务的,并给这三层提供多种管理和维护等方面的技术。

现有技术中,云计算处理和存储的数据量非常大,这就带来了多源异构数据的存储和运用的难题,不同数据源,不同数据格式的数据格式千差万别,在实际的业务场景中,需要并没有一个相对统一的归一化数据格式适用于该场景,造成数据存储方式差异较大,不利于大数据的统一管理,导致数据存储格式不统一且数据提取的效率低下,适用面有限。

发明内容

本发明实施例提供一种云网络架构下的大数据存储方法,用于解决现有技术中缺乏针对具体实用场景下的归一化数据格式,导致大数据的存储格式不统一且大数据提取效率低下的问题。

本发明实施例提供一种云网络架构下的大数据存储方法,包括:

多个边缘节点采集多个传感器上传的数据,并将所述数据发送至格式解析器;

所述格式解析器对所述数据的格式进行解析,获取多种数据格式;

所述格式解析器生成空白的归一化数据,所述归一化数据为树形结构;

所述格式解析器获取所述多种数据格式的重复字段,基于所述重复字段设立重复字段集合,并将所述重复字段集合中的重复字段依次添加进所述归一化数据的多个第一子节点中;

所述格式解析获取所述多种数据格式的差异化字段,基于所述差异化字段设立差异化字段集合,并将所述差异化字段集合中的差异化字段依次添加进所述归一化数据的多个第二子节点中,并设立与所述差异化字段对应的初始格式标识;

所述格式解析器将所述添加了重复字段及差异化字段的归一化数据发送至云服务器中,以使所述云服务器存储所述归一化数据。

可选地,所述归一化数据具备第一父节点、第二父节点及第三父节点,

所述第一父节点的下级节点为多个所述第一子节点,所述多个第一子节点分别由所述重复字段集合中的重复字段依次填充,

所述第二父节点的下级节点多个所述第二子节点,所述多个第二子节点分别由所述差异化字段集合中的差异化字段依次填充,

所述第二父节点的下级节点多个第三子节点,所述第三子节点为保留子节点。

可选地,所述第一子节点的下级节点为第一命令符节点,所述第一命令符节点包括第一可选命令符节点及第一强制命令符节点,则所述方法还包括:

所述格式解析器对所述重复字段进行解析,获取其中的第一可选命令符及第一强制命令符,并依次将所述第一可选命令符添加进所述第一可选命令符节点,将所述第一强制命令符添加进所述第一强制命令符节点,

和/或,

所述第二子节点的下级节点为第二命令符节点,所述第二命令符节点包括第二可选命令符节点及第二强制命令符节点,则所述方法还包括:

所述格式解析器对所述差异化字段进行解析,获取其中的第二可选命令符及第二强制命令符,并依次将所述第二可选命令符添加进所述第二可选命令符节点,将所述第二强制命令符添加进所述第二强制命令符节点。

可选地,所述第一命令符和/或第二命令符节点的下级节点为扩大模块层次节点,所述扩大模块层次节点用于在节点数据饱和时进行节点扩充。

可选地,在所述云服务器存储所述归一化数据之后,所述方法还包括:

若所述云服务器向所述多个边缘节点的其中一个边缘节点发送命令时,对所述归一化数据进行解耦操作,生成与所述边缘节点控制信令格式一致的数据格式,并基于所述与所述边缘节点控制信令格式一致的数据格式,向所述边缘节点发送控制指令。

可选地,所述对所述归一化数据进行解耦操作,包括:

拆解出所述归一化数据中的重复字段和差异化字段,并基于所述拟发送的边缘节点的ID,获取所述差异化字段中与所述ID相对应的特定字段,将所述重复字段、特定字段及控制命令符组成XML格式的所述控制指令。

可选地,所述数据类型包括结构化数据、半结构化数据及非结构化数据,则所述多个边缘节点采集多个传感器上传的数据,包括:

所述多个边缘节点按照分布地点及存储空间进行优先级排序,生成高优先级集群、中优先级集群及低优先级集群,所述高优先级序列的边缘节点采集所述非结构化数据,所述中优先级序列的边缘节点采集所述半结构化数据,所述低优先级序列的边缘节点采集所述结构化数据。

可选地,所述重复字段为所述多种数据格式中共有的字段,所述差异化字段为某一种数据格式中特有的字段。

可选地,所述云服务器存储所述归一化数据,包括:

所述云服务器通过多个容器Docker存储所述归一化数据。

本发明实施例还包括一种装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

本发明实施例提供的方法及装置,通过设置树形结构的归一化数据格式,将特定数量的数据格式进行解析,提取出重复字段和差异化字段,并将该字段添加进叶子节点中,形成可扩展的归一化数据格式,方便进行统一存储,并在需要进行数据提取时,将该归一化数据格式进行解耦,从而生成某一特定类型的数据格式,提高数据的针对性场景的适用性,提升数据存储的管理规范化要求及数据存储、提取的效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为一个实施例中云网络架构下的大数据存储方法流程图;

图2为一个实施例中云网络架构下数据归一化存储示意图;

图3为一个实施例中归一化数据格式示意图;

图4为一个实施例中装置的硬件组成示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

图1是本发明实施例的一种云网络架构下的大数据存储方法流程图,如图1所示,本发明实施例提供的方法,具体为:

S101、多个边缘节点采集多个传感器上传的数据,并将所述数据发送至格式解析器;

边缘节点的定义是将存储和计算功能进行下沉,使得其满足大数据并发的采集及存储功能。边缘节点作为一个数据的中转站,需要将大量的数据进行去噪、归档和聚合,使得原始数据聚合为有效数据,供云服务器进行大规模的商用及处理。

在本发明实施例中,传感器可以是多种多样的,不同数据格式的传感器,典型的传感器包括摄像头、温湿度传感器、GPS、各类IOT传感器等。其数据按照格式可以分为结构化数据、半结构化数据和非结构化数据。结构化最常见,就是具有模式的数据,结构就是模式。大多数应用基于结构化数据。非结构化一般指无法结构化的数据,例如图片,文件,视频等。半结构化数据是有结构的,但却不方便模式化,因为描述不标准或因为描述有伸缩性。XML和JSON表示的数据就有半模式的特点。

其中,多个边缘节点还可以按照分布地点及存储空间进行优先级排序,生成高优先级集群、中优先级集群及低优先级集群。其中,低、中、高可以根据设定阈值来定义:高优先级集群的边缘节点更靠近对应的传感器,且存储空间更大,资源占用率更低,中优先级次之,而低优先级资源占用率最高。一般而言,非结构化数据的数据量大,且要求低延时和稳定性,因此,采用高优先级序列的边缘节点采集所述非结构化数据,所述中优先级序列的边缘节点优先采集半结构化数据,低优先级序列的边缘节点由于其资源饱和度高,或者其存储空间优先,因此优先采集所述结构化数据。

由于数据格式的多样性,想要在一个特定的场景(特定种类的传感器以及特定数目的边缘计算构成的特定场景)下完成一个相对统一且清晰的数据格式标准并不容易,因此,在本发明实施例中,需要提前对不同的数据格式进行解析,并提供一种泛化的数据格式,满足对特定场景进行数据存储和服务。

在本发明实施例中,设立格式解析器,该格式解析器本身可以作为云服务器的一部分进行格式解析,也可以是一个独立的硬件载体,专门负责对非特定格式进行归一数据的格式化操作。

图2是本发明实施例提供的云网络架构下数据归一化存储示意图。如图2所示,多个边缘节点A-E采集多个传感器的数据,并将该数据发送给格式解析器,格式解析器对该数据进行解析并处理后,生成一种归一化的数据格式发送至云服务器,已使得云服务器将该归一化的数据格式进行存储。

S102、所述格式解析器对所述数据的格式进行解析,获取多种数据格式;

格式解析器获取到不同类型的数据后,对该数据格式进行解析,并获取多种不同的数据格式,例如MP3,MP4,RMVB,XML,JASON,TXT等数据格式,不同的数据格式通常会有特定的数据报文,典型的数据报文包括报头、净负荷及报尾,其中,报文是ID与各类命令符的集合,净负荷是有效的数据,报尾既可以包含各类命令符(例如结束符),又可以包含报文ID等。因此,对于某一类型数据而言,需要明确其报文和报尾,该类型的数据格式也就能够生成。

S103、所述格式解析器生成空白的归一化数据,所述归一化数据为树形结构;

在解析出多种数据格式之后,为了满足归一化数据格式的要求,格式解析器先建立一个树形结构的,空白的归一化数据,方便将各类命令符填入到该归一化数据中,以生成真正意义上的,标准的归一化数据。

S104、所述格式解析器获取所述多种数据格式的重复字段,基于所述重复字段设立重复字段集合,并将所述重复字段集合中的重复字段依次添加进所述归一化数据的多个第一子节点中;

格式解析器将数据格式中的重复字段进行汇总,并设定重复字段集合,例如,对于数据格式A、B和C而言,都拥有共同的重复字段“01C”,该字段分别设置在数据格式A的第1个命令符,数据格式B的第3个命令符和数据格式C的第7个命令符中,在不同数据格式中的含义不同,因此,提取出了共同的重复字段“01C”后,还需要进行该重复字段的说明,因此,对于重复字段集合而言,每一个重复字段需要添加一个说明Notification,该说明会对该重复字段在哪一个数据格式的哪一个命令符中出现,且代表的含义进行清楚的定义。

在添加了重复字段说明后,依次将该重复字段添加进多个第一子节点中,第一子节点位于根节点的下级或下下级节点中,可以多次扩展,以容纳该重复字段集合。如下表1所示。

表1

该子节点的数量可以与重复字段的数量一致,且易于扩展。

另,还需要说明的是,该重复字段可以是全部数据格式都重复的字段,也可以是任意两个数据格式重复的字段。

S105、所述格式解析获取所述多种数据格式的差异化字段,基于所述差异化字段设立差异化字段集合,并将所述差异化字段集合中的差异化字段依次添加进所述归一化数据的多个第二子节点中,并设立与所述差异化字段对应的初始格式标识;

与S104不同的是,格式解析器还会将差异化字段进行聚合,形成差异化字段集合。例如,对于数据格式A、B和C而言,“114A”是数据格式A的特定字段(数据格式B和C没有该格式),“12B”是数据格式B的特定字段,而“45D”则是数据格式C的特定字段。为了方便后续的格式描述及使用,差异化字段也需要添加说明Notification或初始标识(即该字段原来是位于哪一类数据格式的哪一个命令符)。在添加了说明后,需要将该字段依次添加进多个第二子节点中。

因此,重复字段相当于各字段的交集,差异化字段相当于各字段的非交集。需要说明的是,某一具体场景中,数据格式越多,特定字段就越少,即完全不同于其他数据格式的字段会越少。那么,任何一种数据格式等于重复字段的选取+非重复字段(即特定字段)的选取。

在本发明实施例中,归一化数据格式如图3所示,所述归一化数据具备第一父节点leaf1、第二父节点leaf2及第三父节点leaf3,

所述第一父节点的下级节点为多个所述第一子节点child1={child1

所述第二父节点的下级节点多个所述第二子节点child2={child2

所述第二父节点的下级节点多个第三子节点child3={child3

其中,在本发明实施例中,第一子节点的下级节点为第一命令符节点ctrl1,所述第一命令符节点包括第一可选命令符节点opt1及第一强制命令符节点mand1,即ctrl1=[opt1,mand1]。可选命令符是数据格式中可删除的命令符,一般为数据格式中的保留或填充命令符,无实际意义,可以选择保留或删除,而强制命令符则是必须保留的命令符,缺少该命令符则该指令不完整或没有实际物理意义。

因此,格式解析器对所述重复字段进行解析或拆解,获取其中的第一可选命令符及第一强制命令符,并依次将所述第一可选命令符添加进所述第一可选命令符节点,将所述第一强制命令符添加进所述第一强制命令符节点,例如,“01C”是重复字段,其中“01”是强制命令符,而“C”则是可选命令符,那么就可以将“01C”拆解为强制命令符“01”和可选命令符“C”,分别将“01”放入第一强制命令节点,将“C”放入第一可选命令节点中。

和/或,

所述第二子节点的下级节点为第二命令符节点ctrl2,所述第二命令符节点包括第二可选命令符节点opt2及第二强制命令符节点mand2,即ctrl2=[opt2,mand2]。则所述格式解析器对所述差异化字段进行解析,获取其中的第二可选命令符及第二强制命令符,并依次将所述第二可选命令符添加进所述第二可选命令符节点,将所述第二强制命令符添加进所述第二强制命令符节点。

其中,所述第一命令符和/或第二命令符节点的下级节点为扩大模块层次节点augment,所述扩大模块层次节点用于在节点数据饱和时进行节点扩充。

S106、所述格式解析器将所述添加了重复字段及差异化字段的归一化数据发送至云服务器中,以使所述云服务器存储所述归一化数据。

云服务器在接收到归一化数据之后,由于其数据格式的一致性,因此云服务器不需要采用不同的数据库存储不同的数据格式,而是可以采用最直接高效的队列存储法进行数据的存储,不仅能提高存储效率,还能提升存储资源的利用率。

此外,所述云服务器还可以通过多个容器Docker存储所述归一化数据。

其中,在所述云服务器存储所述归一化数据之后,若所述云服务器向所述多个边缘节点的其中一个边缘节点发送命令时,对所述归一化数据进行解耦操作,生成与所述边缘节点控制信令格式一致的数据格式,并基于所述与所述边缘节点控制信令格式一致的数据格式,向所述边缘节点发送控制指令。

其中,解耦操作具体可以为:拆解出所述归一化数据中的重复字段和差异化字段,并基于所述拟发送的边缘节点的ID,获取所述差异化字段中与所述ID相对应的特定字段,将所述重复字段、特定字段及控制命令符组成XML格式的所述控制指令。

本发明实施例提供的方法,通过设置树形结构的归一化数据格式,将特定数量的数据格式进行解析,提取出重复字段和差异化字段,并将该字段添加进叶子节点中,形成可扩展的归一化数据格式,方便进行统一存储,并在需要进行数据提取时,将该归一化数据格式进行解耦,从而生成某一特定类型的数据格式,提高数据的针对性场景的适用性,提升数据存储的管理规范化要求及数据存储、提取的效率。

本发明实施例还包括一种装置,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令用于执行上述实施例中的方法。

本发明实施例还提供一种装置,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述方法。

图4为一个实施例中装置的硬件组成示意图。可以理解的是,图4仅仅示出了装置的简化设计。在实际应用中,装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本申请实施例的大数据管理方法的装置都在本申请的保护范围之内。

存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read至only memory,CD至ROM),该存储器用于相关指令及数据。

输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器件。

处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种云网络架构下的大数据存储方法及装置
  • 多模态大数据系统下的数据存储方法、装置、设备和介质
技术分类

06120113212406