导航：首页> 天然或化学的线或纤维；纺纱或纺丝>基于云原生和存算分离的数据仓库管理系统

基于云原生和存算分离的数据仓库管理系统

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及数据仓库技术领域，尤其涉及一种基于云原生和存算分离的数据仓库管理系统。

背景技术

信息技术与数据智能大环境下，数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源，可以保存极大量的数据供分析使用，且允许使用多种数据访问技术。存算分离是将数据存储和计算分离的架构设计，是数据仓库常用的架构设计，这种方式可以产生更少的数据迁移，降低机器间、机柜间的网络带宽消耗，有效解决了分散在各个弱连接的存储节点间的海量数据访问的困难。

在数据接入到数据仓库后，一般会经历从消息中心到采集通道再到数据仓库的数据存储集群的过程，如果高频地向数据仓库传输更新的数据，数据仓库为了满足应用需求也会被配置强大的计算能力，不断根据数据的更新进行运算，对数据结果进行及时更新，从而导致数据仓库本身容易出现结构混乱并且数据传输出现阻塞，最终导致数据传输效率和稳定性都无法满足运行需求。

发明内容

为此，本发明提供一种基于云原生和存算分离的数据仓库管理系统，用以克服现有技术中高频地向数据仓库传输更新的数据而出现数据仓库结构混乱并且数据传输出现阻塞，进而影响数据传输效率和稳定性的问题。

为实现上述目的，本发明提供一种基于云原生和存算分离的数据仓库管理系统，包括：

采集层，用以采集数据，其设置有若干采集终端；

运算层，其与所述采集层相连，用以处理采集的所述数据并生成对应数据集，所述处理的方式为分类、分包以及压缩；

传输层，其与所述运算层相连，包括若干条用以传输数据集的传输通道；

存储层，其与所述传输层相连，用以存储传输的所述数据集，包括设置有若干子库的数据仓库和用以调度子库的调度单元；

检测单元，其分别与所述采集层、所述运算层、所述传输层以及所述存储层相连，用以检测数据信息，所述数据信息包括传输通道的传输速率和数据集大小；

分析单元，其与所述检测单元相连，用以根据测得的传输速率判定单条传输通道在不符合预设标准时将该传输速率对应的数据集标记为一类数据集，或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定；

调节单元，其分别与所述分析单元，所述运算层，所述传输层和所述存储层相连，用以根据所述分析单元判定的结果将系统的运行参数调节至对应值。

进一步地，所述分析单元在第一预设条件下基于单条传输通道的传输速率在判定该传输通道的传输不符合预设标准时将该传输速率对应的数据集标记为一类数据集，或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定；所述第一预设条件为所述系统开始运行且所述存储层接收到所述数据集。

进一步地，按照公式计算所述历史传输评价值C，设定

式中，a为评价系数，设定a=0.45，

进一步地，所述分析单元在第二预设条件下基于历史传输评价值C二次判定所述传输通道的传输不符合预设标准时，判定所述传输存在传输波动并将传输存在波动的数据集标记为二类数据集，或判定所述传输存在传输递减并将传输存在递减的数据集标记为一类数据集，所述分析单元控制所述调度单元调度新子库以完成该数据集的存储；所述第二预设条件为所述分析单元完成所述历史传输评价值的计算。

进一步地，所述分析单元设置有基于所述传输递减的时长判定调度的所述新子库存储容量大小的若干调度方式，每种调度方式对于新子库存储容量大小的调度不同。

进一步地，所述分析单元在第三预设条件下基于各类数据集与传输的总数据集的占比判定所述传输层的传输不符合预设标准时，确定不符合预设标准的原因为运算层负载、所述运算层处理所述数据不合格和网络波动，

若原因为运算层负载，则基于一类数据集占比与第一预设一类占比的差值将所述运算层扩容至对应值，

若原因为运算层处理所述数据不合格，则基于传输的数据集大小的平均值判定运算层处理数据是否符合预设标准，

若原因为网络波动，则基于所述一类数据集占比与第二预设一类占比的差值将所述传输层的所述传输通道的带宽增加至对应值；

所述第三预设条件为所述分析单元完成所述传输层的所有传输通道的传输的判定。

进一步地，所述分析单元设置有针对运算层扩容的若干调节方式，且各调节方式对运算层扩容的调节幅度均不相同。

进一步地，所述分析单元基于传输的数据集大小的平均值判定所述运算层处理数据不符合预设标准时将所述运算层对数据的分包处理的分包长度降低至对应值，或将所述运算层对数据的压缩处理的压缩比减小至对应值。

进一步地，所述分析单元设置有针对所述分包长度的若干调节方式，且各调节方式对所述运算层对数据的分包处理的分包长度的调节幅度均不相同。

进一步地，所述分析单元设置有针对所述压缩比的若干调节方式，且各调节方式对所述运算层对数据的压缩处理的压缩比的调节幅度均不相同。

与现有技术相比，本发明的有益效果在于：本发明设置了用以采集数据的采集层，用以处理采集的所述数据并生成对应数据集的运算层，用以传输数据集的传输层，用以存储传输的所述数据集的存储层，用以检测数据信息的检测单元，用以根据传输速率判定单条传输通道是否符合预设标准的分析单元，以及用以根据所述分析单元判定的结果将系统的运行参数调节至对应值的调节单元，提高了数据仓库的数据传输的效率。

进一步地，本发明通过传输速率初步判定该传输通道的传输是否符合预设标准，并在判定不符合预设标准时，基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定，或将该传输速率对应的数据集标记为一类数据集，初步完成了传输不达标时的判定和数据集标定。

进一步地，本发明设定了历史传输评价值，量化了二次判定的基准。

进一步地，本发明在完成二次判定后，完成对应数据集的标记，完成了传输不达标时的判定和数据集标定。

进一步地，当调度单元调度新子库以完成该数据集的存储时，基于所述传输递减的时长判定调度的所述新子库存储容量大小，从而实现字库的精准调度。

进一步地，本发明基于各类数据集与传输的总数据集的占比判定所述传输层的传输是否符合预设标准，并在不符合预设标准时判定出不符合标准的原因，从而对应的调整系统运行的参数，保证了数据仓库的数据传输的效率。

进一步地，本发明在对所述运算层扩容时，设置有多种调节方式，且每种调节方式调节的幅度不同，实现了运算层精准扩容。

进一步地，本发明基于传输的数据集大小的平均值对所述运算层处理数据是否符合预设标准进行判定，解决了在出现运算层处理所述数据不合格时的对应处理方式的调节。

进一步地，本发明针对分包处理的分包长度和压缩处理的压缩比的调节，均设置有不同的调节方式，从而在对应状况下将其调节至对应值，实现了系统运行数据的精准调节，从而优化了系统的运行，保证了数据传输效率和稳定性。

附图说明

图1为本发明实施例基于云原生和存算分离的数据仓库管理系统的示意图；

图2为本发明实施例单条传输通道的传输是否符合预设标准的判定的流程图；

图3为本发明实施例传输层的传输是否符合预设标准的判定的流程图；

图4为本发明实施例压缩比的调节方式的流程图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

需要指出的是在本实施例中的数据均为通过本发明所述系统在进行本次运行前三个月的历史检测数据以及对应的历史检测结果中综合分析评定得出。本发明所述分析单元在本次判定前根据前三个月中累计进行的124420次数据的处理综合确定针对本次系统运行的各项预设参数标准的数值。本领域的技术人员可以理解的是，本发明所述系统针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式，只要满足本发明所述系统能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1、图2、图3以及图4所示，其分别本发明实施例基于云原生和存算分离的数据仓库管理系统的示意图；本发明实施例单条传输通道的传输是否符合预设标准的判定的流程图；本发明实施例传输层的传输是否符合预设标准的判定的流程图；本发明实施例压缩比的调节方式的流程图。

本发明实施例基于云原生和存算分离的数据仓库管理系统，包括：

采集层，用以采集数据，其设置有若干采集终端，采集终端例如二维码扫码器，具体不做限定，用以采集数据。

运算层，其与所述采集层相连，用以处理采集的所述数据并生成对应数据集，所述处理的方式为分类、分包以及压缩；

传输层，其与所述运算层相连，包括若干条用以传输数据集的传输通道；

存储层，其与所述传输层相连，用以存储传输的所述数据集，包括设置有若干子库的数据仓库和用以调度子库的调度单元；

分析单元，其与所述检测单元相连，用以根据测得的所述传输速率判定单条传输通道在不符合预设标准时将该传输速率对应的数据集标记为一类数据集，或基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定；

调节单元，其分别与所述分析单元，所述运算层，所述传输层和所述存储层相连，用以根据所述分析单元判定的结果将系统的运行参数调节至对应值。

具体而言，所述分析单元在第一预设条件下控制所述检测单元实时检测所述传输层中所述传输通道的传输速率，针对单条传输通道，分析单元基于该传输通道的传输速率确定针对该传输通道的传输是否符合预设标准的判定，其中，

第一判定为所述分析单元判定所述传输通道的传输不符合预设标准，并将该传输速率对应的数据集标记为一类数据集；所述第一判定满足所述传输速率小于第一预设传输速率12.50MB/s；

第二判定为所述分析单元判定所述传输通道的传输不符合预设标准，并基于历史传输评价值C对该传输通道的传输是否符合预设标准进行二次判定；所述第二判定满足所述传输速率大于等于所述第一预设传输速率且小于第二预设传输速率13.00MB/s；

第三判定为所述分析单元判定所述传输通道的传输符合预设标准，并按照当前的传输方式传输所述数据集；所述第三判定满足所述传输速率大于等于所述第二预设传输速率；

所述第一预设条件为所述系统开始运行且所述存储层接收到所述数据集。

具体而言，按照公式计算所述历史传输评价值C，设定

式中，a为评价系数，设定a=0.45，

具体而言，所述分析单元在第二预设条件下基于历史传输评价值对所述传输通道的传输是否符合预设标准进行二次判定，其中，

第一二次判定为所述分析单元判定所述传输通道的传输符合预设标准，并按照当前的传输方式传输所述数据集；所述第一二次判定满足所述历史传输评价值小于第一预设评价值1.54；

第二二次判定为所述分析单元判定所述传输通道的传输不符合预设标准，并判定所述传输存在传输波动，所述分析单元将传输存在波动的数据集标记为二类数据集；所述第二二次判定满足所述历史传输评价值大于等于所述第一预设评价值且小于第二预设评价值6.33；

第三二次判定为所述分析单元判定所述传输通道的传输不符合预设标准，并判定所述传输存在传输递减，所述分析单元将传输存在递减的数据集标记为一类数据集，并控制所述调度单元调度新子库以完成该数据集的存储；所述第二二次判定满足所述历史传输评价值大于等于所述第一预设评价值且小于第二预设评价值；

所述第二预设条件为所述分析单元完成所述历史传输评价值的计算。

具体而言，所述分析单元在第三二次判定下基于所述传输递减的时长判定调度的所述新子库存储容量大小，其中，

第一调度方式为所述分析单元使用第一预设调度系数1.10与原子库存储容量的乘积确定新子库的存储容量，并筛选该存储容量的新子库以完成所述数据集的存储；所述第一调度方式满足所述传输递减的时长小于第一预设时长4.50s；

第二调度方式为所述分析单元使用第二预设调度系数1.20与原子库存储容量的乘积确定新子库的存储容量，并筛选该存储容量的新子库以完成所述数据集的存储；所述第二调度方式满足所述传输递减的时长大于等于所述第一预设时长且小于第二预设时长13.35s；

第三调度方式为所述分析单元使用第三预设调度系数1.40与原子库存储容量的乘积确定新子库的存储容量，并筛选该存储容量的新子库以完成所述数据集的存储；所述第三调度方式满足所述传输递减的时长大于等于所述第二预设时长。

具体而言，所述分析单元在第三预设条件下基于各类数据集与传输的总数据集的占比确定针对所述传输层的传输是否符合预设标准的判定，其中，

第一传输判定为所述分析单元判定所述传输层的传输符合预设标准，并按照当前的传输方式传输所述数据集；所述第一传输判定满足所述一类数据集占比小于第一预设一类占比12%且所述二类数据集占比小于第一预设二类占比20%；

第二传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为运算层负载，分析单元基于所述一类数据集占比与所述第一预设一类占比的差值将所述运算层扩容至对应值；所述第二传输判定满足所述一类数据集占比大于等于所述第一预设一类占比12%且小于第二预设一类占比45%，以及所述二类数据集占比小于所述第一预设二类占比20%；

第三传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为所述运算层处理所述数据不合格，分析单元基于传输的数据集大小的平均值确定针对运算层处理数据是否符合预设标准的判定；所述第三传输判定满足所述二类数据集占比大于等于所述第一预设二类占比20%且小于第二预设二类占比50%，以及所述一类数据集占比小于所述第一预设一类占比12%；

第四传输判定为所述分析单元判定所述传输层的传输不符合预设标准且不符合预设标准的原因为网络波动，分析单元基于所述一类数据集占比与所述第二预设一类占比的差值将所述传输层的所述传输通道的带宽增加至对应值；所述第四传输判定满足所述一类数据集占比大于等于第二预设一类占比45%或所述二类数据集占比大于等于所述第二预设二类占比50%；

所述第三预设条件为所述分析单元完成所述传输层的所有传输通道的传输的判定。

具体而言，所述分析单元在所述第二传输判定下计算所述一类数据集占比与所述第一预设一类占比的差值，并将该差值记为扩容差值，所述调节单元根据扩容差值确定针对所述运算层扩容的调节方式，其中，

第一扩容调节方式为所述调节单元使用第一预设扩容系数1.01将所述运算层扩容至对应值；所述第一扩容调节方式满足所述扩容差值小于第一预设扩容差值8.30；

第二扩容调节方式为所述调节单元使用第二预设扩容系数1.04将所述运算层扩容至对应值；所述第二扩容调节方式满足所述扩容差值大于等于所述第一预设扩容差值且小于第二预设扩容差值20.28；

第三扩容调节方式为所述调节单元使用第三预设扩容系数1.08将所述运算层扩容至对应值；所述第三扩容调节方式满足所述扩容差值大于等于所述第二预设扩容差值。

具体而言，所述分析单元在所述第三传输判定下基于传输的数据集大小的平均值确定针对所述运算层处理数据是否符合预设标准的判定，其中

第一处理判定为所述运算层处理数据不符合预设标准，并基于预设平均值与所述数据集大小的平均值之间的差值将所述运算层对数据的分包处理的分包长度降低至对应值；所述第一处理判定满足所述数据集大小的平均值小于所述预设平均值1.52B；

第二处理判定为所述运算层处理数据不符合预设标准，基于所述数据集大小的平均值与所述预设平均值之间的差值将所述运算层对数据的压缩处理的压缩比减小至对应值；所述一处理判定满足所述数据集大小的平均值大于等于所述预设平均值；

具体而言，所述分析单元在所述第一处理判定下计算所述预设平均值与所述数据集大小的平均值之间的差值，并将该差值记为分包差值，所述调节单元根据分包差值确定针对所述运算层对数据的分包处理的分包长度的调节方式，其中，

第一分包调节方式为所述调节单元使用第一预设分包调节系数0.98将所述分包长度降低至对应值；所述第一分包调节方式满足所述分包差值小于第一预设分包差值0.14；

第二分包调节方式为所述调节单元使用第二预设分包调节系数0.95将所述分包长度降低至对应值；所述第二分包调节方式满足所述分包差值大于等于所述第一预设分包差值且小于第二预设分包差值0.37；

第三分包调节方式为所述调节单元使用第三预设分包调节系数0.90将所述分包长度降低至对应值；所述第三分包调节方式满足所述分包差值大于等于所述第二预设分包差值。

具体而言，所述分析单元在所述第一处理判定下计算所述数据集大小的平均值与所述预设平均值之间的差值，并将该差值记为压缩差值，所述调节单元根据压缩差值确定针对所述运算层对数据的压缩处理的压缩比的调节方式，其中，

第一压缩调节方式所述调节单元使用第一预设压缩调节系数0.96将所述压缩比减小至对应值；所述第一压缩调节方式满足所述压缩差值小于第一预设压缩差值0.22；

第二压缩调节方式所述调节单元使用第二预设压缩调节系数0.92将所述压缩比减小至对应值；所述第二压缩调节方式满足所述压缩差值大于等于所述第一预设压缩差值且小于第二预设压缩差值0.49；

第三压缩调节方式所述调节单元使用第三预设压缩调节系数0.83将所述压缩比减小至对应值；所述第三压缩调节方式满足所述压缩差值大于等于所述第二预设压缩差值。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：山东海博科技信息系统股份有限公司;