导航：首页> 输送；包装；贮存；搬运薄的或细丝状材料>一种基于云服务智能部署的数据处理方法及系统

一种基于云服务智能部署的数据处理方法及系统

文献发布时间：2024-04-18 19:59:31

技术领域

本发明属于云服务部署技术领域，尤其涉及一种基于云服务智能部署的数据处理方法及系统。

背景技术

随着越来越多的云服务提供商实现了大数据作业与云服务平台的整合，云平台大数据应用的性能优化问题逐渐成为重点问题，在云服务平台的物理节点配置与整体规模已经确定的前提下，优化虚拟资源的分配策略、应用的部署策略与服务需求的调用成为进一步提升应用性能的有效手段；然而，虽然云服务平台的新型业务模式为普通用户节省了经济和技术开销，但随着平台上大数据应用部署量的增长，多用户场景下的作业请求处理模式也为作业调度机制设计带来了新的挑战；由于不同应用统一部署在云服务平台上，云服务提供商常常需要同时处理来自不同用户的多种应用请求，而不同用户对大数据应用服务质量（Quality of Service，QoS）的不同需求，为云平台上的作业调度增添了新的影响因素，从而增加了作业调度的难度。

发明内容

有鉴于此，本发明提供了一种可提升作业的整体性能、使云服务平台上大数据作业得到优化和提升服务质量的基于云服务智能部署的数据处理方法及系统，来解决上述存在的技术问题，具体采用以下技术方案来实现。

第一方面，本发明提供了一种基于云服务智能部署的数据处理方法，包括以下步骤：

获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，其中，云服务平台的物理服务器包括计算节点和存储节点，云服务平台包括SaaS用户、SaaS提供商和laaS提供商；

根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，其中，虚拟集群优化模型包括通信代理的部署数目、通信代理的部署位置、通信代理与虚拟机的映射关系；

根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台；

在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理。

作为上述技术方案的进一步优选，根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，包括：

SaaS用户优化在SaaS提供商的应用层进行，SaaS用户获得的优化效用表达式为

预设拉格朗日函数为

其中，

作为上述技术方案的进一步优选，SaaS提供商s的集合为S，laaS基础设施云资源提供商为p集合为P，SaaS提供商获得云资源基础设施的优化效用的表达式为

作为上述技术方案的进一步优选，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，包括：

预设具体第i个计算节点上，第j个虚拟机在Map阶段中，三个子阶段的任务执行耗时分别为

数据导入阶段的耗时由输入文件的大小S和网络平均传输速率B决定，任何两个计算节点之间数据传输时延近似相等，数据导入阶段耗时的下界近似量化为

若某计算节点上部署通信代理，该计算节点上所有虚拟机通信由该通信代理负责；若目标虚拟机即Mapper节点的宿主机部署通信代理，物理节点内部数据传输耗时可忽略；若Mapper节点的宿主机没有通信代理，则Mapper节点会额外经历一次跨物理节点的传输，数据转发阶段的耗时由跨物理节点的通信量决定，具体有

数据处理阶段的耗时由Mapper节点所处理的数据块大小，以及该虚拟节点的计算性能决定，每个Mapper节点的数据处理效率由该VM在空载宿主机上的工作效率

当计算资源出现空闲时，会顺序执行相应的Map任务，Mapper节点处理的数据量与该节点的平均性能成正比，结合具体节点的性能函数得到Mapper节点在数据处理子阶段的耗时为

；

其中，Map阶段任务执行包括三个子阶段：数据导入阶段，该阶段输入文件会被切分成多个数据块，并被传输到部署通信代理的各物理节点；数据转发阶段，数据块进一步经由通信代理转发到目标虚拟机即Mapper节点上；数据处理阶段，Mapper节点对转发过来的数据块进行处理，并产生中间处理结果；

其中，m表示云服务平台中物理计算节点的数目，N表示物理计算节点上部署的VM的总数，k表示虚拟计算集群中通信代理的部署数目，

作为上述技术方案的进一步优选，各个Mapper节点在Map阶段输出的数据处理中间结果会汇总到虚拟集群中的Reducer节点，在各Reducer节点上进行中间结果的聚合，之后Reducer节点会对汇聚后的结果进行处理以生成最终结果，其中，Reduce阶段的数据传输包括：Mapper节点将Map阶段的中间结果数据传输给对应的通信代理；Mapper节点的通信dialing将数据进一步传输给Reducer节点的通信代理；Reducer节点的通信代理将数据传递给Reducer节点以完成中间结果的聚合；

Reduce第一阶段中，Map任务产出的中间结果将由Mapper节点传输至各通信代理，该阶段中集群的整体通信新能决定于

Reduce第二阶段中，数据将由各Mapper节点的通信代理统一传输给Reducer节点的通信代理，预设集群中随机选取

Reduce第三阶段中，数据将由Reducer的通信代理传输到Reducer的节点上进行数据的汇总与处理，若Reducer与其通信代理的宿主机相同，该Reducer将无需经历跨物理节点通信，宿主机上部署有代理的Reducer数目

作为上述技术方案的进一步优选，通过确定通信代理的最优数目、每个通信代理最佳的部署位置和通信代理和虚拟机之间的最优映射关系以实现虚拟集群的优化构建。

作为上述技术方案的进一步优选，根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台，包括：

在物理计算集群中完成虚拟计算集群的优化构建，为大数据作业的执行提供资源基础，云服务平台的管理节点根据用户需求的应用种类，在存放各种不同应用镜像的存储集群中，检索合适的应用副本；

将该应用镜像装载到虚拟集群中，实现计算资源与上层应用的整合，构成执行具体应用的平台，虚拟平台会执行用户请求的应用并产出执行结果。

作为上述技术方案的进一步优选，生成对抗网络的训练过程包括：

在一个云服务调用场景中，存在用户序列

生成器使用

生成器的损失函数为QoS预测值与QoS真实值的误差，生成器G的损失函数计算表达式为

使用全连接层将真实数据的维度映射成与GRU网络输入层相同的维度，并学习真实数据中各个特征的分布特征和QoS的拟合过程，构造一个从历史变量到某一维度变量当前值的函数，该拟合过程的表达式为

作为上述技术方案的进一步优选，对抗网络还包括判别器模型，判别器D从真实数据和生成器生成的预测数据集区分真假，对输入D中记录给出一个0到1之间的概率值，D的损失函数表达式为

第二方面，本发明还提供了一种基于云服务智能部署的数据处理系统，包括：

请求获取单元，用于获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，其中，云服务平台的物理服务器包括计算节点和存储节点，云服务平台包括SaaS用户、SaaS提供商和laaS提供商；

模型构建单元，用于根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，其中，虚拟集群优化模型包括通信代理的部署数目、通信代理的部署位置、通信代理与虚拟机的映射关系；

平台确定单元，用于根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台；

数据处理单元，用于在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理。

本发明提供了一种基于云服务智能部署的数据处理方法及系统，通过获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台，在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理，提升了大数据作业的整体性能，为用户节省了平台构建和维护的开销，使云服务平台上大数据作业得到更好优化，也高了服务质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的基于云服务智能部署的数据处理方法的流程图；

图2为本发明提供的基于云服务智能部署的数据处理系统的结构框图。

实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件；下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参阅图1，本发明提供了一种基于云服务智能部署的数据处理方法，包括以下步骤：

S1：获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，其中，云服务平台的物理服务器包括计算节点和存储节点，云服务平台包括SaaS用户、SaaS提供商和laaS提供商；

S2：根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，其中，虚拟集群优化模型包括通信代理的部署数目、通信代理的部署位置、通信代理与虚拟机的映射关系；

S3：根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台；

S4：在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理。

本实施例中，根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，包括：SaaS用户优化在SaaS提供商的应用层进行，SaaS用户获得的优化效用表达式为

需要说明的是，SaaS提供商s的集合为S，laaS基础设施云资源提供商为p集合为P，SaaS提供商获得云资源基础设施的优化效用的表达式为

应理解，部署大数据应用之前，云服务提供商首选需要构建具备一定规模的云服务平台，通常云服务平台的物理服务器被划分为计算节点和存储节点，分别用于上层应用分配虚拟计算资源和提供应用副本存储服务；云服务平台的每个物理计算节点上回为平台用户提前分配数量不等的虚拟机，为大数据作业提供计算能力，同时根据块存储云服务提供商将可能被调用的大数据应用镜像副本提前部署在云服务平台的存储节点中；当不同用户向云服务平台提交大数据作业的调用请求时，平台的作业调度模块会将用户请求存放在统一的调度队列中，之后根据具体的作业调度策略决定调度队列中作业请求执行的先后顺序，具体某一时刻，当调度模块决定需要被执行的应用后，在底层物理集群上构建而成的大数据作业平台即计算平台会执行具体的大数据处理作业，并输出结算结果；当前作业执行完成后，作业层的调度模块会继续调度其他用户的作业请求，资源层和平台层重复上述虚拟集群构建和应用副本装载的过程以完成其他大数据作业的执行过程；通过获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台，在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理，提升了大数据作业的整体性能，为用户节省了平台构建和维护的开销，使云服务平台上大数据作业得到更好优化，也高了服务质量。

可选地，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，包括：

预设具体第i个计算节点上，第j个虚拟机在Map阶段中，三个子阶段的任务执行耗时分别为

数据导入阶段的耗时由输入文件的大小S和网络平均传输速率B决定，任何两个计算节点之间数据传输时延近似相等，数据导入阶段耗时的下界近似量化为

数据处理阶段的耗时由Mapper节点所处理的数据块大小，以及虚拟节点的计算性能决定，每个Mapper节点的数据处理效率由VM在空载宿主机上的工作效率

其中，m表示云服务平台中物理计算节点的数目，N表示物理计算节点上部署的VM的总数，k表示虚拟计算集群中通信代理的部署数目，

本实施例中，Map和Reducer阶段数据通信和数据处理的性能分别进行量化建模，之后根据性能建模的结果，设计集群上MapReduce作业的性能优化模型，为后续虚拟集群拓扑构建提供模型基础，为了便于模型悠哈，由VM即虚拟机组成的虚拟计算集群；公有云平台对中小规模用户提供大数据应用的场景中用户需要处理的数据规模较小，不足导致数据导入阶段的性能称为应用执行的瓶颈性能，大数据应用的整体执行效率由虚拟集群的杰斯安性能和通信性能共同决定，从而确保模型优化的鲁棒性。

可选地，各个Mapper节点在Map阶段输出的数据处理中间结果会汇总到虚拟集群中的Reducer节点，在各Reducer节点上进行中间结果的聚合，之后Reducer节点会对汇聚后的结果进行处理以生成最终结果，其中，Reduce阶段的数据传输包括：Mapper节点将Map阶段的中间结果数据传输给对应的通信代理；Mapper节点的通信dialing将数据进一步传输给Reducer节点的通信代理；Reducer节点的通信代理将数据传递给Reducer节点以完成中间结果的聚合；Reduce第一阶段中，Map任务产出的中间结果将由Mapper节点传输至各通信代理，该阶段中集群的整体通信新能决定于

Reduce第二阶段中，数据将由各Mapper节点的通信代理统一传输给Reducer节点的通信代理，预设集群中随机选取

需要说明的是，根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台，包括：在物理计算集群中完成虚拟计算集群的优化构建，为大数据作业的执行提供资源基础，云服务平台的管理节点根据用户需求的应用种类，在存放各种不同应用镜像的存储集群中，检索合适的应用副本；将该应用镜像装载到虚拟集群中，实现计算资源与上层应用的整合，构成执行具体应用的平台，虚拟平台会执行用户请求的应用并产出执行结果；可以将MapReduce数据处理流程近似理解为：把杂乱无章的输入数据首先按照某种特征进行归纳整理，之后对归纳整理后的中间数据进行进一步处理得到最终结果。

可选地，生成对抗网络的训练过程包括：

在一个云服务调用场景中，存在用户序列

生成器使用

生成器的损失函数为QoS预测值与QoS真实值的误差，生成器G的损失函数计算表达式为

本实施例中，对抗网络还包括判别器模型，判别器D从真实数据和生成器生成的预测数据集区分真假，对输入D中记录给出一个0到1之间的概率值，D的损失函数表达式为

参阅图2，本发明还提供了一种基于云服务智能部署的数据处理系统，包括：

本实施例中，云服务平台主要由三个层次组成即SaaS用户、SaaS提供商和laaS提供商，最底层是物理机运行的云计算资源层次，顶层是SaaS用户层，SaaS提供商在该层上为SaaS用户的请求提供接口，中间层是SaaS提供商取得云资源的配置为SaaS用户提供相应的服务，在资源分配层laaS提供商负责使用虚拟化管理节点中的物理资源，并在该节点上利用的虚拟机调度分配物理机中的云资源；通过获取SaaS用户向云服务平台提交大数据作业的调用请求，根据调度请求统计大数据作业的计算量，并将资源层分布在各个物理计算节点的虚拟机通过虚拟网络连接以构成执行大数据作业的虚拟计算集群，根据虚拟计算集群构建SaaS用户的服务优化模型、laaS提供商的资源分配模型，基于服务优化模型和资源分配模型确定大数据作业的虚拟集群优化模型，根据虚拟集群优化模型在存储节点上选择对应的镜像副本，并装载到资源层构建完成的虚拟计算集群中，以使虚拟计算集群成为执行大数据作业的计算平台，在物理集群上构建虚拟大数据作业平台以执行大数据作业并输出计算结果，将计算结果输入至已训练的对抗神经网络中进行QoS的预测以完成云服务智能部署的数据处理，提升了大数据作业的整体性能，为用户节省了平台构建和维护的开销，使云服务平台上大数据作业得到更好优化，也高了服务质量。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：深圳市伊登软件有限公司;

上一篇：用于风力发电机风速测量的专用可编程控制器
下一篇：一种异型烟条烟自动分拣烟仓及控制方法