一种基于混合云资源的异构计算平台及模型训练方法

文献发布时间：2023-06-19 10:38:35

技术领域

本发明涉及云技术领域，尤其涉及一种基于混合云资源的异构计算平台及模型训练方法。

背景技术

现有计算、存储、网络三大资源被隔离在不同的虚拟化平台中，无法实现私有云层次上的统一监控与管理，且随着云计算技术的发展，为实现管理用户在不同管理界面之间的频繁切换，掌握多种平台不同的管理逻辑和虚拟化模型，企业需要雇佣或培养熟悉特定虚拟化平台的管理人员进行分别管理。

混合云是一种将私有云与一项或多项公有云服务结合起来的解决方案，不仅可以提供私有安全的数据存储和计算环境，还可以提供更灵活、更低成本的计算、存储、网络资源。

目前混合云管理系统大多基于云管理平台(Cloud Management Platform，CMP)实现对多云系统的管理，但是云管理平台普遍存在过程冗长、手工操作易出错等问题，使得用户不能以统一的方式申请使用资源和提高自服务能力。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明的一方面涉及一种基于混合云资源的异构计算平台，包括：

基础组件层，用于提供用户操作的接口，所述用户操作包括设置模型训练任务；

计算框架层，用于提供所述模型训练任务使用的学习框架；

资源管理层，用于对所述基础设施层中的混合云资源进行分配和调度以执行所述模型训练任务；

基础设施层，用于提供混合云资源，包括异构的算力资源、网络资源和存储资源。

进一步地，所述学习框架包括深度学习框架和强化学习框架。

进一步地，所述资源管理层包括资源管理模块、Kubernetes模块和Docker模块，所述资源管理模块通过所述Kubernetes模块和Docker模块实现对所述基础设施层中异构的算力资源、网络资源和存储资源的调度。

进一步地，所述异构的算力资源包括分布式的CPU、GPU、ASIC处理器资源，所述网络资源包括RDMA网络，所述存储资源包括分布式存储系统HDFS、Ceph和/或ClusterFS。

进一步地，所述用户操作还包括上传数据集和/或上传算法。

进一步地，所述计算框架层还包括大数据引擎，用于对所上传的数据集进行管理。

本发明的另一方面涉及一种模型训练方法，利用上述的基于混合云资源的异构计算平台进行实施，包括：

用户通过所述基础组件层设置模型训练任务并启动任务，所述模型训练任务的设置包括选择模型、数据集、学习框架和/或算力资源；

计算框架层提供所选择的学习框架；

所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配并调用所述基础设施层的算力资源、网络资源和存储资源，进行模型训练。

优选地，所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配并调用所述基础设施层的算力资源、网络资源和存储资源包括：

所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配算力资源、网络资源和存储资源，调用Kubernetes模块和Docker模块为所述模型训练任务建立容器，所述容器包括所分配的算力资源、网络资源和存储资源的镜像。

进一步地，所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配算力资源包括：

获取当前可用的算力资源；

若所述模型训练任务的设置包括算力资源的选择，则基于所述选择分配对应的算力资源；

否则，识别所述模型训练任务的类型，根据所述类型确定所需算力资源的类型和大小；

按照所需算力资源的类型和大小从当前可用的算力资源中进行分配。

进一步地，所述资源管理层实时地记录各模型训练任务使用的资源情况，并在模型训练过程中动态地调整所分配的算力资源、网络资源和存储资源。

本发明的有益效果是：本发明提供了一种基于混合云资源的异构计算平台及模型训练方法，从以管理员为中心的运维方式，转型为去中心化自助运维方式，从单向供给的运营模式，转型为透明自治的运营模式，使管理和使用异构资源的工作效率得到提升。而且可实现多集群统一管理、大规模多用户同步使用，异构计算平台通过支持多种强化学习架构和超大规模分布式训练，可以使机器学习建模全程可视化，同时解决了现有的云平台普遍存在的算力有限、单一AI芯片适配、框架固定等问题，使得模型训练过程方便、快捷、高效。

附图说明

图1为本发明所述基于混合云资源的异构计算平台结构示意图；

图2为本发明所述利用基于混合云资源的异构计算平台实施的模型训练方法流程示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

实施例一

如图1所示，本发明实施例提供了一种基于混合云资源的异构计算平台，包括：

基础组件层11，用于提供用户操作的接口，所述用户操作包括设置模型训练任务；

计算框架层12，用于提供所述模型训练任务使用的学习框架；

资源管理层13，用于对所述基础设施层中的混合云资源进行分配和调度以执行所述模型训练任务；

基础设施层14，用于提供混合云资源，包括异构的算力资源、网络资源和存储资源。

其中，基础组件层11包括数据管理模块111、算法开发模块112和模型训练模块113。用户通过所述数据管理模块111上传数据集，以及删除、修改、导出数据集。用户通过所述算法开发模块112上传算法，以及修改、删除算法。用户通过所述模型训练模块113设置模型训练任务，包括设置模型训练所使用的算法、数据集和/或学习框架。可选地，基础组件层11还包括定制编排模块114，用于定制模型训练所使用的资源，包括处理器类型、处理器数量等。

计算框架层12提供的学习框架121包括深度学习框架和强化学习框架。其中深度学习框架包括TensorFlow、mxnet、Caffe、PyTorch等国际主流深度学习框架和OneFlow、MegEngine、PaddlePaddle、MindSpore等国产框架。强化学习框架包括多租户的强化学习框架Ray。上述学习框架预置在该平台中。

在使用过程中，用户可通过基础组件层11的模型训练模块113指定模型训练使用的计算框架，在模型训练时则平台直接从计算框架层12调用所指定的计算框架，方便快捷，大大简化了部署流程，提升运行效率。

所述计算框架层12还包括大数据引擎122，用于对上传的数据集进行操作，包括存储、计算、挖掘、管理等。所述大数据引擎包括多个数据引擎，例如SPARK、HADOOP、STORM、HIVE、FLINK、KAFKA等，从而完成全数据互通和零配置使用，打造出统一富生态的数据收集体。

资源管理层13包括资源管理模块131、Kubernetes模块132和Docker模块133，所述资源管理模块131通过所述Kubernetes模块132和Docker模块133实现对所述基础设施层中异构的算力资源、网络资源和存储资源的分配和调度。具体地，资源管理模块131根据模型训练任务的设置为所述模型训练任务分配所述基础设施层14的算力资源、网络资源和存储资源，然后调用Kubernetes模块132为所述模型训练任务建立容器，所述容器包括所分配的算力资源、网络资源和存储资源的镜像，所述容器存储于Docker模块133，从而以Docker容器为单位进行资源调度。

基础设施层14包括私有云模块141和公有云模块142，私有云模块141用于提供私有云资源，公有云模块142用于提供公有云资源142，所述私有云资源包括异构的算力资源、网络资源和存储资源。异构的算力资源包括多种类型的处理器，例如分布式的CPU、GPU、ASIC，以及不同厂商的处理器系列，例如寒武纪、华为昇腾、百度昆仑等，从而可以满足用户各种计算需求；所述网络资源包括RDMA网络，避免了用户空间到系统空间的复制开销，提升了远程服务器的CPU使用效率；所述存储资源包括分布式存储系统HDFS、Ceph和/或ClusterFS，使得用户能够更加简便地访问分布在网络上的共享文件。所述公有云资源包括华为云、阿里云、金山云等。

本发明提供了一种基于混合云资源的异构计算平台通过集成异构的算力资源、多个计算框架和大数据引擎，实现多集群统一管理、大规模多用户同步使用，支持多种强化学习架构和超大规模分布式训练，可以使机器学习建模全程可视化，同时解决了现有的云平台普遍存在的算力有限、单一AI芯片适配、框架固定等问题，使得模型训练过程方便、快捷、高效。

实施例二

如图2所示，本实施例提供了一种模型训练方法，利用实施例一所述的基于混合云资源的异构计算平台进行实施，包括：

S101，用户通过所述基础组件层设置模型训练任务并启动任务，所述设置模型训练任务包括选择训练使用的算法、数据集、学习框架和/或算力资源；

S102，计算框架层提供所选择的学习框架；

S103，所述资源管理层根据所述模型训练任务的设置为所述模型训练任务分配并调用所述基础设施层的算力资源、网络资源和存储资源，进行模型训练。

具体地，用户通过模型训练模块113设置模型训练任务，包括设置模型训练所使用的算法、数据集和/或学习框架，所使用的算法可以为该用户通过算法开发模块112上传的，所使用的数据集可以为该用户通过数据管理模块111上传的，所述算法和数据集也可以是由管理员或其它用户预先上传的。在管理员或用户上传算法或数据集时可以选择是否公开，若公开则平台的所有用户均可以选择使用。用户通过定制编排模块114定制模型训练的资源使用方案，包括选择公有云或私有云，选择私有云中的算力资源，例如处理器类型、处理器数量、处理器系列等。由此，用户可以基于自身需求灵活地设定训练资源。例如用户希望提高训练速度，则可以选择较多数量的处理器；若用户对处理器类型有要求，则可以选择GPU或CPU；若用户想检验特定厂商的处理器，则可以选择该厂商的处理器系列，例如寒武纪。由此，可以为用户提供灵活且统一的资源使用方式，能够满足用户个性化的资源需求。

在设置完成后，用户启动模型训练任务。平台根据用户的设置从计算框架层12的学习框架121中调用所选择的学习框架，提取数据集作为训练数据，提取算法代码并执行；

同时，所述资源管理层13根据定制的资源使用方案分配算力资源、网络资源和存储资源，对于未定制或仅定制部分资源的情况，则根据模型训练的设置以及未定制的资源的当前使用情况进行分配。例如，若定制的资源使用方案仅限定了处理器的类型和数量，则资源管理层13根据模型训练的设置(例如模型训练使用的数据集的大小)分配空闲的网络资源和存储资源。若当前可用资源小于定制的资源使用方案，则根据当前可用资源分配，并记录该模型训练任务，当有新的空闲资源时则优先分配给该任务，直至达到定制的资源使用方案。

然后，平台调用Kubernetes模块为所述模型训练任务建立Docker容器，所述容器存储在Docker模块中，并将所分配的算力资源、网络资源和存储资源打包成镜像，放置在所建立的容器里。由此，当存在多个模型训练任务并行地执行时，每个任务具有对应的Docker容器，平台可以调用Kubernetes模型对各个Docker容器进行统一地管理，例如实时地记录各模型训练任务使用的资源情况，并动态地调整每个容器中所包含的算力资源、网络资源和存储资源的镜像。

本发明实施例提供的基于混合云资源的异构计算平台及模型训练方法可很好的应用于各种人工智能领域涉及到的场景中，比如机器翻译、人脸识别、AI医疗、类脑计算、智能仿真等。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：曹岗;邵洲;张肖龙;曲含笑;
专利申请人：北京智源人工智能研究院;