AI训练平台的训练任务创建方法、装置、系统及介质

文献发布时间：2023-06-19 11:45:49

技术领域

本发明实施例涉及人工智能技术领域，特别是涉及一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质。

背景技术

随着AI（Artificial Intelligence，AI，人工智能）技术的发展，AI技术的应用领域越来越广泛，例如，应用于语音识别领域、机器翻译等模型训练中。

AI训练中会使用大量的数据集文件，AI训练任务通常会对训练数据集进行多个epoch（迭代）训练，且每个epoch都需要完整的数据集，并且在训练任务启动时会将对应的训练数据集从远端中心存储拉取到本地磁盘，而后再进行训练，避免直接访问远端中心存储，造成计算资源的等待。

目前，在创建AI训练任务时，通常创建在用户指定的节点上，但是当用户指定的节点存储空间不足时，就会导致AI训练任务创建失败，还需要用户重新选择指定节点，影响训练任务的创建效率，给用户带来不便。

鉴于此，提供一种解决上述技术问题的AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质，在使用过程中有利于提高训练任务的创建效率及用户使用体验。

为解决上述技术问题，本发明实施例提供了一种AI训练平台的训练任务创建方法，包括：

预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将所述AI训练平台的各个所述节点划分为多个虚拟组；

从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间；其中，每个所述共享存储空间对应一个分布式缓存系统；

接受用户输入的训练任务配置信息，依据所述训练任务配置信息确定出任务配置条件；所述任务配置条件包括训练数据集大小和计算资源数量；

判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点，若是，则依据预设筛选方法从各个所述第一节点中选择出目标节点；

依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上，并

依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集；

将所述训练数据集缓存至所述目标节点的独立存储空间中，并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径；所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。

可选的，当确定出所述AI训练平台中各个所述节点均不满足所述任务配置条件之后，还包括：

判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组，若存在第一虚拟组，则判断各个所述第一虚拟组中是否存在节点的计算资源满足所述计算资源数量的第二节点；

若存在第二节点，则将与各个所述第二节点分别对应的虚拟组作为第二虚拟组，并从各个第二虚拟组中选择出目标虚拟组；

当所述目标虚拟组中的第二节点为一个时，直接将所述目标虚拟组中的第二节点作为目标节点，并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中；

当所述目标虚拟组中的第二节点为多个时，将所述目标虚拟组中的各个所述第二节点中剩余的计算资源数量与所述任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点，并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。

可选的，所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的过程为：

判断AI训练平台的各个节点中是否存在独立存储空间满足所述训练数据集大小的节点，若存在，则判断各个满足所述训练数据集大小的节点中是否存在计算资源满足所述计算资源数量的第一节点。

可选的，所述依据预设筛选方法从各个所述第一节点中选择出目标节点的过程为：

将各个所述第一节点剩余的独立存储空间与所述训练数据集大小进行比较，选择出剩余的独立存储空间与所述训练数据集大小最接近的第一节点，并将所述第一节点作为目标节点。

可选的，在判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点之前，还包括：

判断所述AI训练平台的各个所述节点的独立存储空间中是否缓存有所述训练数据集，若是，则从缓存有所述训练数据集的各个节点中选择出满足所述计算资源数量的目标节点，并将所述训练任务创建至所述目标节点上；若否，则判断各个所述虚拟组的共享存储空间中是否缓存有所述训练数据集，若有，则判断缓存有所述训练数据集的虚拟组的各个节点是否存在满足所述计算资源数量的节点，若存在，则从各个满足所述计算资源数量的节点中选择出目标节点，并将所述训练任务创建至所述目标节点上；若不存在缓存有所述训练数据集的虚拟组或不存在满足所述计算资源数量的节点，则进入所述判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点的步骤。

可选的，在所述判断各个所述虚拟组中是否存在共享存储空间满足所述训练数据集大小的第一虚拟组之后，还包括：

若不存在第一虚拟组，则根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置，以更新所述虚拟组的共享存储空间。

可选的，所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置，以更新所述虚拟组的共享存储空间的过程为：

根据所述训练数据集大小重新设置所述预设配额，并根据新的预设配额对所述虚拟组的共享存储空间进行重新配置，以更新所述虚拟组的共享存储空间。

可选的，所述根据所述训练数据集大小对所述虚拟组的共享存储空间进行重新配置，以更新所述虚拟组的共享存储空间的过程为：

根据所述训练数据集的大小在所述虚拟组中增设新的节点，并从所述新的节点中划分出所述预设配额的磁盘空间增加至所述虚拟组的共享存储空间中，以更新所述虚拟组的共享存储空间。

本发明实施例还相应的提供了一种AI训练平台的训练任务创建装置，包括：

第一划分模块，用于预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将所述AI训练平台的各个所述节点划分为多个虚拟组；

第二划分模块，用于从各个节点中划分出预设配额的磁盘空间构成每个所述虚拟组各自的共享存储空间；其中，每个所述共享存储空间对应一个分布式缓存系统；

接收模块，用于接受用户输入的训练任务配置信息，依据所述训练任务配置信息确定出任务配置条件；所述任务配置条件包括训练数据集大小和计算资源数量；

判断模块，用于判断AI训练平台的各个节点中是否存在满足所述任务配置条件的第一节点，若是，则触发选择模块；

所述选择模块，用于依据预设筛选方法从各个所述第一节点中选择出目标节点；

创建模块，用于依据所述训练任务配置信息将对应的训练任务创建至所述目标节点上，并依据所述训练任务配置信息中与所述训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集；

缓存模块，用于将所述训练数据集缓存至所述目标节点的独立存储空间中，并记录所述训练数据集在所述目标节点的独立存储空间中的存储路径；所述独立存储空间为磁盘空间中划分出所述预设配额的磁盘空间之外的剩余磁盘空间。

本发明实施例还提供了一种AI训练平台的训练任务创建系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述AI训练平台的训练任务创建方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述AI训练平台的训练任务创建方法的步骤。

本发明实施例中提供了一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质，该方法预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将AI训练平台的各个节点划分为多个虚拟组，并从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间，每个共享存储空间对应一个分布式缓存系统，在接收到用户输入的训练任务配置信息后，依据训练任务配置信息确定出任务配置条件，其中，任务配置条件包括训练数据集大小和计算资源数量，然后通过对AI训练平台的各个节点进行判断选择出满足任务配置条件的各个第一节点，然后再根据预设筛选方法从各个第一节点中选择出目标节点，然后将对应的训练任务创建至目标节点上，并依据训练任务配置信息中与训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集，并将训练数据集缓存至目标节点的独立存储空间中，记录训练数据集在目标节点的独立存储空间中的存储路径；本发明在使用过程中能够避免指定节点存储空间不足导致创建任务失败的问题，有利于提高训练任务的创建效率及用户使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种AI训练平台的训练任务创建方法的流程示意图；

图2本发明实施例提供的一种AI训练平台的虚拟组示意图；

图3为本发明实施例提供的一种AI训练平台的训练任务创建装置的结构示意图。

具体实施方式

本发明实施例提供了一种AI训练平台的训练任务创建方法、装置、系统及计算机可读存储介质，在使用过程中有利于提高训练任务的创建效率及用户使用体验。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种AI训练平台的训练任务创建方法的流程示意图。该方法包括：

S110：预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将AI训练平台的各个节点划分为多个虚拟组；

S120：从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间；其中，每个共享存储空间对应一个分布式缓存系统；

需要说明的是，在实际应用中当训练数据集过大时，为了避免单节点存储空间有限，不能够对较大的训练数据集进缓存，只能够在AI训练过程中从远端数据中心拉取数据集文件，导致训练速度过慢的问题，本发明实施例中可以预先对AI平台中的各个节点进行分组，划分为多个虚拟组，并且每个虚拟组有一个共享存储空间，共享存储空间由虚拟组中的各个节点的一部分存储空间构成，每个共享存储空间可以由对应的分布式缓存系统进行管理，其中，当训练数据集过大单节点的存储空间不能够满足其缓存需求时，就可以将选择一个满足要求的虚拟组将该训练数据集缓存至该虚拟组的共享存储空间中。其中，对于每个虚拟组中的各个节点，将节点的一部分磁盘空间组成该虚拟组的共享存储空间，将剩余的磁盘空间作为该节点的独立存储空间。

具体的，可以预先根据节点的交换机信息（或机架信息）、局域网信息、节点总数量以及应用数据集中的一种或多种，将AI训练平台的各个节点划分为多个虚拟组，例如可以将位于同一个局域网、且设置在同一个交换机（或机架）上的各个节点划分为一个虚拟组，还可以根据应用数据集的大小选择出一些节点划分虚拟组。对每个虚拟组中的各个节点均划分出预设配额的磁盘空间作为虚拟组的共享存储空间，其中，具体可以将磁盘空间中的预设比例的空间作为共享存储空间，例如将磁盘空间的50%作为共享存储空间，一个虚拟组的共享存储空间的总配额为该虚拟组中各个节点的配额之和；在确定好每个虚拟组的各个共享存储空间后，还可以为每个共享存储空间分配一个分布式缓存系统，通过各个分布式缓存系统对每个共享存储空间进行管理，如图2所示，其中，AI训练平台上位于机架1上的三个节点分为一组，并且每个节点分别划分出100G、50G和50G的磁盘空间作为共享存储空间1，并通过分布式缓存系统dfs1对共享存储空间1进行管理，位于机架2上的四个节点分为一组，并且每个节点分别划分出100G、50G、50G和100G的磁盘空间作为共享存储空间2，并通过分布式缓存系统dfs2对共享存储空间2进行管理，位于机架3上的两个节点分为一组，并且每个节点分别划分出100G和50G的磁盘空间作为共享存储空间3，并通过分布式缓存系统dfs3对共享存储空间3进行管理。

具体的，可以在采用fuse方式将分布式缓存系统挂载到虚拟组中的每个节点中，并且分布式缓存系统可以通过POSIX的resd接口来访问共享存储空间缓存的数据，无需对底层应用进行修改，即可实现后续的任务训练。

S130：接受用户输入的训练任务配置信息，依据训练任务配置信息确定出任务配置条件；任务配置条件包括训练数据集大小和计算资源数量；

需要说明的是，在实际应用中用户在需要创建AI训练任务时，可以在AI训练平台输入训练任务配置信息，其中，训练任务配置信息可以包括训练数据集信息、计算资源信息、训练脚本、计算框架、训练数据在远端中心的远端存储路径等信息·，训练数据集信息包括训练数据集大小、训练数据名称、训练数据在远端中心的存储位置等，计算资源信息包括cpu计算资源数量和gpu计算资源数量等。本发明可以根据用户输入的训练任务配置信息确定出训练任务配置条件，也即确定出训练数据集大小和计算资源数量。

S140：判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点，若是，则进入S150；

具体的，在确定出任务配置条件后，可以对AI平台中的各个节点进行筛选，具体可以对节点剩余的独立存储空间大小和计算资源大小进行筛选，确定出满足任务配置条件的各个第一节点，也即节点剩余的独立存储空间大小满足训练数据集大小，节点的空闲计算资源大小满足任务所需计算资源数量。

其中，具体可以先判断各个节点剩余的独立存储空间大小是否满足训练数据集大小，若满足，则从剩余的独立存储空间满足训练数据集大小的各个节点中再选择出满足计算资源大小的各个第一节点。

S150：依据预设筛选方法从各个第一节点中选择出目标节点；

具体的，当存在满足任务配置条件的第一节点时，若第一节点为一个则直接将该第一节点作为目标节点；若第一节点为多个，则可以根据最佳适应算法从各个第一节点中选择出目标节点，具体可以根据训练数据集大小，从各个第一节点中选择出节点剩余的独立存储空间与训练数据集大小最接近的第一节点作为目标节点，例如，有三个第一节点，剩余的独立存储空间分别为550M、600M、800M，并且训练数据集大小为500M，则可以将剩余的独立存储空间为550M的第一节点作为目标节点，从而可以使后续当存在更大一点（如580M）的训练数据集时可以选择600M的第一节点，以便对每个节点的存储空间进行利用，有效避免节点存储空间的浪费。

S160：依据训练任务配置信息将对应的训练任务创建至目标节点上，并依据训练任务配置信息中与训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集；

具体的，在选择出目标节点后，可以根据用户输入的训练任务配置信息将训练任务创建在该目标节点上，然后根据训练数据在远端数据中心存储的远端存储路径，从远端数据中心获取对应的训练数据集。

S170：将训练数据集缓存至目标节点的独立存储空间中，并记录训练数据集在目标节点的独立存储空间中的存储路径；独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。

具体的，在从远端数据中心获取到训练数据集后，可以将该训练数据集缓存至目标节点的独立存储空间中，还可以记录该训练数据集在目标节点上的存储路径，以便进行后续AI任务的训练，其中，位于目标节点独立存储空间中的训练数据集只能够让建立至该节点上的AI训练任务在进行任务训练时使用。本发明可以根据训练任务配置信息从各个节点中自动选择出满足任务配置条件的目标节点进行训练任务的创建和训练数据集的缓存，能够避免指定节点存储空间不足导致创建任务失败的问题，有利于提高训练任务的创建效率。进一步的，上述S140中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的过程，具体可以为：

判断AI训练平台的各个节点中是否存在独立存储空间满足训练数据集大小的节点，若存在，则判断各个满足训练数据集大小的节点中是否存在计算资源满足计算资源数量的第一节点。

具体的，可以先判断各个节点的独立存储空间的剩余存储空间是否满足训练数据集大小的要求，若存在满足的节点，则从这些节点中再进一步判断这些节点中空闲的计算资源是否满足训练任务的计算资源数量的要求，并将空闲的计算资源满足训练任务的计算资源数量要求的节点作为第一节点。

则相应的，上述S150中依据预设筛选方法从各个第一节点中选择出目标节点的过程，具体可以为将各个第一节点剩余的独立存储空间与训练数据集大小进行比较，选择出剩余的独立存储空间与训练数据集大小最接近的第一节点，并将第一节点作为目标节点。

进一步的，当确定出AI训练平台中各个节点均不满足任务配置条件之后，该方法还可以包括：

判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组，若存在第一虚拟组，则判断各个第一虚拟组中是否存在节点的计算资源满足计算资源数量的第二节点；

若存在第二节点，则将与各个第二节点分别对应的虚拟组作为第二虚拟组，并从各个第二虚拟组中选择出目标虚拟组；

当目标虚拟组中的第二节点为一个时，直接将目标虚拟组中的第二节点作为目标节点，并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中；

当目标虚拟组中的第二节点为多个时，将目标虚拟组中的各个第二节点中剩余的计算资源数量与任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点，并通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。

也即，在执行S140判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点，并确定出AI训练平台中的各个节点均不满足任务配置条件之后，具体可以在确定出各个节点的独立存储空间的剩余空间不满足训练数据集大小的要求时，即可确定出各个节点均不满足任务配置条件，此时说明训练数据集较大，不能够缓存至节点的独立存储空间上，因此可以进一步判断各个虚拟组中的共享存储空间的剩余空间是否满足该训练数据集大小的要求，若满足则确定出各个第一虚拟组，然后在从各个第一虚拟组中的各个节点中选择出节点的空闲计算资源满足训练任务的计算资源数量的第二节点，并确定出各个第二节点所在的虚拟组，将这些虚拟组确定为第二虚拟组，为了提高共享存储空间的利用率，可以从各个第二虚拟组中选择出目标虚拟组，具体可以将各个第二虚拟组的共享存储空间的剩余空间与训练数据集大小进行比较，并选择出剩余空间与训练数据及大小最接近共享存储空间所对应的第二虚拟组，将该第二虚拟组作为目标虚拟组，并且在目标虚拟组中的第二节点为一个时，将该目标虚拟组中的第二节点作为目标节点，然后将AI训练任务创建在该目标节点上，并通过该目标虚拟组中的分布式缓存系统从远端数据中心获取对应的训练数据集，然后将该训练数据集存储至目标虚拟组中的共享存储空间中；若该目标虚拟组中的第二节点为多个，则可以对目标虚拟组中的各个第二节点中剩余的计算资源数量均与任务配置条件中的计算资源数量（也即训练任务所需的计算资源数量）进行比较，并且将第二节点中剩余的计算资源数量与任务配置条件中的计算资源数量最近接的一个第二节点作为目标节点，然后通过对应的分布式缓存系统从远端数据中心获取对应的训练数据集缓存至目标虚拟组中的共享存储空间中。

还需要说明的是，当各个虚拟组中的共享存储空间的剩余空间均不能够满足训练数据集大小或者各个第二虚拟组中的各个节点均不满足计算资源数量时，返回训练任务创建失败的提醒信息。

具体的，提醒信息可以包括存储空间不足等提示内容。当然，用户还可以输入节点操作指令，然后依据节点操作指令对相应的节点进行管理，其中，包括对节点存储空间中当前缓存的对应数据集进行删除等操作。

另外，在每个AI训练任务创建并训练完成后，还可以将AI训练任务训练时所使用的cpu计算资源和gpu计算资源收回，计入对应节点的闲置计算资源总数中，以便下一次在创建AI训练任务时再选择出对应的节点进行创建。

更进一步的，在上述S140中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点之前，该方法还可以包括：

判断AI训练平台的各个节点的独立存储空间中是否缓存有训练数据集，若是，则从缓存有训练数据集的各个节点中选择出满足计算资源数量的目标节点，并将训练任务创建至目标节点上；若否，则判断各个虚拟组的共享存储空间中是否缓存有训练数据集，若有，则判断缓存有训练数据集的虚拟组的各个节点是否存在满足计算资源数量的节点，若存在，则从各个满足计算资源数量的节点中选择出目标节点，并将训练任务创建至目标节点上；若不存在缓存有训练数据集的虚拟组或不存在满足计算资源数量的节点，则进入判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的步骤。

需要说明的是，接收到用户输入的训练任务配置信息后，并依据训练任务配置信息确定出任务配置条件之后，可以先判断AI训练平台的各个节点的独立存储空间中是否缓存有训练数据集，若存在缓存有训练数据集的节点，然后再判断这些缓存有训练数据集的各个节点中是否存在节点的计算资源满足计算资源数量的目标节点，若有，则直接将训练任务创建在该目标节点上；若AI训练平台的各个节点的独立存储空间均没有缓存有训练数据集，则进一步判断各个虚拟组的共享存储空间中是否缓存有训练数据集，若有，则确定出该虚拟组，然后再判断该虚拟组中的各个节点中是否存在节点的计算资源满足计算资源数量的节点，若有，则可以从这些节点中选择出一个节点作为目标节点，具体可以选择节点剩余的计算资源数量与训练任务所需的计算节点数量最接近的一个节点作为目标节点，然后将训练任务创建在该节点上，以便将使用同一个训练数据集的训练任务创建在同一个虚拟组中，同时可以避免同一个训练数据集多次缓存导致存储资源的浪费。

还需要说明的是，若用户输入的训练任务配置信息中包括配置更新指令，则说明远端数据中心中所存储的训练数据集为更新后的，当前节点中或共享存储空间中缓存的训练数据集为更新之前的，因此还可以在创建好训练任务后，还可以从远端数据中心存储的数据集为基础对缓存的训练数据集进行增量更新，然后还可以预先建立数据集的关系表，其中包括数据集名称、存储位置、大小、路径等信息，然后在基于更新后的训练数据集对关系表进行更新，之后在基于更新后的训练数据集进行后续的任务训练。

另外，若各个虚拟组中不存在缓存有训练数据集的虚拟组或缓存有训练数据集的虚拟组中不存在满足计算资源数量的节点，则进入S130中判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点的步骤，以便选择出目标节点后创建训练任务，并从远端数据中心获取及缓存训练数据集。

进一步的，在上述判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组之后，该方法还可以包括：

若不存在第一虚拟组，则根据训练数据集大小对虚拟组的共享存储空间进行重新配置，以更新虚拟组的共享存储空间。

需要说明的是，在确定出AI训练平台中的各个节点均不满足任务配置条件、且各个虚拟组中的共享存储空间均不满足训练数据集大小时，则本发明实施例中还可以根据训练数据集的大小对虚拟组的共享存储空间进行动态调节，也即对虚拟组的共享存储空间进行重新配置，以使重新配置后的共享存储空间满足训练数据大小，其中，具体可以对存在节点的计算资源满足资源数量的虚拟组的共享存储空间进行配置，若存在节点的计算资源满足资源数量的虚拟组为多个，则可以对一个也可以对多个虚拟组的共享存储空间进行重新配置，具体可以根据实际需要进行确定。

当然，在对虚拟组的共享存储空间进行重新配置后，还可以返回执行判断各个虚拟组中是否存在共享存储空间满足训练数据集大小的第一虚拟组的步骤，以便重新找出满足共享存储空间要求的第一虚拟组，并进行后续的AI训练任务的创建。

更进一步的，根据训练数据集大小对虚拟组的共享存储空间进行重新配置，以更新虚拟组的共享存储空间的过程，具体可以为：

根据训练数据集大小重新设置预设配额，并根据新的预设配额对虚拟组的共享存储空间进行重新配置，以更新虚拟组的共享存储空间。

可以理解的是，在对虚拟组的共享存储空间进行重新配置时，可以通过对节点的预设配额进行重新设置，也即设置新的预设配额，并根据该新的预设配额对虚拟组中的每个节点的磁盘空间进行划分，从而使各个节点中构成共享存储空间的磁盘空间按照新的预设配额增加，进一步增加虚拟组共享存储空间的大小，以便能够成功创建AI训练任务。

另外，上述根据训练数据集大小对虚拟组的共享存储空间进行重新配置，以更新虚拟组的共享存储空间的过程，具体还可以为：

根据训练数据集的大小在虚拟组中增设新的节点，并从新的节点中划分出预设配额的磁盘空间增加至虚拟组的共享存储空间中，以更新虚拟组的共享存储空间。

需要说明的是，除了采用上述方法对虚拟组的共享存储空间进行重新配置之外，还可以在虚拟组中增设新的节点，以便在将该新的节点的预设配额的磁盘空间并入至虚拟组中的共享存储空间后，虚拟组的共享存储空间能够满足训练数据大小的要求。

当然，在实际应用中还可以对整个AI平台的各个节点执行重新划分虚拟组的步骤，

还需要说明的是，在实际应用中可以通过修改dfs配置文件来对虚拟组的共享存储空间进行重新配置，并且在配置完成后还可以通过重启dfs的master节点，重新加载训练任务配置信息并进行具体的AI训练任务建立的过程。

另外，本发明实施例中将AI平台中的节点划分为多个虚拟组，还能够提高计算资源的利用率。例如，目前现有技术中AI平台节点通常配置为多个GPU卡，例如4个或8个，那么在创建AI训练任务时，若用户指定的节点的存储空间不足，该节点计算资源存的在剩余，但由于节点存储空间不足因此无法在该节点上创建AI训练任务，那么该节点上剩余的计算资源将无法被利用，导致该节点上GPU等昂贵资源的浪费，本发明实施例中将AI平台中的节点划分为多个虚拟组，并且每个虚拟组存在一个共享存储空间，则可以通过满足训练数据集大小的第一虚拟组的共享存储空间来缓存训练数据集，并且将该训练任务创建在该第一虚拟组中计算资源满足需求的第二节点上，从而提高计算资源的利用率。

可见，该方法在接收到用户输入的训练任务配置信息后，依据训练任务配置信息确定出任务配置条件，其中，任务配置条件包括训练数据集大小和计算资源数量，然后通过对AI训练平台的各个节点进行判断选择出满足任务配置条件的各个第一节点，然后再根据预设筛选方法从各个第一节点中选择出目标节点，然后将对应的训练任务创建至目标节点上，并从远端数据中心获取对应的训练数据集缓存至目标节点的存储空间中；本发明在使用过程中能够避免指定节点存储空间不足导致创建任务失败的问题，有利于提高训练任务的创建效率及用户使用体验。

在上述实施例的基础上，本发明实施例还相应的提供了一种AI训练平台的训练任务创建装置，具体请参照图3。该装置包括：

第一划分模块21，用于预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将AI训练平台的各个节点划分为多个虚拟组；

第二划分模块22，用于从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间；其中，每个共享存储空间对应一个分布式缓存系统；

接收模块23，用于接受用户输入的训练任务配置信息，依据训练任务配置信息确定出任务配置条件；任务配置条件包括训练数据集大小和计算资源数量；

判断模块24，用于判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点，若是，则触发选择模块25；

选择模块25，用于依据预设筛选方法从各个第一节点中选择出目标节点；

创建模块26，用于依据训练任务配置信息将对应的训练任务创建至目标节点上，并依据训练任务配置信息中与训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集；

缓存模块27，用于将训练数据集缓存至目标节点的独立存储空间中，并记录训练数据集在目标节点的独立存储空间中的存储路径；独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。

需要说明的是，本发明实施例提供的AI训练平台的训练任务创建装置具有与上述实施例中提供的AI训练平台的训练任务创建方法相同的有益效果，并且对于本发明实施例中所涉及到的AI训练平台的训练任务创建方法的具体介绍，请参照上述实施例，本申请在此不再赘述。

在上述实施例的基础上，本发明实施例还提供了一种AI训练平台的训练任务创建系统，该系统包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述AI训练平台的训练任务创建方法的步骤。

例如，本实施例中的处理器具体用于实现预先根据节点的交换机信息、局域网信息、节点总数量以及应用数据集中的一种或多种，将AI训练平台的各个节点划分为多个虚拟组；从各个节点中划分出预设配额的磁盘空间构成每个虚拟组各自的共享存储空间；其中，每个共享存储空间对应一个分布式缓存系统；接受用户输入的训练任务配置信息，依据训练任务配置信息确定出任务配置条件；任务配置条件包括训练数据集大小和计算资源数量；判断AI训练平台的各个节点中是否存在满足任务配置条件的第一节点，若是，则依据预设筛选方法从各个第一节点中选择出目标节点；依据训练任务配置信息将对应的训练任务创建至目标节点上，并依据训练任务配置信息中与训练数据集对应的远端存储路径，从远端数据中心获取对应的训练数据集；将训练数据集缓存至目标节点的独立存储空间中，并记录训练数据集在目标节点的独立存储空间中的存储路径；独立存储空间为磁盘空间中划分出预设配额的磁盘空间之外的剩余磁盘空间。

在上述实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述AI训练平台的训练任务创建方法的步骤。

其中，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘慧兴;
专利申请人：苏州浪潮智能科技有限公司;

上一篇：语音合成模型训练方法、语音合成方法及装置
下一篇：一种服务器调优方法、系统及装置