掌桥专利:专业的专利平台
掌桥专利
首页

AI模型生成方法及电子设备

文献发布时间:2023-06-19 11:26:00


AI模型生成方法及电子设备

技术领域

本申请涉及人工智能技术领域,尤其涉及一种AI模型生成方法及电子设备。

背景技术

随着科技的快速发展,全球已经逐渐进入人工智能(Artificial Intelligence,简称AI)时代。AI作为一种应用技术,如何将AI模型快速转化为产品,从而实现商业落地,这将是目前在人工智能领域所要解决的迫切问题。AI模型的应用包括数据处理、模型设计、模型训练、模型发布等,如今AI模型生成方法通常是交给AI模型工程师进行调试、训练,最后得到AI模型。

基于不同类型的用户对于模型的需求并不一样,所定制的模型训练任务也不同,因此,如何根据用户需求快速有效获取到用户所需的AI模型,是本领域技术人员正在研究的热门课题。

发明内容

本申请提供了一种AI模型生成方法及电子设备,旨在实现根据用户需求,对AI模型训练任务实现动态调整和调度以快速有效获取到对应用户所需的AI模型。

第一方面,本申请实施例提供了一种AI模型生成方法,包括:

获取待训练的AI模型的任务流程信息及对应的模型训练数据;

根据所述任务流程信息生成对应的任务调度指令及指令执行顺序信息;

根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务;

获取训练完成的所述AI模型,并发布所述AI模型。

本实施例通过获取用户所需的AI模型对应的任务流程信息,并利用任务流程信息生成对应的任务调度指令及指令执行顺序信息,并根据任务调度指令及指令执行顺序信息控制容器管理系统对AI模型训练任务实现动态调整和调度,实现了根据用户制定的AI训练任务快速获取对应AI模型。

在一些实施例中,所述根据所述任务流程信息生成对应的任务调度指令及指令执行顺序信息,包括:

解析所述任务流程信息,以获取对应的训练任务信息及所述训练任务信息的任务执行顺序信息;

根据所述训练任务信息生成对应的任务调度指令,并根据所述任务执行顺序信息生成对应的指令执行顺序信息。

在一些实施例中,所述根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务,包括:

根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈;

根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练。

本实施例通过任务调度指令获知当前AI模型训练对应的训练任务,从而生成该训练任务所需要的资源请求,并将该资源请求发送给容器管理系统的资源调度服务器,容器管理系统的资源调度服务器在接收到该资源请求后,根据该资源请求控制对应的任务服务器利用对应模型训练数据执行AI模型训练任务对应的训练任务,并生成对应的任务状态反馈,从而可以根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,实现了AI模型训练任务整个对应训练流程的动态调整和动态调度,直至所述AI模型完成训练,实现了根据用户制定的AI训练任务快速获取对应AI模型。

在一些实施例中,所述根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,包括:

根据所述任务调度指令获取对应的任务容器信息和计算资源信息,其中,所述任务容器信息用于表征执行对应任务时任务容器的属性,所述计算资源信息用于表征执行对应任务时所需的计算资源;

根据所述任务容器信息和所述计算资源信息生成对应的资源请求;

将所述资源请求发送给容器管理系统的资源调度服务器。

本实施例中,基于不同的AI模型训练任务所需要的任务容器属性及对应的计算资源不同,根据任务调度指令计算当前待执行的AI模型训练任务所需要的任务容器属性及计算资源,进而根据任务容器属性及计算资源生成对应的资源请求,进而实现AI模型训练任务资源分配的优化分配。

在一些实施例中,所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈,包括:

资源调度服务器根据所述资源请求获取对应的资源清单信息,以根据所述资源清单信息调用对应的控制接口控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并获取任务服务器所执行的所述AI模型训练任务的任务状态反馈。

本实施例中,通过获取对应任务服务器所执行的AI模型训练任务的任务状态反馈,根据任务状态反馈可以获知对应任务服务器的任务执行进度及任务执行结果,进而可以根据任务状态反馈动态调整AI模型训练任务,以获取对应任务阶段的任务结果,进而确保完整的AI模型训练任务的有序进行,实现根据客户需要高度定制化的AI模型的自动机器学习训练。

在一些实施例中,根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练,包括:

根据所述任务状态反馈获取所述任务服务器所执行的AI模型训练任务的执行状态;

当所述任务服务器完成当前所执行的AI模型训练任务时,则根据所述指令执行顺序信息获取对应的任务调度指令;

根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,直至所述AI模型完成训练。

本实施例中,在根据任务状态反馈获知对应的任务服务器执行的AI模型训练任务完成时,则根据指令执行顺序信息获取下一阶段对应的任务调度指令,并生成对应的资源请求,以使得资源调度服务器根据接收到的新的资源请求控制对应的任务服务器执行该阶段对应的AI模型训练任务,直至所述AI模型完成训练。AI模型训练任务分阶段进行,通过阶段性监控AI模型训练任务的执行状态,使得在某个阶段的AI模型训练出现异常时可以及时调控,确保AI模型训练任务的有序执行。

在一些实施例中,所述任务流程信息是客户端获取用户对所需要的AI模型的任务描述信息及定制任务流程,并显示所述任务描述信息及所述定制任务流程,且所述客户端在接收到响应于所述定制任务流程及所述任务描述信息的确定指令时,根据所述定制任务流程及所述任务描述信息生成的信息。

在一些实施例中,所述客户端显示的任务描述信息、及定制任务流程允许用户修改。

本实施例中,基于客户端所显示的任务描述信息及定制任务流程允许用户修改,使得用户通过客户端可以根据需求通过适应性调整AI模型训练任务的任务描述信息进而调整发送到服务端的任务流程信息,从而实现AI模型训练任务的高度定制化,人性化,用户体验更优。

在一些实施例中,所述AI模型训练任务可以在容器管理系统的至少两个不同的任务服务器中并行处理。

本实施例中,AI模型训练任务可以在容器管理系统不同的任务服务器中并行处理,可以有效实现任务的分布式并行计算,提高计算效率。

第二方面,本申请实施例提供了一种电子设备,包括存储器和处理器;

所述存储器用于存储计算机程序;

所述处理器,用于执行所述计算机程序并在执行所述计算机程序时,实现前述的AI模型生成方法。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种AI模型生成方法的流程示意图;

图2是本申请实施例提供的AI模型生成方法的应用场景示意图;

图3是用户在客户端提交的AI模型训练流程示意图;

图4是本申请实施例提供的AI模型生成方法中,指令执行顺序信息获取步骤的流程示意图;

图5是本申请实施例提供的AI模型生成方法中,根据调度指令执行AI模型训练任务的一种实施方式的流程示意图;

图6是本申请实施例提供的AI模型生成方法的流程示意图;

图7是本申请实施例提供的一种电子设备的结构框图示意图。

具体实施例

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

下面结合附图,对本申请的一些实施例作详细说明,在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参阅图1,图1是本申请实施例提供的一种AI模型生成方法的流程示意图。

AI模型生成方法可以应用在电子设备,如终端设备、服务器或云服务器中,用于生成AI模型等过程;其中,终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等;服务器可以为独立的服务器,也可以为服务器集群。

示例性的,如图2所示,AI模型生成方法应用在服务器时的场景示意图。服务器20可以从终端设备10获取AI模型训练的任务流程信息及模型训练数据,并根据任务流程信息及模型训练数据控制容器管理系统30执行对应的AI模型训练任务,以获取对应的AI模型,还可以将生成的AI模型发送给终端设备10,以便终端设备10进行模型测试或部署等操作。

其中,终端设备10安装有用于为用户提供信息输入的客户端,该客户端对应的服务端安装于服务器20或另一终端设备。其中,终端设备10可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、以及诸如数字TV、台式计算机等固定终端。服务器20例如可以为单独的服务器、服务器集群或云服务器。本申请中,以客户端安装于终端设备10,服务端安装于服务器20为例进行说明,但不局限于客户端仅可以安装于终端设备10,服务端仅可以安装于服务器20,其中,客户端可以是应用程序(APP)、或者是网页,服务端对应客户端设置。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见下文针对AI模型生成方法的详细描述,此处不再赘述。

如图1所示,本申请实施例的AI模型生成方法包括步骤S11至步骤S14。

步骤S11:获取待训练的AI模型的任务流程信息及对应的模型训练数据。

具体地,用户需要定制某一AI模型训练任务时,通过打开安装在终端设备10的APP,当用户打开该APP时,该APP显示需求信息界面,以便用户在需求信息界面上填写需求信息并提供相应的训练数据,其中,需求信息包括待训练的AI训练任务对应的任务描述信息及定制任务流程,其中,任务描述信息包括但不限于任务名称,定制任务流程包括但不限于任务执行顺序表、任务流程图,且定制任务流程包括至少两个具有先后执行顺序的子任务。

客户端在接收到用户输入的任务描述信息及定制任务流程等需求信息时,将对应的任务描述信息及定制任务流程显示于安装该客户端的终端设备10的显示屏,以便用户进行信息确认,并在用户在客户端的对应界面进行确认操作时,终端设备10根据任务描述信息及定制任务流程生成对应的任务流程信息,并发送给安装有对应服务端的服务器20。

其中,客户端所显示的任务描述信息及定制任务流程允许用户修改,任务描述信息包括但不限定于文字、流程图、语音。如,客户端设置有语音按键,以提示用户通过语音发布需求信息,用户通过语音按键将自己的需求以语音的形式提交给客户端,客户端通过对用户的语音进行识别以获取用户的任务描述信息。

示例性地,用户想获取某一AI模型时,则可以在客户端创建对应的AI模型训练任务,并将该AI模型训练任务对应的任务描述信息及定制任务流程输入到客户端的相关界面中。客户端将用户所输入的任务描述信息及定制任务流程在安装有该客户端的终端设备进行显示。用户可实时预览、修改任务的处理流程及相关描述,当用户在客户端的相关界面中点击保存按钮进行任务保存时,该任务流程信息将会以参数化成预设格式的数据并发送到服务端,如转换为json格式数据。

如图3所示,本申请的实施例中,以用户在客户端创建的AI训练任务是为了获取水果识别的AI模型,AI模型训练任务包括数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务为例进行说明,但不局限于用户所创建的仅可以是用于水果识别的AI模型训练任务,同时,对应的AI训练任务的训练步骤不局限于数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务。

用户欲获取用于进行水果识别的模型时,通过客户端的显示界面输入对应的任务描述信息及定制任务流程,并提供了用于进行AI模型训练的原始数据,以创建对应的AI训练任务。

在定制任务流程中,用户定义了该AI训练任务的执行步骤为:

首先对用户端指定的原始数据集进行数据清洗任务,即将客户端指定的原始数据集,按照预设算法进行数据清洗,得到符合预设要求的第一数据集。

其次,对所获取的第一数据集执行数据分析任务,即将第一数据集进行数据分析,得到第二数据集及相关的配置属性,并根据配置属性判断第二数据集是否符合运行要求,若第二数据集符合运行要求,则执行训练模型任务,以得到训练好的目标AI模型,即利用第二数据集执行AI模型训练任务,直至获取到对应的目标AI模型。若第二数据集不符合运行要求,则结束当前流程。

最后,在获取到目标AI模型后,执行部署模型服务任务,即将目标模型进行部署模型服务,并结束当前流程。

即可以理解,不同的用户对AI模型的需求不同,因此,所创建的AI模型训练任务可以不同,AI模型训练任务对应的训练子任务、子任务之间的任务步骤顺序也可以不同。

本实施例通过将任务流程信息及定制任务流程在客户端进行显示,以便用户知悉当前待训练的AI模型对应的训练流程及在该训练流程中对应子任务的执行先后顺序,并根据自己的需求进行修订,从而可以为用户提供高度定制化的AI模型获取服务。

在一些实施例,步骤S11中,模型训练数据包括开源数据或自有数据,自有数据为用户自行提供的训练数据;若模型训练数据为自有数据,将自有数据的数据格式转换为开源数据的数据格式。

其中,模型训练数据的获取方式可以是,通过第三方代码托管平台获取模型训练数据,将模型训练数据统一替换为指定的数据路径,并映射到用户登录的客户端进行显示,以便用户进行选取。

模型训练数据的获取方式还可以是用户根据客户端的相关提示进行自行提供相关数据。

为了快速确认所获取的模型训练数据是否规范,确定模型训练数据类型的步骤,具体包括以下内容:

检测模型训练数据的数据类型;若检测模型训练数据为自有数据,将自有数据模型训练数据的数据格式替换为开源数据的数据格式;若检测模型训练数据为开源数据且数据格式为预定义好的开源数据格式,无需转换数据格式。

检测模型训练数据的数据类型可以根据模型训练数据的数据地址确定,若模型训练数据的数据地址为开源地址,则确定模型训练数据为开源数据,若模型训练数据的数据地址为私有的URL,确定模型训练数据为自有数据。

若检测模型训练数据为自有数据,将所述自有数据的数据格式转换为预定义好的开源数据的数据格式,即自有数据模型训练数据的数据路径也替换为预定义好的开源数据的数据路径,并发送确定模型训练数据的指令,以便相关用户进行数据确认。

在一些实施例,在客户端显示预定义的多个不同任务的开源数据的数据格式,当用户想通过利用自有数据进行AI模型训练时,可以根据需要选择自有数据的转换格式,以便用户根据所述开源数据的数据格式对所述自有数据的数据格式进行转换。

通过将相关的模型训练数据格式统一化,进一步节省AI模型训练任务所需的时间。

步骤S12:根据所述任务流程信息生成对应的任务调度指令及指令执行顺序信息。

请参阅图4,在一些实施例,步骤S12包括步骤S121至步骤S122。

其中,步骤S121:解析所述任务流程信息,以获取对应的训练任务信息及所述训练任务信息的任务执行顺序信息;

步骤S122:根据所述训练任务信息生成对应的任务调度指令,并根据所述任务执行顺序信息生成对应的指令执行顺序信息。

具体地,运行有服务端的服务器在接收到客户端发出的任务流程信息时,解析该任务流程信息,以获取训练用户所需的AI模型的训练任务信息、及表征对应训练任务信息执行先后顺序的任务执行顺序信息,并根据所获取的训练任务信息生成对应的任务调度指令,及根据任务执行顺序信息生成对应的指令执行顺序信息。

其中,任务调度指令与AI模型训练任务对应关联,用于调度容器管理系统执行对应的AI模型训练任务。从而根据指令执行顺序信息控制任务调度指令的执行顺序,进而通过不同的任务调度指令控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务。

示例性地,用户定义的待训练的用于水果识别的AI模型对应的模型训练任务包括但不限于数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务。这些任务在对应的任务流程信息以预设格式数据,如json数据格式,从客户端发送至服务端时,服务端接收该json数据格式的任务流程信息,并从该任务流程信息中解析还原出该模型训练任务对应的子任务及子任务之间的执行顺序,如,服务端解析出模型训练任务对应的训练任务信息为,该模型训练任务包括数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务等四个子任务,同时,对应子任务之间的执行顺序是数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务依次执行,也即,在数据清洗任务执行完成后,执行数据分析任务;在数据分析任务执行完成后,执行训练模型任务;在训练模型任务执行完成后,执行部署模型服务任务,在部署模型服务任务执行完成后,该模型训练任务完成。

服务器根据解析出的训练任务信息生成对应的任务调度指令,并根据所述任务执行顺序信息生成对应的指令执行顺序信息。如,数据清洗任务对应生成数据清洗指令、数据分析任务对应生成数据分析指令、训练模型任务对应生成模型训练指令、部署模型服务任务对应生成部署模型指令。

步骤S13:根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务。

服务端在根据任务流程信息解析出对应的任务调度指令及指令执行顺序信息后,根据任务调度指令及指令执行顺序信息控制容器管理系统,以使容器管理系统利用用户所提供的模型训练数据执行对应的AI模型训练任务。

请参阅图5,在一些实施例,步骤S13包括步骤S131至步骤S132。

其中,在步骤S13中,所述根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务,包括:

步骤S131:根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈。

在一些实施例,步骤S131中,所述根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,包括:

根据所述任务调度指令获取对应的任务容器信息和计算资源信息,其中,所述任务容器信息用于表征执行对应任务时任务容器的属性,所述计算资源信息用于表征执行对应任务时所需的计算资源;

根据所述任务容器信息和所述计算资源信息生成对应的资源请求;

将所述资源请求发送给容器管理系统的资源调度服务器。

在一些实施例,步骤S131中,所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈,包括:

资源调度服务器根据所述资源请求获取对应的资源清单信息,以根据所述资源清单信息调用对应的控制接口控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并获取任务服务器所执行的所述AI模型训练任务的任务状态反馈。

示例性地,服务端根据任务流程信息解析出AI模型训练任务对应的子任务包括数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务,同时,子任务之间的执行顺序是数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务依次执行。不同阶段的AI模型训练任务所需要的任务容器属性及对应的计算资源不同,将完整的AI模型训练任务阶段化,并根据不同的任务阶段调用不同的资源进行模型训练,从而不仅可以有效节约训练资源,还可以节省训练时间。

运行有服务端的服务器根据子任务的执行顺序首先执行AI模型训练任务对应的第一子任务“数据清洗任务”,并根据对应任务调度指令生成执行数据请求任务所需要的任务容器信息、及计算资源信息生成对应的资源请求,并将该资源请求发送给容器管理系统。

其中,任务容器信息用于表征执行对应任务时任务容器的属性,任务容器的属性包括执行该子任务时所需的任务文件地址、文件存储路径。计算资源信息用于表征执行对应任务时所需的计算资源,计算资源包括CPU信息、GPU信息及内存信息。

容器管理系统包括但不限于Kubernetes(简称,K8S),容器管理系统包括调度服务器及任务服务器,调度服务器与安装有服务端的服务器通信连接,用于接收对应的资源请求,并根据该资源请求调用对应的控制接口以控制对应的任务服务器执行AI模型训练任务对应的子任务,然后获取对应任务服务器执行该子任务的任务状态反馈,并发送给安装服务端的服务器,以便及时获知当前子任务的执行状况,从而可以根据任务状态反馈及指令执行顺序信息动态调整相应的子任务,其中,任务状态反馈包括任务的执行进度信息及任务的执行结果。

本实施例中,基于不同的AI模型训练任务所需要的任务容器属性及对应的计算资源不同,根据任务调度指令计算当前待执行的AI模型训练任务所需要的任务容器属性及计算资源,进而根据任务容器属性及计算资源生成对应的资源请求,进而实现AI模型训练任务资源分配的优化分配。

同时,通过获取对应任务服务器所执行的AI模型训练任务的任务状态反馈,从而获知对应任务服务器的任务执行进度及任务执行结果,进而可以根据任务状态反馈动态调整AI模型训练任务,以获取对应任务阶段的任务结果,进而确保完整的AI模型训练任务的有序进行,实现根据客户需要高度定制化的AI模型的自动机器学习训练。

步骤S132:根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练。

请参阅图6,在一些实施例,步骤S132中,根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练,包括:

步骤S1321:根据所述任务状态反馈获取所述任务服务器所执行的AI模型训练任务的执行状态;

步骤S1322:当所述任务服务器完成当前所执行的AI模型训练任务时,则根据所述指令执行顺序信息获取对应的任务调度指令;

步骤S1323:根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,直至所述AI模型完成训练。

示例性地,当安装有服务端的服务器接收到“数据清洗任务”已经完成的任务状态反馈时,根据指令执行顺序信息获知下一个待执行的任务为“数据分析任务”,则根据与“数据分析任务”对应的任务调度指令生成对应的资源请求,并将该资源请求发送给容器管理系统的资源调度服务器,以使资源调度服务器根据对应资源请求控制对应的任务服务器执行“数据分析任务”,并获取“数据分析任务”的任务状态反馈。

当安装有服务端的服务器接收到“数据分析任务”已经完成的任务状态反馈时,根据指令执行顺序信息获知下一个待执行的子任务为“训练模型任务”,则根据与“训练模型任务”对应的任务调度指令生成相应的资源请求,并将该资源请求发送给容器管理系统的资源调度服务器,以使资源调度服务器根据对应资源请求控制对应的任务服务器执行“训练模型任务”,并获取“训练模型任务”的任务状态反馈,AI模型训练任务对应的子任务根据任务执行的顺序依次循环,直至AI模型训练的最后一个子任务“部署模型服务任务”训练完成,也即完成了用户所需的AI模型的训练。

本实施例中,在根据任务状态反馈获知对应的任务服务器执行的AI模型训练任务完成时,则根据指令执行顺序信息获取下一阶段对应的任务调度指令,并生成对应的资源请求,以使得资源调度服务器根据接收到的新的资源请求控制对应的任务服务器执行该阶段对应的AI模型训练任务,直至所述AI模型完成训练。

同时,AI模型训练任务分阶段进行,通过阶段性监控AI模型训练任务的执行状态,使得在某个阶段的AI模型训练出现异常时可以及时调控,确保AI模型训练任务的有序执行。

在一些实施例中,AI模型训练任务可以在容器管理系统的至少两个不同的任务服务器中并行处理。

AI模型训练任务中任意一个子任务均可以在容器管理系统至少两个不同的任务服务器中并行处理,可以有效实现任务的分布式并行计算,提高计算效率。

例如,AI模型训练任务包括但不限于数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务时,数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务中每一个任务均可以在容器管理系统至少两个不同的任务服务器中并行处理。

步骤S14:获取训练完成的所述AI模型,并发布所述AI模型。

容器管理系统在完成AI模型的训练后,将该AI模型发送给的服务端,以便通过服务端将训练好的AI模型提供给用户。

本申请说明书以用户定制用于水果识别的AI模型训练任务,且该模型训练任务对应的子任务依次包括数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务为例,对AI模型生成方法的应用进行具体说明。

在一应用场景中,用户需要定制用于水果识别的AI模型对应的模型训练任务时,通过打开安装在终端设备10的客户端,并在客户端显示的需求信息界面输入待训练的AI训练任务对应的任务描述信息及定制任务流程,其中,任务描述信息包括任务名称,定制任务流程包括任务流程图,且用户定义的任务流程图中指定了该模型训练任务的训练步骤。

客户端在接收到用户输入的任务描述信息及定制任务流程等需求信息时,将对应的任务描述信息及定制任务流程显示于安装该客户端的终端设备10的显示屏,以便用户进行信息确认,并在用户在客户端的对应界面进行确认操作时,终端设备10根据任务描述信息及定制任务流程生成预设格式的任务流程信息,并发送给安装有对应服务端的服务器20。

服务器20接收到任务流程信息后,根据任务流程信息解析出对应的训练任务信息及任务执行顺序信息,如,用户定义的模型训练任务对应的训练任务依次包括数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务时,则服务器20解析出终端设备10所发送的任务流程信息后获得模型训练任务对应的子任务、及子任务之间的执行顺序,即,模型训练任务包括四个子任务、依次为数据清洗任务、数据分析任务、训练模型任务、及部署模型服务任务。

服务器20在解析出对应的训练任务信息及任务执行顺序信息后,根据训练任务信息生成对应的任务调度指令,并根据所述任务执行顺序信息生成对应的指令执行顺序信息。如,数据清洗任务对应生成数据清洗指令、数据分析任务对应生成数据分析指令、训练模型任务对应生成模型训练指令、部署模型服务任务对应生成部署模型指令。

服务器20根据任务的执行顺序首先执行AI模型训练任务对应的第一子任务“数据清洗任务”,并根据对应任务调度指令生成执行数据请求任务所需要的任务容器信息、及计算资源信息生成对应的资源请求,并将该资源请求发送给容器管理系统30。

其中,任务容器信息用于表征执行对应任务时任务容器的属性,任务容器的属性包括执行该子任务时所需的任务文件地址、文件存储路径。计算资源信息用于表征执行对应任务时所需的计算资源,计算资源包括CPU信息、GPU信息及内存信息。

容器管理系统30包括但不限于Kubernetes(简称,K8S),容器管理系统30包括调度服务器及任务服务器,调度服务器与安装有服务端的服务器20通信连接,用于接收对应的资源请求,并根据该资源请求调用对应的控制接口以控制对应的任务服务器执行AI模型训练任务对应的子任务,然后获取对应任务服务器执行该子任务的任务状态反馈,并发送给服务器20,以便及时获知当前子任务的执行状况,从而可以根据任务状态反馈及指令执行顺序信息动态调整相应的子任务,其中,任务状态反馈包括任务的执行进度信息及任务的执行结果。

当服务器20接收到“数据清洗任务”已经完成的任务状态反馈时,根据指令执行顺序信息获知下一个待执行的任务为“数据分析任务”,则根据与“数据分析任务”对应的任务调度指令生成对应的资源请求,并将该资源请求发送给容器管理系统30的资源调度服务器,以使资源调度服务器根据对应资源请求控制对应的任务服务器执行“数据分析任务”,并获取“数据分析任务”的任务状态反馈。

当服务器20接收到“数据分析任务”已经完成的任务状态反馈时,根据指令执行顺序信息获知下一个待执行的子任务为“训练模型任务”,则根据与“训练模型任务”对应的任务调度指令生成相应的资源请求,并将该资源请求发送给容器管理系统30的资源调度服务器,以使资源调度服务器根据所述资源请求控制对应的任务服务器执行“训练模型任务”,并获取“训练模型任务”的任务状态反馈,AI模型训练任务对应的子任务根据任务执行的顺序依次循环,直至AI模型训练的最后一个子任务“部署模型服务任务”训练完成,也即完成了用户所需的AI模型的训练。

容器管理系统30在完成AI模型的训练后,将该AI模型发送给的安装有服务端的服务器20,以便通过服务端将训练好的AI模型提供给用户。

请参阅图7,图7是本申请实施例提供的一种电子设备的示意性框图。该电子设备包括但不限于服务器。

如图7所示,该电子设备300包括处理器301、存储器302及网络接口303,处理器301和存储器302通过总线连接,并可以通过网络接口303或设置于电子设备300内的无线通信模块与外部设备通信连接,该总线比如为I2C(Inter-integrated Circuit)总线。

具体地,处理器301可以是微控制单元(Micro-controller Unit,MCU)、中央处理单元(Central Processing Unit,CPU)或数字信号处理器(Digital Signal Processor,DSP)等。

存储器302可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时,实现本申请实施例提供的任意一种所述的AI模型生成方法。

示例性的,处理器301用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:

获取待训练的AI模型的任务流程信息及对应的模型训练数据;

根据所述任务流程信息生成对应的任务调度指令及指令执行顺序信息;

根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务;

获取训练完成的所述AI模型,并发布所述AI模型。

在一些实施例中,所述根据所述任务流程信息生成对应的任务调度指令及指令执行顺序信息,包括:

解析所述任务流程信息,以获取对应的训练任务信息及所述训练任务信息的任务执行顺序信息;

根据所述训练任务信息生成对应的任务调度指令,并根据所述任务执行顺序信息生成对应的指令执行顺序信息。

在一些实施例中,所述根据所述任务调度指令及指令执行顺序信息控制容器管理系统,以使所述容器管理系统根据所述模型训练数据执行对应的AI模型训练任务,包括:

根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈;

根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练。

在一些实施例中,所述根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,包括:

根据所述任务调度指令获取对应的任务容器信息和计算资源信息,其中,所述任务容器信息用于表征执行对应任务时任务容器的属性,所述计算资源信息用于表征执行对应任务时所需的计算资源;

根据所述任务容器信息和所述计算资源信息生成对应的资源请求;

将所述资源请求发送给容器管理系统的资源调度服务器。

在一些实施例中,所述资源调度服务器根据所述资源请求,控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并生成对应的任务状态反馈,包括:

资源调度服务器根据所述资源请求获取对应的资源清单信息,以根据所述资源清单信息调用对应的控制接口控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,并获取任务服务器所执行的所述AI模型训练任务的任务状态反馈。

在一些实施例中,根据所述任务状态反馈及所述指令执行顺序信息调整所述任务服务器所执行的AI模型训练任务,直至所述AI模型完成训练,包括:

根据所述任务状态反馈获取所述任务服务器所执行的AI模型训练任务的执行状态;

当所述任务服务器完成当前所执行的AI模型训练任务时,则根据所述指令执行顺序信息获取对应的任务调度指令;

根据所述任务调度指令生成对应的资源请求,并发送给容器管理系统的资源调度服务器,以使所述资源调度服务器根据所述资源请求控制对应的任务服务器利用所述模型训练数据执行对应的AI模型训练任务,直至所述AI模型完成训练。

在一些实施例中,所述任务流程信息是客户端获取用户对所需要的AI模型的任务描述信息及定制任务流程,并显示所述任务描述信息及所述定制任务流程,且所述客户端在接收到响应于所述定制任务流程及所述任务描述信息的确定指令时,根据所述定制任务流程及所述任务描述信息生成的信息。

在一些实施例中,所述客户端显示的任务描述信息、及定制任务流程允许用户修改。

在一些实施例中,所述AI模型训练任务可以在容器管理系统的至少两个不同的任务服务器中并行处理。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

相关技术
  • AI模型生成方法、电子设备及存储介质
  • AI模型生成方法、电子设备及存储介质
技术分类

06120112923437