掌桥专利:专业的专利平台
掌桥专利
首页

任务处理方法、问答处理方法以及分布式系统

文献发布时间:2024-04-18 19:58:30


任务处理方法、问答处理方法以及分布式系统

技术领域

本说明书实施例涉及计算机技术领域,特别涉及一种任务处理方法。

背景技术

近年来,随着人工智能和深度学习技术的迅速发展,大型深度神经网络模型的应用越来越广泛。这些大型模型在自然语言处理、计算机视觉和其他领域取得了优良的性能,但它们的训练过程需要大量的计算资源和时间。

传统上,由于计算资源和内存的限制,这些模型的训练时间往往很长,比如,在加载大模型的权重进行训练时,需要加载模型的全部权重,而加载模型全部权重所耗时间较长,尤其是在训练样本数据较小的时候,会造成较大的训练瓶颈,因此,亟需一种高效的任务处理方法,以实现高效的模型训练。

发明内容

有鉴于此,本说明书实施例提供了一种任务处理方法,应用于分布式计算集群。本说明书一个或者多个实施例同时涉及一种任务处理方法,一种问答处理方法,一种任务处理装置,应用于分布式计算集群,一种任务处理装置,一种问答处理装置,一种分布式系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种任务处理方法,应用于分布式计算集群,所述分布式计算集群包括至少两个计算节点和缓存,所述缓存中预先加载有至少一个预训练任务模型,所述预训练任务模型为预训练神经网络模型,所述方法包括:

响应于前端发送的任务请求,获取目标样本,其中,所述任务请求携带有目标任务的任务信息;

根据所述任务信息,从所述缓存预先加载的至少一个预训练任务模型中获取所述任务信息对应的初始任务模型;

调度目标计算节点,利用所述目标样本,对所述初始任务模型进行训练,获得目标任务模型。

根据本说明书实施例的第二方面,提供了一种任务处理方法,包括:

接收前端发送的任务处理请求,其中,所述任务处理请求携带有待处理数据和目标任务信息;

基于所述目标任务信息,获取目标任务信息对应的目标任务模型;

将所述待处理数据输入所述目标任务模型,获得所述目标任务模型输出的任务处理结果,其中,所述目标任务模型是分布式计算集群利用目标样本,对初始任务模型进行训练得到,所述初始任务模型是指分布式计算集群的缓存中预先加载的预训练任务模型,所述预训练任务模型为预训练神经网络模型。

根据本说明书实施例的第三方面,提供了一种问答处理方法,包括:

接收前端发送的问题处理请求,其中,所述问题处理请求携带有待处理问题数据和问题信息;

基于所述问题信息,获取所述问题信息对应的目标问答模型;

将所述待处理问题数据输入所述目标问答模型,获得所述目标问答模型输出的目标答案数据,其中,所述目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,所述初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。

根据本说明书实施例的第四方面,提供了一种分布式系统,所述分布式系统包括分布式计算集群、模型存储单元和服务接口,所述分布式计算集群包括至少两个计算节点和缓存,所述缓存中预先加载有至少一个预训练任务模型,所述预训练任务模型为预训练神经网络模型;

所述服务接口,用于接收前端发送的任务请求,将所述任务请求转发至所述分布式计算集群;

所述分布式计算集群,用于响应于所述任务请求,获取目标样本,其中,所述任务请求携带有目标任务的任务信息;根据所述任务信息,从所述缓存预先加载的至少一个预训练任务模型中获取所述任务信息对应的初始任务模型;调度目标计算节点,利用所述目标样本,对所述初始任务模型进行训练,获得目标任务模型;

所述模型存储单元,用于存储所述目标任务模型。

根据本说明书实施例的第五方面,提供了一种任务处理装置,应用于分布式计算集群,所述分布式计算集群包括至少两个计算节点和缓存,所述缓存中预先加载有至少一个预训练任务模型,所述预训练任务模型为预训练神经网络模型,所述装置包括:

样本获取模块,被配置为响应于前端发送的任务请求,获取目标样本,其中,所述任务请求携带有目标任务的任务信息;

初始任务模型获取模块,被配置为根据所述任务信息,从所述缓存预先加载的至少一个预训练任务模型中获取所述任务信息对应的初始任务模型;

第一调度模块,被配置为调度目标计算节点,利用所述目标样本,对所述初始任务模型进行训练,获得目标任务模型。

根据本说明书实施例的第六方面,提供了一种任务处理装置,包括:

第一接收模块,被配置为接收前端发送的任务处理请求,其中,所述任务处理请求携带有待处理数据和目标任务信息;

目标任务模型获取模块,被配置为基于所述目标任务信息,获取目标任务信息对应的目标任务模型;

结果获得模块,被配置为将所述待处理数据输入所述目标任务模型,获得所述目标任务模型输出的任务处理结果,其中,所述目标任务模型是分布式计算集群利用目标样本,对初始任务模型进行训练得到,所述初始任务模型是指分布式计算集群的缓存中预先加载的预训练任务模型,所述预训练任务模型为预训练神经网络模型。

根据本说明书实施例的第七方面,提供了一种问答处理装置,包括:

第二接收模块,被配置为接收前端发送的问题处理请求,其中,所述问题处理请求携带有待处理问题数据和问题信息;

问答模型获取模块,被配置为基于所述问题信息,获取所述问题信息对应的目标问答模型;

数据获得模块,被配置为将所述待处理问题数据输入所述目标问答模型,获得所述目标问答模型输出的目标答案数据,其中,所述目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,所述初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。

根据本说明书实施例的第八方面,提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务处理方法或问答处理方法的步骤。

根据本说明书实施例的第九方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述任务处理方法或问答处理方法的步骤。

根据本说明书实施例的第十方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述任务处理方法或问答处理方法的步骤。

本说明书一个实施例应用于分布式计算集群,分布式计算集群包括至少两个计算节点和缓存,缓存中预先加载有至少一个预训练任务模型,预训练任务模型为预训练神经网络模型,包括:响应于前端发送的任务请求,获取目标样本,任务请求携带有目标任务的任务信息;根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型;调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型。通过在分布式计算集群的缓存中预先加载至少一个预训练任务模型,使得在接收到前端发送的任务请求时,可以基于任务请求中携带的目标模型的任务信息,从至少一个预训练任务模型中获取任务信息对应的初始任务模型,以调度目标计算节点对初始任务模型进行训练,也即被进行训练的是预先加载至分布式计算集群的缓存中的,提高了对初始任务模型进行训练的效率,进一步提高了响应前端发送的任务请求的效率。

附图说明

图1是本说明书一个实施例提供的一种任务处理系统架构下的交互流程示意图;

图2是本说明书一个实施例提供的一种任务处理系统的框架图;

图3是本说明书一个实施例提供的一种任务处理方法的流程图;

图4是本说明书一个实施例提供的另一种任务处理方法的流程图;

图5是本说明书一个实施例提供的一种问答处理方法的流程图;

图6a是本说明书一个实施例提供的一种任务处理方法的处理过程流程图;

图6b是本说明书一个实施例提供的一种任务处理方法中缓存中存储节点的示意图;

图6c是本说明书一个实施例提供的一种任务处理模型中计算节点替换的示意图;

图7是本说明书一个实施例提供的一种任务处理方法的处理流程示意图;

图8a是本说明书一个实施例提供的一种分布式系统的结构图;

图8b是本说明书一个实施例提供的另一种分布式系统的结构图;

图9是本说明书一个实施例提供的一种任务处理装置的结构示意图;

图10是本说明书一个实施例提供的另一种任务处理装置的结构示意图;

图11是本说明书一个实施例提供的一种问答处理装置的结构示意图;

图12是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(LLM,Large Language Model)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先,对本说明书一个或多个实施例涉及的名词术语进行解释。

大模型(Large Model):指在机器学习或深度学习任务中使用的具有大量参数和复杂结构的模型。大模型通常需要大量的计算资源和存储空间。

分布式训练(Distributed Training):是一种通过将模型训练任务分配给多个计算设备或计算节点来加速模型训练过程的方法。每个设备或节点处理部分数据和计算,并将结果传递给其他设备或节点进行进一步的计算和更新。

并行计算(Parallel Computing):指在多个计算设备上同时执行计算任务的方法。并行计算可以加速计算过程,提高计算效率。

分布式系统(Distributed System):是由多个计算设备或计算节点组成的系统,这些设备或节点可以协同工作以完成特定的任务。在分布式训练中,多个计算设备组成一个分布式系统,共同完成模型的训练任务。

计算节点(Compute Node):是分布式系统中的一个计算设备,通常是一台服务器或计算机。每个计算节点可以拥有独立的计算能力和存储资源。

通信(Communication):在分布式训练中,不同的计算节点之间需要相互传递数据和计算结果。通信指的是节点之间交换信息和数据的过程,确保节点之间的协同工作和同步更新。

参数同步(Parameter Synchronization):在分布式训练中,不同计算节点上的模型参数需要进行同步,以确保模型在不同节点上的一致性。参数同步涉及将不同节点上计算得到的参数进行聚合和更新,以确保模型的收敛和准确性。

数据并行(Data Parallelism):是一种分布式训练策略,其中不同计算节点处理模型训练的不同数据批次。每个节点使用相同的模型副本,但是处理不同的数据批次。节点之间通过参数同步进行交互,以更新模型参数。

模型并行(Model Parallelism):是一种分布式训练策略,其中不同计算节点处理模型的不同部分。每个节点负责处理整个模型的一个子集,通常是不同的层或组件。节点之间通过参数同步进行交互,以更新模型参数。

近年来,随着人工智能和深度学习技术的迅速发展,大型深度神经网络模型的应用越来越广泛。这些大型模型在自然语言处理、计算机视觉和其他领域取得了优良的性能,但它们的训练过程需要大量的计算资源和时间。传统上,这些模型的训练是在单个计算机上进行的,由于计算资源和内存的限制,训练时间往往很长,并且很难处理大规模的数据集。

为了解决这些挑战,分布式训练技术应运而生。分布式训练通过将模型的训练任务分割成多个子任务,并在多台计算机或计算集群上同时进行训练,以加快训练速度和处理更大规模的数据。然而,现有的分布式训练系统存在一些问题和局限性。

首先,现有的分布式训练系统通常需要复杂的配置和管理,对于普通用户而言使用起来较为困难。其次,这些系统在跨多个计算节点进行通信和同步时,可能存在延迟和性能瓶颈的问题,导致训练效率下降。此外,资源的分配和调度可能不够灵活和高效,无法充分利用计算集群的潜力。

因此,有需要提出一种新的大模型高效分布式训练产品和方法,以克服现有系统的局限性,提高训练效率和性能,并提供更好的用户体验。

目前主流的大模型根据模型大小采用数据并行或者模型并行的方式进行训练,但是在大模型的场景下,尤其是云上场景,许多训练瓶颈容易显现。在模型训练阶段,第一步是加载预训练模型的权重,读取训练数据,进入训练过程。由于大模型权重本身文件较大,模型权重全部加载时间耗时较长,在用户数据较小的时候会成为训练的较大瓶颈。

为了解决上述技术问题,本说明书实施例在分布式计算集群的缓存中预先加载至少一个预训练任务模型,以实现响应于前端发送的任务请求,获取目标样本,任务请求携带有目标任务的任务信息;根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型;调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型。通过在分布式计算集群的缓存中预先加载至少一个预训练任务模型,使得在接收到前端发送的任务请求时,可以基于任务请求中携带的目标模型的任务信息,从至少一个预训练任务模型中获取任务信息对应的初始任务模型,以调度目标计算节点对初始任务模型进行训练,也即被进行训练的是预先加载至分布式计算集群的缓存中的,提高了对初始任务模型进行训练的效率,进一步提高了响应前端发送的任务请求的效率。

在本说明书中,提供了一种任务处理方法,应用于分布式计算集群。本说明书一个或者多个实施例同时涉及一种任务处理方法,一种问答处理方法,一种任务处理装置,应用于分布式计算集群,一种任务处理装置,一种问答处理装置,一种分布式系统,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

参见图1,图1示出了本说明书一个实施例提供的一种任务处理系统架构下的交互流程示意图,如图1所示,该系统包括服务端100和前端200,服务端100包括分布式计算集群,分布式计算集群包括至少两个计算节点和缓存,缓存中预先加载有至少一个预训练任务模型,预训练任务模型为预训练神经网络模型。

服务端100:用于响应于前端200发送的任务请求,获取目标样本,其中,任务请求携带有目标任务的任务信息;根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型;调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型;

前端200:用于接收目标任务模型。

前端可以是任意一种终端的前端200。

应用本说明书实施例的方案,通过在分布式计算集群的缓存中预先加载至少一个预训练任务模型,使得在接收到前端发送的任务请求时,可以基于任务请求中携带的目标模型的任务信息,从至少一个预训练任务模型中获取任务信息对应的初始任务模型,以调度目标计算节点对初始任务模型进行训练,也即被进行训练的是预先加载至分布式计算集群的缓存中的,提高了对初始任务模型进行训练的效率,进一步提高了响应前端发送的任务请求的效率。

参见图2,图2示出了本说明书一个实施例提供的一种任务处理系统的框架图,该系统可以包括服务端100以及多个前端200。多个前端200之间通过服务端100可以建立通信连接,在任务处理场景中,服务端100即用来在多个前端200之间提供任务处理服务,多个前端200可以分别作为发送端或接收端,通过服务端100实现通信。

用户通过前端200可与服务端100进行交互以接收其它前端200发送的数据,或将数据发送至其它前端200等。在任务处理场景中,可以是用户通过前端200向服务端100发布任务处理请求,服务端100根据该任务处理请求生成任务处理结果,并将任务处理结果推送至其他建立通信的前端200中。

其中,前端200与服务端100之间通过网络建立连接。网络为前端200与服务端100之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。前端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100。

前端200可以为浏览器、应用程序(APP,Application)、或网页应用如超文本标记语言第5版(H5,HyperText Markup Language5)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,前端200可以基于服务端提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real Time Communication)SDK开发获得等。前端200可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端100可以包括提供各种服务的服务器,例如为多个前端提供通信服务的服务器,又如为前端上使用的模型提供支持的用于后台训练的服务器,又如对前端发送的数据进行处理的服务器等。需要说明的是,服务端100可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是,本说明书实施例中提供的任务处理方法一般由服务端100执行,但是,在本说明书的其它实施例中,前端200也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的任务处理方法。在其它实施例中,本说明书实施例所提供的任务处理方法还可以是由前端200与服务端100共同执行。

参见图3,图3示出了本说明书一个实施例提供的一种任务处理方法的流程图,应用于分布式计算集群,分布式计算集群包括至少两个计算节点和缓存,缓存中预先加载有至少一个预训练任务模型,预训练任务模型为预训练神经网络模型,具体包括以下步骤。

步骤302:响应于前端发送的任务请求,获取目标样本,其中,任务请求携带有目标任务的任务信息。

本说明书一个或多个实施例,应用于分布式集群,分布式计算集群包括管理单元,实际的执行主体为分布式计算集群中的管理单元。

具体地,任务请求是指用户有训练任务的需求时,通过前端发送任务请求,任务请求可以是训练任务请求,训练任务请求可以是语音模型训练任务请求、图像模型训练任务请求、视频模型训练任务请求等,任务请求中携带有目标任务的任务信息,比如,当任务请求为训练任务请求时,任务请求中携带有训练任务指令和任务信息。任务信息表征训练任务对应的任务属性,用于确定训练任务对应的任务类型,任务信息可以为任务类型、任务关键字以及任务相关的描述信息等,比如,任务信息为翻译、问答、阅读理解等。目标样本是与任务请求相对应的样本,比如,任务请求携带的任务信息为问答模型,则获取问答模型对应的样本。

分布式计算集群是指利用分布式的方式对大模型进行计算的集群,分布式计算集群中包括至少两个计算节点,利用至少两个计算节点进行并行计算,并行计算的结果通过通信的方式进行协同与更新,分布式计算集群对大模型进行训练的方式可以是数据并行,比如,在各计算节点中模型相同,使用的数据不同,也可以是模型并行,比如,在各计算节点中训练数据相同,模型不同。分布式计算集群还包括缓存,缓存中可以包括多个存储节点,用于存储预先加载的至少一个预训练任务模型,预训练任务模型为预训练神经网络模型,其中,预训练神经网络模型是利用预训练样本训练得到的,预训练样本可以是文本、语音、图像、视频等,以使训练得到的预训练神经网络模型可以处理对应的任务。当任务请求为训练任务请求时,分布式计算集群是使用自身的计算能力执行训练任务,以对训练任务请求进行响应。

响应于前端发送的任务请求,获得目标样本的实现方式,可以是接收前端发送的任务请求,基于任务请求,获得目标样本。

其中,基于任务请求,获得目标样本的实现方式可以是基于任务请求中携带的任务信息,从文件服务端获取与所述任务信息对应的目标样本。

可选地,目标样本可以是在接收到任务请求之前,存储到文件服务端中的,也可以是跟随任务请求从前端发送过来存储到文件服务端中的。

通过对前端发送的任务请求进行响应,获得目标样本,使得后续可以基于目标样本对任务请求对应的待训练模型进行训练,获得符合前端要求的模型。

本说明书一种可选的实施例中,响应于前端发送的任务请求,获取目标样本,包括如下步骤:

解析前端发送的任务请求,获得目标任务的任务信息;

基于任务信息,从文件服务端获取目标样本,其中,文件服务端用于存储样本。

具体地,文件服务端是指对用户通过前端上传的用户文件数据进行存储的服务端,文件服务端还可以对用户文件数据进行管理,比如按照文件对应的任务信息不同进行划分。样本是指对模型进行训练的样本,样本通常按照任务信息的不同进行划分,比如,任务信息为问答类型,则对应的样本为对问答类型的模型进行训练的训练样本。

解析前端发送的任务请求,获得目标任务的任务信息,包括接收前端发送的任务请求,解析任务请求,获得目标任务的任务信息。

接收前端发送的任务请求可以是用户通过对前端任务类型的点击,发起的任务请求,以使接收到前端发送的任务请求;还可以是用户在前端输入想要执行的训练任务,前端根据用户输入的内容进行识别,自动生成任务请求,以使接收前端发送的任务请求。

解析任务请求,获得目标任务的任务信息的实现方式,可以是识别任务请求中的关键字,将识别到的关键字与预设关键字进行比对,基于比对结果,确定目标任务的任务信息;还可以是将任务请求输入预先训练的请求解析模型中,获得请求解析模型输出的目标任务的任务信息,其中,请求解析模型是基于多个样本任务请求和样本任务请求对应的目标任务的任务信息标签进行训练得到。

基于任务信息,从文件服务端获取目标样本的实现方式,可以是将任务信息与文件服务端中的数据进行比对,将比对结果满足预设比对阈值的数据进行提取,确定为目标样本。

应用本说明书实施例的方案,接收前端发送的任务请求,解析任务请求,获得目标任务的任务信息,基于任务信息,从文件服务端获取目标样本,使得获取到的目标样本是符合前端发送的任务请求的,进而符合前端的要求的,进一步使得后续利用目标样本训练得到的模型也是符合前端要求的,提高了响应前端发送的续联任务请求的效率。

步骤304:根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型。

具体地,初始任务模型是指与任务信息相对应的待训练模型,初始任务模型是从缓存中获取的预训练任务模型是预训练神经网络模型,可以是预训练神经网络模型。

根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型的实现方式有很多种,具体根据实际情况进行选择,本说明书在此不作任何限定、

本说明书实施例一种可能的实现方式中,可以是将任务信息与缓存中各预训练任务模型对应的关键字进行比对,基于比对结果,确定任务信息对应的预训练任务模型,将该预训练任务模型确定为初始任务模型。

本说明书实施例另一种可能的实现方式中,还可以是提取任务信息的信息语义,提取各预训练任务模型的模型语义,将信息语义与各模型语义进行比对,基于对比结果,确定任务信息对应的初始任务模型。

本说明书一种可选的实施例中,缓存中设置有多个存储节点;在根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型之前,还包括如下步骤:

获取至少一个预训练任务模型;

根据至少一个预训练任务模型的模型大小,将至少一个预训练任务模型存储至缓存中对应的存储节点。

具体地,存储节点是指缓存中对预训练模型进行存储的节点,各存储节点按照存储大小,可以存储一个完整的预训练模型,也可以与其他存储节点组合存储一个预训练模型,具体根据存储节点的存储大小和预训练模型的大小进行确定。

获取至少一个预训练任务模型可以是用户通过前端上传的,也可以是基于用户在前端对于预训练任务模型的选择,从模型存储库中获得的。

根据至少一个预训练任务模型的模型大小,将至少一个预训练任务模型存储至缓存中对应的存储节点的实现方式,可以是识别至少一个预训练任务模型的模型大小,根据模型大小,为各预训练任务模型划分对应的存储节点数量,将各预训练任务模型存储至对应的存储节点。

其中,根据模型大小,为各预训练任务模型划分对应的存储节点数量的实现方式,可以是将模型大小与存储节点的存储大小进行比对,基于比对结果确定该模型对应存储节点的数量,比如,模型大小为10,存储节点的存储大小为2,则确定存储节点的数量为5个。

可选地,前端发送的任务请求为多个时,与任务信息对应的初始任务模型为多个,且初始任务模型为同一初始任务模型时,需要从缓存中并发读取该初始任务模型,则缓存可以根据并发读取量的大小与自动进行扩容,在初始任务模型被读取完后,缓存可以进行自动缩容,以保障模型以及模型文件读取的稳定性。

缓存中的存储节点对预训练任务模型进行存储时,可以根据预训练任务模型的模型类型生成标签,以使后续基于任务信息获取

应用本说明书实施例的方案,获取至少一个预训练任务模型,根据至少一个预训练任务模型的模型大小,将至少一个预训练任务模型存储至缓存中对应的存储节点,以使后续接收到任务请求时,可以从缓存中对应的存储节点处获取初始任务模型进行训练。

步骤306:调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型。

本说明书一个或多个实施例,为响应于前端发送的任务请求,获取目标样本,根据任务请求中的任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型,以使后续调度目标计算节点,利用目标样本对初始任务模型进行训练,获得目标任务模型,以减少加载初始任务模型权重的时间,提高利用目标计算节点对初始任务模型进行训练的效率。

具体地,目标计算节点可以是分布式计算集群中任一计算节点,也可以是分布式计算集群中与任务信息相对应的计算节点。目标任务模型是指基于任务请求对初始任务模型进行训练获得的任务模型,目标任务模型可以执行前端所需要执行的任务,比如,任务请求为针对问答处理的任务请求,则经过处理获得的目标任务模型可以执行问答处理任务。

调用目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型的实现方式,可以是基于初始任务模型调用对应的目标计算节点,利用目标样本中的多个训练文本和训练文本对应的标签,对初始任务模型进行训练,获得目标任务模型。

利用目标样本,对初始任务模型进行训练,获得目标任务模型的实现方式,基于任务请求中携带的微调方式不同,进行训练的过程也不同,具体根据实际情况进行选择,本说明书实施例在此不作任何限定。

本说明书一种可能的实现方式中,任务请求中携带有全量微调的调整方式,则利用目标样本,对初始任务模型进行训练,获得目标任务模型,可以为利用目标样本,对初始任务模型中的模型参数进行微调,获得目标任务模型。

本说明书另一种可能的实现方式中,由于大模型参数较多,全量的梯度需要大量计算资源,同时也需要大量时间等待机器进行梯度计算和模型更新,故基于用户的请求,任务请求中可以携带有冻结模型的调整方式,则利用目标样本,对初始任务模型进行训练,获得目标任务模型,可以为在初始任务模型中加入微调参数,获得初始微调任务模型,利用目标样本,对初始微调任务模型进行训练,获得目标任务模型,其中,目标任务模型为对初始微调任务中的微调参数进行调整得到。

可选地,在任务请求中携带有冻结模型的调整方式时,可使用大模型的低秩适应算法、前缀微调算法对冻结模型进行参数增加。

示例性地,使用大模型的低秩适应算法时,在初始任务模型的基础上新增参数△w,通过矩阵的低秩分解,把△w分解为两个参数量更小的矩阵A和B,在训练过程中只更新A和B的参数,对于权重矩阵W

h=W

其中,W和W

对矩阵A使用随机高斯初始化,对矩阵B使用0进行初始化,因此ΔW=BA在训练的开始为0,使用

通过引入冻结模型,以及高效的大模型的低秩适应算法、前缀微调算法等,减少了计算资源的最低需求,同时加速了训练时间。

训练接收后,训练得到的模型需要进行服务部署,由于大模型需求的推理计算资源较多,可自动应用调优模型推理优化,对模型进行转换,获得优化后的模型。

通过对模型进行调优,降低了对大模型进行部署推理时对计算资源的需求。

可选地,获得目标任务模型之后,前端可以发起模型部署任务请求,以使将目标任务模型部署至推理集群,便于后续进行应用。

本说明书一种可选的实施例中,在响应于前端发送的任务请求,获取目标样本之前,还包括如下步骤:

接收服务接口转发的任务请求,其中,任务请求是服务接口对前端发送的任务请求和训练配置信息整合得到;

调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型,包括如下步骤:

根据训练配置信息,对训练进行配置;

调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型。

具体地,服务接口是指对前端发送的任务请求进行接收,并转发至对应处理集群的接口,服务接口还可以对接收到的任务请求进行分析,确定任务请求对应的集群,以将任务请求进行转发。训练配置信息是指预先配置的,对训练请求进行配置的信息模板,训练配置信息中可以包括目标样本、训练镜像信息、训练次数等对模型训练进行配置的信息。

可选地,训练配置信息可以是用户在前端配置完毕,以通过任务请求发送的,也可以是在接收到前端发送的任务请求后,基于任务请求中的任务信息配置训练信息。

接收服务接口转发的任务请求的实现方式,可以是用户通过前端发起任务请求,服务接口接收到任务请求后,将任务请求进行转发,以使分布式计算集群接收到服务接口转发的任务请求,其中,任务请求是服务接口对前端发送的任务请求和训练配置信息整合得到。

根据训练配置信息,对训练进行配置的实现方式,可以是根据训练配置信息和任务请求,对训练进行配置,生成配置后的任务请求,基于配置后的任务请求,对训练进行配置,以使后续基于训练配置信息进行训练。

调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型的实现方式,调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型。

应用本说明书实施例的方案,接收服务接口转发的任务请求,该任务请求是服务接口对前端发送的任务请求和训练配置整合得到,以使分布式计算集群根据训练配置信息,对训练进行配置,调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型,通过对训练进行配置,使得在对初始任务模型进行训练时,是基于训练配置信息进行训练的,提高了进行训练获得的目标任务模型的使用效率。

在大模型的训练过程中,尤其当数据较大,训练时间较长时,经常出现因为硬件原因导致的训练过程中断和训练失败,需要人工重新启动训练。

本说明书一种可选的实施例中,任务处理方法,应用于分布式计算集群,还包括如下步骤:

对目标计算节点的训练过程进行监测;

在训练失败的情况下,停止目标计算节点的训练;

将目标计算节点设置为待修复节点,其中,所述待修复节点是指被修复后可设置为备份节点的节点。

具体地,备份节点是指分布式计算集群中用于备用的计算节点。

对目标计算节点的训练过程进行监测,可以是在目标计算节点中安装监测设备,对目标计算节点的训练过程进行监测;还可以是将目标计算节点进行的训练过程划分为多个训练子过程,在进行完各训练子过程时,对训练得到的初始任务子模型进行监测。

待修复节点被修复是指人工基于待修复节点的标识,对待修复节点进行修复,以使待修复节点可正常进行训练,故在待修复节点被修复后,将待修复节点设置为备份节点进行后续训练。

可选地,训练过程可以划分为多个训练子过程,在进行训练子过程,获得初始任务子模型之后,可以将初始任务子模型对应的模型数据存储至分布式计算集群中的数据存储单元,以使目标计算节点训练失败的情况下,可以将数据存储单元中的模型数据发送至备份节点进行继续训练,而无需使得备份节点重新开始对初始任务模型进行训练,保证了训练过程的稳定性,其中,数据存储单元是分布式计算集群中存储训练过程中的初始任务模型的模型数据。

在训练失败的情况下,确定目标计算节点出现故障,无法继续进行训练,故停止目标计算节点的训练。

可选地,目标计算节点训练失败可以是因底层硬件原因训练失败。

将目标计算节点设置为备份节点,以使分布式计算集群对该备份节点进行检修。

应用本说明书实施例的方案,对目标计算节点的训练过程进行监测,在训练失败的情况下,停止目标计算节点的训练,将目标计算节点设置为备份节点,以实现在发现训练失败时,可以及时停止训练,减少资源的浪费,并将进行训练失败的目标计算节点设置为备份节点,进行检修,提高了对计算节点的利用率,同时提高了进行训练的效率,进一步提高了获得目标任务模型的效率。

在将目标计算节点设置为备份节点之后,为保证顺利训练,启用分布式计算集群中的备份节点,将目标计算节点中的训练数据发送至备份节点中,继续进行训练,以获得目标任务模型,本说明书一种可选的实施例中,分布式计算集群还包括备份节点;在停止目标计算节点的训练之后,还包括如下步骤:

调度目标备份节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型,其中,目标备份节点为任一个备份节点。

调用目标备份节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型的实现方式,可以是确定目标备份节点,将目标计算节点对应存储的初始任务模型发送至目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型。

在目标计算节点训练失败时,使目标计算节点停止训练,启动分布式计算集群中的备份节点,继续利用目标计算节点进行训练,使得整个系统会利用之前训练存储的模型参数在之前的训练基础上重新启动训练,保证训练的稳定性。

在调度目标备份节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型之前,还包括从分布式计算集群包括的备份节点中选定任意一个备份节点确定为目标备份节点。

应用本说明书实施例的方案,在分布式计算集群中包括备份节点,在目标计算节点的训练失败时,目标计算节点会被自动下线,替换为备份节点进行训练,整个系统会利用之前训练存储的模型参数在之前的训练基础上重新启动训练,保证训练的稳定性。

本说明书一种可选的实施例中,在调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型之后,还包括如下步骤:

将目标任务模型存储至模型存储单元。

具体地,模型存储单元是指对训练完成之后的目标任务模型进行存储的单元,模型存储单元分别与分布式计算集群和服务接口相连,其中,模型存储单元与分布式计算集群相连是用于接收分布式计算集群中训练完成得到的目标任务模型,模型存储单元与服务接口相连用于服务接口对目标任务模型进行推理时,可以从模型存储单元处获取目标任务模型的模型数据。

可以是分布式计算集群在训练得到目标任务模型之后,将目标任务模型的模型数据发送至模型存储单元,以使模型存储单元,对目标任务模型进行存储。

应用本说明书实施例的方案,在获取到目标任务模型之后,将目标任务模型存储至模型存储单元,以使在服务接口接收到推理任务请求时,可以从模型存储单元处获取目标任务模型进行目标任务模型的推理部署,为后续进行推理部署提供了便利。

本说明书一种可选的实施例中,在调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型之后,还包括如下步骤:

将目标任务模型反馈至前端;

接收前端发送的模型调整指令;

基于模型调整指令,对目标任务模型进行参数调整。

具体地,模型调整指令用于指示分布式计算集群调整对目标任务模型的训练。

将目标任务模型反馈至前端的实现方式,可以是将目标任务模型返回至前端,以使前端向用户展示目标任务模型。

接收前端的模型调整指令,可以是在前端基于展示的目标任务模型进行使用,根据使用结果,确定目标任务模型未达到所执行的任务要求,则发起模型调整指令,以使分布式计算集群,接收前端发送的模型调整指令;还可以是前端基于接收到的目标任务模型进行使用,基于使用结果,确定指定需求,需要对目标任务模型可执行的任务进行扩大时,前端发送模型调整指令。

其中,模型调整指令中可以携带有冻结模型的调整指令,则分布式计算集群可使用大模型的低秩适应算法、前缀微调算法对目标任务模型进行调整,其中,前缀微调是一种对预训练语言模型进行少量参数微调的技术,前缀微调所做的就是根据具体的任务,对预训练的模型进行微调,使模型更好地适应于具体任务。

基于模型调整指令,对目标任务模型进行参数调整,可以是响应于模型调整指令,获取调整样本,根据模型调整指令,调用调整计算节点,利用调整样本,调整对目标任务模型的训练,获得调整后的目标任务模型。

应用本说明书实施例的方案,将目标任务模型反馈至前端,以使前端向用户展示目标任务模型,并在接收到前端发送的模型调整指令的情况下,基于模型调整指令,对目标任务模型进行参数调整,获得参数调整后的目标任务模型,使得后续可以使用参数调整后的目标任务模型执行推理任务,提高了用户对目标任务模型的使用效率。

参见图4,图4示出了本说明书一个实施例提供的另一种任务处理方法的流程图,具体包括以下步骤。

步骤402:接收前端发送的任务处理请求,其中,任务处理请求携带有待处理数据和目标任务信息。

本说明书一个或多个实施例应用于具有任务处理的应用所属的客户端或服务端,服务端可以是云服务端,下述以服务端为例进行说明。

具体地,任务处理请求是指用户有任务处理的需求时,通过前端发送任务处理请求,以使服务端对任务处理请求进行响应,任务处理请求携带待处理数据和目标任务信息。待处理数据是指待处理数据,可以是图像数据、文本数据、语音数据、视频数据等。目标任务信息表征任务处理对应的任务属性,用于确定任务处理对应的任务类型,目标任务信息可以为任务类型、任务关键字以及任务相关的描述信息等,比如,任务信息为翻译、问答、阅读理解等。

接收前端发送的任务处理请求可以是用户通过对前端待处理数据和目标任务信息的点击,发起的任务处理请求,以使接收到前端发送的任务处理请求;还可以是用户在前端输入想要执行的处理任务信息,前端根据用户输入的内容进行识别,自动生成任务处理请求,以使接收前端发送的任务处理请求。

通过接收前端发送的携带待处理数据和目标任务信息的任务处理请求,使得后续可以基于接收到的任务处理请求处理待处理数据,获得对应的任务处理结果。

步骤404:基于目标任务信息,获取目标任务信息对应的目标任务模型。

基于目标任务信息,获得目标任务信息对应的目标任务模型的实现方式,可以是基于目标任务信息,从模型存储单元中获得目标任务信息对应的目标任务信息。

其中,基于目标任务信息,从模型存储单元中获得目标任务信息对应的目标任务信息的实现方式,可以是获取目标任务信息的任务语义信息,获得模型存储单元中各目标任务模型的模型语义信息,将任务语义信息和各模型语义信息进行比对,基于比对结果,确定目标任务信息对应的目标任务模型;还可以是将目标任务信息与模型存储单元中各目标任务模型对应的模型标签进行比对,基于比对结果确定目标任务信息对应的目标任务模型。

在接收到前端发送的任务处理请求之后,基于任务处理请求中携带的目标任务信息,获取目标任务信息对应的目标任务模型,以使对目标任务模型进行推理部署,对待处理数据进行处理,获得任务处理请求对应的处理结果。

步骤406:将待处理数据输入目标任务模型,获得目标任务模型输出的任务处理结果,其中,目标任务模型是分布式计算集群利用目标样本,对初始任务模型进行训练得到,初始任务模型是指分布式计算集群的缓存中预先加载的预训练任务模型,预训练任务模型为预训练神经网络模型。

将待处理数据输入目标任务模型,经过目标任务模型处理,输出任务处理请求对应的任务处理结果。

可选地,利用分布式计算集群对初始任务模型进行训练,获得目标任务模型的过程可参见上述图3对应实施例。

可选地,将待处理数据输入目标任务模型,获得目标任务模型输出的任务处理结果之前,将目标任务模型在推理集群进行推理部署。

其中,在推理集群对目标任务模型进行推理部署是使用镜像信息、目标模型的模型地址,启动命令,其中,镜像信息用于提供对目标任务模型进行推理部署的环境,启动命令用于将推理部署启动为在线服务,以使用户在有应用的需求时,可以直接调用目标任务模型对应的接口对目标任务模型进行访问。

本说明书一种可选的实施例中,在获得目标任务模型输出的任务处理结果之后,还包括如下步骤:

将任务处理结果发送至前端展示;

接收前端的用户基于任务处理结果发送的调整信息;

根据调整信息,对目标任务模型进行参数调整。

具体地,调整信息用于指示服务端对目标任务模型的模型参数进行调整。

将任务处理结果发送至前端展示的实现方式,可以是将任务处理结果返回至前端,以使前端向用户展示任务处理结果。

接收前端的用户基于任务处理结果发送的调整信息,可以是在前端基于展示的任务处理结果与标准处理结果进行比对,确定比对结果不满足预设阈值的情况下,前端会发送调整信息,以使服务端接收到用户基于任务处理结果发送的调整信息。

根据调整信息,对目标任务模型进行参数调整,可以是响应于调整信息,获取调整样本,根据调整信息,调用计算节点,对目标任务模型的参数进行调整,获得调整后的目标任务模型。

应用本说明书实施例的方案,在将任务处理结果发送至前端展示,接收到前端的用户基于任务处理结果发送的调整信息,根据调整信息,对目标任务模型进行参数调整,以获得符合前端用户要求的参数调整后的目标任务模型,以对用户发送的任务处理请求做相应的响应处理。

参见图5,图5示出了本说明书一个实施例提供的一种问答处理方法的流程图,具体包括以下步骤。

步骤502:接收前端发送的问题处理请求,其中,问题处理请求携带有待处理问题数据和问题信息。

本说明书一个或多个实施例应用于具有问答处理的应用所属的客户端或服务端,服务端可以是云服务端,下述以服务端为例进行说明。

具体地,问题处理请求是指用户有问题处理的需求时,通过前端发送问题处理请求,以使服务端对问题处理请求进行响应,问题处理请求携带待处理问题数据和问题信息。待处理问题数据是指待处理问题数据,可以是图像数据、文本数据、语音数据、视频数据等。问题信息表征问题处理对应的问题属性,用于确定问题处理对应的问题类型,问题信息可以为问题类型、问题关键字以及问题相关的描述信息等,比如,问题信息为翻译、问答、阅读理解等。

接收前端发送的问题处理请求可以是用户通过对前端待处理问题数据和问题信息的点击,发起的问题处理请求,以使服务端接收到前端发送的问题处理请求;还可以是用户在前端输入想要执行的问题任务信息,前端根据用户输入的内容进行识别,自动生成问题处理请求,以使服务端接收前端发送的问题处理请求。

通过接收前端发送的携带待处理问题数据和问题信息的问题处理请求,使得后续可以基于接收到的问题处理请求处理待处理问题数据,获得对应的问题处理结果。

步骤504:基于问题信息,获取问题信息对应的目标问答模型。

基于问题信息,获得问题信息对应的目标任务模型的实现方式,可以是基于问题信息,从模型存储单元中获得问题信息对应的目标任务信息。

其中,基于问题信息,从模型存储单元中获得问题信息对应的问题信息的实现方式,可以是获取问题信息的任务语义信息,获得模型存储单元中各目标问答模型的模型语义信息,将任务语义信息和各模型语义信息进行比对,基于比对结果,确定问题信息对应的目标问答模型;还可以是将问题信息与模型存储单元中各目标问答模型对应的模型标签进行比对,基于比对结果确定问题信息对应的目标问答模型。

在接收到前端发送的任务处理请求之后,基于任务处理请求中携带的问题信息,获取问题信息对应的目标问答模型,以使对目标问答模型进行推理部署,对待处理数据进行处理,获得任务处理请求对应的处理结果。

步骤506:将待处理问题数据输入目标问答模型,获得目标问答模型输出的目标答案数据,其中,目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。

将待处理问题数据输入目标问答模型,经过目标问答模型处理,输出任务处理请求对应的目标答案数据。

可选地,利用分布式计算集群对初始问答模型进行训练,获得目标问答模型的过程可参见上述图3对应实施例。

可选地,将待处理问题数据输入目标问答模型,获得目标问答模型输出的目标答案数据之前,将目标问答模型在推理集群进行推理部署。

其中,在推理集群对目标问答模型进行推理部署是使用镜像信息、目标模型的模型地址,启动命令,其中,镜像信息用于提供对目标问答模型进行推理部署的环境,启动命令用于将推理部署启动为在线服务,以使用户在有应用的需求时,可以直接调用目标问答模型对应的接口对目标问答模型进行访问。

应用本说明书实施例的方案,接收前端发送的问题处理请求,其中,问题处理请求携带有待处理问题数据和问题信息;基于问题信息,获取问题信息对应的目标问答模型;将待处理问题数据输入目标问答模型,获得目标问答模型输出的目标答案数据,其中,目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。通过分布式计算集群对初始问答模型进行训练,获得目标问答模型,使得在接收到前端发送的问答处理请求时,可以获取目标问答模型对待处理问题数据进行处理,通过高效的训练方式获得对问答处理请求进行处理的目标问答模型,提高了对问题处理请求进行处理的效率。

下述结合附图6a,以本说明书提供的任务处理方法在问答处理的应用为例,应用于分布式计算集群,对上述图3所示的任务处理方法进行进一步说明。其中,图6a示出了本说明书一个实施例提供的一种任务处理方法的处理过程流程图,具体包括以下步骤。

步骤602:接收前端发送的任务请求。

接收用户通过前端发送的任务请求。

步骤604:解析任务请求,获得目标任务的任务信息。

对任务请求进行解析,获得目标任务语言处理任务的任务类型为问答处理类型。

步骤606:基于任务信息,从文件服务端获取目标样本,其中,文件服务端用于存储样本。

基于问答处理类型,从文件服务端获取问答处理类型对应的问答训练样本。

步骤608:根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型。

根据问答处理类型,从缓存中预先加载的至少一个预训练任务模型中获取问答处理类型对应的初始问答模型。

在从缓存中预先加载的至少一个预训练任务模型中获取问答处理类型对应的初始问答模型之前还需要获取至少一个预训练任务模型,根据各预训练任务模型的模型大小,将至少一个预训练任务模型存储至缓存中对应的存储节点。

其中,缓存具有自动扩缩容的功能,比如,前端发送的任务请求为多个时,与任务信息对应的初始任务模型为多个,且初始任务模型为同一初始任务模型时,需要从缓存中并发读取该初始任务模型,则缓存可以根据并发读取量的大小与自动进行扩容,在初始任务模型被读取完后,缓存可以进行自动缩容,以保障模型以及模型文件读取的稳定性。

示例性地,参见图6b,图6b示出了本说明书一个实施例提供的一种任务处理方法中缓存中存储节点的示意图:

分布式训练系统包括缓存,缓存中的管理单元可以对缓存中的存储大小进行监测,基于监测结果进行动态扩缩容,缓存中包括存储节点1、存储节点2、存储节点3、存储节点4、存储节点5、……。

步骤610:根据训练配置信息,对训练进行配置。

根据训练配置信息,配置训练的训练次数、模型的运行环境等进行配置。

步骤612:调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型。

调度分布式计算集群中的任一个计算节点,利用问答训练样本,对初始问答模型进行配置后的训练,获得目标问答模型。

在利用计算节点对初始问答模型进行配置后的训练过程中,将该计算节点对应初始问答模型对应的模型数据进行定期存储,并对计算节点的训练过程进行监测,基于监测结果确定训练失败的情况下,停止该计算节点的训练。

启动备份节点,将定期存储的初始问答模型的模型数据发送至备份节点,以调用备份节点,利用问答训练样本,对初始问答模型进行配置后的训练,获得目标问答模型。

示例性地,参见图6c,示出了本说明书一个实施例提供的一种任务处理模型中计算节点替换的示意图:

分布式计算集群中包括4个计算节点和1个备份节点,包括计算节点1、计算节点2、计算节点3、计算节点4和备份节点1,其中,4个计算节点都在进行相应的训练,在计算节点2训练异常的情况下,动态换入,重启训练,具体是:将备份节点1设置为计算节点5,以替换原计算节点2,进行原计算节点2的训练,将计算节点2设置为备份节点2。

步骤614:将目标任务模型存储至模型存储单元。

将目标问答模型存储至模型存储单元,并在模型存储单元中为存储目标问答模型的子单元设置标签为“问答”。

应用本说明书实施例的方案,通过在分布式计算集群的缓存中预先加载至少一个预训练任务模型,使得在接收到前端发送的任务请求时,可以基于任务请求中携带的目标模型的任务信息,从至少一个预训练任务模型中获取任务信息对应的初始任务模型,以调度目标计算节点对初始任务模型进行训练,也即被进行训练的是预先加载至分布式计算集群的缓存中的,提高了对初始任务模型进行训练的效率,进一步提高了响应前端发送的任务请求的效率。

下述结合附图7,以本说明书提供的任务处理方法在问答处理的应用为例,对上述图4所示的任务处理方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种任务处理方法的处理流程示意图,具体包括以下步骤。

服务端包括服务接口、分布式计算集群、推理集群和模型存储单元,服务接口包括网关层和后端训练服务接口。

用户通过软件工具开发包向网关层提交训练任务请求,网关层将训练任务请求转发至后端训练服务接口,后端训练服务接口基于任务信息和训练配置信息进行整合,整合是从文件服务端获得问答训练样本,将获得的问答训练样本也进行整合,获得整合后的训练任务请求,后端训练服务接口将整合后的训练任务请求发送至分布式计算集群,以使分布式计算集群对初始问答模型进行训练,获得目标问答模型,将目标问答模型包括至模型存储单元;

用户通过软件开发工具包向网关层发送用户预测请求/推理任务请求,网关层将用户预测请求/推理任务请求转发至推理集群,以使推理集群基于推理任务请求,从模型存储单元获取目标问答模型,并利用目标问答模型处理用户预测请求,获得预测结果。

应用本说明书实施例的方案,通过分布式计算集群对初始任务模型进行训练,获得目标任务模型,使得在接收到前端发送的任务处理请求时,可以获取目标任务模型对待处理数据进行处理,通过高效的训练方式获得对任务处理请求进行处理的目标任务模型,提高了对任务处理请求进行处理的效率。

参见图8a,图8a示出了本说明书一个实施例提供的一种分布式系统的结构图,分布式系统800包括分布式计算集群8004、模型存储单元8006和服务接口8002,分布式计算集群8004包括至少两个计算节点和缓存,缓存中预先加载有至少一个预训练任务模型,预训练任务模型为预训练神经网络模型;

服务接口8002,用于接收前端发送的任务请求,将任务请求转发至分布式计算集群8004;

分布式计算集群8004,用于响应于任务请求,获取目标样本,其中,任务请求携带有目标任务的任务信息;根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型;调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型;

模型存储单元8006,用于存储目标任务模型。

服务接口8002接收到前端发送的请求后,对请求进行识别,确定该请求是任务请求还是推理任务请求,若为任务请求,则将该任务请求转发至分布式计算集群8004,若该请求为推理任务请求,则将推理任务请求转发至推理集群8008,其中任务请求可以为训练任务请求,当任务请求为训练任务请求时,将该训练任务请求转发至分布式计算集群。

服务接口8002与分布式计算集群8004在分布式系统800中的执行方式可参见上述图3所示实施例。

本说明书一个可选的实施例中,参见图8b,图8b示出了本说明书一个实施例提供的另一种分布式系统的结构图,分布式系统800还包括推理集群8008,推理集群8008包括至少一个推理节点;

服务接口8002,还用于接收前端发送的推理任务请求,将推理任务请求转发至推理集群8008,其中,推理任务请求携带目标推理任务的待处理数据和推理任务信息;

推理集群8008,用于基于推理任务信息,从模型存储单元8006获取推理任务信息对应的推理任务模型,将待处理数据输入推理任务模型,获得推理结果。

推理集群8008是指对待推理模型进行部署推理的集群,推理集群8008中包括多个推理节点,推理节点可以与待推理模型一一对应,也可以是一对多。

推理集群8008在接收到推理任务请求时,基于推理任务请求中携带的推理任务信息,从模型存储单元8006中获取推理任务信息对应的推理任务模型,将待处理数据输入推理任务模型,获得推理结果,其中,推理任务模型为训练完成的模型。

与上述图3所示任务处理方法实施例相对应,本说明书还提供了任务处理装置实施例,应用于分布式计算集群,所述分布式计算集群包括至少两个计算节点和缓存,所述缓存中预先加载有至少一个预训练任务模型,所述预训练任务模型为预训练神经网络模型,图9示出了本说明书一个实施例提供的一种任务处理装置的结构示意图。如图9所示,该装置包括:

样本获取模块902,被配置为响应于前端发送的任务请求,获取目标样本,其中,任务请求携带有目标任务的任务信息;

初始任务模型获取模块904,被配置为根据任务信息,从缓存预先加载的至少一个预训练任务模型中获取任务信息对应的初始任务模型;

第一调度模块906,被配置为调度目标计算节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型。

可选地,样本获取模块902,进一步被配置为解析前端发送的任务请求,获得目标任务的任务信息;基于任务信息,从文件服务端获取目标样本,其中,文件服务端用于存储样本。

可选地,任务处理装置还包括第三接收模块,被配置为接收服务接口转发的任务请求,其中,任务请求是服务接口对前端发送的任务请求和训练配置信息整合得到;第一调度模块906,进一步被配置为根据训练配置信息,对训练进行配置;调度目标计算节点,利用目标样本,对初始任务模型进行配置后的训练,获得目标任务模型。

可选地,缓存中设置有多个存储节点;任务处理装置还包括预训练任务模型存储模块,被配置为获取至少一个预训练任务模型;根据至少一个预训练任务模型的模型大小,将至少一个预训练任务模型存储至缓存中对应的存储节点。

可选地,任务处理装置还包括监测模块,被配置为对目标计算节点的训练过程进行监测;在训练失败的情况下,停止目标计算节点的训练;将目标计算节点设置为待修复节点,其中,所述待修复节点是指被修复后可设置为备份节点的节点。

可选地,分布式计算集群还包括备份节点;任务处理装置还包括第二调度模块,被配置为调度目标备份节点,利用目标样本,对初始任务模型进行训练,获得目标任务模型,其中,目标备份节点为任一个备份节点。

可选地,任务处理装置还包括目标任务模型存储模块,被配置为将目标任务模型存储至模型存储单元。

应用本说明书实施例的方案,通过在分布式计算集群的缓存中预先加载至少一个预训练任务模型,使得在接收到前端发送的任务请求时,可以基于任务请求中携带的目标模型的任务信息,从至少一个预训练任务模型中获取任务信息对应的初始任务模型,以调度目标计算节点对初始任务模型进行训练,也即被进行训练的是预先加载至分布式计算集群的缓存中的,提高了对初始任务模型进行训练的效率,进一步提高了响应前端发送的任务请求的效率。

上述为本实施例的一种任务处理装置的示意性方案。需要说明的是,该任务处理装置的技术方案与上述图3所示的任务处理方法的技术方案属于同一构思,任务处理装置的技术方案未详细描述的细节内容,均可以参见上述图3所示任务处理方法的技术方案的描述。

与上述图4所示任务处理方法实施例相对应,本说明书还提供了任务处理装置实施例,图10示出了本说明书一个实施例提供的另一种任务处理装置的结构示意图。如图10所示,该装置包括:

第一接收模块1002,被配置为接收前端发送的任务处理请求,其中,任务处理请求携带有待处理数据和目标任务信息;

目标任务模型获取模块1004,被配置为基于目标任务信息,获取目标任务信息对应的目标任务模型;

结果获得模块1006,被配置为将待处理数据输入目标任务模型,获得目标任务模型输出的任务处理结果,其中,目标任务模型是分布式计算集群利用目标样本,对初始任务模型进行训练得到,初始任务模型是指分布式计算集群的缓存中预先加载的预训练任务模型,预训练任务模型为预训练神经网络模型。

可选地,任务处理装置还包括调整模块,被配置为将任务处理结果发送至前端展示;接收前端的用户基于任务处理结果发送的调整信息;根据调整信息,对目标任务模型进行参数调整。

应用本说明书实施例的方案,接收前端发送的任务处理请求,其中,任务处理请求携带有待处理数据和目标任务信息;基于目标任务信息,获取目标任务信息对应的目标任务模型;将待处理数据输入目标任务模型,获得目标任务模型输出的目标答案数据,其中,目标任务模型是分布式计算集群利用问答样本,对初始任务模型进行训练得到,初始任务模型是指分布式计算集群的缓存中预先加载的预训练任务模型。通过分布式计算集群对初始任务模型进行训练,获得目标任务模型,使得在接收到前端发送的任务处理请求时,可以获取目标任务模型对待处理数据进行处理,通过高效的训练方式获得对任务处理请求进行处理的目标任务模型,提高了对任务处理请求进行处理的效率。

上述为本实施例的一种任务处理装置的示意性方案。需要说明的是,该任务处理装置的技术方案与上述图4所示的任务处理方法的技术方案属于同一构思,任务处理装置的技术方案未详细描述的细节内容,均可以参见上述图4所示任务处理方法的技术方案的描述。

与上述图5所示问答处理方法实施例相对应,本说明书还提供了问答处理装置实施例,图11示出了本说明书一个实施例提供的一种问答处理装置的结构示意图。如图11所示,该装置包括:

第二接收模块1102,被配置为接收前端发送的问题处理请求,其中,问题处理请求携带有待处理问题数据和问题信息;

问答模型获取模块1104,被配置为基于问题信息,获取问题信息对应的目标问答模型;

数据获得模块1106,被配置为将待处理问题数据输入目标问答模型,获得目标问答模型输出的目标答案数据,其中,目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。

应用本说明书实施例的方案,接收前端发送的问题处理请求,其中,问题处理请求携带有待处理问题数据和问题信息;基于问题信息,获取问题信息对应的目标问答模型;将待处理问题数据输入目标问答模型,获得目标问答模型输出的目标答案数据,其中,目标问答模型是分布式计算集群利用问答样本,对初始问答模型进行训练得到,初始问答模型是指分布式计算集群的缓存中预先加载的预训练问答模型。通过分布式计算集群对初始问答模型进行训练,获得目标问答模型,使得在接收到前端发送的问答处理请求时,可以获取目标问答模型对待处理问题数据进行处理,通过高效的训练方式获得待问答处理请求进行处理的目标问答模型,提高了对问题处理请求进行处理的效率。

上述为本实施例的一种问答处理装置的示意性方案。需要说明的是,该问答处理装置的技术方案与上述图5所示的问答处理方法的技术方案属于同一构思,问答处理装置的技术方案未详细描述的细节内容,均可以参见上述图5所示的问答处理方法的技术方案的描述。

图12示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接,数据库1250用于保存数据。

计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。

在本说明书的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。

其中,处理器1220用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务处理方法或问答处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的任务处理方法或问答处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述任务处理方法或问答处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务处理方法或问答处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的任务处理方法或问答处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述任务处理方法或问答处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述任务处理方法或问答处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的任务处理方法或问答处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述任务处理方法或问答处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

相关技术
  • 基于分布式系统的业务处理方法及装置
  • 一种分布式系统以及基于该系统的数据处理方法
  • 分布式系统中的数据处理方法及装置、计算设备
  • 基于机器学习的问答数据处理方法、装置和计算机设备
  • 一种AI任务的任务处理方法和分布式系统
  • 一种问答任务的下游任务处理方法及模型
技术分类

06120116498581