掌桥专利:专业的专利平台
掌桥专利
首页

一种大语言模型的调度与训练方法、系统、设备及介质

文献发布时间:2024-04-18 20:02:18


一种大语言模型的调度与训练方法、系统、设备及介质

技术领域

本申请涉及人工智能领域,尤其是涉及一种大语言模型的调度与训练方法、系统、设备及介质。

背景技术

当大语言模型的参数量增大时,大参数量的模型会对计算资源与训练样本有着更高的要求。为了解决大参数量的模型中存在的问题,目前主要通过模型压缩、模型剪枝或模型量化等技术将大参数量的模型进行压缩,得到轻量级的模型,以减少大参数量的模型对计算资源的消耗。

然而轻量级的模型在表示能力上与大参数量的模型相比存在着较大的差距,因此,在实际应用中,需要根据具体的需求和场景来选择适合的模型大小,在大参数模型的资源需求和小参数模型的表示能力之间进行权衡。

目前,在垂类知识问答的过程中,对于用户输入的垂类问题,通常将垂类问题输入单个问答模型,根据问答模型的输出结果向用户返回回答结果。若问答模型采用大参数量的模型,尽管提升了问答模型的表示能力,但在对问答模型进行训练时会对计算资源有着更高的要求;若问答模型采用轻量化的模型,那么虽然减轻了训练时计算资源要求的负担,但同时也降低了问答模型的表示能力。当前,问答模型的训练算力需求与其表示能力之间难以做到较好的兼顾。

发明内容

为了能够较好的兼顾问答模型的训练算力需求与表示能力,本申请提供一种大语言模型的调度与训练方法、系统、设备及介质。

第一方面,本申请提供了一种大语言模型的调度与训练方法,所述方法包括以下步骤:

获取垂类问题;

根据所述垂类问题在综合垂类模型中选取出至少一个细分垂类模型,所述综合垂类模型中包含有多个所述细分垂类模型,各所述细分垂类模型均为轻量级模型;

将所述垂类问题输入选取出的所述细分垂类模型中以获取由所述细分垂类模型输出的多个第一回答结果;

对各所述第一回答结果进行整理拼接以得到与所述垂类问题对应的第二回答结果,完成对所述垂类问题的解答。

通过采用上述技术方案,针对于用户输入的垂类问题,基于垂类问题在综合垂类模型中选取出至少一个细分垂类模型对垂类问题进行解答,通过对于多个细分垂类模型的调用以保证模型的表示能力;同时,细分垂类模型均为轻量级模型,多个轻量级模型的训练计算资源需求远远小于一个大参数模型的训练计算资源需求,减轻了训练时计算资源要求的负担。较好的兼顾了问答模型的训练算力需求与其表示能力。

可选的,在根据所述垂类问题在综合垂类模型中选取出至少一个细分垂类模型前,还包括对所述综合垂类模型的训练过程,所述训练过程具体包括以下步骤:

获取垂类文本数据;

对所述垂类文本数据进行文本自分类以得到多个垂类文本簇;

通过各所述垂类文本簇对所述综合垂类模型进行循环预训练,以生成与各所述垂类文本簇对应的所述细分垂类模型。

通过采用上述技术方案,完成对垂类文本的自分类,在进行文本分类的过程中,不设定分类目标,而是自动的根据垂类文本的自身语义进行文本分类,从而确定不同垂直领域的垂类文本簇。基于自动划分的垂类文本簇对综合垂类模型进行训练,从而得到各个垂类文本簇对应的垂直领域的细分垂类模型,保证了各个细分垂类模型对其对应垂直领域的表示能力。

可选的,在对所述垂类文本数据进行文本自分类以得到多个垂类文本簇中,具体包括:

对所述垂类文本数据进行切片,得到多个语义切片;

在全部语义切片中确定出若干个相似切片集合,所述相似切片集合中包含有多个所述语义切片;

分别计算各所述相似切片集合的集合评分;

选取所述集合评分最高的若干个所述相似切片集合作为所述垂类文本簇,同时确定各所述垂类文本簇的类心点。

通过采用上述技术方案,通过评选得分最高的若干个相似切片集合以确定垂类文本簇,相似切片集合中的各个语义切片之间的语义相似度高,保证了垂类文本簇的聚合程度高,从而使得垂类文本簇能够较好的表示特定的垂直领域。同时完成垂类文本簇的类心点的确定,通过类心点实现对垂类文本簇的主要特征的描述。

可选的,在全部语义切片中确定出若干个相似切片集合,具体包括:

在全部所述语义切片中选取出任一个所述语义切片;

分别计算选取出的所述语义切片与其他所述语义切片之间的语义相似度;

不放回取出若干数量的语义相似度大于第一相似度阈值的其他所述语义切片,完成所述相似切片集合的构建。

通过采用上述技术方案,在进行相似切片集合的确定时,从全部语义切片中进行不放回取出,保证不同的相似切片集合间不存在相同的语义切片。同时对相似切片集合中包含的语义切片的数量进行限定,从而在一定程度上避免了大类侵蚀小类或语料内容不平衡而导致的密集类对稀疏类的侵蚀。

可选的,在分别计算各所述相似切片集合的集合评分中,具体包括:

分别计算所述相似切片集合中任意两个所述语义切片之间的语义相似度;

根据所述相似切片集合中任意两个所述语义切片之间的语义相似度计算所述相似切片集合的第一相似度平均值与第一相似度标准差;

对所述第一相似度平均值与所述第一相似度标准差进行归一化处理,得到第二相似度平均值与第二相似度标准差;

通过预置的集合评分计算公式对所述第二相似度平均值与所述第二相似度标准差进行处理,计算得到所述集合评分。

通过采用上述技术方案,通过计算集合评分,可以综合考虑相似切片集合的相似度分布情况,既关注相似切片集合内部的相似度平均水平,又考虑相似度的分散程度。这样可以对相似切片集合进行排序,优先选择评分较高的相似切片集合进行后续处理,以提高聚类的效果和准确性。

可选的,在根据所述垂类问题在综合垂类模型中选取出至少一个细分垂类模型中,具体包括:

对所述垂类问题进行向量化,得到垂类问题向量;

分别计算所述垂类问题向量与各所述细分垂类模型对应的所述相似切片集合的所述类心点之间的语义相似度;

选取全部语义相似度大于第二相似度阈值的所述细分垂类模型。

通过采用上述技术方案,类心点用于对相似切片集合的主要特征进行描述,通过类心点与垂类问题向量之间的语义相似度调度与垂类问题对应的细分垂类模型,从而保证细分垂类模型与垂类问题之间的对应性。

可选的,在对各所述第一回答结果进行整理拼接以得到与所述垂类问题对应的第二回答结果中,具体包括:

根据所述垂类问题向量获取垂类问题提示词;

对各所述第一回答结果进行拼接,并在所有的拼接文本前加入所述垂类问题提示词以得到所述第二回答结果。

通过采用上述技术方案,根据用户的原始查询垂类问题向量确定对应的垂类问题提示词,垂类问题提示词能够为第二回答结果的生成提供有效的上下文信息,进而使得根据垂类问题提示词拼接得到的第二回答结果能够更好的适应于查询的意图和上下文,在生成回答时对垂类问题具有更好的针对性,提高了回答的质量,使其更具相关性和可读性。

在本申请的第二方面提供了一种大语言模型的调度与训练系统,所述系统包括以下模块:

用户垂类问题获取模块,用于获取垂类问题;

细分垂类模型选取模块,用于根据所述垂类问题在综合垂类模型中选取出至少一个细分垂类模型,所述综合垂类模型中包含有多个所述细分垂类模型,各所述细分垂类模型均为轻量级模型;

第一回答结果确定模块,用于将所述垂类问题输入选取出的所述细分垂类模型中以获取由所述细分垂类模型输出的多个第一回答结果;

第二回答结果确定模块,用于对各所述第一回答结果进行整理拼接以得到与所述垂类问题对应的第二回答结果,完成对所述垂类问题的解答。

在本申请的第三方面提供了一种电子设备;

所述电子设备包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行一种大语言模型的调度与训练方法。

在本申请的第四方面提供了一种计算机可读存储介质;

所述计算机可读存储介质存储有指令,当所述指令被执行时,执行一种大语言模型的调度与训练方法。

综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

1、针对于用户输入的垂类问题,基于垂类问题在综合垂类模型中选取出至少一个细分垂类模型对垂类问题进行解答,通过对于多个细分垂类模型的调用以保证模型的表示能力;同时,细分垂类模型均为轻量级模型,多个轻量级模型的训练计算资源需求远远小于一个大参数模型的训练计算资源需求,减轻了训练时计算资源要求的负担。较好的兼顾了问答模型的训练算力需求与其表示能力。

2、完成对垂类文本的自分类,在进行文本分类的过程中,不设定分类目标,而是自动的根据垂类文本的自身语义进行文本分类,从而确定不同垂直领域的垂类文本簇。基于自动划分的垂类文本簇对综合垂类模型进行训练,从而得到各个垂类文本簇对应的垂直领域的细分垂类模型,保证了各个细分垂类模型对其对应垂直领域的表示能力。

3、通过类心点与垂类问题向量之间的语义相似度调度与垂类问题对应的细分垂类模型,从而保证细分垂类模型与垂类问题之间的对应性。

附图说明

图1是本申请实施例提供的一种大语言模型的调度与训练方法的流程示意图。

图2是本申请实施例提供的对综合垂类模型进行训练的流程示意图。

图3是本申请实施例公开的一种大语言模型的调度与训练系统的结构示意图。

图4是本申请实施例的公开的一种电子设备的结构示意图。

附图标记说明:301、用户垂类问题获取模块;302、细分垂类模型选取模块;303、第一回答结果确定模块;304、第二回答结果确定模块;400、电子设备;401、处理器;402、通信总线;403、用户接口;404、网络接口;405、存储器。

具体实施方式

为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。

在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

参照图1,本申请提供了一种大语言模型的调度与训练方法,该方法具体包括以下步骤:

S11:获取垂类问题。

具体的,垂类文本和垂类数据是指在某个特定的领域或行业中,所涉及的文本和数据,这些文本和数据通常具有较高的专业性和特定的领域背景。相应的,垂类问题即为用户对于某个特定的领域提出的问题。

从前端面向于用户的应用中获取由用户输入的垂类问题,垂类问题以query的格式进行存储。

在本申请一种可行的实施例中,在完成对垂类问题的获取后,对垂类问题进行敏感词清洗,以保证获取到的垂类问题的文本质量。

S12:根据垂类问题在综合垂类模型中选取出至少一个细分垂类模型。

具体的,对垂类问题进行向量化,从而得到垂类问题向量,在本申请一种可行的实施例中,进行向量化的形式为bert向量化。根据垂类问题向量在综合垂类模型中调度与垂类问题对应的至少一个细分垂类模型。

需要说明的是,综合垂类模型中包括有多个细分垂类模型,每个细分垂类模型对应于一个特定的垂直领域,并且,各个细分垂类模型均为轻量级模型。

参照图2,在进行细分垂类模型的调度之前,还包括对综合垂类模型的训练过程,训练过程具体如下:

S21:获取垂类文本数据。

从预置的垂类文本数据库获取收集到的垂类文本数据,垂类文本数据中包含有多个垂直领域的专业数据,垂类文本数据包括但不限于垂直领域文献数据、垂直领域专家问答数据、垂直领域专利数据、垂直领域搜索数据等。

S22:对垂类文本数据进行文本自分类以得到多个垂类文本簇。

对垂类文本数据进行文本自分类,从而将全部的垂类文本数据划分为多个垂类文本簇,可以理解的是,在垂类文本数据中各个不同垂直领域的垂类文本数据相互杂糅,而完成文本自分类后得到的垂类文本簇中,仅包含有特定垂直领域的垂类文本数据。

可选的,通过语义切片自聚类算法对垂类文本数据进行文本自分类,需要说明的是,在语义切片自聚类算法中涉及到的全部语义相似度的计算均基于向量的余弦距离计算相似度,语义切片自聚类算法具体如下:

Step1:对全部的垂类文本数据进行切片以及向量化,得到多个语义切片,将得到的全部语义切片放置进入语义切片库中。

具体来说,由于垂类文本数据数量较大,传统的以条计数的方式较为不便,本申请一种可行的实施例中所有对于文本数量评估的方式都以文本大小的方式进行表达,计算过程中,是根据单位token对应的文本大小进行估计计算的,每个文本串为一个整体,值针对整体文本进行切割,不存在针对文本的一部分进行切割的过程。

可选的,对于垂类文本数据的向量化采用bert向量化。

Step2:在语义切片库中任意选取一个语义切片x1,同时,选取出满足预置选取条件的若干个相似语义切片。

预置选取条件具体包括:

条件1:相似语义切片与语义切片x1的相似度大于第一相似度阈值E’。可选的,第一相似度阈值被设定为0.95。

条件2:选取的相似语义切片数量小于10000。

条件3:选取的相似语义切片数量大于100。

完成对相似语义切片的选取后,由随机挑选的语义切片与相似语义切片构建相似切片集合。需要说明的是,抽取语义切片的过程是在语义切片库中进行不放回抽取,相似切片集合中的语义切片的数量记为n

Step3:计算当前选取的相似切片集合的第一相似度平均值E

其中,第一相似度平均值E

归一化的方式具体为:

Step4:计算当前存在的相似切片集合中的语义切片的数量在语义切片数据库中的数量占比P。

Step5:再次在语义切片数据库中随机选取一个语义切片x2,重复Step2-Step3,每次完成相似切片集合的构建后,计算P。

Step6:当P>0.4时,停止循环Step2-Step3。

可以理解的是,在经过上述步骤后,当前已经获取到相似语义切片集合x1、x2、x3、……、xn。

Step7:更新每个相似语义切片集合的第二相似度标准差D

D

其中,D

Step8:计算每个相似切片集合的集合评分A。

通过集合评分计算公式计算集合评分A,集合评分计算公式具体为:A=αE′

其中,E′

Step9:将当前全部的相似切片集合按照集合评分A取TOP N,将集合评分A最高的前N个相似切片集合取出,作为垂类文本簇cluster。

优选的,N取10,相似切片集合不足10个,则全部取出。

可选的,为对垂类文本簇中包含的语义向量进行进一步聚类并且确定垂类文本簇的类心点,在确定出垂类文本簇后,还需要在垂类文本簇中再执行语义向量自聚类算法,语义向量自聚类算法具体如下:

在垂类文本簇中随机选取一个语义向量作为种子,然后在剩余的语义向量中寻找与其相似度最高的1000个语义向量,形成集合Y;每完成100次种子选取,计算Y中去重语义向量数量与总语义向量数量的比例Pr,当Pr大于等于0.95时,停止选取种子;统计Y中每个语义向量的数量,取出数量最多的语义向量作为该垂类文本簇的类心点,在剩余的语义向量中寻找与该类心点相似度高于0.95的1000个语义向量,形成一个新的集合C;重复以上步骤,直到找不到相似度高于1.95的语义向量为止;将C中的语义向量作为语义向量自聚类的结果,同时得到垂类文本簇对应的类心点。

Step10:对于未被选取的相似切片集合中的语义切片,将其放回语义切片数据库。

Step11:重复执行上述步骤Step2-Step10,直至在Step2中无法找出满足选取条件的相似语义切片。

可选的,当Step2的执行时间大于10min,同样跳出循环。

Step12:以center

其中,

Step13:输出更新后的垂类文本簇cluster

S23:通过各垂类文本簇对综合垂类模型进行循环预训练,以生成与各垂类文本簇对应的细分垂类模型。

通过得到的全部垂类文本簇对综合垂类模型进行循环预训练,从而生成与各个垂类文本簇对应的细分垂类模型。

可选的,对于综合垂类模型的循环预训练通过LLM循环预训练进行。

S13:将垂类问题输入选取出的细分垂类模型中以获取由细分垂类模型输出的多个第一回答结果;

具体的,通过上述综合垂类模型的训练过程,得到有多个已经完成训练的细分垂类模型,每个细分垂类模型根据其用于训练的垂类文本簇,对该垂类文本簇对应的垂直领域具备表示能力。

根据垂类问题在综合垂类模型中选取与垂类问题对应的细分垂类模型,以对垂类问题进行解答,细分垂类模型的选取具体包括:

对垂类问题进行向量化,得到垂类问题向量;分别计算垂类问题向量与各细分垂类模型对应的相似切片集合的类心点之间的语义相似度;选取全部语义相似度大于第二相似度阈值的细分垂类模型。

将垂类问题向量输入选取出的细分垂类模型中,得到多个细分垂类模型输出的多个第一回答结果。

S14:对各第一回答结果进行整理拼接以得到与垂类问题对应的第二回答结果,完成对垂类问题的解答。

具体的,对多个第一回答结果进行拼接,从而确定垂类问题对应的第二回答结果。

可选的,在拼接得到第二回答结果前,在全部拼接文本前加入提示词,从而提高第二回答结果的描述性。

参照图3,本申请还提供了一种大语言模型的调度与训练系统,该系统具体包括以下模块:

用户垂类问题获取模块301,用于获取垂类问题;

细分垂类模型选取模块302,用于根据垂类问题在综合垂类模型中选取出至少一个细分垂类模型,综合垂类模型中包含有多个细分垂类模型,各细分垂类模型均为轻量级模型;

第一回答结果确定模块303,用于将垂类问题输入选取出的细分垂类模型中以获取由细分垂类模型输出的多个第一回答结果;

第二回答结果确定模块304,用于对各第一回答结果进行整理拼接以得到与垂类问题对应的第二回答结果,完成对垂类问题的解答。

需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本申请还公开一种电子设备400。参照图4,图4是本申请实施例的公开的一种电子设备400的结构示意图。该电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器405,至少一个通信总线402。

其中,通信总线402用于实现这些组件之间的连接通信。

其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。

其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器405内的指令、程序、代码集或指令集,以及调用存储在存储器405内的数据,执行服务器的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(CentralProcessingUnit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。

其中,存储器405可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器405包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。参照图4,作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及一种大语言模型的调度与训练方法的应用程序。

在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器405中存储一种大语言模型的调度与训练方法的应用程序,当由一个或多个处理器401执行时,使得电子设备400执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器405中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器405中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器405包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

技术分类

06120116576792