基于大模型的小模型训练方法、装置、系统和存储介质

文献发布时间：2024-04-18 19:58:53

技术领域

本申请实施例涉及模型训练领域，尤其涉及基于大模型的小模型训练方法、装置、系统和存储介质。

背景技术

大模型是指拥有非常多的参数的深度学习模型。参数是模型中需要学习的变量，通过学习数据来调整参数，从而使得模型能够更好地拟合输入和输出之间的关系。大模型的发展得益于计算能力的提升和数据量的增加。随着硬件设备的不断升级，如GPU和TPU的应用，计算能力大幅提高，使得训练大模型成为可能。同时，互联网的普及和数据的积累，为大模型提供了充足的训练数据。

大模型在各个领域都有广泛应用。在自然语言处理领域，大模型可以用于机器翻译、文本生产和语言模型等任务。例如GPT系列的模型，GPT-3是目前最先进的自然语言处理模型之一，它采用了大规模的预训练和迁移学习技术，可以对自然语言文本进行多种任务的处理，包括语言生成、文本分类、问答等。

随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现，被用于进一步提高推理能力和任务泛化。同时在短短几个月，国内外AI大模型数量激增。如今大模型已被广泛应用，但在各交叉学科中的应用以及各场景下的潜力开发上还有很大的提升空间。其中，研究基于大模型的小模型训练便是挖掘大模型潜力的方式之一。

深度学习大模型在处理复杂任务时表现出强大性能，然而其部署与训练也需要大量的存储空间与计算资源。对于较为细分的领域，在计算资源与存储空间有限的情况下，部署大模型难度较大，这使得大模型在一些典型应用场景下的潜力还未得以全面开发。即在具体的应用场景中，在计算资源有限的情况下大模型的应用潜力下降。

发明内容

本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质，用于在计算资源与存储空间有限的情况下，在具体的应用场景中提高大模型的应用潜力。

本申请第一方面提供了基于大模型的小模型训练方法，包括：

采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

根据预设的transformers包初始化大模型；

将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

使用大模型将标记序列转换为概率分布软标签；

将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布；

使用数据集、小模型和损失函数进行训练，生成目标小模型。

可选地，使用数据集、小模型和损失函数进行训练，生成目标小模型，包括：

将数据集中的输入文本数据输入小模型中训练，生成训练分布数据；

将概率分布软标签作为小模型的目标分布，根据损失函数计算训练分布数据和概率分布软标签中间的损失值；

通过损失值更新小模型的权重，反向传播迭代优化小模型；

当小模型满足预设条件后，确定训练完成，将小模型确定为目标小模型。

可选地，在使用数据集、小模型和损失函数进行训练，生成目标小模型之后，小模型训练方法还包括：

根据目标应用场景的实际应用参数调整目标小模型的架构；

根据目标应用场景的实际应用参数更新损失函数，并增设正则化项；

将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。

可选地，根据目标应用场景的实际应用参数调整目标小模型的架构，包括：

根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数；

根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。

可选地，在使用数据集、小模型和损失函数进行训练，生成目标小模型之后，小模型训练方法还包括：

根据目标应用场景选择评价指标；

从数据集中选择一部分样本数据作为测试集，测试集独立于已训练的数据；

使用目标小型模型处理测试集中的样本数据，生成测试文本，并使用评价指标对测试文本进行评估，生成评估结果；

根据评估结果分析目标小模型文本生成的问题，并根据问题调整目标小模型的架构、训练策略和输入特征种类。

可选的，根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，包括：

创建一个维度与概率分布软标签相同的循环神经网络模型为小模型；

为概率分布软标签生成注意力集合；

根据注意力集合调整小模型的层数和初始权重。

可选地，使用大模型将标记序列转换为概率分布软标签，包括：

计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据；

使用大模型的softmax函数生成每一个标记序列的概率分布；

根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签。

本申请第二方面提供了基于大模型的小模型训练装置，包括：

采集单元，用于采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

初始化单元，用于根据预设的transformers包初始化大模型；

第一生成单元，用于将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

转换单元，用于使用大模型将标记序列转换为概率分布软标签；

第二生成单元，用于将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

定义单元，用于根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布；

第三生成单元，用于使用数据集、小模型和损失函数进行训练，生成目标小模型。

可选地，第三生成单元，包括：

将数据集中的输入文本数据输入小模型中训练，生成训练分布数据；

将概率分布软标签作为小模型的目标分布，根据损失函数计算训练分布数据和概率分布软标签中间的损失值；

通过损失值更新小模型的权重，反向传播迭代优化小模型；

当小模型满足预设条件后，确定训练完成，将小模型确定为目标小模型。

可选地，在第三生成单元之后，小模型训练装置还包括：

调整单元，用于根据目标应用场景的实际应用参数调整目标小模型的架构；

更新单元，用于根据目标应用场景的实际应用参数更新损失函数，并增设正则化项；

引入单元，用于将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。

可选地，调整单元，包括：

根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数；

根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。

可选地，在第三生成单元之后，小模型训练装置还包括：

第一选择单元，用于根据目标应用场景选择评价指标；

第二选择单元，用于从数据集中选择一部分样本数据作为测试集，测试集独立于已训练的数据；

第四生成单元，用于使用目标小型模型处理测试集中的样本数据，生成测试文本，并使用评价指标对测试文本进行评估，生成评估结果；

第五生成单元，用于根据评估结果分析目标小模型文本生成的问题，并根据问题调整目标小模型的架构、训练策略和输入特征种类。

可选地，定义单元，包括：

创建一个维度与概率分布软标签相同的循环神经网络模型为小模型；

为概率分布软标签生成注意力集合；

根据注意力集合调整小模型的层数和初始权重。

可选地，转换单元，包括：

计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据；

使用大模型的softmax函数生成每一个标记序列的概率分布；

根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签。

本申请第三方面提供了一种基于大模型的小模型训练系统，包括：

处理器、存储器、输入输出单元以及总线；

处理器与存储器、输入输出单元以及总线相连；

存储器保存有程序，处理器调用程序以执行如第一方面以及第一方面的任意可选的小模型训练方法。

本申请第四方面提供了一种计算机可读的存储介质，计算机可读存储介质上保存有程序，程序在计算机上执行时执行如第一方面以及第一方面的任意可选的小模型训练方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，首先采集目标应用场景的初始样本数据，其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据，即将目标应用场景的相关信息采集之后，将这些事项进行了标注，产生了场景数据。接下来根据预设的transformers包初始化大模型，并且将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列。然后使用大模型将标记序列转换为概率分布软标签，将概率分布软标签和对应的输入文本数据进行组合，生成数据集。根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布，即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。使用数据集、小模型和损失函数进行训练，生成目标小模型。

通过大模型对初始样本数据所生成的标记序列进行软标签的生成，使得大模型不会占据大量的资源与存储空间，接下来使用小模型以软标签为目标对输入文本数据进行训练，将大模型的优势与小模型的准确性相结合，在计算资源与存储空间有限的情况下，在具体的应用场景中，极大程度的提高了大模型的应用潜力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于大模型的小模型训练方法的一个结构示意图；

图2为本申请基于大模型的小模型训练方法的第一阶段的一个实施例示意图；

图3为本申请基于大模型的小模型训练方法的第二阶段的一个实施例示意图；

图4为本申请基于大模型的小模型训练方法的第三阶段的一个实施例示意图；

图5为本申请基于大模型的小模型训练装置的一个实施例示意图；

图6为本申请基于大模型的小模型训练装置的另一个实施例示意图；

图7为本申请基于大模型的小模型训练系统的一个实施例示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在现有技术中，大模型在各个领域都有广泛应用。在自然语言处理领域，大模型可以用于机器翻译、文本生产和语言模型等任务。例如GPT系列的模型，GPT-3是目前最先进的自然语言处理模型之一，它采用了大规模的预训练和迁移学习技术，可以对自然语言文本进行多种任务的处理，包括语言生成、文本分类、问答等。

基于此，本申请实施例公开了基于大模型的小模型训练方法、装置、系统和存储介质，用于在计算资源与存储空间有限的情况下，在具体的应用场景中提高大模型的应用潜力。

下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备，对此，本申请不作限定。为方便描述，下面以执行主体为终端为例进行描述。

请参阅图1，本申请提供了基于大模型的小模型训练方法的一个实施例，包括：

S101、采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

本实施例中，目标应用场景的初始样本数据是指在各个领域中所采集到的各种数据的集合，接下来就可以根据目标应用场景选取合适的大模型。

例如：以水质监测为例，我们选择预训练的文本生成模型（GPT-2大模型)作为该场景所使用的大模型，再通过大模型生成水质监测报告小模型。水质监测作为目标应用场景，这时需要采集的数据包括1000个水质监测结果样本，每个样本包含样本编号、采集日期、样本地点、水质pH值、溶解氧（DO）、化学需氧量（COD）、生化需氧量（BOD）、总氮、总磷等信息。

终端采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据。

S102、根据预设的transformers包初始化大模型；

当终端采集目标应用场景的初始样本数据之后，就需要根据目标应用场景选取大模型的类型，再根据预设的transformers包初始化大模型。

本实施例中，以自然语言处理领域的大模型进行举例说明，结合水质监测的各种数据的集合为训练样本。大模型为GPT-2 Medium模型，终端通过transformers包，初始化GPT-2 Medium模型和模型对应的分词器。分词器的作用是处理初始样本数据中的场景数据。

需要说明的是，除了上述举例的大模型外，还包括其他领域的大模型可以进行本实施例中的各个步骤，例如计算机视觉领域、智能医疗领域、金融领域以及交通领域等，根据不同的训练目的来选取不同类型的大模型。

S103、将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

当终端通过预设的transformers包完成对大模型的初始化之后，会将采集到的初始样本数据输入到大模型中，初始化的大模型通过generate函数将初始样本数据中的场景数据线生成输入文本数据，并将生成的输入文本数据转换为标记序列。

S104、使用大模型将标记序列转换为概率分布软标签；

终端首先初始化python的torch包，接下来使用torch包自带的softmax函数将生成的标记序列的输出并转换为概率分布，并转换成概率分布软标签。其中，softmax函数将输出的原始分数转换为0到1之间的概率值，表示每个分类的出现概率，通过出现概率生成概率分布软标签。终端得到每个输入文本数据对应的概率分布软标签。软标签将作为小型模型训练的目标分布，用于引导小模型学习大模型的输出模式。

具体计算方式如下：

其中e

其中，需要说明的是，可以直接将每个分类的出现概率作为概率分布软标签，也可以对每个分类的出现概率进行关联度处理后的参数作为概率分布软标签。

S105、将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

终端将采集到的输入文本数据和相应的概率分布软标签组织成数据集。其中，每个样本包含一个输入文本数据和对应的概率分布软标签，组织方式如下所示。

示例：假设输入文本为input-texts，软标签为soft_labels，则dataset如下。

dataset=

[(input_text,soft_label) for input_text,soft_label in zip(input_texts,soft_labels)]

S106、根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布；

终端根据训练目的定义一个小模型。本实施例中，根据训练目的（自然语言处理）定义一个循环神经网络（RNN）模型作为小模型，该小模型的输出是一个概率分布，并且该循环神经网络（RNN）与概率分布软标签的维度相匹配。

接下来终端使用torch包中的交叉熵损失函数Cross Entropy Loss()帮助小模型学习大模型生成的概率分布软标签。

S107、使用数据集、小模型和损失函数进行训练，生成目标小模型。

最后终端使用数据集、小模型和损失函数进行训练，完成训练之后的小模型则为目标小模型，在完成初步训练条件之后，终端还需要根据目标引用场景进行实用性的调整。

本实施例中，首先采集目标应用场景的初始样本数据，其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据，即将目标应用场景的相关信息采集之后，将这些事项进行了标注，产生了场景数据。接下来根据预设的transformers包初始化大模型，并且将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列。然后使用大模型将标记序列转换为概率分布软标签，将概率分布软标签和对应的输入文本数据进行组合，生成数据集。根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布，即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。使用数据集、小模型和损失函数进行训练，生成目标小模型。

请参阅图2、图3和图4，本申请提供了一种基于大模型的小模型训练方法的另一个实施例，包括：

S201、采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

S202、根据预设的transformers包初始化大模型；

S203、将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

本实施例中的步骤S201至S203与前述实施例中步骤S101至S103类似，此处不再赘述。

S204、计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据；

S205、使用大模型的softmax函数生成每一个标记序列的概率分布；

S206、根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签；

当终端将输入文本数据转换为标记序列之后，终端首先计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据。具体的，以实施例1中的例子进行举例，1000个水质监测结果样本，每个样本包含样本编号、采集日期、样本地点、水质pH值、溶解氧（DO）、化学需氧量（COD）、生化需氧量（BOD）、总氮、总磷等信息。由于化学溶解氧（DO）、需氧量（COD）和生化需氧量（BOD）在目标应用场景中，相互关联的三个场景数据，尤其是化学需氧量（COD）、生化需氧量（BOD），故溶解氧（DO）、化学需氧量（COD）、生化需氧量（BOD）这三个数据中存在的关联度分别为百分之80（溶解氧（DO）和化学需氧量（COD））、百分之90（化学需氧量（COD）和生化需氧量（BOD））、百分之80（溶解氧（DO）和生化需氧量（BOD））。三者根据对应的关联度组成了一个关联组。

当终端使用大模型的softmax函数为场景数据对应的每一个标记序列生成概率分布时，同一个关联组的各个概率分布以关联度进行校正，即根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签。

例如：溶解氧（DO）自身的概率分布为（0.7，0.15，0.1），0.7为溶解氧（DO）概率，0.15为化学需氧量（COD）的概率，0.1为生化需氧量（BOD）的概率，剩下的为非关联组内的概率分布。使用溶解氧（DO）与其他两个场景数据的两个关联度百分之80进行矫正。公式如下：

其中，

本实施例中，只对3个互有关联度的参数进行分布概率校正，该公式可以进行扩展，不限于3个，只要是同一关联组中的场景数据，都可以根据上述公式进行扩展，对任一个场景数据的概率分布进行校正。

S207、将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

本实施例中的步骤S207与前述实施例中步骤S105类似，此处不再赘述。

S208、创建一个维度与概率分布软标签相同的循环神经网络模型为小模型；

S209、为概率分布软标签生成注意力集合；

S210、根据注意力集合调整小模型的层数和初始权重；

终端首先创建一个维度与概率分布软标签相同的循环神经网络模型为小模型，接下来计算每一个概率分布软标签的注意力值，生成注意力集合。具体是根据初始样本数据中的场景数据，选择与实际运用时的目标应用场景为标准，计算场景数据的注意力值，注意力值越高，则初始权重设置越高。能够通过中央的创建方式来提高每一个小模型的灵活性。针对不同的实际场景调整模型架构。

S211、将数据集中的输入文本数据输入小模型中训练，生成训练分布数据；

S212、将概率分布软标签作为小模型的目标分布，根据损失函数计算训练分布数据和概率分布软标签中间的损失值；

S213、通过损失值更新小模型的权重，反向传播迭代优化小模型；

S214、当小模型满足预设条件后，确定训练完成，将小模型确定为目标小模型；

本实施例中，终端在每个训练步骤中，将输入文本数据传递给小模型，得到小模型的输出，即训练分布数据，然后计算训练分布数据和概率分布软标签之间的损失值，反向传播并优化小模型。当小模型满足迭代连续1万次均符合收敛的条件之后，确定训练完成，将小模型确定为目标小模型。

S215、根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数；

S216、根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块；

S217、根据目标应用场景的实际应用参数更新损失函数，并增设正则化项；

S218、将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型；

本实施例中，终端在训练完成后，评估模型的性能并进行优化，调整小模型架构、选择合适的损失函数、或引入其他特征作为输入，优化小模型。本实施例以训练目的（自然语言处理领域）为例，优化方法具体如下：

1.调整模型架构：改变循环神经网络（RNN）的层数、隐藏单元数，或者根据应用场景使用其他模型结构，例如长短时记忆网络（LSTM）或变压器（Transformer）等。

2.选择合适的损失函数：除了交叉熵损失函数，还可以更替为在其他情况下更合适的损失函数。另外，可以加入正则化项以防止过拟合。

3.引入其他特征：在收集数据过程中如果也有其他与水质监测相关的特征数据（例如气温、降水量等），可以将这些特征加入模型，提供更多的信息来增强模型的性能。

S219、根据目标应用场景选择评价指标；

S220、从数据集中选择一部分样本数据作为测试集，测试集独立于已训练的数据；

S221、使用目标小型模型处理测试集中的样本数据，生成测试文本，并使用评价指标对测试文本进行评估，生成评估结果；

S222、根据评估结果分析目标小模型文本生成的问题，并根据问题调整目标小模型的架构、训练策略和输入特征种类。

本实施例中，为确保生成的水质监测报告的准确性和质量，按以下步骤进行评估：

1.选择评价指标：根据应用场景，选择评价指标，如选择BLEU分数用于评估生成文本的重叠度，选择ROUGE分数用于评估生成文本的摘要质量。

2.构建测试数据集：从独立于训练数据的数据集中选择一部分数据作为测试集。

3.生成文本并评估：使用训练好的小型模型生成水质监测报告，并使用选择的评价指标对生成的文本进行评估。

4.根据评价结果进行调整：根据评价指标的结果，分析模型生成文本的问题，调整模型的架构、训练策略或者输入特征。

5.持续改进和迭代：在调整模型后，重新训练模型，并重新进行评价。在模型不断迭代的过程中，提高模型的性能和生成质量。

本实施例中，首先采集目标应用场景的初始样本数据，其中初始样本数据包含至少2个和目标应用场景存在关联的场景数据，即将目标应用场景的相关信息采集之后，将这些事项进行了标注，产生了场景数据。接下来根据预设的transformers包初始化大模型，并且将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据。使用大模型的softmax函数生成每一个标记序列的概率分布。根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签，将概率分布软标签和对应的输入文本数据进行组合，生成数据集。创建一个维度与概率分布软标签相同的循环神经网络模型为小模型。为概率分布软标签生成注意力集合。根据注意力集合调整小模型的层数和初始权重，即通过目标应用场景下的场景数据来确定小模型的维度、层数以及隐藏层等模型创建信息。将数据集中的输入文本数据输入小模型中训练，生成训练分布数据。将概率分布软标签作为小模型的目标分布，根据损失函数计算训练分布数据和概率分布软标签中间的损失值。通过损失值更新小模型的权重，反向传播迭代优化小模型。当小模型满足预设条件后，确定训练完成，将小模型确定为目标小模型。

根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数。根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。根据目标应用场景的实际应用参数更新损失函数，并增设正则化项。将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型。

根据目标应用场景选择评价指标。从数据集中选择一部分样本数据作为测试集，测试集独立于已训练的数据。使用目标小型模型处理测试集中的样本数据，生成测试文本，并使用评价指标对测试文本进行评估，生成评估结果。根据评估结果分析目标小模型文本生成的问题，并根据问题调整目标小模型的架构、训练策略和输入特征种类。

终端根据初始样本数据中的场景数据，选择与实际运用时的目标应用场景为标准，计算场景数据的注意力值，注意力值越高，则初始权重设置越高。能够通过中央的创建方式来提高每一个小模型的灵活性。针对不同的实际场景调整模型架构。

请参阅图5，本申请提供了基于大模型的小模型训练装置的一个实施例，包括：

采集单元501，用于采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

初始化单元502，用于根据预设的transformers包初始化大模型；

第一生成单元503，用于将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

转换单元504，用于使用大模型将标记序列转换为概率分布软标签；

第二生成单元505，用于将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

定义单元506，用于根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布；

第三生成单元507，用于使用数据集、小模型和损失函数进行训练，生成目标小模型。

请参阅图6，本申请提供了基于大模型的小模型训练装置的另一个实施例，包括：

采集单元601，用于采集目标应用场景的初始样本数据，初始样本数据包含至少2个和目标应用场景存在关联的场景数据；

初始化单元602，用于根据预设的transformers包初始化大模型；

第一生成单元603，用于将采集到的初始样本数据输入到大模型中，通过generate函数将初始样本数据生成输入文本数据，并将输入文本数据转换为标记序列；

转换单元604，用于使用大模型将标记序列转换为概率分布软标签；

可选地，转换单元604，包括：

计算初始样本数据中每两个场景数据之间的关联度，根据关联度的数值关系生成至少一个关联组，关联组中包含至少2个场景数据；

使用大模型的softmax函数生成每一个标记序列的概率分布；

根据关联组中场景数据之间的关联度对每一个标记序列的概率分布进行分布概率校正，生成概率分布软标签。

第二生成单元605，用于将概率分布软标签和对应的输入文本数据进行组合，生成数据集；

定义单元606，用于根据概率分布软标签的维度创建一个循环神经网络模型，确定为小模型，以及确定小模型的损失函数，小模型的输出为概率分布；

可选地，定义单元606，包括：

创建一个维度与概率分布软标签相同的循环神经网络模型为小模型；

为概率分布软标签生成注意力集合；

根据注意力集合调整小模型的层数和初始权重。

第三生成单元607，用于使用数据集、小模型和损失函数进行训练，生成目标小模型。

可选地，第三生成单元607，包括：

将数据集中的输入文本数据输入小模型中训练，生成训练分布数据；

将概率分布软标签作为小模型的目标分布，根据损失函数计算训练分布数据和概率分布软标签中间的损失值；

通过损失值更新小模型的权重，反向传播迭代优化小模型；

当小模型满足预设条件后，确定训练完成，将小模型确定为目标小模型。

调整单元608，用于根据目标应用场景的实际应用参数调整目标小模型的架构；

可选地，调整单元608，包括：

根据目标应用场景的需求信息改变目标小模型的层数和隐藏单元数；

根据目标应用场景的需求信息修改目标小模型的长短时记忆网络模块和/或变压器模块。

更新单元609，用于根据目标应用场景的实际应用参数更新损失函数，并增设正则化项；

引入单元610，用于将与初始样本数据相关度大于预设阈值的新特征集合引入目标小模型；

第一选择单元611，用于根据目标应用场景选择评价指标；

第二选择单元612，用于从数据集中选择一部分样本数据作为测试集，测试集独立于已训练的数据；

第四生成单元613，用于使用目标小型模型处理测试集中的样本数据，生成测试文本，并使用评价指标对测试文本进行评估，生成评估结果；

第五生成单元614，用于根据评估结果分析目标小模型文本生成的问题，并根据问题调整目标小模型的架构、训练策略和输入特征种类。

请参阅图7，本申请提供了一种基于大模型的小模型训练系统，包括：

处理器701、存储器703、输入输出单元702以及总线704。

处理器701与存储器703、输入输出单元702以及总线704相连。

存储器703保存有程序，处理器701调用程序以执行如图1、图2、图3和图4中的小模型训练方法。

本申请提供了一种计算机可读存储介质，计算机可读存储介质上保存有程序，程序在计算机上执行时执行如图1、图2、图3和图4中的小模型训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，read-onlymemory）、随机存取存储器（RAM，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中电科大数据研究院有限公司;

上一篇：基于常识推理的语音合成模型训练方法、装置及合成方法
下一篇：一种关于自建房屋的安全隐患管理系统