垂直领域大语言模型的训练方法及装置、存储介质、设备

文献发布时间：2024-04-18 20:01:30

技术领域

本申请涉及大语言模型技术领域，尤其是涉及到一种垂直领域大语言模型的训练方法及装置、存储介质、计算机设备。

背景技术

现在有越来越多的开源通用能力LLM（Large Language Model，大语言模型，以下简称为大模型）可用，但真正能用并落地的通常是那些在某一个领域专精的垂直大模型。初期认知中，大模型似乎只需要基于提示工程技术稍作修改就可能在垂直领域表现出色，然而实际情况并非如此。没有经过领域二次预训练或微调的通用模型也许能够较快构建出70-80分的应用，但对于大多数实际场景来说，需要达到90分甚至是95-98分的模型效果，这就要求大模型能忠实于领域内的要求，同时克服“幻觉”，严谨准确地进行作答。当下作为“通才”的通用领域大模型很难有这样的能力。这也正是在各个垂直领域（如金融、房地产、法律、教育、本地生活等），人们都在训练或微调垂域大模型的原因。如何兼顾大模型在通用领域和垂直领域的能力，是目前的热点问题。

发明内容

有鉴于此，本申请实施例提供了一种垂直领域大语言模型的训练方法及装置、存储介质、计算机设备，通过选择训练效果较好的语料配比进行目标训练样本集的构建并进行大模型的二次训练，以避免大模型在二次训练的过程中在通用领域的能力上产生退化，最终得到在通用领域和目标应用领域都具有较好知识问答能力的大模型。

根据本申请的一个方面，提供了一种垂直领域大语言模型的训练方法，所述方法包括：

获取基于通用领域的初始大语言模型、以及所述初始大语言模型对应的多个第一训练样本集，其中，各第一训练样本集中训练样本的语料配比各不相同，所述语料配比为目标应用领域语料样本和通用领域语料样本之间的数量比例；

利用各第一训练样本集分别对所述初始大语言模型进行训练，得到各第一训练样本集各自对应的第一测试大语言模型，并通过第一测试样本集分别对各第一测试大语言模型进行测试，根据得到的第一测试结果确定所述第一测试大语言模型中的第一被选大语言模型，其中，所述第一测试样本集包括通用领域测试样本和目标应用领域测试样本；

将训练所述第一被选大语言模型所使用的第一训练样本集的语料配比作为目标语料配比，按所述目标语料配比构建目标训练样本集，并利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，其中，所述目标大语言模型用于通用领域和目标应用领域下的知识问答。

可选地，针对基于通用领域的大语言模型向目标应用领域进行增量训练时，所选用的训练样本的语料配比是影响模型训练效果的显著性条件，模型训练效果通过通用领域和目标应用领域的知识问答能力而反映。

可选地，将训练所述第一被选大语言模型所使用的第一训练样本集的语料配比作为目标语料配比之后，所述方法还包括：

依据所述目标语料配比构建第二训练样本集；

利用所述第二训练样本集，以多个超参数分别对所述初始大语言模型进行训练，得到各超参数对应的第二测试大语言模型，并通过第二测试样本集分别对各第二测试大语言模型进行测试，根据得到的第二测试结果确定所述第二测试大语言模型中的第二被选大语言模型；

将训练所述第二被选大语言模型所使用的超参数确定为目标超参数；

相应地，利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到应用于目标应用领域的目标大语言模型，包括：

利用所述目标训练样本集和所述目标超参数，对所述初始大语言模型、所述第一被选大语言模型或所述第二被选大语言模型进行训练，得到目标大语言模型。

可选地，利用各第一训练样本集分别对所述初始大语言模型进行训练之前，包括：

针对任一第一训练样本集，根据多种上下文长度，分别处理第一训练样本集中的语料样本，得到每种上下文长度各自对应的第一训练样本集；

相应地，按所述目标语料配比构建目标训练样本集之后，所述方法还包括：

将训练所述第一被选大语言模型所使用的第一训练样本集的上下文长度作为目标上下文长度，并按所述目标上下文长度处理所述目标训练样本集中的语料样本。

可选地，所述目标应用领域下的知识问答类型包括以下至少一种：菜品类目预测、菜品口味预测、店铺经营品类预测、店铺品牌预测、店铺套餐内容预测、以及推荐店铺预测；

所述第一测试样本集包括多种知识问答类型的测试样本，所述知识问答类型包括以下至少一种：菜品类目预测、菜品口味预测店铺经营品类预测、店铺品牌预测、店铺套餐内容预测、以及推荐店铺预测；所述第一训练样本集包括多个内容种类的语料样本，其中，目标应用领域内容种类包括至少一种形式的菜品知识内容以及至少一种形式的店铺知识内容，菜品知识内容的形式包括至少一种菜品属性介绍和菜品制作菜谱，不同形式的菜品属性介绍包含的属性维度不完全相同，店铺知识内容的形式包括至少一种店铺属性介绍，不同形式的店铺属性介绍包含的属性维度不完全相同。

可选地，按所述目标语料配比构建目标训练样本集，包括：

根据所述第一被选大语言模型的第一测试结果，统计各知识问答类型对应的第一子测试结果；

在利用所述第一子测试结果分析出多种知识问答类型中存在待强化学习的第一类型的情况下，查询与所述第一类型匹配的第一强化学习内容种类；

获取训练所述第一被选大语言模型所使用的第一训练样本集的语料样本的第一内容种类比例，基于各知识问答类型的第一子测试结果对所述第一内容种类比例进行调整，得到目标内容种类比例，以增大所述第一类型的占比；

按所述目标语料配比和所述目标内容种类比例，构建目标训练样本集。

可选地，利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，包括：

通过第三测试样本集对所述目标大语言模型进行测试，根据得到的第三测试结果统计各知识问答类型对应的第二子测试结果；

在利用所述第二子测试结果分析出多种知识问答类型中存在待强化学习的第二类型的情况下，查询与所述第二类型匹配的第二强化学习内容种类，基于各知识问答类型的第二子测试结果对所述目标内容种类比例进行调整，得到新的目标内容种类比例，按所述目标语料配比和所述新的目标内容种类比例，构建新的目标训练样本集；

利用所述新的目标训练样本集继续对所述目标大语言模型进行下一轮训练，直到满足预设条件为止。

可选地，所述方法还包括：

在利用所述第二子测试结果分析出多种知识问答类型均不需要强化学习的情况下，基于所述目标语料配比和所述目标内容种类比例，构建新的目标训练样本集。

根据本申请的另一方面，提供了一种垂直领域大语言模型的训练装置，所述装置包括：

训练样本获取模块，用于获取基于通用领域的初始大语言模型、以及所述初始大语言模型对应的多个第一训练样本集，其中，各第一训练样本集中训练样本的语料配比各不相同，所述语料配比为目标应用领域语料样本和通用领域语料样本之间的数量比例；

测试模块，用于利用各第一训练样本集分别对所述初始大语言模型进行训练，得到各第一训练样本集各自对应的第一测试大语言模型，并通过第一测试样本集分别对各第一测试大语言模型进行测试，根据得到的第一测试结果确定所述第一测试大语言模型中的第一被选大语言模型，其中，所述第一测试样本集包括通用领域测试样本和目标应用领域测试样本；

训练模块，用于将训练所述第一被选大语言模型所使用的第一训练样本集的语料配比作为目标语料配比，按所述目标语料配比构建目标训练样本集，并利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，其中，所述目标大语言模型用于通用领域和目标应用领域下的知识问答。

可选地，所述测试模块，还用于：

依据所述目标语料配比构建第二训练样本集；

将训练所述第二被选大语言模型所使用的超参数确定为目标超参数；

相应地，利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到应用于目标应用领域的目标大语言模型，包括：

可选地，所述测试模块，还用于：针对任一第一训练样本集，根据多种上下文长度，分别处理第一训练样本集中的语料样本，得到每种上下文长度各自对应的第一训练样本集；

相应地，所述训练模块，还用于：将训练所述第一被选大语言模型所使用的第一训练样本集的上下文长度作为目标上下文长度，并按所述目标上下文长度处理所述目标训练样本集中的语料样本。

可选地，所述训练模块，还用于：

根据所述第一被选大语言模型的第一测试结果，统计各知识问答类型对应的第一子测试结果；

在利用所述第一子测试结果分析出多种知识问答类型中存在待强化学习的第一类型的情况下，查询与所述第一类型匹配的第一强化学习内容种类；

按所述目标语料配比和所述目标内容种类比例，构建目标训练样本集。

可选地，所述训练模块，还用于：

通过第三测试样本集对所述目标大语言模型进行测试，根据得到的第三测试结果统计各知识问答类型对应的第二子测试结果；

利用所述新的目标训练样本集继续对所述目标大语言模型进行下一轮训练，直到满足预设条件为止。

可选地，所述训练模块，还用于：

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述垂直领域大语言模型的训练方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述垂直领域大语言模型的训练方法。

借由上述技术方案，本申请实施例提供的一种垂直领域大语言模型的训练方法及装置、存储介质、计算机设备，对于基于通用领域的初始大模型，利用具有不同语料配比的多个第一训练样本集，分别对初始大模型进行训练，以使大模型基于通用领域和目标应用领域语料样本进行通用领域和目标应用领域的知识学习，并利用第一测试样本集对训练得到的多个第一测试大模型进行测试，根据测试结果选出性能较好的第一被选大模型，从而基于第一被选大模型对应的第一训练样本集的语料配比构建用于二次训练的目标训练样本集，并对大模型进行二次训练。本申请实施例通过选择训练效果较好的语料配比进行目标训练样本集的构建，并进行大模型的二次训练，以避免大模型在二次训练的过程中在通用领域的能力上产生退化，最终得到在通用领域和目标应用领域都具有较好知识问答能力的大模型。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种垂直领域大语言模型的训练方法的流程示意图；

图2示出了本申请实施例提供的另一种垂直领域大语言模型的训练方法的流程示意图；

图3示出了本申请实施例提供的一种垂直领域大语言模型的训练装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，以完成预训练的大语言模型作为基础模型骨架，并在此基础上进行模型的增量训练，以使模型能够适用于所需垂直领域，是众多应用程序的实现基础，垂直领域具体是指某个企业、某个行业等所提供服务的目标应用领域，垂直领域大语言模型，也可以称为行业大语言模型、目标应用领域大语言模型等。针对垂直领域，需要一个高精度垂直领域的大语言模型底座，发明人希望能把垂直领域内知识聚合“教授”给模型，以便模型能实现在下游任务中的应用，理解用户在垂直领域的各类复杂需求，通过AIGC（ArtificialIntelligence Generated Content，利用人工智能技术生成内容）的方式为用户带来智能和具备实用价值的推荐。传统的模型训练方式下，得到基础模型骨架后利用垂直领域的样本对基础模型骨架进行训练，但训练过程中不断的向模型“教授”垂直领域的知识，模型会逐渐遗忘原本学习过的通用领域的知识，垂直领域知识学习的越多、通用领域知识遗忘的越多，最终导致模型对通用领域知识的灾难性遗忘，如此得到的模型最终只能适用于垂直领域，而只适用于垂直领域的模型已经不再符合现在的需求。

看似简单的垂直领域模型训练，在实际操作过程中却困难重重。经过对各种传统模型训练方法的不断总结分析，发明人发现，导致模型灾难性遗忘的原因之一是模型学习完一个样本之后，为了适应该任务会调整模型原有权重，这就导致了其在前一任务上不再是最佳权重，进而导致能力下滑，而不断的利用垂直领域样本训练模型，会使模型的权重逐渐“偏离”通用领域而更“靠近”垂直领域。这样的训练方式，无法让模型真正学习到各领域下具有差异化的知识，无法基于问题的特点去分析用户真正的意图并结合用户意图给出需求领域下的答案，而是让模型逐渐只会给出关于垂直领域的答案。

经过上述分析，发明人意识到，改善模型训练的训练样本，以使得模型在训练过程中能够充分学习出不同领域知识的真正差异，避免模型权重不断向垂直领域“偏离”，是一种能够避免模型退化的方案，基于上述思考，发明人独创性的提出了本申请的垂直领域大语言模型的训练方法，通过寻找效果更好的训练样本配比，构建通用领域样本量和垂直领域样本量符合特定配比要求的训练样本，从而进行模型的增量训练时不仅使用垂直领域样本让模型学习到垂直领域知识，还使用通用领域样本让模型对通用领域知识不断强化记忆，避免模型逐渐遗忘通用领域知识，以解决现有技术中模型增量训练导致的模型退化的问题，以便得到兼顾通用领域能力和垂直领域能力的大语言模型。

在本实施例中提供了一种垂直领域大语言模型的训练方法，如图1所示，该方法包括：

步骤101，获取基于通用领域的初始大语言模型、以及所述初始大语言模型对应的多个第一训练样本集，其中，各第一训练样本集中训练样本的语料配比各不相同，所述语料配比为目标应用领域语料样本和通用领域语料样本之间的数量比例。

本申请实施例中，初始大语言模型具体可以为具有通用能力的大语言模型，初始大语言模型可以直接选用开源模型，也可以是基于通用领域语料样本预先完成训练的大语言模型。为了得到能够适用于通用领域和目标应用领域的大模型，需要对初始大模型（本申请中所说的大模型均为大语言模型LLM）进行二次训练（即增量训练），其中，为了避免在二次训练的过程中初始大模型的通用能力退化，二次训练时不仅要使用目标应用领域的语料样本，还要使用通用领域的语料样本，以避免二次训练过程中大模型“遗忘”通用领域的知识。具体地，根据大模型所要应用的目标应用领域，需要预先构建该目标应用领域下的语料样本，并准备通用领域的语料样本，从而以不同的语料配比构建多个第一训练样本集，语料配比为目标应用领域与通用领域的语料样本数量（样本条数）比例，以便通过少量的训练样本找到较好的语料配比，从而在后续进行大规模语料样本训练时能够得到较好的模型效果。可选地，语料配比可以包括1:0、1:5、1:10等等，1:0表示不混合任何通用领域样本数据。另外，确定语料配比之外，还可以确定样本的训练顺序，例如1：5的语料配比下，可以将训练样本排列为1条目标应用领域样本、5条通用领域样本、1条目标应用领域样本、5条通用领域样本……的次序，避免连续使用较多样本进行模型训练，导致模型权重退化。

其中，需要说明的是，本申请实施例中的通用领域语料样本可以来源于多种渠道、也可以是多种语言的。语料样本可以分为一般性语料与特殊语料。一般性语料，如网页、书籍、对话文本，占比较大，可以在各种话题上为大模型提供语言知识；而特殊语料，如多语言数据、科技语料、代码等，可以为模型带来解决特定任务的能力。一般性语料可以包含大量的网页语料，其中既包含高质量的语料如维基百科，也包含低质量的语料如垃圾邮件，因此使用前可以对其进行过滤处理。此外，对话文本如baidu问答等社交媒体平台，对于提升模型的问题回答能力具有潜在的价值。社交媒体通常包含多人对话，可以将对话语料根据回复关系整理成树状结构，使得每个支路都成为一段完整的对话内容。书籍语料则是较少见的书面语长文本，可以帮助模型学习严谨的语言学知识，建模长距离依赖，提高生成内容的连贯性。本申请实施例在增量预训练（即二次训练）语料配比中充分考虑语料的上述作用，进而最大程度保留模型的通用能力，使其在学习到领域新知识的同时，原有能力不产生灾难性遗忘。

步骤102，利用各第一训练样本集分别对所述初始大语言模型进行训练，得到各第一训练样本集各自对应的第一测试大语言模型，并通过第一测试样本集分别对各第一测试大语言模型进行测试，根据得到的第一测试结果确定所述第一测试大语言模型中的第一被选大语言模型，其中，所述第一测试样本集包括通用领域测试样本和目标应用领域测试样本。

本申请实施例中，利用多个第一训练样本集分别对同一个初始大模型进行训练，得到各第一训练样本集训练对应的第一测试大模型。进一步获取第一测试样本集，该第一测试样本集中包含通用领域和目标应用领域的测试样本，以便实现对大模型在通用领域和目标应用领域的性能测试。利用相同的第一测试样本集分别对各第一测试大模型进行测试，确定每个第一测试大模型对应的第一测试结果，基于第一测试结果在多个第一测试大模型中找出测试结果较好的第一被选大模型，第一被选大模型具体可以是多个第一测试大模型中在通用领域和目标应用领域的综合能力较好的一个大模型。由于各第一测试大模型是基于不同语料配比的语料样本对相同的模型进行训练而得到的，因此模型性能较好的第一被选大模型能够反应出训练该模型所用的语料样本的语料配比效果较好，以便后续进行大模型的二次训练时可以直接采用这个效果较好的语料配比。

步骤103，将训练所述第一被选大语言模型所使用的第一训练样本集的语料配比作为目标语料配比，按所述目标语料配比构建目标训练样本集，并利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，其中，所述目标大语言模型用于通用领域和目标应用领域下的知识问答。

本申请实施例中，确定了第一被选大模型后，可以基于训练第一被选大模型时所使用的第一训练样本集的语料配比，即目标语料配比，构建用于对大模型进行二次训练的目标训练样本集，从而利用目标训练样本集对初始大模型或者第一被选大模型进行训练，以完成模型的二次训练，得到能够用于在通用领域和目标应用领域下都具有较好的知识问答能力的目标大模型。这里也可以按上文所说的样本排列方式，利用目标训练样本集中的样本以一定的次序进行模型训练，在避免大模型在通用领域上产生能力退化的基础上，使得大模型在目标应用领域上也具有较好的能力。

另外，需要说明的是，第一训练样本集中的总样本量小于目标训练样本集的总样本量，从而可以实现对于通用领域的大模型，利用通用领域和垂直领域的不同配比的语料分别对模型进行小规模训练，确定优选语料配比，再按优选语料配比的语料对模型进行大规模训练。

通过应用本实施例的技术方案，对于基于通用领域的初始大模型，利用具有不同语料配比的多个第一训练样本集，分别对初始大模型进行训练，以使大模型基于通用领域和目标应用领域语料样本进行通用领域和目标应用领域的知识学习，并利用第一测试样本集对训练得到的多个第一测试大模型进行测试，根据测试结果选出性能较好的第一被选大模型，从而基于第一被选大模型对应的第一训练样本集的语料配比构建用于二次训练的目标训练样本集，并对大模型进行二次训练。本申请实施例通过选择训练效果较好的语料配比进行目标训练样本集的构建，并进行大模型的二次训练，以避免大模型在二次训练的过程中在通用领域的能力上产生退化，最终得到在通用领域和目标应用领域都具有较好知识问答能力的大模型。

在本申请实施例中，可选地，在步骤102之前还可以包括：针对任一第一训练样本集，根据多种上下文长度，分别处理第一训练样本集中的语料样本，得到每种上下文长度各自对应的第一训练样本集；相应地，在步骤103中按所述目标语料配比构建目标训练样本集之后，该方法还包括：将训练所述第一被选大语言模型所使用的第一训练样本集的上下文长度作为目标上下文长度，并按所述目标上下文长度处理所述目标训练样本集中的语料样本。

在上述实施例中，模型训练时使用的训练样本的上下文长度context length，也可能会对模型训练效果产生影响，因此对于语料配比各不相同的第一训练样本集，将每个第一训练样本集中的语料样本处理为不同的多种上下文长度，例如2048字节、8192字节。针对每个第一训练样本集，将第一训练样本集处理为多个第一训练样本集且处理后的多个第一训练样本集中语料样本的上下文长度不同。后续用处理后的每个第一训练样本集分别对初始大模型进行训练，根据测试结果确定性能较好的第一被选大模型，从而第一被选大模型对应的第一训练样本集的语料配比和上下文长度分别确定为目标语料配比和目标上下文长度，并按照目标语料配比和目标上下文长度构建目标训练样本集，进行模型二次训练。

在本申请实施例中，可选地，在步骤103中将训练所述第一被选大语言模型所使用的第一训练样本集的语料配比作为目标语料配比之后，所述方法还包括：依据所述目标语料配比构建第二训练样本集；利用所述第二训练样本集，以多个超参数分别对所述初始大语言模型进行训练，得到各超参数对应的第二测试大语言模型，并通过第二测试样本集分别对各第二测试大语言模型进行测试，根据得到的第二测试结果确定所述第二测试大语言模型中的第二被选大语言模型；将训练所述第二被选大语言模型所使用的超参数确定为目标超参数；

相应地，步骤103中利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到应用于目标应用领域的目标大语言模型，包括：利用所述目标训练样本集和所述目标超参数，对所述初始大语言模型、所述第一被选大语言模型或所述第二被选大语言模型进行训练，得到目标大语言模型。

在该实施例中，经过对以往模型训练方法的分析，发明人意识到模型的超参数也是影响模型训练效果的因素，具体地，超参数是算法工程师用来管理机器学习模型训练的外部配置变量，有时也称为模型超参数，超参数会在训练模型前手动进行配置，超参数调优对深度学习的重要性不言而喻。调节的超参主要包括学习率learning_rate、权重衰减weight_decay、预热比例warmup_ratio、梯度裁剪最大值max_grad_norm等等。学习率（Learning rate）是优化算法中的一个可调参数，它决定了每次迭代的步长，使得优化向损失函数的最小值前进。权重衰减(weight decay)，是一种正则化的方法，应用了权重衰减的神经网络，最终某些权重会变成0，相当于输入在这个神经元上会被抛弃。warmup是针对学习率learning rate优化的一种策略，主要过程是，在预热期间，学习率从0线性（也可非线性）增加到优化器中的初始预设lr，之后使其学习率从优化器中的初始lr线性降低到0。max_grad_norm是在梯度裁剪时采用的参数，可以防止梯度爆炸。超参数对模型学习速度的影响不容忽视。多种因素影响着模型理解的速度：权重衰减使学会时间提前（因此速度更快），而学习率过小/过大则使理解时间延后（因此速度较慢），这里的目标不是优化最终性能，而是优化速度，即性能曲线的导数。理想情况下，希望有一个陡峭的学习曲线，以最大化理解的速度。

其中，在确定目标语料配比（和目标上下文长度）后，还可以根据目标语料配比（和目标上下文长度）构建唯一的第二训练样本集。从而利用唯一的第二训练样本集，以各不相同的多个超参数分别对初始大模型（或第一被选大模型）进行训练，得到各超参数对应的第二测试大模型。进一步对各第二测试大模型进行测试，并绘制各第二测试大模型的学习曲线，基于学习曲线的形态选取模型性能较好的第二被选大模型（例如陡峭的学习曲线对应的第二测试大模型被选为第二被选大模型），将训练第二被选大模型时所使用的超参数确定为目标超参数，使得最终选定的目标超参数能够让大模型在训练时具有较好的理解速度、且模型权重相对来说进行小幅度更新，使得模型在不断学习垂直领域知识的同时通用领域能力也能够保持稳定。从而对大模型进行二次训练时，利用目标训练样本集和目标超参数进行模型训练。

本申请实施例中的目标应用领域可以是金融、房地产、法律、教育、本地生活等。在本地生活领域中，为用户提供本地生活服务需要一个高精度垂直领域大模型（垂直领域即目标应用领域，简称为垂域），希望能把领域内知识聚合“教授”给垂域模型，在不同的下游任务中实现应用，例如理解用户在美食方面的各类复杂需求，通过AIGC的方式为用户带来智能和具备实用价值的推荐。并且，在当前“内容为王”的大背景下，通过更加丰富多彩、知识性强的内容产出，可以一定程度上增加用户黏性，让用户更了解平台的一些特色，产生惊喜感，从而形成良性循环，促使其在平台得到更满意的服务。可选地，所述目标应用领域下的知识问答类型包括以下至少一种：菜品类目预测、菜品口味预测、店铺经营品类预测、店铺品牌预测、店铺套餐内容预测、以及推荐店铺预测；所述第一测试样本集包括多种知识问答类型的测试样本，所述知识问答类型包括以下至少一种：菜品类目预测、菜品口味预测店铺经营品类预测、店铺品牌预测、店铺套餐内容预测、以及推荐店铺预测；所述第一训练样本集包括多个内容种类的语料样本，其中，目标应用领域内容种类包括至少一种形式的菜品知识内容以及至少一种形式的店铺知识内容，菜品知识内容的形式包括至少一种菜品属性介绍和菜品制作菜谱，不同形式的菜品属性介绍包含的属性维度不完全相同，店铺知识内容的形式包括至少一种店铺属性介绍，不同形式的店铺属性介绍包含的属性维度不完全相同。

在该实施例中，经过二次训练的目标大模型可以实现对本地生活领域的知识问答，以用户的输入语句或行为作为问题，通过目标大模型进行答案预测，具体可以包括菜品类目预测、菜品口味预测、店铺经营品类预测、店铺品牌预测、店铺套餐内容预测、以及推荐店铺预测。测试样本集中的测试样本对应的知识问答类型与目标大模型对应的知识问答类型相同。各训练样本集中目标应用领域的语料样本至少包括菜品知识内容和店铺知识内容，且菜品知识内容和店铺知识内容均可以包括多种形式。菜品知识内容具体可以包括菜品属性介绍、菜品制作菜谱，店铺知识内容具体可以包括店铺属性介绍，其中，菜品制作菜谱的形式相对比较统一，而菜品属性介绍和店铺属性介绍均可以包含多种形式，不同形式的介绍可以体现为属性维度的差异。利用不同形式的训练样本对大模型进行训练时，能够让大模型学习到不同的知识，这对于大模型提供知识问答服务尤为重要，例如菜品属性介绍方面的知识学习有助于大模型解决菜品类目预测、菜品口味预测等问题，店铺属性介绍方面的知识学习有助于大模型解决店铺经营品类预测、店铺品牌预测等问题。并且不同形式的内容学习也能够帮助大模型解决不同类型的问题，例如一些形式的菜品知识内容中包含菜品的菜系属性、荤素属性，在一些基于菜系属性、荤素属性进行提问的场景，这些知识的学习有助于大模型更好的实现菜品预测。又例如在一些形式的菜品知识内容中包含套餐菜品的主食、辅食属性，在一些基于套餐内主食、辅食属性进行提问的场景，这些知识的学习有助于大模型更好的实现菜品预测。

例如，标准菜品“海参小米粥”对应的一种形式的菜品属性介绍示例为：海参小米粥属于主食米面粉类>米类>粥类>海鲜粥类目，食材包括：小米、海参等，主食是粥，采用的烹饪方式为：煮，口味是：咸鲜，这个标准菜所对应的本地商品集合如下：小米海参粥、海参小米粥、鲍鱼花胶海参小米粥、御膳鲍鱼花胶海参小米粥、小米海参粥，爱自己多一些、秘制小米海参粥、鲍鱼海参小米粥、金汤海参小米粥、瑶柱海参小米粥、金米辽参粥、海参小米砂锅粥（2头小刺参）、鲍鱼海参小米砂锅粥、小米海参营养粥天花板护胃又健康、小米海参粥（不含米饭）、金汤小米海参粥、金汤海参暖胃小米粥|100毫升装非正餐|咸口滋补、小米海参砂锅粥『一整个海参』、小米青菜海参粥、海参小米粥（750毫升）、养生小米活辽参、花胶小米粥、鲜鸡汤小米海参粥(海参切片)、小米花胶粥、鲜鸡汤海参虾仁小米粥、海参小米粥刺参（现做需要时间）保温、小米粥海参、鲜鸡汤海参鲍鱼小米粥、小米海参砂锅粥、养生小米海参粥、【抢】小米海参粥（咸）、【月子餐】海参小米粥：营养充足、海参鲍鱼小米粥、海参鸡汤小米粥（切片）、鲜鸡汤小米海参粥（整只）、【精品】小米海参粥（整海参！）、海参小米粥小份、宫廷小米海参粥、小米大枣海参粥、滋补小米海参粥、瓦罐鲜鸡汤小米海参粥(含瓦罐大小瓷汤勺)、遥祝海参小米粥、小米海参粥[两只海参]、养生海参小米粥、鸡汤小米炖海参、海参小米粥刺参（现做需要时间）、虾仁海参小米粥、海参小米粥/☆/滋补养胃粥、鲜香！小米海参粥小份（350ml）、海参小米粥（2只）等。

又例如，标准菜品“油泼小白菜”对应的一种形式的菜品属性介绍示例为：油泼小白菜属于菜品>热菜>烧类/炒菜/焖菜类目，食材包括：小白菜、青菜等，采用的烹饪方式为：炒，口味是：咸香，这是一道素菜，属于中式菜系，通常是热的，这个标准菜所对应的本地商品集合如下：油泼小白菜、热炝油泼老虎菜、油淋小白菜l爽口下饭、油溜小白菜、油淋小青瓜苗等。

又例如，店铺“XX板面牛杂面”对应的一种形式的店铺属性介绍示例为：XX板面牛杂面，是一家餐饮商户，位于XX区XX路X号XX公寓底商XX号，隶属于XX区，所属城市为XX，主营品类名称是面馆，一级品类名称是快餐便当，营业时间区间为09:00:00~22:00:00，店内主营商品包括：太和板面(细)、太和板面（宽）、招牌牛肉面（宽）、招牌牛肉面（细）、板面+鸡蛋、豆皮、肠、秘制牛杂面（宽）、秘制牛杂面（细）、精品牛杂面（牛杂加量）、豪华板面双人套餐（送凉菜一份）等。

在本申请实施例中，可选地，步骤103中按所述目标语料配比构建目标训练样本集，还可以包括：根据所述第一被选大语言模型的第一测试结果，统计各知识问答类型对应的第一子测试结果；在利用所述第一子测试结果分析出多种知识问答类型中存在待强化学习的第一类型的情况下，查询与所述第一类型匹配的第一强化学习内容种类；获取训练所述第一被选大语言模型所使用的第一训练样本集的语料样本的第一内容种类比例，基于各知识问答类型的第一子测试结果对所述第一内容种类比例进行调整，得到目标内容种类比例，以增大所述第一类型的占比；按所述目标语料配比和所述目标内容种类比例，构建目标训练样本集。

在该实施例中，除了可以在语料配比、上下文长度方面上对训练样本进行优化，还可以在训练样本的内容结构方面进行优化。具体地，可以选择包含多种知识问答类型的测试样本构建第一测试样本集，并利用第一测试样本集对各第一测试大模型进行测试，从中选择整体测试效果较好的第一被选大模型。从而统计第一被选大模型对应的第一测试结果，确定各知识问答类型对应的测试结果即第一子测试结果，基于第一子测试结果分析在多种知识问答类型中是否存在需要进行强化学习的第一类型。例如如果各知识问答类型对应的第一子测试结果较为均衡，那么可以认为该大模型目前的训练语料的内容结构较好，而如果存在一种知识问答类型的测试结果明显比其他知识问答类型的测试结果差，或者明显低于预期水平，那么可以认为这种知识问答类型是待强化学习的第一类型。

进一步，在确定存在待强化学习的第一类型的情况下，可以对大模型的训练样本的内容结构进行调优。具体地，在预设设置的不同知识问答类型与语料样本内容种类的映射表中，查询第一类型对应的第一强化学习内容种类，从而对第一被选大模型对应的第一训练样本集的语料样本的内容种类比例进行调优，增加其中的第一强化学习内容种类的占比，以便后续让大模型在第一强化学习内容方面加强学习，更好的解决第一类型的知识问答问题，提升模型性能。

在本申请实施例中，可选地，如图2所示，步骤103中利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，可以包括：

步骤201，利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到目标大语言模型，通过第三测试样本集对所述目标大语言模型进行测试，根据得到的第三测试结果统计各知识问答类型对应的第二子测试结果。

步骤202，在利用所述第二子测试结果分析出多种知识问答类型中存在待强化学习的第二类型的情况下，查询与所述第二类型匹配的第二强化学习内容种类，基于各知识问答类型的第二子测试结果对所述目标内容种类比例进行调整，得到新的目标内容种类比例，按所述目标语料配比和所述新的目标内容种类比例，构建新的目标训练样本集。

步骤203，在利用所述第二子测试结果分析出多种知识问答类型均不需要强化学习的情况下，基于所述目标语料配比和所述目标内容种类比例，构建新的目标训练样本集。

步骤204，利用所述新的目标训练样本集继续对所述目标大语言模型进行下一轮训练，直到满足预设条件为止。

在该实施例中，对于大模型的二次训练具体可以分为多轮训练，每一轮训练结束后验证训练效果，并结合本轮的训练效果对训练样本的内容结构进行调优后再进行下一轮训练，如此往复，直到完成大模型的训练为止。其中，在大模型的第一轮二次训练中，所使用的目标训练样本是基于目标语料配比（还可以结合目标上下文长度、经过上文中调优的目标内容种类比例）而构建的，训练时可以采用上文确定的目标超参数。在第一轮训练结束后，通过第三测试样本集对大模型进行测试，验证大模型在各知识问答类型上的测试结果。如果存在某个知识问答类型需要进行强化学习，则基于需要进行强化学习的第二类型，获取对应的第二强化学习内容种类，并对目标训练样本集的目标内容种类比例进行调整，以增强第二强化学习内容种类的占比，从而按照得到新的目标内容种类比例、目标语料配比（还可以结合目标上下文长度）构建用于第二轮二次训练的新的目标训练样本；如果不存在需要进行强化学习的知识问答类型，则不必进行内容种类比例的调整，直接按照目标语料配比、原来的目标内容种类构建用于第二轮二次训练的新的目标训练样本。之后，利用新的目标训练样本进行第二轮训练，如此往复，不断优化训练样本的内容结构并进行多轮二次训练，直到满足大模型的训练结束条件为止。

通过应用本实施例的技术方案，通过优化语料混合比例、语料内容结构以及模型学习策略，实现优化大模型学习速度和效果的效果，从而提升了模型的表现，使其有更好的学习曲线，让模型能够更快的从数据中进行目标应用领域知识的学习，且通用能力不产生灾难性退化，使得大模型得到领域能力提升的同时，模型本身的通用能力更加稳定。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种垂直领域大语言模型的训练装置，如图3所示，该装置包括：

可选地，所述测试模块，还用于：

依据所述目标语料配比构建第二训练样本集；

将训练所述第二被选大语言模型所使用的超参数确定为目标超参数；

相应地，利用所述目标训练样本集对所述初始大语言模型或所述第一被选大语言模型进行训练，得到应用于目标应用领域的目标大语言模型，包括：

可选地，所述训练模块，还用于：

根据所述第一被选大语言模型的第一测试结果，统计各知识问答类型对应的第一子测试结果；

在利用所述第一子测试结果分析出多种知识问答类型中存在待强化学习的第一类型的情况下，查询与所述第一类型匹配的第一强化学习内容种类；

按所述目标语料配比和所述目标内容种类比例，构建目标训练样本集。

可选地，所述训练模块，还用于：

通过第三测试样本集对所述目标大语言模型进行测试，根据得到的第三测试结果统计各知识问答类型对应的第二子测试结果；

利用所述新的目标训练样本集继续对所述目标大语言模型进行下一轮训练，直到满足预设条件为止。

可选地，所述训练模块，还用于：

需要说明的是，本申请实施例提供的一种垂直领域大语言模型的训练装置所涉及各功能单元的其他相应描述，可以参考图1至图2方法中的对应描述，在此不再赘述。

本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储位置信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现各方法实施例中的步骤。

本领域技术人员可以理解，上述的计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：浙江口碑网络技术有限公司;拉扎斯网络科技(上海)有限公司;

上一篇：一种晶圆片缺口检测装置及检测方法
下一篇：一种电芯寿命预测方法、系统及电子设备