一种指令生成方法、装置、存储介质和电子设备

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及人工智能技术领域，特别是涉及一种指令生成方法、装置、存储介质和电子设备。

背景技术

大语言模型是使用大量的文本数据训练得到的深度学习模型。指令是一种用户或开发者给出的具体指示，用于引导大语言模型执行特定的任务或操作。通过指令，大语言模型能够执行文本生成、系统问答、摘要提取和知识推理等各种自然语言处理任务。

为了充分利用大语言模型的能力并获取最佳结果，输入给大语言模型的指令必须清晰明了、具体详细，并与大语言模型在训练阶段所接触的数据和预期的应用场景保持高度一致。当前，可以基于人工编写等方法生成大语言模型的指令，但人工编写指令的方法具有成本大、效率低、生成的指令的质量参差不齐和难以满足特定业务场景下的使用要求等诸多问题。

因此，如何高效生成满足特定业务场景使用要求的高质量指令，成为亟待解决的技术问题。

发明内容

基于上述问题，本申请提供了一种指令生成方法，用以高效生成满足特定业务场景的使用要求的高质量指令。

本申请实施例公开了如下技术方案：

本申请第一方面提供了一种指令生成方法，包括：

基于业务场景、与所述业务场景匹配的初始指令和目标大语言模型，生成第一指令集合；所述目标大语言模型是事先训练的、用于生成指令并为其生成的指令进行评分的大语言模型；

基于所述第一指令集合和所述目标大语言模型，生成所述第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；

获取评估标准；所述评估标准指示指令在所述多个评分维度中每个评分维度的分数均大于或等于该评分维度的预设的分数阈值；

基于所述第一指令集合中符合所述评估标准的第一指令，生成目标指令集合。

在一种可选的实现方式中，所述基于所述第一指令集合中符合所述评估标准的第一指令，生成目标指令集合，包括：

基于所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合；

基于大语言模型确定所述候选指令集合中两个指令间的相似度；

若所述两个指令间的相似度大于或等于预设的相似度阈值，则删除所述两个指令中综合评分更低的指令，获得中间指令集合；并将所述中间指令集合作为候选指令集合，返回执行所述基于大语言模型确定所述候选指令集合中两个指令间的相似度的步骤，直至候选指令集合中任意的两个指令间的相似度均小于所述预设的相似度阈值，得到所述目标指令集合；所述综合评分根据指令在所述多个评分维度中每个评分维度的分数生成。

在一种可选的实现方式中，所述方法还包括：

获取筛选标准；所述筛选标准指示当指令在目标评分维度的分数低于该指令在所述目标评分维度的预设的分数阈值时，该指令在所述目标评分维度的分数与该指令在所述目标评分维度的预设的分数阈值间的差值的绝对值小于或等于预设的目标阈值；所述目标评分维度是所述多个评分维度中的任一个评分维度；

从所述第一指令集合的不符合所述评估标准的第一指令中，筛选出符合所述筛选标准的第一指令，作为高潜力指令；

基于所述目标大语言模型对所述高潜力指令进行至少一次修正，直至生成符合所述评估标准的修正指令；

所述基于所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合，包括：

基于所述第一指令集合中符合所述评估标准的第一指令和所述修正指令，生成候选指令集合。

在一种可选的实现方式中，所述目标大语言模型的训练步骤包括：

获取第一训练数据集；所述第一训练数据基于中文公开指令集中的指令生成；

基于所述第一训练数据集对待训练大语言模型进行训练，生成第一大语言模型；所述第一大语言模型用于根据输入到所述第一大语言模型中的数据生成指令；

获取第二训练数据集；所述第二训练数据集中的每个第二训练数据包括所述第一大语言模型生成的指令和该指令在所述每个平分维度上的评分；

基于所述第二训练数据集对所述第一大语言模型进行训练，生成所述目标大语言模型。

在一种可选的实现方式中，所述获取第一训练数据集，包括：

获取所述中文公开指令集中的指令；

在所述中文公开指令集中的每条指令后添加指令，生成所述第一训练数据集。

在一种可选的实现方式中，所述获取第二训练数据集，包括：

获取所述第一大语言模型生成的多条指令；

获取所述第一大语言模型生成的多条指令中每条指令在所述多个评分维度中每个评分维度的分数；

基于所述第一大语言模型生成的多条指令中的每条指令和该指令在所述多个评分维度中每个评分维度的分数，生成所述第二训练数据集。

本申请第二方面提供了一种指令生成装置，包括：

第一指令集合生成模块，用于基于业务场景、与所述业务场景匹配的初始指令和目标大语言模型，生成第一指令集合；所述目标大语言模型是事先训练的、用于生成指令并为其生成的指令进行评分的大语言模型；

第一指令评分模块，用于基于所述第一指令集合和所述目标大语言模型，生成所述第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；

评估标准获取模块，用于获取评估标准；所述评估标准指示指令在所述多个评分维度中每个评分维度的分数均大于或等于该评分维度的预设的分数阈值；

目标指令集合生成模块，用于基于所述第一指令集合中符合所述评估标准的第一指令，生成目标指令集合。

在一种可选的实现方式中，所述目标指令集合生成模块，包括：

候选指令集合生成单元，用于基于所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合；

相似度计算单元，用于基于大语言模型确定所述候选指令集合中两个指令间的相似度；

目标指令集合生成单元，用于若所述两个指令间的相似度大于或等于预设的相似度阈值，则删除所述两个指令中综合评分更低的指令，获得中间指令集合；并将所述中间指令集合作为候选指令集合，返回执行所述基于大语言模型确定所述候选指令集合中两个指令间的相似度的步骤，直至候选指令集合中任意的两个指令间的相似度均小于所述预设的相似度阈值，得到所述目标指令集合；所述综合评分根据指令在所述多个评分维度中每个评分维度的分数生成。

本申请第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一实现方式介绍的方法的步骤。

本申请第四方面提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面任一实现方式介绍的方法的步骤。

相较于现有技术，本申请具有以下有益效果：

本申请将业务场景和与该业务场景匹配的初始指令输入到目标大语言模型中，生成第一指令集合；基于第一指令集合和目标大语言模型，生成第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；即在确定业务场景和初始指令后，通过目标大语言模型既生成了多个第一指令，还生成了每个第一指令在每个评分维度上的评分。基于第一指令集合中符合评估标准的较高质量的第一指令，生成目标指令集合。这样，在确定业务场景、初始指令和评估标准后，通过目标大语言模型可以一次性生成多个既符合特定业务场景的使用要求，又符合评估标准的高质量的目标指令。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种指令生成方法的流程图；

图2为本申请实施例提供的另一种指令生成方法的流程图；

图3为本申请实施例提供的一种获取目标大语言模型的流程图；

图4为本申请中实施例中提供的一种第一训练数据集中的指令的示意图；

图5为本申请实施例提供的一种第二训练数据集中的训练数据的示意图；

图6为本申请实施例提供的一种指令生成装置的结构示意图。

具体实施方式

自然大语言在有监督微调和实际使用阶段的指令建设过程中，需要大量的人力资源进行质量建设，但是由于不同算法人员的指令编写能力不同，导致生成的指令的质量参差不齐，影响大语言模型的模型训练效果和大语言模型在具体业务场景中的使用效果。

例如，在保险报案信息抽取业务场景中，假设需要抽取以下字段：报案人的地址信息和报案人的案件是否为单车事件等。在实际的大语言模型应用中，算法人员人工设计的指令一般如下所示：指令1、抽取该文段中的地址信息；指令2、请判断该文段的案件是否为单车事件；指令3、请判断报案人是否在现场。

上述指令很难满足大语言模型的使用要求。因为对于指令1而言，如果文段中出现多个地址信息，大语言模型会抽出多个地址信息；对于指令2而言，大语言模型很难理解什么叫单车事件，进而无法做出正确的判断；对于指令3而言，其指令描述太模糊，可以换一种更为直接清晰的表述方式。

从上可知，可以基于人工编写等方法生成大语言模型的指令，但人工编写工作效率较低，且人工编写的指令具有生成的指令的质量参差不齐和难以满足特定业务场景下的使用要求的诸多问题。因此，如何高效生成满足特定业务场景的使用要求的高质量指令，成为大语言模型领域亟待解决的技术问题之一。

本申请公开一种指令生成方法，包括将业务场景和与该业务场景匹配的初始指令输入到目标大语言模型中，生成第一指令集合；基于第一指令集合和目标大语言模型，生成第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；基于第一指令集合中符合评估标准的较高质量的第一指令，生成目标指令集合。这样，在确定业务场景、初始指令和评估标准后，通过目标大语言模型可以一次性生成多个既符合业务场景使用要求、又符合评估标准的目标指令；解决了人工编写指令中存在的指令质量参差不齐、难以满足特定业务场景下的使用要求和编写效率较低等诸多问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种指令生成方法的流程图。结合图1所示，本申请公开的指令生成方法，包括：

S101，基于业务场景、与所述业务场景匹配的初始指令和目标大语言模型，生成第一指令集合。

业务场景是指企业或用户在特定环境下的行为或活动。以保险企业为例，业务场景包括寿险业务场景、财产险业务场景、车险业务场景、责任险业场景务和绿色保险业务场景等诸多业务场景。可以理解的是，不同业务场景下需要完成的业务是不同的，不同业务场景下需要做的事情和需要收集的信息均是不相同的。

与业务场景匹配的初始指令是针对该业务场景需要完成的任务或工作，为大语言模型提供的指示或命令。初始指令的形式包括但不限于文本、示例、规则或提示。初始指令的内容可以涉及数据处理、分析和预测任务。

可以理解的是，将业务场景和与该业务场景匹配的初始指令输入到目标大语言模型中的目的，是为了指导目标大语言模型在该业务场景下执行特定的任务。

需要说明的是，本申请中不限定业务场景的具体类型，也不限定与业务场景匹配的初始指令的形式和内容。

本申请中的目标大语言模型是事先训练的、用于生成指令并为其生成的指令进行评分的大语言模型；即目标大语言模型一方面可以基于输入的业务场景和与该业务场景匹配的初始指令生成指令，还可以为其生成的指令进行评分。需要说明的是，本申请后续实施例中将详细介绍目标大语言模型的训练步骤。

S102,基于所述第一指令集合和所述目标大语言模型，生成所述第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数。

对于第一指令集合中的每个第一指令，将该第一指令输入到目标大语言模型中，目标大语言模型会生成该第一指令在多个评分维度中每个评分维度上的分数。

本申请中多个评分维度包括但不限于指令真实性、指令符合性和指令清晰性。其中，指令真实性是指指令中是否包含虚假信息；指令符合性是指指令中是否包含具体要求；指令清晰性是指指令文字的表述上是否清晰。

本申请中多个评分维度包括指令真实性、指令符合性和指令清晰性共三个维度。本领域技术人员可以根据实际使用需要更改评分维度的具体内容。

示例性地，如果第一指令集合中包括第一指令M，将第一指令M输入到目标大语言模型中，目标大语言模型会给出第一指令M在指令真实性这一评分维度的分数、在指令符合性这一评分维度的评分和在指令清晰性这一评分维度的评分。本申请中评分的分数范围是0-5分。本示例中第一指令M在指令真实性上的评分为5分，在指令符合性上的评分是4分，在指令清晰性上的评分是4分。

S103,获取评估标准。

本申请中评估标准指示指令在多个评分维度中每个评分维度的分数均大于或等于该评分维度的预设的分数阈值。例如，有3个评分维度，则每个指令在3个评分维度中每个评分维度上的分数都要大于或等于该评分维度的预设的分数阈值。只要指令在一个评分维度上的分数小于该评分维度上的预设的分数阈值，则认为指令不符合评估标准。

本申请中在指令真实性这一评分维度上的预设的分数阈值为4分，在指令符合性这一评分维度上的预设的分数阈值是4分，在指令清晰性这一评分维度上预设的分数阈值为4分。

需要说明的是，本领域技术人员可以根据实际需要对评估标准进行修正；还可以根据需要对各评分维度上预设的分数阈值进行修正。

S104,基于所述第一指令集合中符合所述评估标准的第一指令，生成目标指令集合。

本步骤中需要将第一指令集合中每个第一指令的在各评分维度上的分数与评估标准中规定的各评分维度上预设的分数阈值进行比较，判断第一指令是否符合评估标准。

接S102中的示例，第一指令集合中包括第一指令M，目标大语言模型给出第一指令M在指令真实性上的评分为5分，在指令符合性上的评分是4分，在指令清晰性上的评分是3分。

由于第一指令M在指令真实性上的评分为5分，本申请中规定的指令真实性这一评分维度预设的分数阈值是4分；第一指令M在指令符合性上的评分为4分，本申请中规定的指令符合性这一评分维度预设的分数阈值是4分；第一指令M在指令清晰性上的评分为4分，本申请中规定的指令清晰性这一评分维度预设的分数阈值是4分。第一指令M在多个评分维度中每个评分维度的分数均大于或等于该评分维度上的预设的分数阈值，所以确定第一指令M是符合评估标准的指令。

根据上述示例中的方法，可以依次判断第一指令集合中的每个第一指令是否符合评估标准；然后基于第一指令集合中符合评估标准的第一指令，生成目标指令集合。

在一种可选的实现方式中，所述基于所述第一指令集合中符合评估标准的第一指令，生成目标指令集合，包括：

基于所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合；

基于大语言模型确定所述候选指令集合中两个指令间的相似度；

具体而言，将第一指令集合中符合评估标准的第一指令，作为候选指令集合中的指令。例如，如果第一指令集合中有10个符合评估标准的第一指令，则可以基于上述10个符合评估标准的第一指令，生成候选指令集合。

由于候选指令集合中包括多个指令，这些指令中可能存在相似度较高的指令，而这些相似度较高的指令对大语言模型而言，起到的作用是相似的。从进一步生成高质量的指令角度而言，生成的指令集合中包括相似度太高的指令是无用的。

基于上述原因，本申请在获取候选指令集合后，会对候选指令集合中的指令进行如下处理，生成目标指令集合。具体的过程如下：

第一步，基于大语言模型，确定候选指令集合中两个指令间的相似度。本步骤中使用到的大语言模型既可以是本申请中的目标大语言模型，也可以是普通的大语言模型。

第二步，判断两个指令间的相似度是否大于预设的相似度阈值。本领域技术人员可以根据实际需要设定相似度阈值的具体数值；本申请中采用0.5作为相似度阈值。

第三步，若候选指令集合中两个指令间的相似度大于或等于预设的相似度阈值，则删除两个指令中综合评分更低的指令，获得中间指令集合。

本申请中的综合评分是根据指令在各维度上的评分生成的。综合评分的计算方法可以是将指令在各评分维度上的分数进行四则运算，例如将各评分维度上的分数相加得到。需要说明的是，本申请中只强调综合评分是根据指令在各评分维度上的评分生成的，不限定具体采用何种方式生成综合评分。

第四步，将中间指令集合作为候选指令集合，返回执行第一步的步骤，直至候选指令集合中任意的两个指令间的相似度均小于预设的相似度阈值，得到目标指令集合。

例如，可以从候选指令集合中获取两个指令，分别是指令A1：编写一段关于语言大模型的模型性能的简要评估报告。指令A2：编写一篇语言大模型的模型性能的用户使用测评。

将如下指令输入到大语言模型。具体为：“计算以下两个指令的相似程度，分数范围为0-1。指令1：编写一段关于语言大模型的模型性能的简要评估报告。指令2：编写一篇语言大模型的模型性能的用户使用测评。”大语言模型将会上述内容，生成指令A1和指令A2间的相似度。若候选指令集合中指令A1和指令A2间的相似度为0.7，本申请中预设的相似度阈值为0.5；则指令A1和指令A2属于极为相似的指令。本步骤中使用到的大语言模型既可以是本申请中的目标大语言模型，也可以是普通的大语言模型。

若候选指令集合中指令A1在指令真实性上的评分为4分，在指令符合性上的评分为4分，在指令清晰性上的评分为4分；指令A2在指令真实性上的评分为4分，在指令符合性上的评分为4分，在指令清晰性上的评分为5分；计算得到指令A1的综合评分为4+4+4＝12；指令A2的综合评分为4+4+5＝13；指令A2的综合评分高于指令A1的综合评分；保留候选指令集合中的指令A2，删除候选指令集合中的指令A1，得到中间指令集合。

将中间指令集合作为候选指令集合，再按照第一步到第四步的方法删除候选指令集合中相似度较高的两个指令中综合评分较低的指令，直到候选指令集合中的任意的两个指令间的相似度均小于预设的相似度阈值，生成目标指令集合。

可以理解的是，如果候选指令集合中不存在相似度大于或等于预设的相似度阈值的两个指令，则直接将从第一指令集合中筛选出的所有的符合评估标准的第一指令作为目标指令集合中的指令。

可以理解的是，将相似相较高的两个指令中综合评分较低的指令删除的目的是，使得目标指令集合中的指令均是符合业务场景使用要求，且相互之间相似度不高，能起到不同作用的指令。

综上所述，本申请公开了一种指令生成方法，包括将业务场景和与该业务场景匹配的初始指令输入到目标大语言模型中，生成第一指令集合；基于第一指令集合和目标大语言模型，生成第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；基于第一指令集合中符合评估标准的较高质量的第一指令，生成目标指令集合。这样，在确定业务场景、初始指令和评估标准后，通过目标大语言模型可以一次性生成多个既符合业务场景使用要求又符合评估标准的目标指令。

图2为本申请实施例提供的另一种指令生成方法的流程图。结合图2所示，本申请公开的另一种指令生成方法，包括：

S201，基于业务场景、与所述业务场景匹配的初始指令和目标大语言模型，生成第一指令集合。

S202,基于所述第一指令集合和所述目标大语言模型，生成所述第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数。

S201-S202中的步骤参见S101-S102中的描述，此处不再赘述。

S203,判断所述第一指令集合中的每个第一指令是否符合评估标准。

按照S103和S104Z中的内容判断第一指令集合中的每个第一指令是否符合评估标准。若符合评估标准，进入S204；若不符合评估标准，进入S206。

S204，获取所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合。

S205,基于所述候选指令集合，生成目标指令集合。

S204-S205中的步骤参见S104中的描述，此处不再赘述。

S206,判断所述第一指令集合中不符合所述评估标准的第一指令是否符合筛选标准。

本申请中的筛选标准指示当指令在目标评分维度的分数低于该指令在目标评分维度的预设的分数阈值时，该指令在目标评分维度的分数与该指令在目标评分维度的预设的分数阈值间的差值的绝对值小于或等于预设的目标阈值。其中，目标评分维度是本申请中多个评分维度中的任一个评分维度。

例如，本申请中的筛选标准可以是：指令真实性这个评分维度的分数大于或等于评估标准中指令真实性这个评分维度的预设的分数阈值，指令符合性这个评分维度的分数大于或等于评估标准中指令符合性这个评分维度的预设的分数阈值，但指令清晰性这个评分维度的分数与评估标准中指令真实性这个这个维度的预设的分数阈值的差值的绝对值不大于预设的目标阈值。本申请中设定目标阈值是1；本领域技术人员可以根据实际需要确定目标阈值的具体数值。

本步骤中要判断第一指令集合中不符合评估标准的第一指令是否符合筛选标准，如果符合筛选标准，则进入S207；否则，直接删除该指令。

S207,将从所述第一指令集合的不符合所述评估标准的第一指令中，但符合所述筛选标准的第一指令，作为高潜力指令。

本申请中多个评分维度包括指令真实性、指令符合性和指令清晰性。本申请中在指令真实性上预设的分数阈值为4分，在指令符合性上预设的分数阈值是4分，在指令清晰性上预设的分数阈值为4分。本申请中设定的目标阈值是1。

当第一指令集合中的第一指令不符合评估标准，但是其在小于预设的分数阈值的评分维度(即目标评分维度)上的分数不低于3分，即该指令在目标评分维度上的分数与该指令在目标评分维度的预设分数阈值间的差值的绝对值不大于(小于或等于)目标阈值，则认为该指令是高潜力指令。

本申请中的高潜力指令主要是指:指令真实性的分数大于或等于4分，且指令符合性的分数大于或等于4分，但指令清晰性上的分数小于3分的指令。本领域技术人员可以根据实际需要设定什么样的指令是高潜力指令。可以理解的是，高潜力指令只要经过修正，例如，提升指令清晰性这个评分维度上的评分，也可以作为候选指令集合中的指令。

S208,基于所述目标大语言模型对所述高潜力指令进行至少一次修正，直至生成符合所述评估标准的修正指令。

将指令““改写指令“编写一篇自然语言大模型的模型能的用户使用测评。”使得该指令的对象更明确、更简要、更清晰。”输入到目标大语言模型中，生成第二指令；基于第二指令和目标大语言模型，生成第二指令的在每个评分维度的评分。若该指令符合本申请实施例中提到的评估标准，则将第二指令作为修正指令；否则再基于目标大语言模型对高潜指令进行修正，直至生成符合评估标准的修正指令。

S209,基于所述第一指令集合中符合所述评估标准的第一指令和所述修正指令，生成候选指令集合。

具体而言，将修正指令添加到S204中候选指令集合中，生成新的候选指令集合；将新的候选指令作为S205中的候选指令集合，执行S205中的步骤，获得目标指令集合。

综上所述，图2中所示的另一种指令生成方法与图1中的指令生成方法相比，利用到了第一指令集合中的不符合评估标准，但符合筛选标准的高潜力指令。对高潜力指令进行修正后得到修正指令，将修正指令加入到候选指令集合中，增加了候选指令集合的丰富性，可以更好地生成符合特定业务场景使用要求的高质量的目标指令。

图3为本申请实施例提供的一种获取目标大语言模型的流程图。结合图3所示，本申请提供的目标大语言模型的训练步骤包括：

S301,获取第一训练数据集。

本申请中的第一训练数据集是基于中文公开指令集中的指令生成的。具体而言，可以收集NLP是自然语言处理(Natura l Language Process ing)的中文公开指令集，如COIG或COIG-PC；将收集到的指令集中每条指令后添加指令，生成第一训练数据集中指令，本申请中的第一训练数据集也称为大模型指令生成有监督微调所用的数据。

图4为本申请中实施例中提供的一种第一训练数据集中的指令的示意图。结合图4所示，将指令“{"报告编写指令"："编写一段关于自然语言大模型的模型性能的简要评估报告"”填写到原有的指令数据集中的指令后，得到了对应的第一训练数据集中的指令。

S302,基于第一训练数据集对待训练大语言模型进行训练，生成第一大语言模型。

在获得第一训练数据集后，将第一训练数据集中的数据放入待训练大语言模型的有监督微调阶段，训练得到具备初步的指令自生成能力的第一大语言模型。由于该过程是本领域技术人员熟知的内容，所以本申请中不对此内容做更多赘述。

S303,获取第二训练数据集。

第二训练数据集中的每个第二训练数据包括第一大语言模型生成指令和该指令对应的评分。

在基于第一大语言模型和输入指令得到多个指令后，可以人为地对第一大语言模型生成的多个指令中的每个指令在多个维度中的每个维度上进行评分。

为方便理解，本申请中通过下述示例对第一大语言模型生成的多个指令中的每个指令在多个维度中的每个维度上进行评分的过程进行介绍。

首先，将“生成一条报告编写指令，编写要求：简要、关于大语言模型”的指令输入到第一大语言模型中；生成如下四条指令，分别是：

(1)编写一段关于自然语言大模型的模型性能的简要评估报告。

(2)编写一篇自然语言大模型的模型性能的用户使用测评。

(3)编写一篇自然语言大模型的宣传稿。

(4)编写一篇简单的文心一言的发布宣传稿。

然后，人工在各评分维度为生成的四条指令中的每条指令进行评分。评分结果如下表1所示：

表1

最后，根据人工打分结果，利用生成的四条指令和每条指令的评分结果，生成第二训练数据集；本申请中第二训练数据集中的数据也称为大模型指令评分的有监督微调的数据。图5为本申请实施例提供的一种第二训练数据集中的训练数据的示意图。

S304,基于第二训练数据集对所述第一大语言模型进行训练，生成所述目标大语言模型。

在获得第二训练数据后，可以将第二训练数据集中的数据放入第一大语言模型的有监督微调阶段，得到具备指令评分能力的目标大语言模型。

基于前述实施例提供的一种指令生成方法，本申请中还公开了一种指令生成装置。图6为本申请实施例提供的一种指令生成装置的结构示意图。结合图6所示，本申请公开的指令生成装置600，包括：

第一指令集合生成模块601，用于基于业务场景、与所述业务场景匹配的初始指令和目标大语言模型，生成第一指令集合；所述目标大语言模型是事先训练的、用于生成指令并为其生成的指令进行评分的大语言模型；

第一指令评分模块602，用于基于所述第一指令集合和所述目标大语言模型，生成所述第一指令集合中每个第一指令在多个评分维度中每个评分维度的分数；

评估标准获取模块603，用于获取评估标准；所述评估标准指示指令在所述多个评分维度中每个评分维度的分数均大于或等于该评分维度的预设的分数阈值；

目标指令集合生成模块604，用于基于所述第一指令集合中符合所述评估标准的第一指令，生成目标指令集合。

在一种可选的实现方式中，目标指令集合生成模块604，包括：

候选指令集合生成单元，用于基于所述第一指令集合中符合所述评估标准的第一指令，生成候选指令集合；

相似度计算单元，用于基于大语言模型确定所述候选指令集合中两个指令间的相似度；

在一种可选的实现方式中，指令生成装置600，还包括：

筛选标准获取模块，用于获取筛选标准；所述筛选标准指示当指令在目标评分维度的分数低于该指令在所述目标评分维度的预设的分数阈值时，该指令在所述目标评分维度的分数与该指令在所述目标评分维度的预设的分数阈值间的差值的绝对值小于或等于预设的目标阈值；所述目标评分维度是所述多个评分维度中的任一个评分维度；

高潜指令生成模块，用于从所述第一指令集合的不符合所述评估标准的第一指令中，筛选出符合所述筛选标准的第一指令，作为高潜力指令；

修正指令获取模块，用于基于所述目标大语言模型对所述高潜力指令进行至少一次修正，直至生成符合所述评估标准的修正指令；

所述候选指令集合生成单元，包括：

候选指令生成子单元，用于基于所述第一指令集合中符合所述评估标准的第一指令和所述修正指令，生成候选指令集合。

在一种可选的实现方式中，指令生成装置600还包括：

第一数据集获取模块，用于获取第一训练数据集；所述第一训练数据基于中文公开指令集中的指令生成；

第一大语言模型训练模块，用于基于所述第一训练数据集对待训练大语言模型进行训练，生成第一大语言模型；所述第一大语言模型用于根据输入到所述第一大语言模型中的数据生成指令；

第二数据集获取模块，用于获取第二训练数据集；所述第二训练数据集中的每个第二训练数据包括所述第一大语言模型生成的指令和该指令在所述每个平分维度上的评分；

目标大语言模型训练模块，用于基于所述第二训练数据集对所述第一大语言模型进行训练，生成所述目标大语言模型。

在一种可选的实现方式中，第一数据集获取模块，包括：

中文指令集获取单元，用于获取所述中文公开指令集中的指令；

第一数据集获取单元，用于在所述中文公开指令集中的每条指令后添加指令，生成所述第一训练数据集。

在一种可选的实现方式中，第二数据集获取模块，包括：

指令获取单元，用于获取所述第一大语言模型生成的多条指令；

分数获取单元，用于获取所述第一大语言模型生成的多条指令中每条指令在所述多个评分维度中每个评分维度的分数；

第二数据集获取单元，用于基于所述第一大语言模型生成的多条指令中的每条指令和该指令在所述多个评分维度中每个评分维度的分数，生成所述第二训练数据集。

基于前述实施例提供的指令生成方法和装置，相应地，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文提及的指令生成方法中的部分或全部步骤。

基于前述实施例提供的指令生成方法和装置，本申请还提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现前述实施例提供的指令生成方法中的部分或全部步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：太保科技有限公司;

上一篇：文案生成方法、装置、电子设备及存储介质
下一篇：一种通过大模型自动生成文书的方法及系统