掌桥专利:专业的专利平台
掌桥专利
首页

用于样本生成的方法、装置、设备和存储介质

文献发布时间:2024-04-18 19:59:31


用于样本生成的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及计算机技术领域,特别地涉及用于样本生成的方法、装置、设备和计算机可读存储介质。

背景技术

随着机器学习、深度学习技术进步,机器学习模型已经在许多领域中获得广泛应用,用于自然语言处理、语音、视频/图像等相关任务。模型的性能和输出质量会依赖于训练样本的全面、多样和准确性。对于特定任务下的模型,期望能够以较低成本获得更多符合要求的训练样本进行模型训练或调整。

发明内容

在本公开的第一方面,提供了一种用于样本生成的方法。该方法包括:确定至少一个数据样本,至少一个数据样本被划分到第一类别;基于至少一个数据样本的特征信息,生成针对第一类别的第一评估准则;基于至少一个数据样本和第一评估准则来构建第一提示词输入,第一提示词输入至少用于引导第一模型生成符合第一评估准则的数据样本;以及通过将第一提示词输入提供给第一模型,获得由第一模型输出的至少一个另外的数据样本,至少一个另外的数据样本属于第一类别。

在本公开的第二方面,提供了一种用于样本生成的装置。该装置包括:样本确定模块,被配置为确定至少一个数据样本,至少一个数据样本被划分到第一类别;准则生成模块,被配置为基于至少一个数据样本的特征信息,生成针对第一类别的第一评估准则;提示词构建模块,被配置为基于至少一个数据样本和第一评估准则来构建第一提示词输入,第一提示词输入至少用于引导第一模型生成符合第一评估准则的数据样本;以及扩展样本获得模块,被配置为通过将第一提示词输入提供给第一模型,获得由第一模型输出的至少一个另外的数据样本,至少一个另外的数据样本属于第一类别。

在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

在本公开的第四方面,提供了一种计算机可读存储介质。该介质上存储有计算机程序,计算机程序被处理器执行时实现第一方面的方法。

应当理解,该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了能够在其中实现本公开的实施例的示例环境的示意图;

图2示出了根据本公开的一些实施例的样本生成的示例架构的框图;

图3示出了根据本公开的一些实施例的用于样本生成的处理流的示意图;

图4示出了根据本公开的一些实施例的用于样本生成的过程的流程图;

图5示出了根据本公开的一些实施例的用于样本生成的装置的框图;以及

图6示出了其中可以实现本公开的一个或多个实施例的电子设备。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获得或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获得和使用到用户的个人信息,从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式,例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。

可以理解的是,上述通知和获得用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其他满足相关法律法规的方式也可应用于本公开的实现方式中。

如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。

通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,以测试模型是否能够提供正确的输出,从而确定模型的性能。测试阶段有时候可以被融合在训练阶段。在应用阶段,已训练的模型可以被用于基于训练得到的参数值,对实际的模型输入进行处理,确定对应的模型输出。

如前文提及的,在基于模型的任务处理中,模型的性能和输出质量会依赖于训练样本的全面、多样和准确性。

图1示出了能够在其中实现本公开的实施例的模型训练和应用环境100的示意图。在图1的环境100中示出了模型的三个不同阶段,包括预训练阶段102、微调阶段104和应用阶段106。在预训练或微调阶段完成后还可以有模型的测试/验证阶段,图中未示出。

在预训练阶段102,模型预训练系统110被配置为利用训练数据集112来执行模型105的预训练。模型105可以基于要处理的任务而被配置有对应的模型结构。

在预训练开始时,模型105可以具有初始参数值。预训练过程是要基于训练数据来将模型105的参数值更新到期望值。在预训练过程中,可以设计一个或多个预训练任务107-1、107-2等。预训练任务用于帮助对模型105的参数更新。某些预训练任务会需要将模型105连接到与预训练任务相关的输出层。

在预训练阶段102,可以通过大规模训练数据来使模型105学习到强大的泛化能力。在预训练完成后,模型105的参数值已经被更新,具有预训练的参数值。经预训练的模型105可以较为准确提取特征表示。

经预训练的模型105可以被提供到微调阶段104,由模型微调系统120针对不同下游任务进行微调。下游任务可以涉及各类视觉任务,例如文本生成、图像分类、目标检测、语义分割等。在一些实施例中,取决于具体下游任务,可以将预训练的模型105连接到下游任务需要的输出层127,从而构建下游任务模型125。这是因为对于不同下游任务,需要的输出可能不同。

在微调阶段104,进一步利用训练数据集122来调整模型105的参数值。需要的话,可能还可以调整输出层127的参数。模型105可以对模型输入执行特征表示的提取,并提供到输出层127,以提供对应任务的输出。

微调时也利用相应的训练算法来更新和调整整体模型的参数。由于模型105已在预训练阶段从训练数据中学习到很多知识,因此在微调阶段104利用少量的训练数据便可获得符合期望的下游任务模型。

在应用阶段106,所获得的下游任务模型125具有已训练的参数值,可以被提供给模型应用系统130来使用。在应用阶段106,可以利用下游任务模型125来处理实际场景中的对应输入,并且提供相应的输出。

在图1中,模型预训练系统110、模型微调系统120和模型应用系统130可以包括具有计算能力的任何计算系统,例如各种计算设备/系统、终端设备、服务器等。终端设备可以涉及任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。

应当理解,图1示出的环境100中的部件和布置仅仅是示例,适于用于实现本公开所描述的示例性实现方式的计算系统可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如,虽然被示出为是分离的,但模型预训练系统110、模型微调系统120和模型应用系统130可以集成在相同系统或设备中,或者分布在云计算环境中。本公开的实现方式在此方面不受限制。

在一些实施例中,模型105的训练阶段可以不划分为图1所示的预训练阶段和微调阶段,而是可以直接配置具体的下游任务模型并利用大量训练数据来训练该模型。

结合图1可以看出,在获得可使用的模型之前,需要利用训练数据(例如,训练数据集112、122)来完成模型训练。

传统的数据样本采集和标注流程成本高昂且耗时。这主要是因为该流程通常需要大量人力来收集、处理和添加数据标签。数据标注过程可能会牵涉到跨越多个领域的专家或不具备相关背景的人员,这会影响到样本的质量和准确性。此外,在数据标注过程中,可能还需要执行多次校验以确保标标注结果的正确性。所有这些因素加起来使得传统的数据标注过程难以适应大规模、高效的数据生成需求。

当前,已开发出一些可用的生成式模型,用于实现新数据生成。生成式模型可以自动地根据输入内容来生成有意义的、连贯的内容,包括自然语言文本、图像、音频、视频等。生成式模型可以包括语言模型,以理解来自用户的自然语言输入或其他输入。生成式模型还可以包括其他类型的模型,以分析和理解其他模态(例如,图像、视频、音频)的输入内容。

在基于模型的数据生成过程中,模型输出的数据可能会受到其训练数据集的限制,导致所输出的数据带有一定偏见或无法覆盖任务所需的全面信息。因此,在利用模型来生成数据时,需要有效手段来确保生成数据的质量及其可靠性,这也是当前面临的挑战之一。

考虑到传统数据标注流程繁琐、成本高以及数据准确性不足等问题,在本公开的实施例中,提供了改进的样本生成的方案。该方案利用模型的数据生成能力,基于可用的数据样本来自动扩充出更多的数据样本。为了确保模型输出的数据样本的质量,在本公开的方案中,根据相应类别下的数据样本的特征,生成数据质量的评估准则。基于可用的数据样本和所生成的评估准则来构建提示词输入,第一提示词输入至少用于引导模型生成符合第一评估准则的数据样本。然后,基于可用的数据样本和提示词输入,借助模型来生成更多的数据样本。

根据该方案,借助模型的数据生成能力,同时引入针对数据样本的评估准则,实现在少量甚至无人参与的情况下自动扩展出大量的高质量数据样本,以用于后续的模型训练、微调、监测等等。这样,通过自动化和基于模型的技术,可以在减轻人工样本标注负担的同时,提高数据生成质量和效率。

以下将参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的样本生成的示例架构200的框图。在图2中,电子设备215被配置为实现数据样本的自动扩充。

电子设备215接收待扩充的数据样本集210,其包括一个或多个数据样本212-1、212-2、……212-N(统称为或单独称为数据样本212)。数据样本212的数目N可以是大于等于1的整数。数据样本212可以被认为是适于模型训练的高质量数据样本。在本公开的实施例中,可以支持在少量已有数据样本的基础上扩充更多的数据样本。因此,对于数据样本212的数目可以不做限制。

在一些实施例中,数据样本212可以由用户202提供或输入。例如,用户202可以通过各种方式获得以被标注为质量符合模型训练要求的数据样本。在其他实施例中,数据样本212也可以通过任何其他适当的方式获得。数据样本212有时也可被称为待扩充的数据样本。

电子设备215进一步被配置为在可用的一个或多个数据样本212基础上,扩展出更多质量符合要求的数据样本。特别地,电子设备215按照数据样本212所属的一个或多个类别,按类别来扩充数据样本。

假设数据样本集210中数据样本212包括K个类别(K是大于等于1的整数)。电子设备215基于数据样本集210中属于第一类别(类别1)的数据样本212,生成扩充数据样本集230-1,其包括一个或多个数据样本232-1、232-2、……232-L(统称为或单独称为数据样本232。电子设备215基于数据样本集210中属于第二类别(类别2)的数据样本212,生成扩充数据样本集230-2,其包括一个或多个数据样本234-1、234-2、……234-K(统称为或单独称为数据样本234。以此类推,电子设备215基于数据样本集210中属于第M类别(类别M)的数据样本212,生成扩充数据样本集230-M,其包括一个或多个数据样本236-1、236-2、……236-K(统称为或单独称为数据样本236。扩充数据样本集230-1、230-2、……230-M可以统称为或单独称为扩充数据样本集230。

在本公开的实施例中,借助模型的数据生成能力来实现数据样本的扩充。电子设备215使用模型220,基于已有的数据样本212来生成扩充数据样本集230。模型220可以是具备数据生成能力的任意模型,能够响应于模型输入来生成一个或多个模态下的数据,诸如生成文本、图像、语音等数据。在一些实施例中,模型220可以至少包括语言模型,以支持对自然语言形式的模型输入的理解。这样,通过方便地输入自然语言形式的输入,就能描述对数据生成的要求,让模型据此来生成对应的内容。

通常,在基于模型的数据生成过程中,提示词(prompt)的构建是保证生成数据质量和可靠性的重要步骤之一。提示词指的是与模型进行互动所使用的信息,目的在于引导或触发模型产生相应的回应或行动。提示词,也称为提示词输入,可以被输入给模型以来使用。例如,在基于生成式模型构建的聊天机器人场景中,聊天机器人会分析用户输入的消息,并构建提示词输入来引导模型产生适当的答复,诸如回答、提问或建议等。这取决于模型的训练和设计。提示词输入可以是任何类型的文本形式,只要能够有效引导模型生成对应的回复。

提示词工程主要关注于设计和优化提示词,以引导模型生成期望的回复,当前已有一些提示词工程的实现方案。

然而,现有的提示词生成方法,均无法被直接用于满足数据样本扩充的需要,不能够生成有针对性的、满足数据质量要求的数据样本。

在本公开的实施例中,通过自动分析符合任务需求的待扩充数据样本的特征,同时有效利用提示词技术,来引导模型220生成符合数据质量评估准则的数据样本。具体地,电子设备215基于对于特定类别下的至少一个数据样本212的特征信息,生成针对该类别的评估准则。然后,基于至少一个数据样本212和所生成的评估准则来构建提示词输入,提示词输入至少用于引导模型220生成符合评估准则的数据样本。通过向模型提供基于数据特征所获得的评估准则,可以引导模型生成符合要求的高质量数据样本。然后,所生成的提示词被输入提供给模型220,获得由模型220输出的至少一个另外的数据样本(即,基于模型扩充的数据样本)。此时得到的数据样本属于所使用的数据样本212的类别。对于每个类别的数据样本212,均可以按照前述过程来扩充对应的数据样本。

根据该方案,在借助模型的自动化数据生成的同时,能够生成符合特定任务需求的数据,确保所生成的数据样本的质量。

一个或多个扩充数据样本集230中的数据样本(结合或不结合各个类别下的数据样本232)可以被提供用于后续使用。如图2所示,一个或多个扩充数据样本集230中的数据样本可以被提供给电子设备240,用于训练或微调目标模型250。目标模型250可以是任何期望训练得到的模型。通常,数据样本212的类型可以取决于要应用数据样本的目标模型250的模型输入要求。扩充得到的数据样本232、234、236等的类型与数据样本212保持一致。

在一些实施例中,训练或微调目标模型250所需要的训练数据是文本模态,那么数据样本212、数据样本232、234、236等均是文本模态的数据样本。例如,目标模型250可以是基于语言模型的文本生成模型。期望将目标模型250训练或微调为能够实现在特定场景、行业、领域内的文本生成任务。相应地,需要利用属于特定场景、行业、领域内的大量文本样本来进行模型更新。

在一些实施例中,训练或微调目标模型250所需要的训练数据是图像模态,那么数据样本212、数据样本232、234、236等均是图像模态的数据样本。例如,目标模型250可以是基于语言模型和图像处理模型的图像生成模型。期望将目标模型250训练或微调为能够实现在特定场景、行业、领域内的图像生成任务。相应地,需要利用属于特定场景、行业、领域内的大量图像样本来进行模型更新。

当然,本公开的实施例对于扩充后得到的数据样本的后续各种使用不做限制。

在图2的架构200中,电子设备215和/或电子240可以包括具有计算能力的任何计算系统,例如各种计算设备/系统、终端设备、服务器等。虽然被示出为是分离的,但电子设备215和电子240可以集成在相同系统或设备中,或者分布在云计算环境中。本公开的实现方式在此方面不受限制。

下文将结合图3来详细描述电子设备215处的数据样本生成过程。图3示出了根据本公开的一些实施例的用于样本生成的处理流300的示意图。处理流300例如可以由电子设备215处实现。

如图3所示,在处理流300的数据分类310的阶段,对数据样本集210中的数据样本212执行数据分类。针对不同类别的数样本,可以执行更有针对性的数据样本扩充和后续质量评估。这是因为,对于不同模型任务,所需要的训练数据的类别可能是不一样的,通过按类别来进行后续数据生成过程,可以确保最终生成的数据样本符合任务需求。

在数据分类310的阶段,电子设备215可以基于数据样本集210中各个数据样本212的特征信息对数据样本212进行分类。在一些实施例中,电子设备215可以提取每个数据样本212的特征,并根据提取的特征来对全部数据样本212进行聚类。基于聚类结果来确定将数据样本集210中各个数据样本212划分为一个或多个类别。这样,可以得到每个类别下的数据样本212,包括第一类别下的至少一个数据样本212,第二类别下的至少一个数据样本212,……、第K类别下的至少一个数据样本212。通过聚类而不是固定分类的方法,可以更灵活地提取数据特征,并且可以有效提升后续按类别扩充的数据样本的质量。

在一些实施例中,对数据样本212的分类可以借助模型220来实现。模型220可以被部署在电子设备215处,或者可以被远程部署并由电子设备215可调用。对于数据样本集210中的每个数据样本212,电子设备215可以基于该数据样本212来构建第二提示词输入,第二提示词输入至少用于引导模型220通过分析该数据样本212的特征信息来确定该数据样本的类别。通过将第二提示词输入提供给模型220,电子设备215可以获得由模型220输出的分类结果,分类结果指示数据样本的类别。这样,可以借助模型根据输入的数据样本进行自动分类。通过引导模型对将用户输入的数据样本进行分类,可以更灵活、准确地实现数据分类,更好地保证后续的高质量数据生成。

在一些实施例中,除了模型220之外,还可以利用任何其他适当的分类器模型来执行数据分类310。分类器模型指的是被特别训练用于实现数据分类任务的模型。分类器模型的选择可以基于数据样本212的类型,例如可以选择适合于文本分类的分类器模型,或适合于图像分类的分类器模型。

在一些实施例中,数据分类310的执行可以是可选的。例如,用户202可以按类别提供待扩充的数据样本212,那么可以认为数据样本集210中的数据样本212均属于同一类别。又例如,可以由用户202指定或通过其他方式标注数据样本212的类别。

在确定每个类别下的数据样本212后,在准则生成320的阶段,电子设备215可以基于该类别下的至少一个数据样本212的特征信息,生成针对该类别的评估准则。例如,对于第一类别(类别1),可以生成针对该类别的第一评估准则;对于第二类别(类别2),可以生成针对该类别的第二评估准则,以此类推。在本公开的实施例中,待扩充的数据样本212被认为是符合模型训练任务需求的高质量数据样本,因此通过提取这样的数据样本的特征,可以分析和确定出对于该类别下的数据样本的评估准则。

在一些实施例中,如果一个类别下的数据样本212的数目超过一个,电子设备215可以提取该类别下各个数据样本212的特征信息(也称为关键特征点),并基于所提取的特征信息来生成针对该类别的评估准则。

在一些实施例中,在准则生成320的阶段也可以借助模型220来实现。对于特定类别,电子设备215可以基于该类别下的至少一个数据样本212来构建第三提示词输入,第三提示词输入至少用于引导模型220通过分析至少一个数据样本212的特征信息来确定该类别的评估准则。然后,电子设备215可以将第三提示词输入提供给模型220,并获得由模型220输出的评估准则。

为便于理解,以下给出了基于数据样本生成评估准则的示例。以下表1中给出了一个类别下的数据样本(单个数据样本)。表2给出了模型220的输出结果,其指示评估准则。

表1

表2

在一些实施例中,除了模型220之外,还可以利用任何其他适当的方式来生成针对每个类别的评估准则。例如,可以通过提取每个类别下的数据样本212的关键特征,并通过聚合该类别下各个数据样本212的关键特征来获得评估准则。

在确定各个类别的评估准则后,电子设备215可以执行按类别来执行提示词构建330,以用于样本生成。对于特定类别,电子设备215基于该类别下的至少一个数据样本212和该类别对应的评估准则来构建第一提示词输入,第一提示词输入至少用于引导模型220生成符合对应的评估准则的数据样本。例如,第一提示词模型可以引导模型220基于该类别下的数据样本212进行文本仿写或图像生成,且要求所生成的文本或图像符合对应的评估准则。

在一些实施例中,第一提示词输入指示模型220以至少一个数据样本212作为数据样本生成的示例。也就是说,每个类别下的至少一个数据样本212可以被包括在第一提示词输入中,以提供作为模型220扩充样本的示例。如果每个类别包括多个数据样本212,可以选择其中一个或多个数据样本212被包括在提示词输入中,或者可以将全部的多个数据样本212都包括在提示词输入中。在提示词输入中,不同数据样本212可以用特定符号来分隔。在一些实施例中,第一提示词输入还可以指示所提供的数据样本的类别。在一些实施例中,第一提示词输入还可以指示第一模型输出的数据样本的数目。

为便于理解,以下表3给出了基于数据样本生成评估准则的示例。

表3

在一些实施例中,对于每个类别,可以构建具有多个不同的提示词输入,这些提示词输入的形式可以彼此区别。针对每个类别所构建的提示词输入可以被存储在提示词库332中。

在确定各个类别的评估准则和构建提示词输入后,电子设备215可以执行按类别的样本扩充340。通过将第一提示词输入提供给模型220,获得由模型220输出的至少一个另外的数据样本,至少一个另外的数据样本属于所使用的数据样本212的类别。例如,基于第一类别下的数据样本212,可以生成第一类别(类别1)的数据样本232;基于第一类别下的数据样本212,可以生成第二类别(类别2)的数据样本234;以此类推。

表4给出了基于表3的提示词输入来扩充的数据样本。注意,虽然此处给出了单个数据样本,但根据需要,可以要求模型220生成更多个数据样本。

表4

在一些实施例中,还可以对所生成的数据样本的质量进行评估。对于每个类别下扩充出的数据样本,电子设备215可以基于该类别对应的评估准则来评估扩充出的数据样本各自的质量等级。在一些实施例中,如果评估准则指示高质量的数据样本要满足的一个或多个方面,可以对扩充出的数据样本的这些方面逐个评分,并就每个方面的评分来确定该数据样本的质量等级。

在一些实施例中,样本评估350也可以利用目标模型220来实现。电子设备215可以基于每个类别对应的评估准则来生成第四提示词输入,第四提示词输入用于引导模型220按照该评估准则来评估该类别下扩充的数据样本的质量。电子设备215可以将第四提示词输入提供给模型220。在一些示例中,第四提示词输入还可以指示数据样本的质量的等级划分,例如可以指示按预定质量得分来对每个数据样本进行质量评估。电子设备215可以获得由模型220输出的对于每个数据样本的质量等级。

进一步地,电子设备215可以从每个类别中筛选出质量等级满足质量要求的数据样本来提供给用户。质量要求可以指示质量等级阈值,且超过或等于该质量阈值的数据样本可以被提供作为后续使用。这样可以进一步确保所扩充的数据样本的质量。

在一些实施例中,数据样本的评估结果还可以用于从样本生成的提示词库332中筛选掉不合格的提示词输入,实现对提示词的迭代优化。处理流300还可以包括样本评估350的阶段,以对样本扩充340的阶段所生成的数据样本的质量进行评估。

在样本评估350的阶段,电子设备215可以基于至少一个另外的数据样本各自的质量等级来调整对应的提示词输入。举例而言,如果基于某个提示词输入所生成的数据样本的质量等级全部或大部分不符合预定的质量要求,那么电子设备215可以确定该提示词输入需要进一步优化。电子设备215可以对提示词库332中的提示词库332中的提示词输入进行调整。电子设备215可以利用调整后的提示词输入再次执行样本扩充340,直到扩充出的符合质量要求的数据样本能够满足预定的数据生成目标,例如符合要求的数据样本的数目满足预定阈值。

注意,虽然在图2和图3的实施例中,示出了使用单个的模型220用于实现数据分类、准则生成、样本扩充和样本评估等各阶段的处理,但在其他实施例中,可以在全部阶段或多个阶段中可以选择使用相同或不同的模型来实现数据分类、准则生成、样本扩充和样本评估。

根据本公开的实施例,针对用户输入的待扩充数据样本,可以从数据格式、任务分类、行文风格等多方面特征自动生成贴近数据特征的评估标准,使数据评估结果更置信,从而获得模型生成的质量更可靠的数据样本。由此,可以基于少量符合任务需求的待扩充数据样本,提取特征并进行数据样本扩充,可以在保证样本质量与可靠性的同时,降低人工标注的成本。此外,在数据样本生成过程中,均是根据任务需求,按类别来扩充数据样本,使得每个类别下的图4示出了根据本公开的一些实施例的用于样本生成的过程400的流程图。过程400可以被实现在图2的电子设备215和/或电子设备240处。

在框410,电子设备215确定至少一个数据样本,至少一个数据样本被划分到第一类别。在框420,电子设备215基于至少一个数据样本的特征信息,生成数据质量的第一评估准则。在框430,电子设备215基于至少一个数据样本和第一评估准则来构建第一提示词输入,第一提示词输入至少用于引导第一模型生成符合第一评估准则的数据样本。

在框440,电子设备215通过将第一提示词输入提供给第一模型,获得由第一模型输出的至少一个另外的数据样本,至少一个另外的数据样本属于第一类别。

在一些实施例中,确定至少一个数据样本包括:获得数据样本集,数据样本集包括多个数据样本;基于数据样本集中各个数据样本的特征信息,将数据样本集中各个数据样本划分为至少一个类别,至少一个类别包括第一类别;以及获得数据样本集中被划分到第一类别中的至少一个数据样本。

在一些实施例中,将数据样本集中各个数据样本划分为至少一个类别包括:对于数据样本集中的数据样本,基于数据样本来构建第二提示词输入,第二提示词输入至少用于引导第二模型通过分析数据样本的特征信息来确定该数据样本的类别;以及通过将第二提示词输入提供给第二模型,获得由第二模型输出的分类结果,分类结果指示数据样本的类别。第二模型可以与第一模型相同,或者不同于第一模型。

在一些实施例中,生成针对第一类别的第一评估准则包括:基于至少一个数据样本来构建第三提示词输入,第三提示词输入至少用于引导第三模型通过分析至少一个数据样本的特征信息来确定第一类别的第一评估准则;以及通过将第三提示词输入提供给第三模型,获得由第三模型输出的第一评估准则。第三模型可以与第一模型或第二模型相同,或者不同于第一模型和第二模型。

在一些实施例中,第一提示词输入还指示以下至少一项:第一类别,以至少一个数据样本作为数据样本生成的示例。

在一些实施例中,过程400还包括:基于第一评估准则,确定至少一个另外的数据样本各自的质量等级;以及将至少一个另外的数据样本中质量等级满足质量要求的数据样本提供给用户。

在一些实施例中,过程400还包括:基于至少一个另外的数据样本各自的质量等级来调整第一提示词输入。

在一些实施例中,确定至少一个另外的数据样本各自的质量等级包括:基于第一评估准则来生成第四提示词输入,第四提示词输入用于引导第四模型按照第一评估准则来评估至少一个另外的数据样本的质量;以及通过将第四提示词输入提供给第四模型,获得由第四模型输出的至少一个另外的数据样本各自的质量等级。第四模型可以与第一模型、第二模型或第三模型相同,或者不同于第一模型、第二模型和第三模型。

在一些实施例中,过程400还包括:电子设备240至少利用至少一个另外的数据样本来训练或微调目标模型。

在一些实施例中,至少一个数据样本和至少一个另外的数据样本为文本模态的数据样本或图像模态的数据样本。

图5示出了根据本公开的一些实施例的用于样本生成的装置500的框图。装置500可以被实现为或者被包括在电子设备215和/或电子设备240中。装置500中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示,装置500包括样本确定模块510,被配置为确定至少一个数据样本,至少一个数据样本被划分到第一类别。装置500还包括准则生成模块520,被配置为基于至少一个数据样本的特征信息,生成针对第一类别的第一评估准则。装置500还包括第一提示词构建模块530,被配置为基于至少一个数据样本和第一评估准则来构建第一提示词输入,第一提示词输入至少用于引导第一模型生成符合第一评估准则的数据样本。装置500还包括扩展样本获得模块540,被配置为通过将第一提示词输入提供给第一模型,获得由第一模型输出的至少一个另外的数据样本,至少一个另外的数据样本属于第一类别。

在一些实施例中,样本确定模块510包括:样本集获得模块,被配置为获得数据样本集,数据样本集包括多个数据样本;类别划分模块,被配置为基于数据样本集中各个数据样本的特征信息,将数据样本集中各个数据样本划分为至少一个类别,至少一个类别包括第一类别;以及类别样本获得模块,被配置为获得数据样本集中被划分到第一类别中的至少一个数据样本。

在一些实施例中,类别划分模块包括:第二提示词构建模块,被配置为对于数据样本集中的数据样本,基于数据样本来构建第二提示词输入,第二提示词输入至少用于引导第二模型通过分析数据样本的特征信息来确定该数据样本的类别;以及分类结果获得模块,被配置为通过将第二提示词输入提供给第二模型,获得由第二模型输出的分类结果,分类结果指示数据样本的类别。

在一些实施例中,准则生成模块520包括:第三提示词构建模块,被配置为基于至少一个数据样本来构建第三提示词输入,第三提示词输入至少用于引导第三模型通过分析至少一个数据样本的特征信息来确定第一类别的第一评估准则;以及准则获得模块,被配置为通过将第三提示词输入提供给第三模型,获得由第三模型输出的第一评估准则。

在一些实施例中,第一提示词输入还指示以下至少一项:第一类别,以至少一个数据样本作为数据样本生成的示例。

在一些实施例中,装置500还包括:质量确定模块,被配置为基于第一评估准则,确定至少一个另外的数据样本各自的质量等级;以及样本提供模块,被配置为将至少一个另外的数据样本中质量等级满足质量要求的数据样本提供给用户。

在一些实施例中,装置500还包括提示词调整模块,被配置为:基于至少一个另外的数据样本各自的质量等级来调整第一提示词输入。

在一些实施例中,质量确定模块包括:第四提示词构建模块,被配置为基于第一评估准则来生成第四提示词输入,第四提示词输入用于引导第四模型按照第一评估准则来评估至少一个另外的数据样本的质量;以及质量获得模块,被配置为通过将第四提示词输入提供给第四模型,获得由第四模型输出的至少一个另外的数据样本各自的质量等级。

在一些实施例中,装置500还包括:样本利用模块,被配置为至少利用至少一个另外的数据样本来训练或微调目标模型。

在一些实施例中,至少一个数据样本和至少一个另外的数据样本为文本模态的数据样本或图像模态的数据样本。

图6示出了其中可以实现本公开的一个或多个实施例的电子设备600的框图。应当理解,图6所示出的电子设备600仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图6所示出的电子设备600可以用于实现图1的模型预训练系统110、模型微调系统120和/或模型应用系统130,图2的电子设备215和/或电子设备240。图6所示出的电子设备600可以用于实现图5的装置500。

如图6所示,电子设备600是通用计算设备的形式。电子设备600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备650以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高电子设备600的并行处理能力。

电子设备600通常包括多个计算机存储介质。这样的介质可以是电子设备600可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据并且可以在电子设备600内被访问。

电子设备600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元640实现通过通信介质与其他电子设备进行通信。附加地,电子设备600的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备650可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备600交互的设备进行通信,或者与使得电子设备600与一个或多个其他电子设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

技术分类

06120116522825