掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法

文献发布时间:2024-04-18 20:00:50


数据处理方法

技术领域

本说明书实施例涉及计算机技术领域,特别涉及一种数据处理方法。

背景技术

随着计算机技术以及互联网技术的发展,人工智能技术也得到的广泛的发展和应用,因此,通过样本数据训练获得的神经网络模型能够满足用户或者互联网机构的各种需求。

现有技术中,神经网络模型需要大量的样本数据对其进行训练,使得神经网络模型的训练效率较低,无法满足快速变化的需求,并且浪费了计算机资源。因此如何提高模型训练效率、加速模型训练成为亟需解决的问题。

发明内容

有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理模型训练方法,一种数据处理模型训练装置,一种数据处理装置,另一种数据处理方法,另一种数据处理装置,一种基于数据加载器的模型微调加速插件设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:

接收用户发送的待处理数据;

将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得。

根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:

数据接收模块,被配置为接收用户发送的待处理数据;

数据处理模块,被配置为将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得。

根据本说明书实施例的第三方面,提供了一种数据处理模型训练方法,包括:

确定数据处理模型的初始样本数据集合,其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

根据本说明书实施例的第四方面,提供了一种数据处理模型训练装置,包括:

样本确定模块,被配置为确定数据处理模型的初始样本数据集合,其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

样本输入模块,被配置为根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

样本划分模块,被配置为根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

概率调整模块,被配置为将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

模型训练模块,被配置为基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

根据本说明书实施例的第五方面,提供了另一种数据处理方法,应用于云端,包括:

接收终端发送的待处理数据;

将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得;

将所述数据处理结果发送至所述终端。

根据本说明书实施例的第六方面,提供了另一种数据处理装置,应用于云端,包括:

数据接收模块,被配置为接收终端发送的待处理数据;

数据处理模块,被配置为将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得;

结果发送模块,被配置为将所述数据处理结果发送至所述终端。

根据本说明书实施例的第七方面,提供了一种基于数据加载器的模型微调加速插件设备,该模型微调加速插件设备用于执行上述两种数据处理方法以及数据处理模型训练方法的步骤。

根据本说明书实施例的第八方面,提供了一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述两种数据处理方法以及数据处理模型训练方法的步骤。

根据本说明书实施例的第九方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述两种数据处理方法以及数据处理模型训练方法的步骤。

根据本说明书实施例的第十方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述两种数据处理方法以及数据处理模型训练方法的步骤。

本说明书一个实施例中提供的数据处理方法,包括:接收用户发送的待处理数据;将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得。

具体地,该数据处理方法利用数据处理模型的模型初始训练结果调整第二样本训练概率,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性地利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,能够避免模型训练过程中对计算机资源的浪费。并且,通过该数据处理模型能够对用户发送的待处理数据进行处理,从而满足快速变化的需求。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的应用示意图;

图2是本说明书一个实施例提供的一种数据处理方法的流程图;

图3是本说明书一个实施例提供的一种数据处理方法中模型微调加速的流程示意图;

图4是本说明书一个实施例提供的一种数据处理方法的处理过程流程图;

图5是本说明书一个实施例提供的一种数据处理模型训练方法的流程图;

图6是本说明书一个实施例提供的另一种数据处理方法的流程图;

图7是本说明书一个实施例提供的一种数据处理装置的结构示意图;

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先,对本说明书一个或多个实施例涉及的名词术语进行解释。

数据加载器:dataloader,深度学习中用于加载微调或训练样本的模块。

Lora:低秩适应器,用降低矩阵权重的方式加速模型训练的结构。

MAE:Masked Autoencoders掩码自编码器,MAE

的最核心的思想是通过对图片中的patch进行随机掩码,然后通过未被掩码的区域预测被掩码掉的区域,进行使得模型学习图像的语义特征。

Stable Diffusion:是基于几十亿数量级的图像文本成对数据,使用256个高性能GPU,花费了150000GPU小时训练出来的扩散模型。该Stable Diffusion有很多不同训练集和对应权重。

Al:Artificial Intelligence,人工智能。

Ffhq:Flickr-Faces-HQ,是一个高质量的人脸图像数据集。

Epoch:是训练的一个轮次,通常对应多个批次按一定采样顺序遍历数据集一遍。

Upper Confidence Bound:上置信界算法,又称置信区间上界算法。

Gradient:梯度,梯度反向传播算法的梯度。

EL2N/GraNd:一些进行模型训练加速的方案,基于某些定义的度量值和阈值进行静态数据剪枝。

数学期望:为gradient值的epoch更新总量期望。

随着计算机技术以及互联网技术的发展,人工智能技术也得到的广泛的发展和应用,因此,通过样本数据训练获得的神经网络模型能够满足用户或者互联网机构的各种需求。

现有技术中,神经网络模型需要样本数据对其进行训练,而数据加载器是深度学习的基本组件之一,一般在深度学习微调和训练的过程中,常用的默认假设是任何时刻所有样本是一致重要的,因此针对所有样本使用同样的采样概率。但是,由于神经网络模型是通过大量的样本数据训练获得的,因此,当利用同样的采样概率选择样本数据对模型进行训练时,会使得神经网络模型的训练效率较低,无法满足快速变化的需求,并且浪费了计算机资源。

基于此,本说明书提供一种数据集剪枝(dataset pruning)方案,该数据集剪枝方案可以分为:静态数据集剪枝方案和动态数据集剪枝方案。其中,本说明书提供一种静态数据集剪枝方案,例如,EL2N/GraNd等方案,该种方案通过预先设定的指标排序挑选样本进行模型训练。但是,该方案的无损压缩率较低,开销也非常大。也即是说,该静态数据集剪枝方案的额外开销非常高且很难达到无损性能。本说明书提供一种动态数据集剪枝方案,例如,Upper Confidence Bound方案,该方案通过动态估计loss(损失值)的波动值上限,然后排序选取样本进行模型训练。但是该方案的无损压缩率同样较低,并且训练开销也非常大。

基于此,在本说明书中,提供了一种数据处理方法,本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。参见图1,图1示出了根据本说明书一个实施例提供的一种数据处理方法的应用示意图。针对上述实施例中数据集剪枝方案的问题,本说明书提供的一种数据处理方法,考虑到实际应用中训练样本的重要性会随着模型微调的进程发生动态变化,并且根据不同样本的微调训练进度,动态更改样本采样率可以达到无性能损失的加速目的。因此提出了一种数据处理方法。该数据处理方法是一种基于数据加载器的模型微调加速方法,该方法应用于一种基于数据加载器的模型微调加速插件工具。例如,在虚拟人物形象模型生成场景中,需要在线对用户上传的人物图像进行微调训练;或者在生成AI人物写真场景中,也需要在线对上传的人物图片进行微调训练。当用户上传的图片越多,用户等待的时间就越长。因此为了提升用户的体验,采用本说明书提供的一种数据处理方法对数据处理模型进行训练。在训练过程中,基于数据加载器的模型微调加速插件工具,可以动态降低微调训练过程中拟合较好的样本的采样频率,并且调整相应的更新步长,使得模型每个轮次更新的数学期望与未加速前一致。该基于数据加载器的模型微调加速插件工具,是基于数据加载器运行的,该加速插件工具在进行模型微调加速的过程中需要替换数据加载器。并代替该数据加载器进行根据采样概率将样本输入至模型中进行训练以及调整样本的采样概率等工作。此外需要说明的是,本说明书提供的数据处理方法可以应用于各种不同类型的场景中,用于实现不同类型的任务。例如,本说明书提供的数据处理方法在分类任务,语义分割任务,MAE预训练,Stable Diffusion微调训练和语言模型指令微调等任务下,都可以进行20%~40%的无额外开销加速,可观得提升训练效率,减少计算资源消耗。

基于此,采用本说明书提供的数据处理方法完成数据处理模型微调之后,可以利用该数据处理模型在实际应用场景下完成特定任务,参见图1,图1中的数据处理模型可以是用于生成虚拟人物形象模型的神经网络模型。基于此,用户通过终端将人物图像发送至服务端;该服务端会将人物图像输入至数据处理模型,从而获得虚拟人物形象模型;从而满足生成虚拟人物形象模型的需求。

参见图2,图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图,具体包括以下步骤。

步骤202:接收用户发送的待处理数据。

其中,待处理数据可以理解为需要数据处理模型进行处理的数据,在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法所应用的场景不同,该待处理数据也不同;例如,在数据处理方法应用于图像处理场景下,该待处理数据可以为待处理图像数据;在数据处理方法应用于语言处理场景下,该待处理数据可以为待处理音频数据。基于此可知,该待处理数据可以为待处理图像数据、待处理文本数据、待处理视频数据、待处理音频数据等等。也即是说,该待处理数据可以根据实际应用场景进行设置,本说明书对此不作具体限制。在本说明书提供的一个或多个实施例中,该待处理数据为人物图像。

需要说明的是,本说明书提供的数据处理方法,可以应用于用户终端、服务端、或者云端。本说明书对此不作具体限制。在本说明书提供的一个或多个实施例中,该数据处理方法可以应用于一种数据处理模块,通过该数据处理模块可以实现本说明书提供的一个或多个实施例中该数据处理方法的步骤。该数据处理模块可以部署在用户终端、服务器或者云端,在此不作具体限制。该数据处理模块可以是应用程序、脚本、容器等软件模块,在此不作具体限制。或者该数据处理模型可以为硬件模块。在本说明书提供的一个或多个实施例中,该数据处理模块为上述实施例中基于数据加载器的模型微调加速插件工具。

在本说明书提供的一个或多个实施例中,该数据处理模块可以为数据加载器;也即是说,本说明书提供的数据处理方法可以应用于数据加载器,该数据加载器是一种用于模型微调加速的插件工具。

步骤204:将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得。

其中,该数据处理模型可以理解为对该待处理数据进行处理的神经网络模型。在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法所应用的场景不同,该数据处理模型也不同。例如,在数据处理方法应用于图像处理场景下,该数据处理模型可以为图像数据处理模型;在数据处理方法应用于语言处理场景下,该数据处理模型可以为音频数据处理模型。基于此可知,该数据处理模型可以为图像数据处理模型、文本数据处理模型、视频数据处理模型、音频数据处理模型等等。也即是说,该数据处理模型可以根据实际应用场景进行设置,本说明书对此不作具体限制。在本说明书提供的一个或多个实施例中,该数据处理模型可以为Lora模型、或者集成有lora插件的Stable Diffusion模型。

数据处理结果可以理解为利用该数据处理模型对待处理图像进行处理后获得的结果。例如,该数据处理模型为AI人物写真生成模型,该数据处理结果可以是所述AI人物写真生成模型所生成的人物写真;或者该数据处理模型为用于将音频转换为文本的模型,该数据处理结果可以是转换后的文本。

初始样本数据可以理解为用于对数据处理进行训练的样本数据,在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法所应用的场景不同,该初始样本数据也不同。例如,在数据处理方法应用于图像处理场景下,该初始样本数据可以为作为样本数据的图像数据;在数据处理方法应用于语言处理场景下,该初始样本数据可以为作为样本数据的音频数据。基于此可知,该初始样本数据可以根据实际应用场景进行设置,本说明书对此不作具体限制。本说明书提供的数据处理方法中,该初始样本数据可以为至少两个,每个初始样本数据具有对应的样本训练概率。在本说明书提供的一个或多个实施例中,该初始样本图像可以是作为训练样本的样本人物图像数据。

样本训练概率可以理解为该初始样本数据被选择进行模型训练的概率。在本说明书提供的一个或多个实施例中,初始样本数据的总量可能大于每一轮用于对数据处理模型进行训练的样本数量,因此,需要为每个初始样本数据确定对应的样本训练概率,用于在每一轮模型训练中,选择特定数量的初始样本数据进行模型训练。例如,当初始样本数据的样本训练概率为1的情况下,该初始样本数据在每一轮模型迭代训练中,均会被选择对模型进行训练;当初始样本数据的样本训练概率为0.5的情况下,该初始样本数据在每一轮模型迭代训练中,有50%的概率被选择对模型进行训练,该样本训练概率可以为采样概率。本说明书提供的数据处理方法中,该初始样本数据对应的样本训练概率可以为1。

第一样本数据可以理解为用于对数据处理进行训练的样本数据,该第一样本数据是从初始样本数据中划分出的样本数据,例如,该第一样本数据可以为第一人物图像样本。该第一样本训练概率可以理解为第一样本数据对应的样本训练概率。第二样本数据可以理解为用于对数据处理进行训练的样本数据,该第二样本数据是从初始样本数据中划分出的样本数据,例如,该第二样本数据可以为第二人物图像样本。第二样本训练概率可以理解为第二样本数据对应的样本训练概率。在本说明书提供的一个或多个实施例中,该第一样本数据与第二样本数据不同。

模型初始训练结果可以理解为利用该初始样本数据对数据处理模型进行训练后获得的训练结果;例如,在图像评估场景下,该数据处理模型为图像评估模型,模型初始训练结果可以理解为对样本图像数据的评估结果。其中,该评估结果可以是一个数值。在本说明书提供一个或多个实施例中,该模型初始训练结果可以理解为初始样本数据对应的模型训练损失值。

具体地,本说明书提供的数据处理方法,在接收到用户发送的待处理数据之后,会将该待处理数据输入至数据处理模型中进行处理,获得该待处理数据对应的数据处理结果。以本说明书提供的数据处理方法在生成虚拟人物形象模型场景下的应用为例,对该数据处理方法进行说明。其中,待处理数据为人物图像数据,该数据处理模型为lora模型,该数据处理结果为虚拟人物形象模型。基于此,在接收到用户上传的人物图像数据之后,会将该人物图像数据输入至该lora模型中进行图像处理,获得人物图像数据对应的虚拟人物形象模型。其中,该lora模型是通过第一样本人物图像、第一样本人物图像对应的第一样本训练概率、第二样本人物图像、第二样本人物图像对应的第二样本训练概率训练获得。该第一样本人物图像第二样本人物图像是根据模型初始训练结果从初始样本数据中划分的,第二样本训练概率根据模型初始训练结果进行调整,模型初始训练结果是通过数据处理模型的初始样本数据训练获得的损失值。

在本说明书提供的一个或多个实施例中,该数据处理方法在进行数据处理的过程中,需要根据实际应用的需要对一个训练完成的神经网络模型进行微调。而在对神经网络模型进行微调的过程中,可以为该神经网络模型配置对应的插件模型,并通过对该插件模型进行训练,从而达到对该神经网络模型进行微调的目的,快速地完成对神经网络模型的微调工作,提高模型微调效率,节省了大量的时间成本和计算机资源,例如,以生成人物形象模型场景为例,模型需要对用户上传样本图像进行人物形象的学习,而在处理用户上传样本图像的过程中,可以在stablediffusion基模上集成lora插件(即lora模型),并利用样本图像对lora模型进行训练,用低秩的方式减少实际微调训练参数的数量,降低模型过拟合的风险,从而完成对stablediffusion模型本身进行微调,以适应生成人物形象模型的需求。基于此,当在应用该模型的过程中,需要利用神经网络模型以及对应的插件。具体的,所述将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,包括:

确定数据处理模型对应的数据预处理模型;

将所述待处理数据输入所述数据预处理模型,获得所述待处理数据的数据预处理结果;

将所述数据预处理结果输入所述数据处理模型,获得所述待处理数据的数据处理结果。

其中,数据预处理模型可以理解为对该待处理数据进行预处理的模型。在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法所应用的场景不同,该数据预处理模型也不同。例如,在数据处理方法应用于图像处理场景下,该数据预处理模型可以为图像数据预处理模型;在数据处理方法应用于语言处理场景下,该数据预处理模型可以为音频数据预处理模型。基于此可知,该数据处理模型可以为图像数据预处理模型、文本数据预处理模型、视频数据预处理模型、音频数据预处理模型等等。也即是说,该数据预处理模型可以根据实际应用场景进行设置,本说明书对此不作具体限制。在本说明书提供的一个或多个实施例中,该数据处理模型可以是该数据预处理模型上集成的模型。也即是说,该数据处理模型为该数据预处理模型中的子模型;或者数据处理模型为该数据预处理模型中的模块。例如,数据预处理模型可以为stablediffusion基模,数据处理模型可以为stablediffusion基模上集成lora插件。

该数据预处理结果可以理解为数据预处理模型对该待处理数据进行预处理的结果。

沿用上例,在接收到用户上传的人物图像数据之后,会将该人物图像数据输入至stable diffusion模型中进行处理,获得该人物图像数据对应的图像处理结果。然后将该图像处理结果输入至lora模型中进行图像处理,获得人物图像数据对应的虚拟人物形象模型。基于此满足了不断增加的应用需求。

在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法提出了一种基于数据加载器的对深度学习模型的微调和训练,进行基于采样优化加速的插件类方法,能够在不影响微调和训练结果的前提下,减少样本数据迭代次数和最终开销(时间*计算资源)。具体如下所示。

所述接收用户发送的待处理数据之前,还包括:

确定数据处理模型的初始样本数据集合,其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

其中,初始样本数据集合可以理解为该至少两个初始样本数据所构成的集合;需要说明的是,本说明书中的初始样本数据可以为模型训练过程中第一轮样本数据或者首次训练样本数据;或者,在本说明书提供的一个或多个实施例中,该初始样本数据可以为模型训练过程中任意轮次的样本数据,在此不作具体限定。

其中,将所述第一样本数据对应的所述样本训练概率确定为第一样本训练概率,可以理解为在从初始样本数据中划分出第一样本数据之后,将该第一样本数据对应的样本训练概率确定为第一样本训练概率。

在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法在模型训练的过程中,为了提高神经网络模型的训练速度,需要控制每次进行训练的样本数量。而为了进一步对样本数据进行筛选,会通过模型初始训练结果将初始样本数据划分为两个部分,后续为划分出的样本数据,确定不同的样本训练概率,从而快速地对模型训练的样本数据进行筛选。具体地,所述根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据,包括:

确定所述每个初始样本数据对应的模型初始训练结果,并确定所述模型初始训练结果对应的平均训练结果;

基于所述平均训练结果,从所述至少两个初始样本数据中划分第一样本数据和第二样本数据。

其中,该平均训练结果可以理解为对该模型初始训练结果进行求平均处理之后所获得的结果。例如,在模型初始训练结果为模型训练损失值的情况下,该平均训练结果可以为模型训练损失均值。

具体地,本说明书提供的数据处理方法,在划分第一样本数据和第二样本数据的过程中,会确定每个初始样本数据对应的模型初始训练结果,并计算每个模型初始训练结果之间的平均训练结果。然后基于该平均训练结果从至少两个初始样本数据中划分第一样本数据和第二样本数据。

在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法在模型训练的过程中,由于在训练样本的损失值越大代表神经网络模型对其拟合程度越差,因此为了有针对性地对拟合程度较差的样本数据进行学习,本方案更新并追踪每个轮次中每个样本数据的损失值,并且用以作为筛选判断指标,从而选择能够对模型训练进行加速的样本和需要针对性学习的拟合程度较差的样本数据。具体地,所述模型初始训练结果为模型训练损失值,所述平均训练结果为模型训练损失均值;

相应地,所述基于所述平均训练结果,从所述至少两个初始样本数据中划分第一样本数据和第二样本数据,包括:

确定所述每个初始样本数据对应的模型训练损失值;

将所述模型训练损失值大于等于所述模型训练损失均值的初始样本数据,确定为第一样本数据;

将所述模型训练损失值小于所述模型训练损失均值的初始样本数据,确定为第二样本数据。

其中,模型训练损失值可以理解为样本数据对应的损失值(loss)。该训练样本的损失值越大代表神经网络模型对其拟合程度越差;训练样本的损失值越小代表神经网络模型对其拟合程度越好。

模型训练损失均值可以理解为每个初始样本数据的损失值对应的均值。例如,初始样本数据为人物图像,该人物图像对应的损失值可以是:人物图像A:0.6、人物图像B:0.8、人物图像C:0.2、人物图像D:0.3。因此,该模型训练损失均值可以为:0.47。

具体地,确定模型训练损失均值之后,将每个初始样本数据的模型训练损失值与该模型训练损失均值进行比较。在确定该模型训练损失值大于等于模型训练损失均值的情况下,将该模型训练损失值对应的初始样本数据,确定为第一样本数据;在确定该模型训练损失值小于模型训练损失均值的情况下,将该模型训练损失值对应的初始样本数据,确定为第二样本数据。

沿用上例,模型训练损失均值可以为:0.47;样本人物图像对应的损失值可以是:人物图像A:0.6、人物图像B:0.8、人物图像C:0.2、人物图像D:0.3。基于此,将损失值大于等于损失均值的人物图片A和人物图片B这两个样本数据确定为第一样本数据。将损失值小于损失均值的人物图片C和人物图片D这两个样本数据确定为第二样本数据。

在本说明书提供的一个或多个实施例中,本说明书提供的数据处理方法在模型训练的过程中,数据加载器的会利用样本训练概率从多个样本数据中选择本次模型训练所需的样本数据,并利用该样本数据进行本轮模型训练,从而用低秩的方式减少实际微调训练参数的数量,降低模型过拟合的风险,以此对模型训练进行加速。在此情况下,考虑到训练样本的损失值越大代表神经网络模型对其拟合程度越差,训练样本的损失值越小代表神经网络模型对其拟合程度越好。为了有针对性地对拟合程度较差的样本数据进行学习,因此,对损失值较小的样本数据的采样概率进行调整,从而降低该损失值较小的样本数据,在模型训练过程中的采样次数,从而对模型训练进行加速,提高模型的训练效率。具体地,所述将所述第二样本数据对应的样本训练概率调整为第二样本训练概率,包括:

确定所述第二样本数据对应的样本训练概率;

基于预设概率调整算法对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率,其中,所述第二样本数据对应的样本训练概率大于所述第二样本训练概率。

其中,该预设概率调整算法可以理解为预先设置的、用于对该样本训练概率进行调整的算法,该预设概率调整算法可以根据实际应用场景进行设置,本说明书对此不作具体限制。例如,该预设概率调整算法可以为将第二样本数据对应的样本训练概率调整为预设概率,从而获得第二样本训练概率。

具体地,在本说明书提供的数据处理方法,会确定该第二样本数据对应的样本训练概率,并利用该预设概率调整算法对第二样本数据对应的样本训练概率进行调整,从而获得第二样本训练概率,并且,该第二样本数据对应的样本训练概率大于所述第二样本训练概率。在本说明书提供的一个或多个实施例中,所述基于预设概率调整算法对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率,包括:

将所述第二样本数据对应的样本训练概率调整为预设第一训练概率,将所述预设第一训练概率作为第二样本训练概率;或者

基于所述第二样本数据对应的样本训练概率、和所述第二样本数据对应的所述模型初始训练结果,计算获得更新样本训练概率,并通过所述更新样本训练概率对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率。

其中,该预设第一训练概率可以理解为预先设置的一个样本训练概率,该预设第一训练概率可以为[0,1]取值范围内的任意数值;基于此,所述将所述第二样本数据对应的样本训练概率调整为预设第一训练概率,并将预设第一训练概率作为第二样本训练概率可以理解为将第二样本数据对应的样本训练概率,更改为预设第一训练概率,从而获得所述第二样本数据对应的第二样本训练概率。沿用上例,该预设第一训练概率可以为0.5。因此可以利用数据加载器,将损失值小于损失均值的人物图片C和人物图片D这两个样本数据的采样概率r,调整为0.5。在实际应用中,对于大部分训练情况而言,采样概率r取0.5即可,不会影响训练效果也不会有精度损失,并且可以加速模型训练。

需要说明的是,在本说明书提供的一个或多个实施例中,该第一样本训练概率可以大于第二样本训练概率。在第一样本训练概率可以为1,即每次模型训练,该第一样本训练概率对应的第一样本数据均会被选中。该第二样本训练概率可以为小于1,即每次模型训练,该第二样本训练概率对应的第二样本数据有一定概率会被选中。

其中,更新样本训练概率可以理解为通过第二样本数据对应的样本训练概率和模型初始训练结果计算出的一个概率值,该概率值用于对第二样本数据原有的样本训练概率进行更新。

在本说明书提供的一个或多个实施例中,基于所述第二样本数据对应的样本训练概率、和所述第二样本数据对应的所述模型初始训练结果,计算获得更新样本训练概率,并通过所述更新样本训练概率对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率,可以理解为基于第二样本数据对应的样本训练概率和第二样本数据对应的模型初始训练结果,计算出一个新的样本训练概率,并将该新的样本训练概率替换掉第二样本数据的样本训练概率,从而获得第二样本数据对应的第二样本训练概率。

例如,可以根据该第二样本数据的当前采样概率和损失值,计算一个新的采样概率,并将该新的采样概率作为该第二样本数据。其中,第二样本训练概率的计算方式可以根据实际应用场景进行设置,本说明书对此不作具体说明。例如,将第二样本数据的当前采样概率和损失值相乘,并将相乘结果作为该第二样本数据的采样概率。

具体的,本说明书提供的数据处理方法中,可以通过数据加载器,将样本训练概率调整为预设第一训练概率获得第二样本训练概率;或者基于第二样本数据对应的样本训练概率和第二样本数据对应的所述模型初始训练结果,为该第二样本数据计算新的更新样本训练概率,并利用更新样本训练概率替换第二样本数据原有的样本训练概率,获得第二样本数据的第二样本训练概率。通过该操作,降低了已经较好拟合的样本数据被选中的概率值,进而降低了后续epoch(训练轮次)微调训练过程中参与训练的样本数据的个数,从而加速微调训练。

在本说明书提供的一个或多个实施例中,本说明书中的数据处理方法提出了一种基于数据采样的动态加速方案,通过动态调整数据采样频率并且维护数学期望来无损失地加速神经网络训练。该数据处理方法所应用的数据加载器,通过插件的方式作用于线上需要微调训练模型的产品架构中,可以比较方便地加入大部分神经网络训练中。例如,在AI人物写真产品上,对用户上传的图片需要进行微调训练以生成人物形象模型,基于本数据处理方法提出的加速微调训练插件(即数据加载器),可以对人物形象的微调训练过程进行加速,且不影响生成的人物形象模型的最终效果,提升用户体验。在执行过程中,本说明书的数据处理方法所提出方案,基于数据加载器的对深度学习微调训练通过采样进行加速。通过估计样本在微调训练中的相对拟合进度,降低拟合较好的样本的采样频率,并且调整对应更新步长使得模型每个轮次更新的数学期望与未加速前一致,以此进行加速。具体实现方式包括。所述基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型,包括:

基于所述第一样本训练概率从所述第一样本数据中选择第一当前训练样本,并基于所述第二样本训练概率从所述第二样本数据中选择第二当前训练样本;

基于所述第一当前训练样本和所述第二当前训练样本对所述数据处理模型进行训练,获得模型训练结果;

通过所述模型训练结果,重新执行从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤,以及执行对所述第一样本数据对应的第一样本训练概率进行调整和对所述第二样本数据对应的第二样本训练概率进行调整的步骤,对所述数据处理模型进行迭代训练,直至达到模型训练停止条件,获得训练后的数据处理模型。

其中,该第一当前训练样本可以理解为根据第一样本训练概率,从第一样本数据中选择进行本轮模型训练的训练样本数据。在第一样本训练概率为1的情况下,会将所有第一样本数据均选中作为第一当前训练样本。

该第二当前训练样本可以理解为根据第二样本训练概率,从第二样本数据中选择进行本轮模型训练的样本数据。在第二样本训练概率小于1的情况下,会将第二样本数据中的部分样本数据选中作为第二当前训练样本。

模型训练结果可以理解为利用第一当前训练样本和第二当前训练样本对数据处理模型进行训练所获得结果。例如,在图像评估场景下,该数据处理模型为图像评估模型,模型训练结果可以理解为对样本图像数据的评估结果。在本说明书提供一个或多个实施例中,该模型训练结果可以为损失值。

在本说明书提供的一实施例中,在通过所述模型训练结果,重新执行从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤的过程中,被调整过样本训练概率的第二样本数据可能会被划分到第一样本数据中。为了保证模型能够有针对地对拟合较差的样本数据进行学习,会调高此部分样本数据的采样频率,从而提高拟合较差的样本的采样频率。因此,需要执行对所述第一样本数据对应的第一样本训练概率进行调整的步骤。其中,所述对所述第一样本数据对应的第一样本训练概率进行调整,可以理解为将所述初始样本数据的训练样本概率,确定为所述第一样本数据对应的第一样本训练概率,从而将第一样本数据对应的第一样本训练概率调整为初始的样本采样概率。

在本说明书提供的一实施例中,在通过所述模型训练结果,重新执行从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤的过程中,部分第一样本数据可能会在本次划分中,被划分至第二样本数据。为了保证模型能够有针对的对拟合较差的样本数据进行学习,会降低此部分样本数据的采样频率,从而降低拟合较好的样本的采样频率。因此,需要执行对所述第二样本数据对应的样本训练概率进行调整的步骤。

具体的,本说明书提供的数据处理方法,在划分出第一样本数据和第二样本数据,并确定该第一样本训练概率和第二样本训练概率之后,会通过数据加载器,利用该第一样本训练概率从第一样本数据中,选择进行本次训练的第一当前训练样本,并基于第二样本训练概率从第二样本数据中,选择进行本次训练的第二当前训练样本。需要说明的是,本说明书中的第一样本数据和第二样本数据可以应用于任意一轮模型训练任务。

将第一当前训练样本和第二当前训练样本输入至数据处理模型中进行模型训练,获得模型训练结果。

在确定该模型训练结果之后,通过该模型训练结果,重新执行从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤,以及执行对所述第一样本数据对应的第一样本训练概率进行调整和所述第二样本数据对应的第二样本训练概率进行调整的步骤。从而完成对该数据处理模型进行迭代训练,直至达到模型训练停止条件,获得训练后的数据处理模型。

其中,针对所述从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤,可以参见上述实施例中对应或相应的解释,在此不作赘述。其中,针对所述对所述第二样本数据对应的第二样本训练概率进行调整的步骤,以及针对所述对所述第一样本数据对应的第一样本训练概率进行调整的步骤,可以参见上述实施例中对应或相应的解释,在此不作赘述。

在本说明书提供的一个或多个实施例中,该直至达到模型训练停止条件,可以理解为该模型训练过程达到特定轮次。该特定轮次可以根据实际应用场景进行设置,例如,200轮次、3000轮次等,本说明书在此对训练轮次不作具体限制。或者,该直至达到模型训练停止条件,可以理解为该训练的模型达到预设的性能指标,例如,该预设的性能指标可以为准确率。或者,直至达到模型训练停止条件,可以理解为模型训练的验证集误差不再下降等等,在此对模型训练停止条件不作具体限制。

沿用上例,在人物写真处理场景下,用户上传人物图像进行人物形象的学习,在处理用户上传图像的过程中,在stablediffusion基模上集成lora插件,用低秩的方式减少实际微调训练参数的数量,降低模型过拟合的风险。基于数据加载器的模型微调加速工具的具体作用参见图3,图3是本说明书一个实施例提供的一种数据处理方法中模型微调加速的流程示意图,其中,图3中的Dataset可以为样本数据集合,即上述实施例中的初始样本数据集合。

Soft pruning是指剪枝操作;可以理解为上述实施例中的所述将所述第二样本数据对应的样本训练概率调整为第二样本训练概率,并利用该第二样本训练概率从第一样本数据中选择第二当前训练样本数据的步骤。例如,将损失值小于整体损失均值的样本的采样概率降为r,r小于1;并利用r选择D3。

Arch是指受训练模型,例如上述实施例中的lora模型。Expectation rescaling是指数学期望缩放。Score update for epoch t+1是指基于损失均值对t+1轮的采用概率进行更新。Backward update是指反向更新。Loss value是指损失值。

基于图3可知,在微调训练过程中,每轮(epoch)迭代会得到每个上传样本的损失值(loss),在lora训练过程中该损失值是重建损失,在不同任务中该值越大代表网络对其拟合程度越差。本方法更新并追踪每个轮次中每个样本的损失值,并且用以作为筛选判断指标。需要说明的是,这些操作的开销相对于微调训练本身基本可以忽略不计,不会占用过多加速资料,也不会拖延模型训练速度。在每个轮次训练结束后,数据加载器会下个轮次开始前,对于所有样本进行选择。对于上一轮记录到的loss值小于整体loss均值的样本,会将其的采样概率降为r(r小于1)。通过该操作,降低了已经较好的拟合的样本数据被选中的概率值,进而降低了后续epoch微调训练过程中参与训练的样本的个数,从而加速微调训练。对于被选中参与微调训练的样本,该样本的loss记录值跟随本次迭代进行更新,没有被选中的样本,他们的loss记录值保持不变。

通过上例中数据处理方法针对模型训练的步骤,能够在ffhq人脸数据的训练中省30%的训练时间,额外开销可以忽略不计;避免了上述数据集剪枝方案中,既不能无损,且额外开销往往占据微调训练任务的20%甚至有时超过单次训练开销的问题。通过上例中数据处理方法针对模型训练的步骤,当用于Stable Diffusion模型场景的微调加速的情况下,AI人物写真以及AI虚拟试衣等需要在线训练、基于lora结构在线微调等过程的加速,通过上述步骤,也可观得提升训练效率,减少资源消耗。

在本说明书提供的一个或多个实施例中,由于降低了较好的拟合的第二样本数据的采样频率,因此增加样本的梯度,通过对应的放大梯度来维持更新量。使得样本在采样频率下降到一定范围前性能不会有损失,从而优化模型训练的时间和计算资源,从而提高模型训练速度,具体实现方式如下,所述方法还包括:

确定所述第二样本数据对应的模型更新参数,并根据所述第二样本训练概率对所述模型更新参数进行调整,获得调整后的模型更新参数;

相应的,所述基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型,包括:

基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据、所述第二样本训练概率以及所述调整后的模型更新参数,对所述数据处理模型进行训练,获得训练后的数据处理模型。

其中,该模型更新参数可以理解为用于对数据处理模型进行更新的参数,例如,该模型更新参数可以为梯度。

沿用上例,在将损失值小于整体损失均值的样本的采样概率降为r之后,同时为了保证整体微调训练数据更新的数学期望不变,会对该损失值小于整体损失均值的样本所对应的梯度进行调整;针对该梯度的调整可以为将该梯度调整为1/r。得样本在采样频率下降到一定范围前性能不会有损失,从而优化模型训练的时间和计算资源。

之后基于调整后的梯度以及上述实施例中的第一样本数据、第一样本训练概率、第二样本数据、第二样本训练概率对数据处理模型进行训练。

在本说明书提供的一个或多个实施例中,由于本说明书提供的数据方法,降低了已经较好的拟合的第二样本数据被选中进行模型训练的第二样本训练概率,为了避免部分样本始终无法被选中的问题,所带来数据偏置。为了确保训练效果的一致,会在模型训练达到一定程度的情况下,将所有样本的样本训练概率进行调整,从而让模型对所有样本数据进行学习,保证模型微调训练过程中所有的样本都再次参与训练。具体方式如下。所述基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型,包括:

确定所述数据处理模型的当前训练状态;

在所述当前训练状态满足预设概率调整条件的情况下,基于预设概率调整策略,对所述第一样本训练概率和所述第二样本训练概率进行调整,获得调整后的第一样本训练概率以及调整后的第二样本训练概率;

基于所述第一样本数据、所述调整后的第一样本训练概率、所述第二样本数据以及所述调整后的第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

其中,该当前训练状态可以理解为在针对该数据处理模型的模型训练过程中,表征模型训练状态的信息。该当前训练状态可以是模型训练的当前训练轮数,例如,第15轮,第20轮等。该当前训练状态也可以是模型训练过程中验证集误差状态。例如,误差率为75%,误差率为15%等。该当前训练状态也可以是模型训练过程中的预设性能指标状态。例如,预设性能指标是准确率的情况下,该当前训练状态可以为准确率为90%,准确率为65%等。

其中,预设概率调整策略可以理解为对第一样本训练概率和第二样本训练概率进行调整的策略,该预设概率调整策略可以根据实际应用场景进行设置。在本说明书提供的一个或多个实施例中,为了避免部分样本始终无法被选中的问题,该预设概率调整策略可以是将第一样本训练概率和第二样本训练概率调高,例如调整为1,从而让第一样本数据和第二样本数据在后续的训练过程中,全部参与到模型训练中。在本说明书提供的一个或多个实施例中,由于模型性能已经较为优秀,但是模型当前轮次距离预设轮次还有较大差距。为了避免浪费计算资源,提高模型训练效率,该预设概率调整策略可以是将第一样本训练概率和第二样本训练概率调低,例如。调整为0.1,从而让第一样本数据和第二样本数据在后续的训练过程中,只有少量样本参与到模型训练中。

该预设概率调整条件可以根据实际应用场景进行设置,例如,在当前训练状态为当前训练轮数的情况下,该满足预设概率调整条件可以为当前训练轮数为最后的17.5%轮。在当前训练状态为准确率的情况下,该满足预设概率调整条件可以为准确率大于98%。在当前训练状态为验证集误差状态的情况下,该满足预设概率调整条件可以为误差率小于1%。

具体的,所述在所述当前训练状态满足预设概率调整条件的情况下,基于预设概率调整策略,对所述第一样本训练概率和所述第二样本训练概率进行调整,获得调整后的第一样本训练概率以及调整后的第二样本训练概率,包括:

在所述当前训练轮数满足预设轮数条件的情况下,将所述第一样本训练概率调整为预设第二训练概率,以获得调整后的第一样本训练概率;以及

将所述第二样本训练概率调整为所述预设第二训练概率,以获得调整后的第二样本训练概率。

其中,当前训练轮数可以理解为模型训练的当前轮数,满足预设轮数条件可以理解为当前训练轮数大于特定轮数。例如,满足预设轮数条件可以为当前轮数为最后的17.5%轮。

具体的,在确定数据处理模型的当前训练状态之后,会判断该当前训练状态是否满足预设概率调整条件。在当前训练状态满足预设概率调整条件的情况下,将第一样本训练概率调整为预设第二训练概率,以获得调整后的第一样本训练概率;以及将第二样本训练概率调整为所述预设第二训练概率,以获得调整后的第二样本训练概率。

然后基于第一样本数据、调整后的第一样本训练概率、第二样本数据以及调整后的第二样本训练概率对数据处理模型进行训练,获得训练后的数据处理模型。

沿用上例,在微调训练的末尾,有一些样本会大概率持续不被采样到,从而带来数据偏置。为了保证最后的微调训练过程中所有的样本都再次参与训练。在最后的17.5%epoch中,将所有样本的采样概率调整为1,并停止动态调整采样率,这样所有样本都再次参与训练,以更好的和原先性能对齐。基于此,将利用被调整为1的采样概率,选择所有样本对数据处理模型进行训练,直至达到训练停止条件。

本说明书一个或多个实施例中提供的数据处理方法,利用数据处理模型的模型初始训练结果调整第二样本训练概率,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性的利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,使得数据处理模型能够满足快速变化的需求;并且能够避免模型训练过程中对计算机资源的浪费。

下述结合附图4,以本说明书提供的数据处理方法在虚拟人物形象模型生成场景下的应用为例,对所述数据处理方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种数据处理方法的处理过程流程图,具体包括以下步骤。

步骤402:基于新的应用需求,确定训练样本和训练标签。

其中,新的应用需求为:将用户上传的真实人物图片,转换为虚拟人物形象模型。

样本数据为:人物图片(4张);标签为:虚拟人物形象模型。

待训练模型为:在stable diffusion基模上集成lora插件。

步骤404:基于数据加载器将样本输入至lora模型,利用样本数据对lora模型进行第一轮训练,获得样本数据的损失值。

例如,损失值可以是:人物图片A:0.6、人物图片B:0.8、人物图片C:0.2、人物图片D:0.3。

此时每个样本的采样概率为1。即第一轮训练时所有样本均会被采样,用于对模型进行训练。

步骤406:在每个轮次结束后,下个轮次开始前,数据加载器会确定所有样本的损失值,并选择损失值小于整体损失均值的样本。

例如,整体损失均值为:0.47;需要选择人物图片C和人物图片D这两个图像。

需要说明的是,由于在任务中损失值越大代表网络对其拟合程度越差,因此,本方案更新并追踪每个轮次中每个样本的损失值,并且用以作为筛选判断指标,选择能够对模型训练进行加速的样本。

步骤408:将损失值大于等于整体损失均值的样本确定为第一样本数据,将损失值小于整体损失均值的样本确定为第二样本数据,并将第二样本数据的采样概率降为r(r小于1)。

步骤410:为了保证整体微调训练数据更新的数学期望不变,把第二样本数据的梯度增加到1/r。

步骤412:数据加载器基于第一样本数据和第二样本数据的采样概率,从第一样本数据和第二样本数据中选择样本数据对lora模型进行训练,获得当前训练样本数据的损失值;并重复执行步骤406-步骤412的操作,直至达到训练停止条件。

步骤414:对当前训练轮数进行检测,在当前训练轮数达到最后剩余的17.5%轮的情况下,利用数据加载器将所有样本的采样概率调整为1,并停止动态调整采样概率,避免有一些样本持续不被采样到,从而带来数据偏置。

基于上述步骤可知,本说明书提供的数据处理方法提出了一种基于数据采样的动态加速方法,通过动态调整数据采样频率并且维护数学期望来无损失地加速神经网络训练。该方法通过插件的方式作用于线上需要微调训练模型的产品架构中,可以比较方便地加入大部分神经网络训练中。具体在AI人物写真产品上,对用户上传的图片需要进行微调训练以生成人物形象模型,基于本方案提出的加速微调训练插件可以对人物形象的微调训练过程进行加速,且不影响生成的人物形象模型的最终效果,提升用户体验。

参见图5,图5示出了根据本说明书一个实施例提供的一种数据处理模型训练方法的流程图,具体包括以下步骤。

步骤502:确定数据处理模型的初始样本数据集合。

其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

步骤504:根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

步骤506:根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

步骤508:将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

步骤510:基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

本说明书一个或多个实施例中提供的数据处理模型训练方法,通过利用初始样本数据对数据处理模型进行训练获得的模型初始训练结果,划分出第一样本数据和第二样本数据,并对第二样本数据对应的第二样本训练概率进行调整,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性的利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,使得数据处理模型能够满足快速变化的需求;并且能够避免模型训练过程中对计算机资源的浪费。

上述为本实施例的一种数据处理模型训练方法的示意性方案。需要说明的是,该数据处理模型训练方法的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理模型训练方法的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。

参见图6,图6示出了根据本说明书一个实施例提供的另一种数据处理方法的流程图,该方法应用于云端,具体包括以下步骤。

步骤602:接收终端发送的待处理数据。

步骤604:将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果。

其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得;

步骤606:将所述数据处理结果发送至所述终端。

本说明书提供的另一种数据处理方法,利用数据处理模型的模型初始训练结果调整第二样本训练概率,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性地利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,能够避免模型训练过程中对计算机资源的浪费。并且,通过该数据处理模型能够对终端发送的待处理数据进行处理,并将数据处理结果发送至终端,从而满足快速变化的需求。

上述为本实施例的另一种数据处理方法的示意性方案。需要说明的是,该另一种数据处理方法的技术方案与上述的数据处理方法的技术方案属于同一构思,另一种数据处理方法的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图7示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图7所示,该装置包括:

数据接收模块702,被配置为接收用户发送的待处理数据;

数据处理模块704,被配置为将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得。

可选地,所述数据处理装置还包括模型训练模块,被配置为:

确定数据处理模型的初始样本数据集合,其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

可选地,所述模型训练模块,还被配置为:

确定所述每个初始样本数据对应的模型初始训练结果,并确定所述模型初始训练结果对应的平均训练结果;

基于所述平均训练结果,从所述至少两个初始样本数据中划分第一样本数据和第二样本数据。

可选地,所述模型初始训练结果为模型训练损失值,所述平均训练结果为模型训练损失均值;

所述模型训练模块,还被配置为:

确定所述每个初始样本数据对应的模型训练损失值;

将所述模型训练损失值大于等于所述模型训练损失均值的初始样本数据,确定为第一样本数据;

将所述模型训练损失值小于所述模型训练损失均值的初始样本数据,确定为第二样本数据。

可选地,所述模型训练模块,还被配置为:

确定所述第二样本数据对应的样本训练概率;

基于预设概率调整算法对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率,其中,所述第二样本数据对应的样本训练概率大于所述第二样本训练概率。

可选地,所述模型训练模块,还被配置为:

将所述第二样本数据对应的样本训练概率调整为预设第一训练概率,将所述预设第一训练概率作为第二样本训练概率;或者

基于所述第二样本数据对应的样本训练概率、和所述第二样本数据对应的所述模型初始训练结果,计算获得更新样本训练概率,并通过所述更新样本训练概率对所述第二样本数据对应的样本训练概率进行调整,获得第二样本训练概率。

可选地,所述模型训练模块,还被配置为:

基于所述第一样本训练概率从所述第一样本数据中选择第一当前训练样本,并基于所述第二样本训练概率从所述第二样本数据中选择第二当前训练样本;

基于所述第一当前训练样本和所述第二当前训练样本对所述数据处理模型进行训练,获得模型训练结果;

通过所述模型训练结果,重新执行从所述至少两个初始样本数据中确定第一样本数据和第二样本数据的步骤,以及执行对所述第一样本数据对应的第一样本训练概率进行调整和对所述第二样本数据对应的第二样本训练概率进行调整的步骤,对所述数据处理模型进行迭代训练,直至达到模型训练停止条件,获得训练后的数据处理模型。

可选地,所述模型训练模块,还被配置为:

确定所述第二样本数据对应的模型更新参数,并根据所述第二样本训练概率对所述模型更新参数进行调整,获得调整后的模型更新参数;

相应的,所述模型训练模块,还被配置为:

基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据、所述第二样本训练概率以及所述调整后的模型更新参数,对所述数据处理模型进行训练,获得训练后的数据处理模型。

可选地,所述模型训练模块,还被配置为:

确定所述数据处理模型的当前训练状态;

在所述当前训练状态满足预设概率调整条件的情况下,基于预设概率调整策略,对所述第一样本训练概率和所述第二样本训练概率进行调整,获得调整后的第一样本训练概率以及调整后的第二样本训练概率;

基于所述第一样本数据、所述调整后的第一样本训练概率、所述第二样本数据以及所述调整后的第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

可选地,所述模型训练模块,还被配置为:

在所述当前训练轮数满足预设轮数条件的情况下,将所述第一样本训练概率调整为预设第二训练概率,以获得调整后的第一样本训练概率;以及

将所述第二样本训练概率调整为所述预设第二训练概率,以获得调整后的第二样本训练概率。

可选地,所述数据处理模块704,还被配置为:

确定数据处理模型对应的数据预处理模型;

将所述待处理数据输入所述数据预处理模型,获得所述待处理数据的数据预处理结果;

将所述数据预处理结果输入所述数据处理模型,获得所述待处理数据的数据处理结果。

本说明书提供的数据处理装置,利用数据处理模型的模型初始训练结果调整第二样本训练概率,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性的利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,使得数据处理模型能够满足快速变化的需求;并且能够避免模型训练过程中对计算机资源的浪费。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应,本说明书还提供了一种数据处理模型训练装置,包括:

样本确定模块,被配置为确定数据处理模型的初始样本数据集合,其中,所述初始样本数据集合包含至少两个初始样本数据,每个初始样本数据具有对应的样本训练概率;

样本输入模块,被配置为根据所述样本训练概率将所述至少两个初始样本数据输入所述数据处理模型,获得模型初始训练结果;

样本划分模块,被配置为根据所述模型初始训练结果,从所述至少两个初始样本数据中确定第一样本数据和第二样本数据;

概率调整模块,被配置为将所述第一样本数据对应的样本训练概率作为第一样本训练概率,并将所述第二样本数据对应的样本训练概率调整为第二样本训练概率;

模型训练模块,被配置为基于所述第一样本数据、所述第一样本训练概率、所述第二样本数据以及所述第二样本训练概率对所述数据处理模型进行训练,获得训练后的数据处理模型。

本说明书一个或多个实施例中提供的数据处理模型训练装置,通过利用初始样本数据对数据处理模型进行训练获得的模型初始训练结果,划分出第一样本数据和第二样本数据,并对第二样本数据对应的第二样本训练概率进行调整,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性的利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,使得数据处理模型能够满足快速变化的需求;并且能够避免模型训练过程中对计算机资源的浪费。

上述为本实施例的一种数据处理模型训练装置的示意性方案。需要说明的是,该数据处理模型训练装置的技术方案与上述的数据处理模型训练方法的技术方案属于同一构思,数据处理模型训练装置的技术方案未详细描述的细节内容,均可以参见上述数据处理模型训练方法的技术方案的描述。

与上述方法实施例相对应,本说明书还提供了另一种数据处理装置,应用于云端,包括:

数据接收模块,被配置为接收终端发送的待处理数据;

数据处理模块,被配置为将所述待处理数据输入至数据处理模型,获得所述待处理数据的数据处理结果,其中,所述数据处理模型根据第一样本数据、所述第一样本数据对应的第一样本训练概率、第二样本数据以及所述第二样本数据对应的第二样本训练概率训练获得,所述第一样本数据和所述第二样本数据根据模型初始训练结果进行划分,所述第二样本训练概率根据所述模型初始训练结果进行调整,所述模型初始训练结果通过所述数据处理模型的初始样本数据训练获得;

结果发送模块,被配置为将所述数据处理结果发送至所述终端。

本说明书提供的另一种数据处理装置,利用数据处理模型的模型初始训练结果调整第二样本训练概率,然后在对数据处理模型进行训练的过程中,通过该第二样本训练概率调整第二样本数据在模型训练中的数量,从而在训练过程中有针对性地利用特定样本数据进行训练,降低模型训练的样本数据,提高模型训练的效率,加速模型训练过程,能够避免模型训练过程中对计算机资源的浪费。并且,通过该数据处理模型能够对终端发送的待处理数据进行处理,并将数据处理结果发送至终端,从而满足快速变化的需求。

上述为本实施例的另一种数据处理装置的示意性方案。需要说明的是,该另一种数据处理装置的技术方案与上述的另一种数据处理方法的技术方案属于同一构思,另一种数据处理装置的技术方案未详细描述的细节内容,均可以参见上述另一种数据处理方法的技术方案的描述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。

计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。

在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中,处理器820用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述两种数据处理方法以及数据处理模型训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述两种数据处理方法以及数据处理模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述两种数据处理方法以及数据处理模型训练方法的技术方案的描述。

本说明书一实施例还提供一种基于数据加载器的模型微调加速插件设备,该模型微调加速插件设备用于执行上述两种数据处理方法以及数据处理模型训练方法的步骤。

上述为本实施例的一种基于数据加载器的模型微调加速插件设备的示意性方案。需要说明的是,该基于数据加载器的模型微调加速插件设备的技术方案与上述两种数据处理方法以及数据处理模型训练方法的技术方案属于同一构思,基于数据加载器的模型微调加速插件设备的技术方案未详细描述的细节内容,均可以参见上述两种数据处理方法以及数据处理模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述两种数据处理方法以及数据处理模型训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述两种数据处理方法以及数据处理模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述两种数据处理方法以及数据处理模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述两种数据处理方法以及数据处理模型训练方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述两种数据处理方法以及数据处理模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述两种数据处理方法以及数据处理模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

相关技术
  • 一种可降解镁合金成型胚料,其制备设备,制备方法及由该成型胚料制备的加压螺钉
  • 一种抗菌淀粉基聚氨酯/纳米CuO可降解复合发泡材料及其制备方法
  • 一种生物型热塑性聚氨酯弹性体及其制备方法
  • 一种生物可降解型聚氨酯基材料及其制备方法
  • 一种基于可降解生物基类的环保型水性聚氨酯树脂及其制备方法
技术分类

06120116545264