一种数据处理方法及相关设备

文献发布时间：2024-04-18 20:01:55

技术领域

本申请涉及人工智能技术领域，具体涉及一种数据处理方法及相关设备，该相关设备包括数据处理装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

在对神经网络模型如大模型进行训练时，存在需要多个机器的协同计算，以对神经网络模型进行训练的情况。其中，在多个机器的协同计算时，机器所需的异构卡也在计算，而且，机器所需的异构卡的数量通常是以万为单位，因此，当多个机器在协同计算时，多机间通信的数据量会比较大。在通信的数据量较大的情况下，多个机器之间会出现计算性能的折损，进而导致无法快速地对神经网络模型进行训练。

针对计算性能折损导致对大模型的训练效率较低的问题，目前采用的方式一般是建设更高性能的网络基础设施、购买更高通信性能的异构计算卡，以实现折损的降低。但是，建设更高性能的网络基础设施、购买更高通信性能的这些方式，都无法有效地提高对神经网络模型的训练效率。

综上，目前存在对神经网络模型的训练效率较低的问题。

发明内容

本申请实施例提供一种数据处理方法及相关设备，能够提高对神经网络模型的训练效率。

一种数据处理方法，包括：

获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标；

根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度；

基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标；

获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

相应地，本申请实施例提供一种数据处理装置，包括：

获取单元，可以用于获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标；

确定单元，可以用于根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度；

筛选单元，可以用于基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标；

优化单元，可以用于获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

可选地，在一些实施例中，确定单元，具体可以用于根据当前衡量数据，确定训练衡量指标对应的训练消耗数据；对训练消耗数据进行运算，得到训练衡量指标对应的影响指示数据。

可选地，在一些实施例中，训练衡量指标包括至少一个子训练衡量指标；确定单元，具体可以用于在当前衡量数据中，提取出每一子训练衡量指标对应的当前子衡量数据；基于当前子衡量数据，确定每一子训练衡量指标对应的候选训练消耗数据；将候选训练消耗数据进行融合，得到训练衡量指标对应的训练消耗数据。

可选地，在一些实施例中，获取单元，还可以用于获取目标模型的历史折损数据，历史折损数据为多个机器在历史时间内协同对目标模型进行训练时，多个机器之间的折损数据；当历史折损数据大于预设阈值时，获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据。

可选地，在一些实施例中，优化单元，还可以用于针对每一训练衡量指标，将影响指示数据和每一子影响指示数据进行融合，得到初始融合指示数据；获取每一训练衡量指标对应的权重，并基于权重，对每一训练衡量指对应的初始融合指示数据进行加权，得到目标融合指示数据；将目标融合指示数据作为历史折损数据，并返回执行当历史折损数据大于预设阈值时，获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据的步骤，直至历史折损数据小于或等于预设阈值时为止。

可选地，在一些实施例中，优化单元，具体可以用于在预设优化任务集合中筛选出指标优化数据对应的目标优化任务；执行目标优化任务，以优化目标训练衡量指标。

可选地，在一些实施例中，优化单元，具体可以用于执行目标优化任务，并在目标优化任务下，获取目标模型对应的预设对象集合；在预设对象集合中筛选出目标训练衡量指标对应的待优化对象；基于指标优化数据，对待优化对象进行优化，得到优化对象，并基于优化对象，更新目标训练衡量指标。

可选地，在一些实施例中，获取单元，具体可以用于获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据；对当前初始衡量数据进行降噪，得到训练衡量指标对应的当前衡量数据。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有应用程序，处理器用于运行存储器内的应用程序实现本发明实施例提供的数据处理方法。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种数据处理方法。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本申请实施例所提供的任一种数据处理方法。

本申请可以获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标；根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度；基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标；获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。由于本申请可以获取到用于衡量目标模型的训练效率的训练衡量指标，以及该训练衡量指标的当前衡量数据，基于此，本申请可以利用当前衡量数据，确定出训练衡量指标对应的影响指示数据，从而可以基于影响指示数据，筛选到对目标模型的训练效率影响较大的目标训练衡量指标，进而可以利用目标训练衡量指标对应的指标优化数据，优化目标训练衡量指标，以针对性地提高对目标模型的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的场景示意图；

图2是本申请实施例提供的数据处理方法的流程示意一图；

图3是本申请实施例提供的数据处理方法的流程示意二图；

图4是本申请实施例提供的数据处理方法的四个阶段的示意图；

图5是本申请实施例提供的数据处理装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种数据处理方法及相关设备。其中，该数据处理装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，以数据处理装置集成在电子设备中为例，电子设备可以获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标；根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度；基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标；获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

其中，本申请可以利用衡量目标模型的训练效率的训练衡量指标对应的当前衡量数据，确定出训练衡量指标对应的影响指示数据，从而可以基于影响指示数据，筛选出对目标模型的训练效率影响较大的目标训练衡量指标，以便于可以利用指标优化数据，优化目标训练衡量指标，以针对性地提高对目标模型的训练效率。

其中，本申请涉及人工智能(Artificial Intelligence,AI)技术中的大模型。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请的目标模型可以为大模型，大模型可以并行计算，并行计算可以是指将大模型的计算任务分配给多个计算设备(例如CPU、GPU、TPU等)同时进行计算，从而加速模型的训练和推理。大模型并行计算能够有效地利用计算资源，提高模型的计算效率和训练速度。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从数据处理装置的角度进行描述，该数据处理装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC，Personal Computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。

如图2所示，该数据处理方法的具体流程如步骤S201至步骤S204所示：

S201、获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据。

其中，目标模型可以为神经网络模型，例如，大模型。

其中，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标。

此处可以理解的是，当多个机器协同对目标模型进行训练时，在通信的数据量较大的情况下，多个机器之间会出现计算性能的折损，而计算性能的折损会影响多个机器训练目标模型的训练效率。

在理想状况下，目标模型的训练效率是与机器的数量成线性的正比，但是由于多个机器之间会出现计算性能的折损，会导致目标模型的训练效率与机器的数量成非线性的提升。基于此，本申请可以利用训练衡量指标来衡量多个机器之间计算性能的折损，以衡量目标模型的训练效率。

其中，训练衡量指标可以为预先设置的指标。具体来说，训练衡量指标可以包括通信性能指标、程序处理性能指标和链路通信指标。每一训练衡量指标可以包括至少一个子训练衡量指标。

所谓通信性能指标可以是指多个机器的通信性能的指标。通信性能指标可以包括至少一个子训练衡量指标，例如，通信性能指标可以包括网络通信子性能指标、总线通信子性能指标和卡间通信子性能指标。所谓网络通信子性能指标可以是指多个机器之间的网络通信的性能指标，如网络通信子性能指标可以以体现为多个机器之间的远程直接数据存取(RDMA，Remote Direct Memory Access)高速通信的性能指标。所谓总线通信子性能指标可以体现为在机器的内存和显卡之间通信的性能指标。所谓卡间通信子性能指标可以是指异构卡之间通信的性能指标；其中，异构卡可以包括GPU，在GPU之间可以通过高速互连技术(nvlink，NVIDIA NVLink)进行通信。

程序处理性能指标可以包括至少一个子训练衡量指标，例如，程序处理性能指标可以包括训练数据收发性能指标和多机执行相同指令耗时指标。具体来说，训练数据收发性能指标可以是指目标模型的训练数据被接收到机器的内存的耗时；具体来说，训练数据收发性能指标可以是指训练数据对应的数据包的协议处理耗时。多机执行相同指令耗时指标可以是指多机器间协同计算时，完成相同计算指令的耗时。

链路通信指标可以是指目标模型单步训练的计算耗时；具体来说，链路通信指标可以是更改训练数据的数据规模后，目标模型单步训练的计算耗时。

针对通信性能指标、程序处理性能指标和链路通信指标，具体可以如表1所示：

表1

此处可以理解的是，本申请可以聚合通信性能指标、程序处理性能指标和链路通信指标多个指标，汇总成多机器间协同计算不能线性扩张的因素，以通信性能指标、程序处理性能指标和链路通信指标来提升目标模型的训练效率。

其中，当前衡量数据可以是指在目标模型在当前训练步数下进行训练时，训练衡量指标对应的数据。当前衡量数据可以包括多个当前子衡量数据；比如，通信性能指标包括网络通信子性能指标、总线通信子性能指标和卡间通信子性能指标时，通信性能指标对应的当前衡量数据可以包括网络通信子性能指标对应的当前子衡量数据、总线通信子性能指标对应的当前子衡量数据和卡间通信子性能指标对应的当前子衡量数据。

在步骤S201之前，本申请可以获取目标模型的历史折损数据，基于此，步骤S201的具体方式可以为：当历史折损数据大于预设阈值时，获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据。

其中，历史折损数据为多个机器在历史时间内协同对目标模型进行训练时，多个机器之间的折损数据；其中，历史时间可以是指当前训练步数的上一训练步数。

具体来说，“获取目标模型的历史折损数据”的方式具体可以参见下述获取到目标融合指示数据的过程，此处不再赘述。

具体来说，“获取目标模型的历史折损数据”之后，本申请可以判断历史折损数据是否大于预设阈值。

具体来说，“获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据”的方式可以为：获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据；对当前初始衡量数据进行降噪，得到训练衡量指标对应的当前衡量数据。

其中，步骤“获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据”的方式可以为：获取目标模型对应的至少一个训练衡量指标；在预设存储空间中，提取训练衡量指标对应的当前初始衡量数据。

预设存储空间可以为电子设备本地的存储空间。其中，当前初始衡量数据可以是指目标模型在当前训练步数下进行训练时，训练衡量指标对应的未降噪过的数据。

或者，当训练衡量指标包括至少一个子训练衡量指标时，相应地，当前衡量数据可以包括每一子训练衡量指标对应的当前子衡量数据。步骤“获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据”的方式可以为：针对每一训练衡量指标，获取目标模型对应的至少一个训练衡量指标，训练衡量指标包括至少一个子训练衡量指标；检测子训练衡量指标对应的原始数据；根据原始数据，计算子训练衡量指标对应的当前子衡量数据，并基于子训练衡量指标对应的当前子衡量数据，生成训练衡量指标对应的当前初始衡量数据。

其中，原始数据可以是指多个机器对目标模型进行训练过程中，机器处理数据时，机器的相关数据，例如，原始数据可以包括机器处理的数据量、机器对数据处理的耗时、训练数据的数据规模。

针对于步骤“根据原始数据，计算子训练衡量指标对应的当前子衡量数据”此处举例进行阐述。

例如，当子训练衡量指标为网络通信子性能指标时，当前子衡量数据可以采用相邻秒级时间的数据量之差，比如，原始数据可以包括A秒的数据量为AA，A+1秒的数据量为BB，那么，当前子衡量数据可以为(BB-AA)，当前子衡量数据的单位为秒级吞吐量。

又例如，当子训练衡量指标为训练数据收发性能指标时，当前子衡量数据可以采用求取时间差的方式获取，具体来说，原始数据可以包括目标时刻time_begin和候选时刻time_end；其中，目标时刻time_begin可以是指机器在接收训练数据对应的数据包之后，机器启动对数据包解包的时刻；候选时刻time_end可以是指数据包解包完成后的时刻。那么，可以得到时间差(time_end–time_begin)，该时间差即为训练数据收发性能指标对应的当前子衡量数据。

又例如，当子训练衡量指标为多机执行相同指令耗时指标时，当前子衡量数据可以通过多机器间协同计算时，启动相同计算指令的时间点来确定，并非是机器执行相同指令的执行时间来确定的。

此处以启动相同计算指令的时间点来确定当前子衡量数据的理由是，如此可以梳理分析各机器的执行差异，并反推目标模型训练优化的方向可以为对训练程序编译的优化，或者对训练程序运行优化。其中，原始数据可以包括多机器间协同计算时，启动相同计算指令的时间点，对应地，可以将启动相同计算指令的时间点作为子训练衡量指标对应的当前子衡量数据。

又例如，当子训练衡量指标为链路通信指标时，本申请可以通过缩减训练数据的数据规模，得到缩减数据规模后的目标训练数据；然后采用目标训练数据在一个步数内对目标模型训练，得到在单步内的训练耗时，该单步内的训练耗时可以为当前子衡量数据。其中，原始数据可以为缩减数据规模后的目标训练数据。

其中，步骤“对当前初始衡量数据进行降噪，得到训练衡量指标对应的当前衡量数据”的方式可以为：针对每一训练衡量指标，对当前初始衡量数据进行清洗，得到清洗后衡量数据；获取数据筛选区间，并根据数据筛选区间，在清洗后衡量数据中筛选出有效的目标衡量数据；将目标衡量数据作为训练衡量指标对应的当前衡量数据。

具体来说，当电子设备获取到当前初始衡量数据后，由于当前初始衡量数据存在失败的数据，基于此，本申请可以对当前初始衡量数据进行清洗，以清洗掉失败的数据。比如，本申请清洗掉当前初始衡量数据中最大的当前初始衡量数据，以及最小的当前初始衡量数据；当然，对当前初始衡量数据进行清洗的方式可以根据需要进行设置，此处仅为示例。

本申请获取到清洗后衡量数据之后，便可以将清洗后衡量数据存储于电子设备本地的存储空间中。本申请将清洗后衡量数据存储于电子设备本地的存储空间是为了便于后续执行绘测，以得到训练衡量指标对应的影响指示数据。

但是，由于清洗后衡量数据存在数据波动幅度过大的毛刺点，因此，本申请可以利用数据筛选区间，剔除清洗后衡量数据中无效的清洗后衡量数据，以获取有效的目标衡量数据；将目标衡量数据作为训练衡量指标对应的当前衡量数据。

其中，数据筛选区间的确定方式可以是：获取基准值；计算基准值上浮20％所得到的第一数值，以及计算基准值下浮20％所得到的第二数值；根据第一数值和第二数值，构建数据筛选区间。其中，基准值可以是预先设置的数值。

S202、根据当前衡量数据，确定训练衡量指标对应的影响指示数据。

本申请在获取到当前衡量数据之后，便可以基于当前衡量数据确定出影响指示数据，以便于在后续优化目标模型的训练衡量指标，以提高对目标模型的训练效率。其中，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度。

针对步骤S202，具体来说，步骤“根据当前衡量数据，确定训练衡量指标对应的影响指示数据”的方式可以如步骤S2021至步骤S2022所示：

S2021、根据当前衡量数据，确定训练衡量指标对应的训练消耗数据。

其中，训练消耗数据可以是指在训练过程中，训练衡量指标对应的计算耗时。

在本申请中，训练衡量指标可以包括至少一个子训练衡量指标，基于此，步骤S2021中，“根据当前衡量数据，确定训练衡量指标对应的训练消耗数据”的方式可以为：在当前衡量数据中，提取出每一子训练衡量指标对应的当前子衡量数据；基于当前子衡量数据，确定每一子训练衡量指标对应的候选训练消耗数据；将候选训练消耗数据进行融合，得到训练衡量指标对应的训练消耗数据。

其中，步骤“基于当前子衡量数据，确定每一子训练衡量指标对应的候选训练消耗数据”的方式可以为：针对每一子训练衡量指标，将当前子衡量数据作为该子训练衡量指标对应的候选训练消耗数据。比如，当子训练衡量指标为训练数据收发性能指标，训练数据收发性能指标对应的当前子衡量数据为时间差，也即机器对数据包的计算耗时，基于此，可以将训练数据收发性能指标对应的当前子衡量数据作为训练数据收发性能指标对应的候选训练消耗数据。

或者，步骤“基于当前子衡量数据，确定每一子训练衡量指标对应的候选训练消耗数据”的方式还可以为：针对每一子训练衡量指标，获取映射函数；根据映射函数对当前子衡量数据进行映射，得到子训练衡量指标对应的候选训练消耗数据。

比如，当子训练衡量指标为网络通信子性能指标时，网络通信子性能指标对应的当前子衡量数据为相邻秒级时间的数据量之差，那么相应地，本申请可以获取网络通信子性能指标对应的传输数据的大小，该传输数据可以是指在目标模型训练时，机器之间所传输的数据。基于此，可以获取映射函数，通过该映射函数，所得到的候选训练消耗数据可以为传输数据的大小除以当前子衡量数据所得到的值。此处仅为示例，具体可以根据需求设置。

其中，针对步骤“将候选训练消耗数据进行融合，得到训练衡量指标对应的训练消耗数据”的方式可以为：针对每一训练衡量指标，可以将训练衡量指标中子训练衡量指标对应的候选训练消耗数据进行相加，得到训练衡量指标对应的训练消耗数据；或者，针对每一训练衡量指标，可以将训练衡量指标中子训练衡量指标对应的候选训练消耗数据进行绑定，得到训练衡量指标对应的训练消耗数据。

针对步骤S2021，此处可以理解的是，例如，当训练衡量指标为通信性能指标时，通信性能指标对应的子训练衡量指标可以包括网络通信子性能指标、总线通信子性能指标和卡间通信子性能指标。在此基础上，那么，当前子衡量数据包括网络通信子性能指标对应的当前子衡量数据、总线通信子性能指标对应的当前子衡量数据和卡间通信子性能指标对应的当前子衡量数据。

然后，本申请可以基于网络通信子性能指标对应的当前子衡量数据，计算出网络通信子性能指标对应的候选训练消耗数据；基于总线通信子性能指标对应的当前子衡量数据，计算出总线通信子性能指标对应的候选训练消耗数据；基于卡间通信子性能指标对应的当前子衡量数据，计算出卡间通信子性能指标对应的候选训练消耗数据。

然后，可以将网络通信子性能指标对应的候选训练消耗数据、总线通信子性能指标对应的候选训练消耗数据，以及卡间通信子性能指标对应的候选训练消耗数据进行融合，得到通信性能指标对应的训练消耗数据。

S2022、对训练消耗数据进行运算，得到训练衡量指标对应的影响指示数据。

针对步骤S2022，步骤“对训练消耗数据进行运算，得到训练衡量指标对应的影响指示数据”的方式可以为：对训练消耗数据进行融合处理，得到融合后消耗数据；将训练消耗数据所包括的候选训练消耗数据和融合后消耗数据进行运算，得到候选训练消耗数据在融合后消耗数据中的占比；根据占比，生成训练衡量指标对应的影响指示数据。

具体来说，可以将对训练消耗数据进行相加，得到融合后消耗数据。

具体来说，可以将候选训练消耗数据除以融合后消耗数据，得到训练消耗数据的百分比，并将该百分比作为候选训练消耗数据在融合后消耗数据中的占比。

具体来说，步骤“根据占比，生成训练衡量指标对应的影响指示数据”的方式可以为：对占比进行映射处理，得到训练衡量指标对应的影响指示数据。或者，步骤“根据占比，生成训练衡量指标对应的影响指示数据”的方式可以为：在占比中，识别出训练衡量指标对应的每一候选训练消耗数据的目标占比；基于目标占比，生成候选训练消耗数据对应的分布图像，分布图像指示每一训练衡量指标对应的消耗数据分布信息；基于分布图像，获取训练衡量指标对应的影响指示数据。

其中，消耗数据分布信息可以是指训练衡量指标对应的候选训练消耗数据在所有训练消耗数据中的占比分布。

此处可以理解的是，本申请采用分布图像，是为了将不同训练衡量指标对应的消耗数据分布信息分离，以便于为后续优化目标训练衡量指标做准备。

具体来说，步骤“基于分布图像，获取训练衡量指标对应的影响指示数据”的方式可以为：针对每一训练衡量指标，在分布图像中，获取训练衡量指标中每一子训练衡量指标对应的候选占比；将候选占比相加，得到训练衡量指标的指标占比；将指标占比和候选占比，作为训练衡量指标对应的影响指示数据。

其中，指标占比可以是指训练衡量指标对应的候选训练消耗数据在所有候选训练消耗数据中的占比。

由于通信性能指标和程序处理性能指标均与大模型算力的基础设施性能相关，程序处理性能指标与目标模型的程序的引用库、以及目标模型的程序中执行CPU计算的耗时相关，故通信性能指标的指标占比和程序处理性能指标的指标占比，分别通常会有1％-20％的占比分布。

本申请可以获取到每一训练衡量指标对应的影响指示数据，例如，通信性能指标的指标占比记为N％，程序处理性能指标的指标占比记为M％，链路通信指标的指标占比记为R％，三者占比之和为100％，属于目标模型在一个训练步数中，训练全链路的整体耗时。

其中，针对链路通信指标，R％的值应该无限的接近100％，因此在对训练衡量指标进行优化时，尽可能的降低N％、M％的占比数值。其中N％和M％的耗时具体分布如表2和表3所示：

表2

表3

S203、基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标。

针对步骤S203，“基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标”的方式有多种：例如，在影响指示数据中筛选出最大的影响指示数据；在至少一个训练衡量指标中，筛选出最大的影响指示数据对应的训练衡量指标，并将最大的影响指示数据对应的训练衡量指标作为目标训练衡量指标。

又例如，“基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标”的方式可以为：当影响指示数据符合预设条件时，将该影响指示数据对应的训练衡量指标作为目标训练衡量指标。

此处可以理解的是，当影响指示数据符合预设条件时，表明影响指示数据对应的训练衡量指标对目标模型的训练效率产生了较强的影响或者增量影响，因此需要对目标训练衡量指标进行优化；当影响指示数据不符合预设条件时，表明影响指示数据对应的训练衡量指标对目标模型的训练效率产生了较弱的影响，因此需要对目标训练衡量指标进行优化。

其中，当影响指示数据大于或等于目标预设阈值时，此种情况可以称影响指示数据符合预设条件；当影响指示数据小于目标预设阈值时，此种情况可以称影响指示数据不符合预设条件。

或者，当影响指示数据处于预设数值区间时，此种情况可以称影响指示数据符合预设条件；当影响指示数据未处于预设数值区间时，此种情况可以称影响指示数据不符合预设条件。

或者，影响指示数据包括子训练衡量指标对应的候选占比和训练衡量指标的指标占比，当子训练衡量指标对应的候选占比大于或等于候选阈值时，此种情况表明子训练衡量指标对目标模型的训练效率产生了较强的影响或者增量影响，相应地，可以称子训练衡量指标对应的训练衡量指标符合预设条件；当子训练衡量指标对应的候选占比小于候选阈值时，此种情况表明子训练衡量指标对目标模型的训练效率产生了较弱的影响，相应地，可以称子训练衡量指标对应的训练衡量指标不符合预设条件。

例如，如表2所示，总线通信子性能指标和卡间通信子性能指标对目标模型的训练效率的影响较弱，也即总线通信子性能指标的通信耗时和卡间通信子性能指标的通信耗时对多机器之间的计算性能的折损的影响较弱，尤其是卡间通信子性能指标可以忽略，而且网络通信子性能指标对目标模型的训练效率的影响较强，因此，通信性能指标的指标占比可以近似看做网络通信子性能指标的候选占比。其中，网络通信子性能指标对应的通信性能指标可以为目标训练衡量指标。

又例如，如表3所示，其中，多机执行相同指令耗时指标属于增量影响，此处可以理解的是，多机执行相同指令耗时指标属于拖慢目标模型的训练效率的短板因子，该因子需要在执行训练的过程中被消除。因此，多机执行相同指令耗时指标对应的程序处理性能指标可以为目标训练衡量指标。

S204、获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

其中，指标优化数据可以是指能够降低多个机器之间的计算性能的折损，以提高对目标模型的训练效率的数据。具体来说，指标优化数据可以为使目标优化任务执行的数据，或者，目标优化任务执行时所需要的数据。

本申请在筛选出目标训练衡量指标之后，便可以优化目标训练衡量指标，以提高对目标模型的训练效率。

针对步骤S204，步骤“获取目标训练衡量指标对应的指标优化数据”的方式有多种，例如，获取目标训练衡量指标对应的目标标识，并基于目标标识，在优化数据集合中，提取目标训练衡量指标对应的指标优化数据。

其中，“获取目标训练衡量指标对应的目标标识”的方式可以为：在目标训练衡量指标中的子训练衡量指标中，筛选出候选占比大于或等于候选阈值的目标子训练衡量指标；获取目标子训练衡量指标对应的标识，并将目标子训练衡量指标对应的标识作为目标训练衡量指标对应的目标标识。

或者，步骤“获取目标训练衡量指标对应的指标优化数据”的方式可以为：显示优化界面，优化界面包括输入控件；响应于针对输入控件的输入操作，获取目标训练衡量指标对应的指标优化数据。

在获取到指标优化数据之后，便可以优化目标训练衡量指标，具体来说，针对步骤S204，步骤“基于指标优化数据，优化目标训练衡量指标”的方式可以如步骤S2041至步骤S2042所示：

S2041、在预设优化任务集合中筛选出指标优化数据对应的目标优化任务。

其中，预设优化任务集合中可以包括多个预设优化任务。预设优化任务可以是指预先设置的、用于优化目标训练衡量指标的指令、算法和逻辑。

针对步骤S2041，基于目标训练衡量指标对应的目标标识，在预设优化任务集合中筛选出目标训练衡量指标对应的预设优化任务；将目标训练衡量指标对应的预设优化任务作为指标优化数据对应的目标优化任务。

S2042、执行目标优化任务，以优化目标训练衡量指标。

针对步骤S2042，“执行目标优化任务，以优化目标训练衡量指标”的方式可以为：执行目标优化任务，并在目标优化任务下，获取目标模型对应的预设对象集合；在预设对象集合中筛选出目标训练衡量指标对应的待优化对象；基于指标优化数据，对待优化对象进行优化，得到优化对象，并基于优化对象，更新目标训练衡量指标。

其中，预设对象集合中可以包括至少一个预设对象，待优化对象属于预设对象。比如，待优化对象可以包括但不限于训练数据的数据规模、编译策略、动态库、内存。

例如，当目标训练衡量指标为程序处理性能指标时，对于程序处理性能指标的优化，主要包括两个待优化对象，一个是对编译策略的优化和对动态库的优化。

针对编译策略，由于目标模型的相关程序在编译过程中，目标模型训练依赖的软件栈深且广，跨度了cuda生态库、mellanox网络驱动库、训练框架库、以及大模型训练的依赖库等，因此，这些库文件执行编译的时候，为了以性能优化，因此，本申请会对编译策略进行优化，比如，基于指标优化数据，对编译策略对应的输出信息进行过滤，比如，过滤调试信息和警告信息，仅输出与程序错误相关的信息，以得到优化后的编译策略，并将优化后的编译策略作为优化对象。

针对动态库，当目标模型的相关程序依赖于动态库时，基于指标优化数据，可以将动态库中的库文件数据转换为静态库的静态库文件数据，将静态库文件数据作为优化对象，如此以静态库的方式构建，减少使用运行时才会动态加载的动态库文件，如此可以避免CPU、内存出现中断时环境的拷贝和恢复。

除上述之外，当目标训练衡量指标为程序处理性能指标时，对于程序处理性能指标的优化，还可以包括对目标模型训练所需要的多个机器的优化，具体来说，基于指标优化数据，发送针对所有机器的统一启动指令，以基于统一启动指令控制所有机器启动；获取在统一启动指令下，每一机器的启动时间，并基于启动时间，在多个机器中筛选出目标机器；对目标机器进行屏蔽，并在预设机器集合中确定备用机器；基于备用机器更新多个机器，得到更新后的多个机器；将新后的多个机器作为优化对象。

此处可以理解的是，由于目标模型的计算过程存在短板的效应，即多个机器中的某个机器如果出现问题，则整体的训练流程就会被拖慢，解决的关键点在于能快速的找到性能慢的机器，本方案采用机器启动的绝对时间作为启动时间做判断，若出现某个机器的绝对时间低于其余机器，则需要屏蔽该台机器，方案中之所以不用统一启动指令的执行时间，而是采用启动的绝对时间，考虑点在于统一启动指令的执行时间很快，若无硬件问题执行的时间是相同的，但启动执行的时间点，会被机器上的其他负载拖慢，故该被拖慢机器需要被找到做替换。

例如，当目标训练衡量指标为通信性能指标时，待优化对象可以为机器的内存。由于通信性能指标主要是集中在对网络通信子性能指标的优化上，因为网络通信子性能指标的候选占比在通信性能指标中可以占到95％意思，但由于网络通信子性能指标的上限被硬件限制，因此本申请网络通信子性能指标的优化集中在将软件性能优化到尽可能得接近硬件的性能。具体来说，本申请可以基于指标优化数据，在内存中查询共享内存；当不存在共享内存时，基于目标优化任务，创建共享内存，以并将共享内存作为优化对象。本申请构建了共享内存，可以避免通信使用的内存在操作系统页面中断换页的情况下，发生换入换出的动作，因为在操作系统页面在换入换出的过程中，会导致通信卡顿。

例如，当目标训练衡量指标为链路通信指标时，待优化对象可以为训练数据的数据规模。具体来说，本申请可以基于指标优化数据，在训练数据中随机筛选出目标训练数据，以降低训练数据的数据规模，从而降低目标模型训练过程中的通信规模。此处可以理解的是，数据规模的缩减属于降低多机器之间的计算性能折损的正向因子。

其中，目标训练数据可以包括随机取样策略，随机取样策略具体可以参见公式(1)，本申请可以通过随机取样策略，在训练数据中随机筛选出目标训练数据。

A＝hash(data[i])∈(0，rand(N)) 公式(1)

其中，A可以是指目标训练数据；hash(data[i])为哈希函数，哈希函数可以为MD5；data[i]为训练数据中每一训练样本的头部的i个字节，i＝4；rand(N)可以为随机函数；若哈希函数计算出来的属于随机函数配置的某个范围，则取该值为目标样本数据。

其中，对训练数据的数据规模的一种柔性的策略，通过柔性的缩减计算的数据规模，柔性的降低训练的规模量。本申请可以利用缩减数据规模后的目标训练数据对目标模型进行后续的训练，当目标模型完成后续的训练时，可以测试对目标模型的训练结果是否正常。

例如，本申请可以需要构建出训练结果的评测系统，对于训练结果的评测最准确的方法是刷榜评测以及一些开源的评测集合模式，本申请采用开源的评测集合，例如NLP的开源评测集，评测的内容覆盖了选择、填空和解答类型等的内容类型的题目，并根据训练后的目标模型输出的答案执行打分操作，累计分数相同后，再细化对比每一内容类型的分数，然后，可以基于分数做缩减数据规模后评估进一步缩减的哪类内容的训练数据，例如缩减数据前后，目标模型的累计总分数相同，而对比内容类型的分数时，内容类型为选择类型的题目的分数低于缩减数据前的分数，则可考虑增加选择类型的训练数据，降低内容类型的训练数据。以此实现既保障模型的可用性也能柔性降低数据规模，提效目标模型的计算过程。

本申请在优化目标训练衡量指标之后，可以计算出在当前训练步数下，多机器之间计算性能的折损率，也即目标融合指示数据；具体来说，目标融合指示数据的获取方式具体可以为：针对每一训练衡量指标，将影响指示数据和每一子影响指示数据进行融合，得到初始融合指示数据；获取每一训练衡量指标对应的权重，并基于权重，对每一训练衡量指对应的初始融合指示数据进行加权，得到目标融合指示数据。

其中，目标融合指示数据可以指示在当前训练步数下，多机器之间计算性能的折损率。

其中，影响指示数据包括多个子影响指示数据。本申请可以将影响指示数据和每一子影响指示数据进行相乘，得到初始融合指示数据。

其中，权重可以设置为1，此处仅为示例，具体可以根据需要设置。

对应表2和表3，本申请获取目标融合指示数据具体可以参见公式(2)：

目标融合指示函数＝N％×A1％+M％×MB％+M％×MC％公式(2)

然后，本申请可以将目标融合指示数据作为历史折损数据，并返回执行当历史折损数据大于预设阈值时，获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据的步骤，直至历史折损数据小于或等于预设阈值时为止。

综上，本申请通过对目标训练衡量指标，可以实现了折损率的下降。其中，本申请对于通信性能指标和程序处理性能指标主要是对折损率做柔性的调低，以提高对目标模型的训练效率。其中，对训练数据缩减数据规模采用的是逆向柔性的策略，以提效目标模型如大模型的训练过程。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该数据处理装置具体集成在电子设备，电子设备为服务器。

如图3所示，一种数据处理方法，具体流程如步骤S501至步骤S506所示：

针对步骤S501至步骤S506，具体来说，本申请所描述的数据方法，主要涉及四个阶段，如图4所示，四个阶段分别为数据获取阶段、数据处理阶段、数据运算阶段和指标优化阶段。

其中，数据获取阶段可参见步骤S501；数据处理阶段可参见步骤S502至步骤S503；数据运算阶段可参见步骤S504；指标优化阶段具体可以参见步骤S505至步骤S506。

S501、电子设备获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据。

其中，如图4所示，训练衡量指标包括通信性能指标、程序处理性能指标和链路通信指标。

其中，在步骤S501之前，电子设备可以获取目标模型的历史折损数据，然后，当历史折损数据大于预设阈值时，电子设备获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据。

S502、电子设备对当前初始衡量数据进行降噪，得到训练衡量指标对应的当前衡量数据。

其中，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标。

例如，电子设备可以针对每一训练衡量指标，对当前初始衡量数据进行清洗，得到清洗后衡量数据；获取数据筛选区间，并根据数据筛选区间，在清洗后衡量数据中筛选出有效的目标衡量数据；将目标衡量数据作为训练衡量指标对应的当前衡量数据。

S503、电子设备根据当前衡量数据，确定训练衡量指标对应的训练消耗数据。

例如，电子设备可以在当前衡量数据中，提取出每一子训练衡量指标对应的当前子衡量数据；基于当前子衡量数据，确定每一子训练衡量指标对应的候选训练消耗数据；将候选训练消耗数据进行融合，得到训练衡量指标对应的训练消耗数据。

S504、电子设备对训练消耗数据进行运算，得到训练衡量指标对应的影响指示数据。

其中，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度。

例如，电子设备可以对训练消耗数据进行融合处理，得到融合后消耗数据；将训练消耗数据所包括的候选训练消耗数据和融合后消耗数据进行运算，得到候选训练消耗数据在融合后消耗数据中的占比；根据占比，生成训练衡量指标对应的影响指示数据。

S505、电子设备基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标。

例如，当影响指示数据符合预设条件时，将该影响指示数据对应的训练衡量指标作为目标训练衡量指标。

其中，电子设备可以判断影响指示数据是否大于或等于目标预设阈值；当影响指示数据大于或等于目标预设阈值时，此种情况可以称影响指示数据符合预设条件；当影响指示数据小于目标预设阈值时，此种情况可以称影响指示数据不符合预设条件。

S506、电子设备获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

例如，电子设备可以显示优化界面，优化界面包括输入控件；响应于针对输入控件的输入操作，获取目标训练衡量指标对应的指标优化数据。

例如，电子设备可以在预设优化任务集合中筛选出指标优化数据对应的目标优化任务；执行目标优化任务，以优化目标训练衡量指标。

具体来说，电子设备可以执行目标优化任务，并在目标优化任务下，获取目标模型对应的预设对象集合；在预设对象集合中筛选出目标训练衡量指标对应的待优化对象；基于指标优化数据，对待优化对象进行优化。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

为了更好地实施以上方法，本申请实施例还提供一种数据处理装置，该数据处理装置可以集成在电子设备，比如服务器或终端等设备中，该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。

例如，如图5所示，该数据处理装置可以包括获取单元301、确定单元302、筛选单元303和优化单元304，如下：

(1)获取单元301；

获取单元301，可以用于获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标。

例如，获取单元301，具体可以用于获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前初始衡量数据；对当前初始衡量数据进行降噪，得到训练衡量指标对应的当前衡量数据。

(2)确定单元302；

确定单元302，可以用于根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度。

例如，确定单元302，可以用于根据当前衡量数据，确定训练衡量指标对应的训练消耗数据；对训练消耗数据进行运算，得到训练衡量指标对应的影响指示数据。

(3)筛选单元303；

筛选单元303，可以用于基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标。

(4)优化单元304；

优化单元304，可以用于获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。

例如，优化单元304，具体可以用于在预设优化任务集合中筛选出指标优化数据对应的目标优化任务；执行目标优化任务，以优化目标训练衡量指标。

由上可知，本申请可以获取目标模型对应的至少一个训练衡量指标和训练衡量指标对应的当前衡量数据，训练衡量指标为当多个机器协同对目标模型进行训练时，多个机器之间用于衡量目标模型的训练效率的指标；根据当前衡量数据，确定训练衡量指标对应的影响指示数据，影响指示数据指示训练衡量指标对目标模型的训练效率的影响程度；基于影响指示数据，在至少一个训练衡量指标中筛选出目标训练衡量指标；获取目标训练衡量指标对应的指标优化数据，并基于指标优化数据，优化目标训练衡量指标。由于本申请可以获取到用于衡量目标模型的训练效率的训练衡量指标，以及该训练衡量指标的当前衡量数据，基于此，本申请可以利用当前衡量数据，确定出训练衡量指标对应的影响指示数据，从而可以基于影响指示数据，筛选到对目标模型的训练效率影响较大的目标训练衡量指标，进而可以利用目标训练衡量指标对应的指标优化数据，优化目标训练衡量指标，以针对性地提高对目标模型的训练效率。

本申请实施例还提供一种电子设备，如图6所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种数据处理方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种数据处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种数据处理方法及相关设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：扫描电路、显示设备和操作扫描电路的方法
下一篇：气溶胶量推定系统、气溶胶量推定方法以及程序