数据增强方法、装置、训练方法、装置及电子设备

文献发布时间：2023-06-19 11:22:42

技术领域

本申请属于数据挖掘领域，具体涉及一种数据增强方法、装置、训练方法、装置及电子设备。

背景技术

在训练目标网络模型时，需要大量的训练样本，然而，在实际情况中，经常存在训练样本的样本量不足的情况。在训练目标网络模型时，若样本量不足，经常会导致目标网络模型训练过程欠拟合，使得目标网络模型效果变弱，进而导致目标网络模型无法实现分类任务或者回归任务。

为了解决上述问题，现有技术中常见的解决方式是采用结构更为简单的目标网络模型，或者对原始样本进行复制以增加样本量。然而，结构更为简单的目标网络模型往往会降低对样本的依赖性，导致从样本中挖掘的信息不充分，加剧样本信息的损失或者降低样本信息的利用程度，从而导致目标网络模型效果不佳或不稳定；直接复制原始样本，虽然可以增加样本量，但是并没有增加样本信息量，并没有起到数据增强的效果。

发明内容

有鉴于此，本申请的目的在于提供一种数据增强方法、装置、训练方法、装置及电子设备，可以增加样本量以及样本信息量，从而实现数据增强。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种数据增强方法，所述方法包括：对获取到的原有的样本数据增加数据特征，得到中间样本数据；通过将所述中间样本数据输入到预先训练好的自编码模型，输出新的样本数据。在上述过程中，通过对原有的样本数据增加数据特征后，将其输入到自编码模型，从而输出新的样本数据，对原有的训练集进行数据增强，进而可以增加原有样本数据的样本量以及样本信息量，从而可以解决样本量不足的问题，有利于训练出符合要求的神经网络模型。

结合第一方面实施例，在一种可能的实施方式中，所述对获取到的原有的样本数据增加数据特征，包括：对所述原有的样本数据的缺失值进行填补处理，得到标准化样本数据；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

结合第一方面实施例，在一种可能的实施方式中，所述对获取到的原有的样本数据增加数据特征，包括：对所述原有的样本数据的缺失值进行填补处理以及优化处理，得到标准化样本数据；所述优化处理包括：标准差标准化处理和/或最值优化处理；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

结合第一方面实施例，在一种可能的实施方式中，所述方法还包括：保留所述优化处理时所对应的优化参数；在所述输出新的样本数据之后，所述方法还包括：通过所述优化参数，将所述新的样本数据进行还原，得到还原样本数据。

结合第一方面实施例，在一种可能的实施方式中，所述对所述原有的样本数据的缺失值进行填补处理，包括：在确定所述原有的样本数据为离散样本数据时，通过所述原有的样本数据的众数对所述原有的样本数据进行填补处理；在确定所述原有的样本数据为连续样本数据时，通过所述原有的样本数据的均值对所述原有的样本数据进行填补处理。

结合第一方面实施例，在一种可能的实施方式中，所述原有的样本数据为银行用户的账户信息数据。

第二方面，本申请实施例提供一种训练方法，所述方法包括：获取第一方面任一实施方式所述的中间样本数据；根据所述的中间样本数据训练自编码器，得到自编码模型。

第三方面，本申请实施例提供一种数据增强装置，所述装置包括：处理模块、编码模块。处理模块，用于对获取到的原有的样本数据增加数据特征，得到中间样本数据；编码模块，用于通过将所述中间样本数据输入到预先训练好的自编码模型，输出新的样本数据。

结合第三方面实施例，在一种可能的实施方式中，所述处理模块，用于对所述原有的样本数据的缺失值进行填补处理，得到标准化样本数据；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

结合第三方面实施例，在一种可能的实施方式中，所述处理模块，用于对所述原有的样本数据的缺失值进行填补处理以及优化处理，得到标准化样本数据；所述优化处理包括：标准差标准化处理和/或最值优化处理；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

结合第三方面实施例，在一种可能的实施方式中，所述装置还包括还原模块，用于保留所述优化处理时所对应的优化参数，且通过所述优化参数，将所述新的样本数据进行还原，得到还原样本数据。

结合第三方面实施例，在一种可能的实施方式中，所述处理模块，用于在确定所述原有的样本数据为离散样本数据时，通过所述原有的样本数据的众数对所述原有的样本数据进行填补处理；在确定所述原有的样本数据为连续样本数据时，通过所述原有的样本数据的均值对所述原有的样本数据进行填补处理。

结合第三方面实施例，在一种可能的实施方式中，所述原有的样本数据为银行用户的账户信息数据。

第四方面，本申请实施例还提供一种训练装置，所述装置包括：获取模块以及训练模块。

获取模块，用于获取第一方面任一实施方式所述的中间样本数据；训练模块，用于根据所述的中间样本数据训练自编码器，得到自编码模型。

第五方面，本申请实施例还提供一种电子设备包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第六方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出本申请实施例提供的一种数据增强方法的流程图。

图2示出本申请实施例提供的一种训练方法的流程图。

图3示出本申请实施例提供的一种数据增强装置的结构框图。

图4示出本申请实施例提供的一种训练装置的结构框图。

图5示出本申请实施例提供的一种电子设备的结构示意图。

图标：100-电子设备；110-处理器；120-存储器；400-数据增强装置；410-处理模块；420-编码模块；500-训练装置；510-获取模块；520-训练模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，针对现有技术中出现的用于解决样本量不足所采用的方案所存在的缺陷是申请人在经过实践并仔细研究后得出的结果，因此，本申请实施例为了避免上述缺陷所提出的解决样本量不足的解决方案，都应该被认定为申请人对本申请做出的贡献。

为了避免样本量不足，本申请实施例提供一种数据增强方法、装置、训练方法、装置及电子设备，可以增加样本量以及样本信息量，从而实现数据增强。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的数据增强方法进行介绍。

请参阅图1，本申请实施例提供一种数据增强方法，用于增加样本量以及样本信息量。下面将结合图1对其所包含的步骤进行说明。

步骤S110：对获取到的原有的样本数据增加数据特征，得到中间样本数据。

在本申请实施例中，原有的样本数据即为样本量不足的样本数据。

为了增加样本量以及样本信息量，在本申请实施例中，需要先对原有的样本数据进行处理，以增加样本的数据特征，得到中间样本数据。

可选的，在一些实施方式中，在对原有的样本数据进行处理时，可以是先对原有的样本数据的缺失值进行填补处理，得到标准化样本数据，然后再对标准化样本数据添加噪声，得到噪声样本数据。

在这种实施方式下，噪声样本数据即为中间样本数据。

其中，上述中所涉及到的对原有的样本数据的缺失值进行填补处理的过程，可以根据原有的样本数据的数据类型来确定缺失值填补的方式。

可选的，在确定原有的样本数据为离散样本数据时，可以通过原有的样本数据的众数对原有的样本数据进行填补处理。

此外，在确定原有的样本数据为连续样本数据时，可以通过原有的样本数据的均值对原有的样本数据进行填补处理。

可选的，在为标准化样本数据添加噪声时，可以根据正态分布的均值为0，方差为0.01的随机数矩阵生成随机噪声，然后将随机噪声添加到标准化样本数据内，即可完成添加噪声的过程。

可选的，在另一些实施方式中，在对原有的样本数据进行处理时，可以是先对原有的样本数据的缺失值进行填补处理以及对进行填补处理后的原有的样本数据进行优化处理，得到标准化样本数据。

其中，优化处理的方式可以是对处理对象进行标准差标准化处理和/或最值(包括最大值以及最小值)优化处理。对于本申请而言，处理对象即为经过缺失值填补后的原有的样本数据。

当然，在一些实施方式中，若原有的样本数据在经过缺失值填补后所得到的数据质量较佳，也可以省略优化处理的过程。

在得到标准化样本数据后，再对标准化样本数据添加噪声，得到噪声样本数据。

在这种实施方式下，噪声样本数据即为中间样本数据。

当然，在本实施方式下，对原有的样本数据的缺失值进行填补处理的过程以及对标准化样本数据添加噪声的过程，与上述所提及到的对应内容基于相同，此处不再赘述。

步骤S120：通过将所述中间样本数据输入到预先训练好的自编码模型，输出新的样本数据。

值得指出的是，在执行步骤S120之前，可以获取用于增加样本生成和特征构造的自编码模型(auto_encoder)。

其中，该自编码模型可以由其他厂家进行训练，也可以由进行数据增强的厂家进行训练。

下面将针对训练自编码模型的过程进行介绍。

请参照图2，训练自编码模型的过程如下：

步骤S210：获取中间样本数据。

值得指出的是，于申请实施例中，中间样本数据即为按照前述实施方式中所提及到的处理方式所得到的中间样本数据。

该中间样本数据经过一系列的处理后，已经增加了数据特征。

步骤S220：根据所述的中间样本数据训练自编码器，得到自编码模型。

其中，自编码器可以为欠完备自编码器、正则自编码器、去噪自编码器、收缩自编码器等常见的自编码器中的其中一种。

在训练过程中，采用的是无监督自编码技术来训练以深度神经网络方式所搭建的自编码器，从而得到自编码模型。

在得到自编码模型后，对于输入到自编码模型内的中间样本数据，自编码模型的隐藏层对中间样本数据进行预测。

可选的，可以选取自编码模型的第一层隐含层或最后一层隐含层所输出的内容作为新的特征，并将其添加到中间样本数据中，并由自编码模型的输出层输出新的样本数据。

在得到新的样本数据后，将新的样本数据与中间样本数据进行合并，从而可以得到样本量以及样本信息量大于原有的样本的新的第一训练集，从而实现了相较于原有的样本的数据增强。

此外，在一些实施方式中，在上述对进行填补处理后的原有的样本数据进行优化处理时，还可以保留优化处理时所对应的优化参数，以便在后续得到新的样本数据之后，可以通过优化参数，将新的样本数据进行还原，得到还原样本数据。还原样本数据可以减少信息量的损失。

在得到还原样本数据后，还可以将还原样本数据与原有的样本数据进行合并，得到新的第二训练集，从而实现了相较于原有的样本的数据增强。

在实现数据增强后，可以基于数据增加后的训练集，即第一训练集和/或第二训练集来进行训练，从而训练出用于实现分类任务或者回归任务的神经网络模型。

在训练过程中，可以通过为数据增加后的训练集设置相应的小于1的权重的方式，来削弱其在训练过程中的重要性，防止新的样本数据对原有的样本数据的数据特征造成较大的影响。

当然，值得指出的是，在本申请的一些实施方式中，上述原有的样本数据可以是银行用户的账户信息数据。

本申请实施例所提供的一种数据增强方法，通过对原有的样本数据增加数据特征后，将其输入到自编码模型，从而输出新的样本数据，对原有的训练集进行数据增强，进而可以增加原有样本数据的样本量以及样本信息量，从而可以解决样本量不足的问题，有利于训练出符合要求的神经网络模型。

如图3所示，本申请实施例还提供一种数据增强装置400，数据增强装置400可以包括：处理模块410以及编码模块420。

处理模块410，用于对获取到的原有的样本数据增加数据特征，得到中间样本数据；

编码模块420，用于通过将所述中间样本数据输入到预先训练好的自编码模型，输出新的样本数据。

在一种可能的实施方式中，所述处理模块410，用于对所述原有的样本数据的缺失值进行填补处理，得到标准化样本数据；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

在一种可能的实施方式中，所述处理模块410，用于对所述原有的样本数据的缺失值进行填补处理以及优化处理，得到标准化样本数据；所述优化处理包括：标准差标准化处理和/或最值优化处理；为所述标准化样本数据添加噪声，得到噪声样本数据；所述噪声样本数据即为所述中间样本数据。

在一种可能的实施方式中，所述装置还包括还原模块，用于保留所述优化处理时所对应的优化参数，且通过所述优化参数，将所述新的样本数据进行还原，得到还原样本数据。

在一种可能的实施方式中，所述处理模块410，用于在确定所述原有的样本数据为离散样本数据时，通过所述原有的样本数据的众数对所述原有的样本数据进行填补处理；在确定所述原有的样本数据为连续样本数据时，通过所述原有的样本数据的均值对所述原有的样本数据进行填补处理。

在一种可能的实施方式中，所述原有的样本数据为银行用户的账户信息数据。

本申请实施例所提供的数据增强装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，请参照图4，本申请实施例还提供一种训练装置500，包括获取模块510以及训练模块520。

获取模块510，用于获取第一方面任一实施方式所述的中间样本数据；

训练模块520，用于根据所述的中间样本数据训练自编码器，得到自编码模型。

本申请实施例所提供的训练装置500，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的数据增强方法所包含的步骤。

此外，请参照图5，本申请实施例还提供一种用于实现本申请实施例的数据增强方法、装置或训练方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、个人数字助理、服务器等设备。其中，服务器可以是，但不限于网络服务器、数据库服务器、云端服务器等。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图5所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的数据增强方法对应的程序或者前文出现的数据增强装置；或者存储有前文出现的训练方法或者前文出现的训练装置。可选的，当存储器120内存储有数据增强装置或训练装置时，数据增强装置或训练装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，数据增强装置或训练装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如数据增强装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：对获取到的原有的样本数据增加数据特征，得到中间样本数据；通过将所述中间样本数据输入到预先训练好的自编码模型，输出新的样本数据。或者执行：获取原有的样本数据；根据所述的中间样本数据训练自编码器，得到自编码模型。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的数据增强方法、装置、训练方法、装置及电子设备，该数据增强方法通过对原有的样本数据增加数据特征后，将其输入到自编码模型，从而输出新的样本数据，对原有的训练集进行数据增强，进而可以增加原有样本数据的样本量以及样本信息量，从而可以解决样本量不足的问题，有利于训练出符合要求的神经网络模型。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王建华;陈斌斌;
专利申请人：青岛创新奇智科技集团有限公司;

上一篇：语音输入方法、装置、设备及计算机可读存储介质
下一篇：一种基于样条刀具轨迹曲率划分区间方法