掌桥专利:专业的专利平台
掌桥专利
首页

数据增广方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 10:16:30


数据增广方法、装置、电子设备及存储介质

技术领域

本发明涉及深度学习技术领域,尤其涉及一种数据增广方法、装置、电子设备及存储介质。

背景技术

数据增广是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。在目前的数据增广方法中,不同的数据种类具有不同的种类ID(Identity document,身份标识号)或者种类名称,并且各个种类ID或者种类名称分别绑定其对应的数据增广逻辑,这样,在获得到数据时,可以根据数据的种类ID或者数据所属的种类名称获取到正确的数据增广逻辑,然后根据这个数据增广逻辑对数据进行下一步处理。

上述这种数据增广方式,针对于种类简单的数据而言可能比较适用,然而,在当前的深度学习中,一个数据的种类通常比较复杂,在种类比较复杂的情况下,这种数据增广方式可能会造成逻辑代码冗余的问题。例如数据具有数据种类,但是数据种类同时也具有其所属的产品需求时,数据可以看作是由数据种类和需求组合而成的复杂种类数据,那么如果这样的数据多过,前述这种组合的方式也会有很多,技术人员需要对不同组合方式设计其各自对应的数据增广逻辑,这样显然会造成数据增广逻辑代码的众多且冗余,并且每个数据增广逻辑都只能针对一种种类或者一种组合方式才能实现,缺乏通用性。

发明内容

本发明提供了一种数据增广方法、装置、电子设备及存储介质,以解决目前数据增广的方式在在数据种类比较复杂的情况下,容易造成代码冗余和增广逻辑不通用的问题。

第一方面,本发明提供了一种数据增广方法,包括:

获取业务数据的数据种类和产品需求;所述产品需求用于表示所述业务数据所能实现的作用或者功能;

利用所述数据种类和所述产品需求,分别确定所述数据种类对应的目标增广方法和所述产品需求对应的通用增广方法;所述目标增广方法用于表示针对所述数据种类设计的特定的数据增广逻辑;所述通用增广方法用于表示针对所述产品需求设计的可以通用于各种数据种类的数据增广逻辑;

在执行所述目标增广方法之后,执行所述通用增广方法。

结合第一方面,在第一方面的一种可实施方式中,所述获取业务数据的数据种类和产品需求的步骤,包括:

获取业务数据所属的业务名称以及业务场景;

利用所述业务名称和所述业务场景,确定所述业务数据对应的产品需求。

结合第一方面,在第一方面的一种可实施方式中,在所述获取业务数据的数据种类和产品需求之前,还包括:

获取全部的产品需求;

针对不同的产品需求生成其各自对应的通用增广方法;

将不同的产品需求对应的通用增广方法保存在配置文件中。

结合第一方面,在第一方面的一种可实施方式中,所述在执行所述目标增广方法之后,执行所述通用增广方法的步骤,包括:

执行所述目标增广方法;

在所述配置文件中存在所述产品需求对应的通用增广方法的情况下,继续执行所述通用增广方法。

结合第一方面,在第一方面的一种可实施方式中,在所述获取业务数据的数据种类和产品需求之前,还包括:

获取所有业务数据中全部的数据种类;

针对每个数据种类生成其各自对应的特定的数据增广逻辑。

第二方面,本发明提供了一种数据增广装置,包括:

信息获取模块,用于获取业务数据的数据种类和产品需求;所述产品需求用于表示所述业务数据所能实现的作用或者功能;

方法确定模块,用于利用所述数据种类和所述产品需求,分别确定所述数据种类对应的目标增广方法和所述产品需求对应的通用增广方法;所述目标增广方法用于表示针对所述数据种类设计的特定的数据增广逻辑;所述通用增广方法用于表示针对所述产品需求设计的可以通用于各种数据种类的数据增广逻辑;

数据增广模块,用于在执行所述目标增广方法之后,执行所述通用增广方法。

结合第二方面,在第二方面的一种可实施方式中,所述信息获取模块包括:

信息获取单元,用于获取业务数据所属的业务名称以及业务场景;

需求确定单元,用于利用所述业务名称和所述业务场景,确定所述业务数据对应的产品需求。

结合第二方面,在第二方面的一种可实施方式中,所述装置还包括:

需求种类获取模块,用于获取全部的产品需求;

第一生成模块,用于针对不同的产品需求生成其各自对应的通用增广方法;

方法配置模块,用于将不同的产品需求对应的通用增广方法保存在配置文件中。

结合第二方面,在第二方面的一种可实施方式中,所述数据增广模块包括:

第一增广单元,用于执行所述目标增广方法;

第二增广单元,用于在所述配置文件中存在所述产品需求对应的通用增广方法的情况下,继续执行所述通用增广方法。

结合第二方面,在第二方面的一种可实施方式中,所述装置还包括:

数据种类获取模块,用于获取所有业务数据中全部的数据种类;

第二生成模块,用于针对每个数据种类生成其各自对应的特定的数据增广逻辑。

第三方面,本发明提供了一种电子设备,包括:

存储器,用于存储程序指令;

处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的数据增广方法。

第四方面,本发明提供还提供了一种存储介质,所述存储介质中存储有计算机程序,当数据增广装置的至少一个处理器执行所述计算机程序时,数据增广装置执行第一方面所述的数据增广方法。

由以上技术方案可知,本发明提供的数据增广方法、装置、电子设备及存储介质,可以针对业务数据的各个产品需求设计各自对应的通用增广方法,然后在处理数据种类比较复杂的业务数据时,除了执行业务数据自身数据种类对应的目标增广方法外,再获取到与产品需求对应的通用增广方法执行,这样不必再对数据种类与产品需求的组合类型共同设计整体的数据增广逻辑。当多个业务数据具有相同的产品需求时,处理这些数据时均采用一种通用增广方法即可,这样可以减少很多重复逻辑代码的编写,并且通用增广方法可以适用于不同数据种类的业务数据的处理中,通用性也比较强。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例示出的一种数据增广方法的流程图;

图2为本发明实施例示出的一种数据增广处理过程的示意图;

图3为本发明实施例示出的一种数据增广逻辑的组成示意图;

图4为本发明实施例示出的第二种数据增广逻辑的组成示意图;

图5为本发明实施例示出的一种确定产品需求的方法流程图;

图6为本发明实施例示出的一种生成通用增广方法的流程图;

图7为本发明实施例示出的第二种数据增广处理过程的示意图;

图8为本发明实施例示出的一种数据增广装置的结构框图;

图9为本发明实施例示出的电子设备硬件结构示意图。

具体实施方式

为使本发明的目的和实施方式更加清楚,下面将结合本发明示例性实施例中的附图,对本发明示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本发明一部分实施例,而不是全部的实施例。

需要说明的是,本发明中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本发明的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

数据增广是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。在目前的数据增广方法中,不同的数据种类具有不同的种类ID(Identity document,身份标识号)或者种类名称,并且各个种类ID或者种类名称分别绑定其对应的数据增广逻辑,这样,在获得到数据时,可以根据数据的种类ID或者数据所属的种类名称获取到正确的数据增广逻辑,然后根据这个数据增广逻辑对数据进行下一步处理。

上述这种数据增广方式,针对于种类简单的数据而言可能比较适用,然而,在当前的深度学习中,一个数据的种类通常比较复杂,在种类比较复杂的情况下,这种数据增广方式可能会造成逻辑代码冗余的问题。例如数据具有数据种类,但是数据种类同时也具有其所属的产品需求时,数据可以看作是由数据种类和需求组合而成的复杂种类数据,那么如果这样的数据多过,前述这种组合的方式也会有很多,技术人员需要对不同组合方式设计其各自对应的数据增广逻辑,这样显然会造成数据增广逻辑代码的众多且冗余,并且每个数据增广逻辑都只能针对一种种类或者一种组合方式才能实现,缺乏通用性。

基于上述内容,本发明实施例提供了一种数据增广方法、装置、电子设备及存储介质,可以针对业务数据的各个产品需求设计各自对应的通用增广方法,这样可以减少很多重复逻辑代码的编写,并且设计出的通用增广方法可以适用于不同数据种类的业务数据的处理中,通用性也比较强。

图1为本发明实施例示出的一种数据增广方法的流程图。如图1所示,本发明实施例提供的数据增广方法包括:

步骤S101,获取业务数据的数据种类和产品需求。

通常,业务数据是从业务上游传来的数据,业务本身是确定的,业务所属的场景也是确定的,因此这些数据本身即具有确定好的业务名称和所属业务场景等,并且业务数据也是具有数据种类,例如图像数据、文字数据等。

其中,通过业务名称和业务场景可以具体分析出业务数据对应的产品需求。本发明实施例中,产品需求是表示业务数据所能实现的作用或者功能等。只有确定出产品需求,才能针对产品需求对业务数据进行具体的操作,以使其能够实现相应的作用或者功能。

步骤S102,利用数据种类和产品需求,分别确定数据种类对应的目标增广方法和产品需求对应的通用增广方法。

本发明实施例中,目标增广方法用于表示针对数据种类设计的特定的数据增广逻辑,即各种数据种类具有其各自特定的数据增广逻辑,例如,图像数据有一套特定的数据增广逻辑A,文字数据有一套特定的数据增广逻辑B等。通用增广方法用于表示针对产品需求设计的可以通用于各种数据种类的数据增广逻辑,即一个产品需求对应一个通用增广逻辑,但是多种业务数据可以对应一个产品需求,例如,图像数据与文字数据之间的数据类型不同,但是均属于同一个产品需求,那么图像数据和文字数据可以使用同一个通用增广方法,即数据增广逻辑C。

步骤S103,在执行目标增广方法之后,执行通用增广方法。

在本发明实施例中,如果业务数据具有复杂的种类结构,即具有数据种类也具有特定产品需求等,那么,通常需要先执行数据种类对应的目标增广方法,而后,在此基础上,再执行其产品需求对应的通用增广方法。仍以上述实施例的内容为例,当业务数据为图像数据和文字数据、并且均属于同一个产品需求时,针对于图像数据的处理,可以先执行数据增广逻辑A再执行数据增广逻辑C,针对于文字数据的处理,可以先执行数据增广逻辑B再执行数据增广逻辑C。

图2为本发明实施例示出的一种数据增广处理过程的示意图。

本发明上述实施例的内容,可以以更加具体的方式进行说明,如图2所示,本发明实施例中的数据增广方法可以先从业务上游获取业务数据,而后获取到业务数据的数据种类和产品需求,然后分别获取到数据种类对应的目标增广方法以及获取到产品需求对应的通用增广方法,先执行目标增广方法,再执行通用增广方法。

图3为本发明实施例示出的一种数据增广逻辑的组成示意图。

如图3所示,业务数据1为图像数据并且具有产品需求c,业务数据2为文字数据并且具有产品需求c,那么在目前的数据增广方法中,需要针对图像+需求c组合的业务数据1编写一个特定的数据增广逻辑E,以及需要针对文字+需求c组合的业务数据2编写一个特定的数据增广逻辑F。业务数据3为图像数据并且具有产品需求d,业务数据4为文字数据并且具有产品需求d,那么在目前的数据增广方法中,需要针对图像+需求d组合的业务数据3编写一个特定的数据增广逻辑G,以及需要针对文字+需求d组合的业务数据4编写一个特定的数据增广逻辑H。如果任意一个组合都是新的组合形式,之前并未出现过,那么在进行数据增广时,需要针对每一个新的种类组合而成的业务数据都需要编写新的数据增广逻辑,并且,新的种类组合每出现一次即需要编写一次。由于在实际应用场景中,本发明实施例的方案可以涉及到大量的业务数据,业务数据的种类越多,新的种类组合也会越多,那么针对其编写的新的数据增广逻辑也会越来越多,显然,会出现一些不必要的代码冗余情况,并且一个数据增广逻辑并不能适用多个种类组合,通用性也较差。

图4为本发明实施例示出的第二种数据增广逻辑的组成示意图。

如图4所示,采用本发明实施例中的数据增广方法,可以针对种类为图像的业务数据编写一个数据增广逻辑A,针对种类为文字的业务数据编写一个数据增广逻辑B,并且针对业务数据的各个产品需求设计各自对应的通用增广方法,如针对产品需求c编写一个数据增广逻辑C,针对产品需求d编写一个数据增广逻辑D。在处理业务数据时,将数据种类与产品需求进行分割,这样,当业务数据之间具有相同的产品需求时,可以采用一种通用的数据增广,如图4所示,将业务数据1分割为图像数据和产品需求c,将业务数据2分割为文字数据和产品需求c,将业务数据3分割为图像数据和产品需求d,以及将业务数据4分割为文字数据和产品需求d。那么针对业务数据1和业务数据2,均可以使用产品需求c对应的数据增广逻辑C,针对业务数据3和业务数据4,也均可以使用产品需求d对应的数据增广逻辑D。这样,即使组合的种类增多,但其中的数据种类和产品需求只要预先编写过相应的数据增广逻辑,再次出现时就不需要再编写新的数据增广逻辑,直接调用编写的即可。可见,本发明实施例不必针对每一种数据种类与需求的组合设计特定的数据增广逻辑,这样也可以减少很多重复逻辑代码的编写,并且设计出的通用增广方法可以适用于不同数据种类的业务数据的处理中,通用性也比较强。

图5为本发明实施例示出的一种确定产品需求的方法流程图。

如上前述实施例所述,通过业务名称和业务场景可以具体分析出业务数据对应的产品需求。进而,在一些实施例中,如图5所示,本发明实施例中的方法还可以包括如下步骤:

步骤S201,获取业务数据所属的业务名称以及业务场景;步骤S202,利用业务名称和业务场景,确定业务数据对应的产品需求。

图6为本发明实施例示出的一种生成通用增广方法的流程图。

为了能够快速地针对业务数据进行数据增广,通常需要将通用增广方法预先设计好,在业务数据需要进行处理时,只需要根据其产品需求就可以直接获取到预先保存好的通用增广方法。进而,在一些实施例中,如图6所示,本发明实施例中的方法还可以包括如下步骤:

步骤S301,获取到各个业务线上全部的产品需求;步骤S302,针对不同产品需求生成其各自对应的通用增广方法;或者步骤S302也可以针对不同产品需求编写其各自对应的通用增广逻;步骤S303,将各个通用增广方法保存在配置文件中,以便对业务数据处理时调用。

并且,在配置文件中,可以为不同产品需求分配互不相同的身份标识,将各个身份标识分别与各种产品需求对应的通用增广方法相关联,这样,在处理业务数据时,确定了业务数据的产品需求,就可以从配置文件中获取到响应的通用增广方法。

图7为本发明实施例示出的第二种数据增广处理过程的示意图。

在实际情况中,并不是所有业务数据均需要进行通用增广处理,即针对属于某些产品需求的业务数据可以不进行通用数据增广。如前述实施例所述,配置文件中具有业务线上全部产品需求对应的通用增广方法,这里的业务线是指本发明实施例实际应用场景下涉及到的全部业务,那么当业务数据的产品需求不属于本发明实施例应用的业务中时,可以不针对业务数据的产品需求再进行一次通用数据增广,配置文件中也不会具有这些产品需求对应的通用增广方法。

进而,在一些实施例中,如图7所示,还可以在获取到业务数据的产品需求后,检测配置文件中是否存在所述产品需求对应的通用增广方法,如果不存在,说明不需要再执行通用增广方法,仅仅执行业务数据的数据种类对应的特定的数据增广方法,即本发明实施例中所述的目标增广方法。而当配置文件中存在所述产品需求对应的通用增广方法时,说明该产品需求属于本发明实施例中所涉及的业务,那么需要在执行目标增广方法后,继续执行该产品需求对应的通用增广方法。

本发明实施例的方案,还可以针对于不同的数据类型预先设计好对应的特定数据增广逻辑,例如,前述实施例所述的图像数据和文字数据,可以分别对图像数据和文字数据预先设计好对应的数据增广逻辑A和数据增广逻辑B。在实际情况下,本发明实施例可涉及多种业务线,那么通常也会多种数据种类,在一些实施例中,需要尽可能地获取本发明实施例可涉及到的所有业务数据的全部数据种类,进而针对每个数据种类生成其各自对应的特定的数据增广逻辑,以便后续实施本发明实施例中的数据增广方法时,可以直接快速地获取到与数据种类相对应的目标增广方法。

由以上内容可知,本发明实施例提供了一种数据增广方法,可以针对业务数据的各个产品需求设计各自对应的通用增广方法,然后在处理数据种类比较复杂的业务数据时,除了执行业务数据自身数据种类对应的目标增广方法外,再获取到与产品需求对应的通用增广方法执行,这样不必再对数据种类与产品需求的组合类型共同设计整体的数据增广逻辑。当多个业务数据具有相同的产品需求时,处理这些数据时均采用一种通用增广方法即可。可见,本发明实施例中的数据增广方法,可以减少很多关于产品需求方面的重复逻辑代码的编写。并且与产品需求对应的通用增广方法可以适用于不同数据种类的业务数据的处理中,只要业务数据具有相应的产品需求即可,因此,本发明实施例中的数据增广方法通用性也比较强。

另外,本发明实施例中的这种数据增广方法,在减少很多重复逻辑代码编写的同时,也减少了技术人员编写逻辑代码的时间,提高了技术人员在深度学习方面的代码开发效率,并且也能减少过多的开发成本的投入。

图8为本发明实施例示出的一种数据增广装置的结构框图。如图8所示,该装置可以包括:

信息获取模块801,用于获取业务数据的数据种类和产品需求;所述产品需求用于表示所述业务数据所能实现的作用或者功能;方法确定模块802,用于利用所述数据种类和所述产品需求,分别确定所述数据种类对应的目标增广方法和所述产品需求对应的通用增广方法;所述目标增广方法用于表示针对所述数据种类设计的特定的数据增广逻辑;所述通用增广方法用于表示针对所述产品需求设计的可以通用于各种数据种类的数据增广逻辑;数据增广模块803,用于在执行所述目标增广方法之后,执行所述通用增广方法。

在一些实施例中,所述信息获取模块801包括:信息获取单元,用于获取业务数据所属的业务名称以及业务场景;需求确定单元,用于利用所述业务名称和所述业务场景,确定所述业务数据对应的产品需求。

在一些实施例中,所述装置还包括:需求种类获取模块,用于获取全部的产品需求;第一生成模块,用于针对不同的产品需求生成其各自对应的通用增广方法;方法配置模块,用于将不同的产品需求对应的通用增广方法保存在配置文件中。

在一些实施例中,所述数据增广模块803包括:第一增广单元,用于执行所述目标增广方法;第二增广单元,用于在所述配置文件中存在所述产品需求对应的通用增广方法的情况下,继续执行所述通用增广方法。

在一些实施例中,所述装置还包括:数据种类获取模块,用于获取所有业务数据中全部的数据种类;第二生成模块,用于针对每个数据种类生成其各自对应的特定的数据增广逻辑。

图9为本发明实施例示出的电子设备硬件结构示意图。如图9所示,本发明还提供了一种电子设备,包括:存储器901,用于存储程序指令;处理器902,用于调用并执行所述存储器中的程序指令,以实现上述实施例中所述的数据增广方法。具体可以参见前述实施例中的相关描述。

本发明实施例中,处理器902和存储器901可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。

本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当数据增广装置的至少一个处理器执行所述计算机程序时,数据增广装置执行上述实施例中所述的数据增广方法。

所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

相关技术
  • 数据增广方法、装置、电子设备及存储介质
  • 数据增广方法、装置、电子设备及存储介质
技术分类

06120112481764