掌桥专利:专业的专利平台
掌桥专利
首页

数据集的构建方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 10:11:51


数据集的构建方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及深度学习技术领域,尤其涉及一种数据集的构建方法、装置、电子设备及存储介质。

背景技术

在图像信息技术被广泛应用的情况下,对图像质量的评估变成一个广泛而基本的问题。比如,在图像识别中,所采集到的图像质量直接影响识别结果的准确性和可靠性;又如,在军事应用方面,战场监视和打击评估的效果也取决于无人机等航拍设备所采集到的图像或视频的质量。因此,图像质量的合理评估具有非常重要的应用价值。

随着深度学习技术的不断发展,深度学习技术被应用在图像质量评估场景中,而在这一场景下,若训练数据不均衡,那么训练出来的图像质量评价模型泛化能力较差且容易发生过拟合。因此,如何构建出具有均衡性的训练数据集成为亟待解决的技术问题。

发明内容

鉴于此,为解决如何构建出具有均衡性的训练数据集的技术问题,本发明实施例提供一种数据集的构建方法、装置、电子设备及存储介质。

第一方面,本发明实施例提供一种数据集的构建方法,所述方法包括:

基于预设的多张原始图像构建模拟数据集;

基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集;

基于所述目标特征算子集对候选数据集进行特征提取,得到候选数据特征集;

利用预设的数据均衡策略对所述候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

在一个可能的实施方式中,所述基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集,包括:

基于预设的多个候选特征算子集分别对所述模拟数据集进行特征提取,得到多个模拟数据特征集;

利用所述数据均衡策略分别对多个所述模拟数据特征集进行均衡处理,并将均衡处理后的模拟数据特征集中各模拟数据特征对应的模拟数据作为模拟训练数据,得到多个模拟训练数据集;

利用多个所述模拟训练数据集分别对初始模型进行训练,得到多个图像质量评价模型;

确定多个所述图像质量评价模型的性能指标值,以根据多个所述性能指标值从多个所述候选特征算子集中确定目标特征算子集。

在一个可能的实施方式中,所述确定多个所述图像质量评价模型的性能指标值,包括:

将预设的测试数据分别输入至多个所述图像质量评价模型,得到多个所述图像质量评价模型输出的所述测试数据的预测质量指标值;

基于所述测试数据的真实质量指标值和预测质量指标值确定多个所述图像质量评价模型的性能指标值。

在一个可能的实施方式中,所述根据多个所述性能指标值从多个所述候选特征算子集中确定目标特征算子集,包括:

将性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集。

在一个可能的实施方式中,所述基于预设的多张原始图像构建模拟数据集,包括:

利用设定的多个图像失真模拟函数分别对多张原始图像进行失真模拟,得到多张失真模拟图像;

选取设定数量的所述失真模拟图像作为模拟数据归入模拟数据集。

在一个可能的实施方式中,所述方法还包括:

将多张所述失真模拟图像中,除所述模拟数据以外的其他失真模拟图像作为所述测试数据;以及,

针对每一所述失真模拟图像,以得到所述失真模拟图像时利用的图像失真模拟函数中的失真参数为关键字,查找预设的失真参数和失真强度值的对应关系,得到包含所述关键字的目标对应关系;

将所述目标对应关系中的失真强度值确定为所述失真模拟图像的真实质量指标值。

第二方面,本发明实施例提供一种数据集的构建装置,所述装置包括:

模拟模块,用于基于预设的多张原始图像构建模拟数据集;

确定模块,用于基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集;

提取模块,用于基于所述目标特征算子集对候选数据集进行特征提取,得到候选数据特征集;

均衡模块,用于利用预设的数据均衡策略对所述候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

在一个可能的实施方式中,所述确定模块具体用于:

基于预设的多个候选特征算子集分别对所述模拟数据集进行特征提取,得到多个模拟数据特征集;

利用所述数据均衡策略分别对多个所述模拟数据特征集进行均衡处理,并将均衡处理后的模拟数据特征集中各模拟数据特征对应的模拟数据作为模拟训练数据,得到多个模拟训练数据集;

利用多个所述模拟训练数据集分别对初始模型进行训练,得到多个图像质量评价模型;

确定多个所述图像质量评价模型的性能指标值,以根据多个所述性能指标值从多个所述候选特征算子集中确定目标特征算子集。

在一个可能的实施方式中,所述确定模块具体用于:

将预设的测试数据分别输入至多个所述图像质量评价模型,得到多个所述图像质量评价模型输出的所述测试数据的预测质量指标值;

基于所述测试数据的真实质量指标值和预测质量指标值确定多个所述图像质量评价模型的性能指标值。

在一个可能的实施方式中,所述确定模块具体用于:

将性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集。

在一个可能的实施方式中,所述模拟模块具体用于:

利用设定的多个图像失真模拟函数分别对多张原始图像进行失真模拟,得到多张失真模拟图像;

选取设定数量的所述失真模拟图像作为模拟数据归入模拟数据集。

在一个可能的实施方式中,所述装置还包括:

预处理模块,用于将多张所述失真模拟图像中,除所述模拟数据以外的其他失真模拟图像作为所述测试数据;以及,

查找模块,用于针对每一所述失真模拟图像,以得到所述失真模拟图像时利用的图像失真模拟函数中的失真参数为关键字,查找预设的失真参数和失真强度值的对应关系,得到包含所述关键字的目标对应关系;将所述目标对应关系中的失真强度值确定为所述失真模拟图像的真实质量指标值。

第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的数据集的构建程序,以实现第一方面中任一项所述的数据集的构建方法。

第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的数据集的构建方法。

本发明实施例提供的技术方案,通过基于目标特征算子集对候选数据集进行特征提取,得到候选数据特征集,利用预设的数据均衡策略对候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集,实现了构建具有均衡性的训练数据集。进一步,由于上述目标特征算子集是基于模拟数据集从预设的多个候选特征算子集中确定的,其相对于其他候选特征算子集而言更适合用于训练数据集的筛选,如此则能够提高最终得到的深度学习训练数据集的均衡性,进而也就可以提高利用深度学习训练数据集训练出的模型的泛化性和模型性能。

附图说明

图1为本发明一示例性实施例提供的一种数据集的构建方法的实施例流程图;

图2为本发明一示例性实施例提供的一种步骤102的实施例流程图;

图3为本发明一示例性实施例提供的一种数据集的构建装置的实施例框图;

图4为本发明实施例提供的一种的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

参见图1,为本发明一示例性实施例提供的一种数据集的构建方法的实施例流程图。如图1所示,该方法包括以下步骤:

步骤101、基于预设的多张原始图像构建模拟数据集。

作为一个实施例,可从视频流中提取多个视频帧,每一视频帧即可作为一张原始图像。可选的,上述多个视频帧可以是视频流中连续的多个视频帧,也可以是视频流中不连续的多个视频帧,本发明对此不做限定。

作为一个实施例,上述基于预设的多张原始图像构建模拟数据集包括:利用设定的多个图像失真模拟函数分别对多张原始图像进行失真模拟,得到多张失真模拟图像,选取设定数量的失真模拟图像作为模拟数据归入模拟数据集。

可选的,上述图像失真模拟函数包括但不限于:高斯模糊噪声函数(比如fspecial函数、imfilter函数等)、高斯采集噪声函数(比如imnoise函数)、JPEG/JP2K压缩噪声函数(比如imwrite函数)等。

作为一个可选的实现方式,可针对每一图像失真模拟函数,多次调整其失真参数,利用包含不同失真参数的图像失真模拟函数分别对预设的多张原始图像进行失真模拟,这能够实现针对每一图像失真模拟函数,即,每一失真模拟类型生成多张不同失真强度的失真模拟图像,如此能够扩大模拟数据集的规模。

步骤102、基于模拟数据集从预设的多个候选特征算子集中确定目标特征算子集。

步骤103、基于目标特征算子集对候选数据集进行特征提取,得到候选数据特征集。

步骤104、利用预设的数据均衡策略对候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

以下对步骤102~104进行统一说明:

在深度学习中,若训练数据不均衡,那么训练出来的模型泛化能力较差且容易发生过拟合,因此,在深度学习中,构建均衡的训练数据集尤为重要。基于此,在应用中,则可利用本发明提供的方法对预设的数据集(为描述方便,以下称候选数据集)进行均衡处理,以得到分布均衡的深度学习训练数据集,提高后续训练出的模型的泛化能力和模型性能。

作为一个实施例,在应用中,可通过提取候选数据集中的候选数据的特征进行分析,并利用数据均衡策略来实现对候选数据集进行均衡处理,得到最终的深度学习训练数据集。具体而言,可对候选数据集进行特征提取,得到候选数据集中每一候选数据的特征(为描述方便,以下称候选数据特征,并将每一候选数据特征形成的集合称为候选数据特征集),然后利用预设的数据均衡策略对候选数据特征集进行均衡处理。可以理解的是,候选数据特征是候选数据特性的抽象表示,因此对候选数据特征集进行均衡处理也就相当于对候选数据集进行均衡处理,基于此,可将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

在一个例子中,上述预设的数据均衡策略为:基于混合整数线性规划的数据集处理方法。

进一步地,在应用中,图像具有多种维度的特征,包括但不限于亮度、色度、对比度、清晰度、比特率、分辨率等,而上述分析所用特征不同,特征的计算方式不同,将影响最终得到的深度学习训练数据集的均衡性,基于此,本发明实施例提出:通过分析选取一个或多个特征算子组成目标特征算子集,在上述描述的深度学习训练数据集的构建过程中,基于目标特征算子集对候选数据集进行特征提取,以提高构建出的深度学习训练数据集的均衡性,进而提高后续利用深度学习训练数据集训练出的模型的泛化能力和模型性能。

作为一个实施例,可预先设置多个候选特征算子集,每一候选特征算子集中可包括至少一个特征算子,并且不同候选特征算子集中的特征算子不同(这里所说的不同可以指完全不同或者部分不同)。基于模拟数据集从该多个候选特征算子集中确定上述目标特征算子集。

作为一个可选的实现方式,可预先设置一个候选特征算子集,之后,以该候选特征算子集为基准(以下为了描述方便称为基准候选特征算子集)衍生出多个候选特征算子集。比如去掉基准候选特征算子集中的一个或几个特征算子、在基准候选特征算子集中新增一个或几个特征算子、对基准候选特征算子集中的一个或几个特征算子进行改进等。

至于是如何基于模拟数据集从预设的多个候选特征算子集中确定目标特征算子集的,在下文中通过图2所示流程进行示例性说明,这里先不详述。

本发明实施例提供的技术方案,通过基于目标特征算子集对候选数据集进行特征提取,得到候选数据特征集,利用预设的数据均衡策略对候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集,实现了构建具有均衡性的训练数据集。进一步,由于上述目标特征算子集是基于模拟数据集从预设的多个候选特征算子集中确定的,其相对于其他候选特征算子集而言更适合用于训练数据集的筛选,如此则能够提高最终得到的深度学习训练数据集的均衡性,进而也就可以提高利用深度学习训练数据集训练出的模型的泛化性和模型性能。

参见图2,为本发明一示例性实施例提供的一种步骤102的实施例流程图。如图2所示,该流程包括以下步骤:

步骤201、基于预设的多个候选特征算子集分别对模拟数据集进行特征提取,得到多个模拟数据特征集。

在本步骤201中,针对每一候选特征算子集,基于该候选特征算子集对模拟数据集进行特征提取,如此可得到多个模拟数据特征集。

举例来说,假设模拟数据集中包括100条模拟数据,并假设候选特征算子集中包括2个特征算子,那么基于该候选特征算子集对该模拟数据集中的模拟数据进行特征提取,可得到100条模拟数据特征,每一条模拟数据特征包含2个维度,该100条模拟数据特征则形成一个模拟数据特征集。

步骤202、利用数据均衡策略分别对多个模拟数据特征集进行均衡处理,并将均衡处理后的模拟数据特征集中各模拟数据特征对应的模拟数据作为模拟训练数据,得到多个模拟训练数据集。

与上述对候选数据集的均衡处理过程类似,模拟数据特征是模拟数据特性的抽象表示,因此对模拟数据特征集进行均衡处理也就相当于对模拟数据集进行均衡处理,基于此,可将均衡处理后的模拟数据特征集中各模拟数据特征对应的模拟数据作为模拟训练数据,得到模拟训练数据集。

可以理解的是,由于每一模拟数据特征集对应的候选特征算子集不同,因此通过对每一模拟数据特征集进行均衡处理,得到的多个模拟训练数据集也就不同,其均衡性也有所不同。

步骤203、利用多个模拟训练数据集分别对初始模型进行训练,得到多个图像质量评价模型。

在本步骤203中,利用多个模拟训练数据集分别对相同的初始模型进行训练,得到多个图像质量评价模型,该图像质量评价模型用于评价图像质量,以输入图像的质量指标值(以下称预测图像质量指标值)为输出。可以理解的是,由于多个模型训练数据集是不同的,因此多个图像质量评价模型也是不同的,具有不同的模型性能。

在一个例子中,上述初始模型为CNN模型,比如VGG16模型,ResNet50模型等等。

作为一个实施例,在对初始模型进行训练时,可采用有监督学习算法,包括但不限于KNN方法、SVM方法等。同时,这也就意味着上述模拟训练数据具有已知标签,具体而言,该已知标签为模拟训练数据的真实质量指标值。

作为一个可选的实现方式,可通过以下过程为模拟训练数据确定已知标签:针对上述步骤101中描述的每一失真模拟图像,以得到失真模拟图像时利用的图像失真模拟函数中的失真参数为关键字查找预设的失真参数和失真强度值的对应关系,得到包含关键字的目标对应关系,将目标对应关系中的失真强度值确定为失真模拟图像的真实图像质量指标值。

举例来说,假设针对一张失真模拟图像,得到该失真模拟图像时利用的是高斯模糊噪声函数,且噪声参数为8,按照上述描述,以该噪声参数8为关键字查找下述表1所示例的失真参数与失真强度值的对应关系,则可得到对应的失真强度值为3,进一步,将失真强度值3确定为该失真模拟图像的真实图像质量值。

表1

通过上述表1可见,失真参数(表1中的噪声参数)越大,对应的失真强度值越大,这也就意味着图像的失真强度越大,图像质量越差。

此外,在一个例子中,若有10张原始图像,则基于上述表1执行上述步骤101可得到200(10*4*5)张失真模拟图像。

步骤204、确定多个图像质量评价模型的性能指标值,以根据多个性能指标值从多个候选特征算子集中确定目标特征算子集。

在实践中,若图像质量评价模型的性能越好,则意味着用于训练得到该图像质量评价模型的深度学习训练集越为均衡,进而也就意味着构建该深度学习训练集是所用到的特征算子越为合适。基于此,在本步骤105中,作为一个实施例,将性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集。可选的,若本步骤204中确定出图像质量评价模型的一个性能指标值,则可直接将性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集;若本步骤204中确定出图像质量评价模型的多个性能指标值,则可通过设定运算,比如加权求和的方式对该多个性能指标值进行计算,得到总的性能指标值,将总的性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集。

作为一个实施例,可通过以下方式确定多个图像质量评价模型的性能指标值:将预设的测试数据分别输入至多个图像质量评价模型,得到多个图像质量评价模型输出的测试数据的预测质量指标值,后续则基于测试数据的真实质量指标值和预测质量指标值确定多个图像质量评价模型的性能指标值。

上述性能指标值包括下述至少一项:皮尔森线性相关系数、斯皮尔曼秩相关系数、肯德尔秩次相关系数、均方根误差等。其中,均方根误差反映的是测试图像的图像质量指标的预测值和真实值之间的绝对误差,可用于衡量图像质量评价模型预测的准确性;皮尔森线性相关系数反映的是测试图像的图像质量指标的预测值和真实值之间的相关性,也可用于衡量图像质量评价模型预测的准确性;斯皮尔曼秩相关系数和肯德尔秩次相关系数则可用于衡量图像质量评价模型预测的单调性。

作为一个实施例,将步骤101模拟出的多张失真模拟图像中,除模拟数据以外的其他失真模拟图像作为上述测试数据,进而通过上述步骤203中的相关描述则可得到测试数据的真实质量指标值。

通过图2所示流程,实现了通过利用不同候选特征算子集筛选出的训练数据集所构建的图像质量评价模型的性能指标值来反馈候选特征算子的合适性,从而实现了基于模拟数据集从预设的多个候选特征算子集中确定目标特征算子集,进而优化数据集的构建。

需要说明的是,上述图2所示流程仅仅是基于模拟数据集从预设的多个候选特征算子集中确定目标特征算子集的一种可选的实现方式,在实际应用中,还可以存在其他方式实现,比如,可基于预设的多个候选特征算子集分别对模拟数据集进行特征提取,得到多个模拟数据特征集,分析多个模拟数据特征集的均衡性,选择均衡性最好的模拟数据特征集对应的候选特征算子集作为目标特征算子集。本发明对此不做限制。

与前述数据集的构建方法的实施例相对应,本发明还提供了数据集的构建装置的实施例。

参见图3,为本发明一示例性实施例提供的一种数据集的构建装置的实施例框图。如图3所示,该装置包括:模拟模块31、确定模块32、提取模块33,以及均衡模块34。

其中,模拟模块31,用于基于预设的多张原始图像构建模拟数据集;

确定模块32,用于基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集;

提取模块33,用于基于所述目标特征算子集对候选数据集进行特征提取,得到候选数据特征集;

均衡模块34,用于利用预设的数据均衡策略对所述候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

在一个可能的实施方式中,所述确定模块具体用于:

在一个可能的实施方式中,所述确定模块33具体用于:

基于预设的多个候选特征算子集分别对所述模拟数据集进行特征提取,得到多个模拟数据特征集;

利用所述数据均衡策略分别对多个所述模拟数据特征集进行均衡处理,并将均衡处理后的模拟数据特征集中各模拟数据特征对应的模拟数据作为模拟训练数据,得到多个模拟训练数据集;

利用多个所述模拟训练数据集分别对初始模型进行训练,得到多个图像质量评价模型;

确定多个所述图像质量评价模型的性能指标值,以根据多个所述性能指标值从多个所述候选特征算子集中确定目标特征算子集。

在一个可能的实施方式中,所述确定模块33具体用于:

将预设的测试数据分别输入至多个所述图像质量评价模型,得到多个所述图像质量评价模型输出的所述测试数据的预测质量指标值;

基于所述测试数据的真实质量指标值和预测质量指标值确定多个所述图像质量评价模型的性能指标值。

在一个可能的实施方式中,所述确定模块33具体用于:

将性能指标值最高的图像质量评价模型对应的候选特征算子集确定为目标特征算子集。

在一个可能的实施方式中,所述模拟模块31具体用于:

利用设定的多个图像失真模拟函数分别对多张原始图像进行失真模拟,得到多张失真模拟图像;

选取设定数量的所述失真模拟图像作为模拟数据归入模拟数据集。

在一个可能的实施方式中,所述装置还包括(图3中未示出):

预处理模块,用于将多张所述失真模拟图像中,除所述模拟数据以外的其他失真模拟图像作为所述测试数据;以及,

查找模块,用于针对每一所述失真模拟图像,以得到所述失真模拟图像时利用的图像失真模拟函数中的失真参数为关键字,查找预设的失真参数和失真强度值的对应关系,得到包含所述关键字的目标对应关系;将所述目标对应关系中的失真强度值确定为所述失真模拟图像的真实质量指标值。

图4为本发明实施例提供的一种的电子设备的结构示意图,图4所示的电子设备400包括:至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。电子设备400中的各个组件通过总线系统405耦合在一起。可理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。

其中,用户接口403可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

可以理解,本发明实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统4021和应用程序4022。

其中,操作系统4021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。

在本发明实施例中,通过调用存储器402存储的程序或指令,具体的,可以是应用程序4022中存储的程序或指令,处理器401用于执行各方法实施例所提供的方法步骤,例如包括:

基于预设的多张原始图像构建模拟数据集;

基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集;

基于所述目标特征算子集对候选数据集进行特征提取,得到候选数据特征集;

利用预设的数据均衡策略对所述候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图4中所示的电子设备,可执行如图1-2中数据集的构建方法的所有步骤,进而实现图1-2所示数据集的构建方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。

本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的数据集的构建方法。

所述处理器用于执行存储器中存储的数据集的构建程序,以实现以下在电子设备侧执行的数据集的构建方法的步骤:

基于预设的多张原始图像构建模拟数据集;

基于所述模拟数据集从预设的多个候选特征算子集中确定目标特征算子集;

基于所述目标特征算子集对候选数据集进行特征提取,得到候选数据特征集;

利用预设的数据均衡策略对所述候选数据特征集进行均衡处理,并将均衡处理后的候选数据特征集中各候选数据特征对应的候选数据作为深度学习训练数据,得到深度学习训练数据集。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种批数据集构建方法、装置、电子设备及存储介质
  • 物联网设备数据集构建方法、装置、电子设备和存储介质
技术分类

06120112456216