掌桥专利:专业的专利平台
掌桥专利
首页

生成样本图像的方法、装置、设备、存储介质和程序产品

文献发布时间:2023-06-19 11:57:35


生成样本图像的方法、装置、设备、存储介质和程序产品

技术领域

本公开的实施例主要涉及人工智能领域,尤其是计算机视觉领域。更具体地,本公开的实施例涉及用于生成样本图像的方法、装置、设备、计算机可读存储介质以及计算机程序产品。

背景技术

一直以来,机器学习都对数据有着极高的要求。通常来说,用于训练机器学习模型的数据往往都需要经过大量预处理与人工标注,因此这些数据的获取往往都十分昂贵。为了缓解数据不足的问题,数据扩充则是一种行之有效的技巧。数据扩充是指在原数据集的基础上,通过一些简单的操作来对现有的训练数据集进行数据扩充,以达到丰富训练数据集的目的,进而在该扩充后的数据集上训练的模型性能能够得到大幅提升。

对于计算机视觉领域而言,传统的数据扩充技术依赖于像素级别的操作,例如,拼接不同图像以构建新的样本图像。然而,这样的扩充技术所成本的样本图像真实性较差,其也难以被用于训练用于处理底层视觉任务(例如图像超分或图像去噪)的图像处理模型。

发明内容

本公开的实施例提供了一种生成样本图像的方案。

在本公开的第一方面,提供了用于生成样本图像的方法。该方法包括:获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及基于经更新的第一频域表示,生成样本图像。

在本公开中,频域表示是指利用利用频域方法将图像从空域变换到频域后获得的信息,其例如可以表示频谱图。此外,在本公开中,图像质量可以表示图像的清晰度、噪声数目或伪影程度等。第二图像比第一图像具有更高的图像质量可以表示:第二图像例如具有更高的清晰度,具有较少的噪声,或者具有较少的伪影。具有更高图像质量的图像例如可以具有更优的视觉呈现(例如,视觉上更为清晰),或者能够更加便于图像分析过程(例如,使得图像处理模型的分析结果更为准确)。

在本公开中,第一图像与第二图像相对应是指第一图像和第二图像具有相对应的图像内容。例如,第一图像和第二图像呈现至少部分相同的视觉内容。示例性地,第一图像和第二图像可以是同一图片的不同清晰度版本,同一图片的去噪前版本和去噪后版本,同一图片的去雾前版本和去雾后版本等。

通过确定频域表示之间的频谱差异,并基于频谱差异来更新原有的第一频谱表示,本公开的实施例能够充分地考虑原样本之间的差异,进而提高所生成的样本图像对于模型训练的有效性。

在第一方面的一些实施例中,方法还可以包括基于样本图像,构建用于训练图像处理模型的训练数据集。基于这样的方式,可以实现数据扩充。

在第一方面的一些实施例中,训练数据集至少包括基于第二图像和样本图像构建的训练图像对。这样的训练图像对例如可以被用来训练用于计算机底层视觉处理的图像处理模型,从而提高这样的图像处理模型的性能。这样的图像处理模型例如可以包括图像去噪模型,图像去雾模型,或图像去伪影模型等。

在第一方面的一些实施例中,训练数据集至少包括基于第二图像和第三图像构建的训练图像对,第三图像是基于对样本图像下采样所生成的。这样的训练图像对例如可以被用来训练用于图像超分辨率模型,从而提高图像超分辨率模型的性能。

在第一方面的一些实施例中,第一频域表示和第二频域表示是基于离散余弦变换DCT或离散傅立叶变换DFT所生成的。

在第一方面的一些实施例中,其中确定频谱差异包括:确定第一频域表示中的频谱元素与第二频域表示中的对应频谱元素之间的元素差异,以确定频谱差异。基于这样的方式,可以确定不同频域表示之间差异较大的频谱元素。

在第一方面的一些实施例中,利用第二频域表示的至少一部分来更新第一频域表示包括:基于频谱差异从第二频域表示中确定第一组频谱元素;以及利用第一组频谱元素更新第一频域表示中与第一组频谱元素相对应的第二组频谱元素。

基于这样的方式,可以针对性地选择出差异较大的频谱元素,并相应地对这些频谱元素进行更新,从而使得样本图像能够具有聚焦到差异较大的频率范围,这使得所生成的样本图像能够更为有效地帮助训练图像处理模型。

在第一方面的一些实施例中,频谱差异包括与多个频谱区域相对应的多个区域频谱差异,并且基于频谱差异从第二频域表示中确定第一组频谱元素包括:基于多个区域频谱差异,从多个频谱区域中确定预定数目的频谱区域;以及从第二频域表示中确定与预定数目的频谱区域对应的第一组频谱元素。

在基于DCT生成频域表示的示例中,多个频谱区域例如可以表示以频谱图左上角顶点为圆心的多个扇形环区域,以与不同的频域范围相对应。在基于DFT生成频域表示的示例中,多个频谱区域例如可以表示以频谱图中心为圆心的多个圆环形区域,以与不同的频域范围相对应。

基于这样的方式,可以针对性地根据区域频谱差异来选择差异较大的区域,从而使得所生成的样本图像具有更好的真实性,且能够有效地帮助训练对应的图像处理模型。

在第一方面的一些实施例中,基于多个频谱差异从多个频谱区域中确定预定数目的频谱区域包括:基于多个区域频谱差异,确定与多个频谱区域对应的多个选择概率;以及基于多个选择概率,从多个频谱区域中选择预定数目的频谱区域。

通过基于概率进行选择的方式,本公开的实施例能够提高频域表示更新的随机性,进而能够丰富所生成的样本图像的多样性,进而能够促进对于图像处理模型的训练。

在第一方面的一些实施例中,多个频谱区域是基于第二图像的分辨率所确定的。在一些实施例中,可以根据第二图像的高度和宽度来确定频谱区域的数目。例如,该数目可以表示为:

在第一方面的一些实施例中,区域频谱差异是基于第一频域表示在相应频谱区域的频谱元素与第二频域表示在相应频谱区域内的频谱元素之间的差异的均值所确定的。基于这样的方式,可以更客观地地体现不同频谱区域之间的频谱元素的差异。

在第一方面的一些实施例中,利用第一组频谱元素更新第一频域表示中与第一组频谱元素相对应的第二组频谱元素包括:利用第一组频谱元素的值和第二组频谱元素的值的加权和,替换第一频域表示中的第二组频谱元素。通过利用差值的方式,本公开的实施例所生成的样本图像能够扩展样本在差异区域的多样性。

在第一方面的一些实施例中,用于加权和是基于随机权重所确定的。基于这样的方式,可以进一步提高所生成的样本图像的多样性。

在第一方面的一些实施例中,第一图像是基于对与第二图像对应的第四图像上采样所生成的,第四图像具有比第二图像更低的分辨率。示例性地,这样的第二图像和第四图像例如可以是用于训练图像超分辨率模型的已有训练数据集中的样本对。

在第一方面的一些实施例中,图像质量指示以下中的至少一项:图像的清晰度、图像的噪声数目或图像的伪影程度。

在本公开的第二方面,提供了用于生成样本图像的装置。该装置包括:获取单元,其被配置为获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;确定单元,其被配置为确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;更新单元,其被配置为基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及包括生成单元,被配置为基于经更新的第一频域表示,生成样本图像。

通过确定频域表示之间的频谱差异,并基于频谱差异来更新原有的第一频谱表示,本公开的实施例能够充分地考虑原样本之间的差异,进而提高所生成的样本图像对于模型训练的有效性。

在第二方面的一些实施例中,装置还包括:数据集构建单元,被配置为基于样本图像,构建用于训练图像处理模型的训练数据集。

在第二方面的一些实施例中,训练数据集至少包括基于第二图像和样本图像构建的训练图像对。

在第二方面的一些实施例中,训练数据集至少包括基于第二图像和第三图像构建的训练图像对,第三图像是基于对样本图像下采样所生成的。

在第二方面的一些实施例中,第一频域表示和第二频域表示是基于离散余弦变换DCT或离散傅立叶变换DFT所生成的。

在第二方面的一些实施例中,确定单元被配置为:确定第一频域表示中的频谱元素与第二频域表示中的对应频谱元素之间的元素差异,以确定频谱差异。

在第二方面的一些实施例中,更新单元被配置为:基于频谱差异从第二频域表示中确定第一组频谱元素;以及利用第一组频谱元素更新第一频域表示中与第一组频谱元素相对应的第二组频谱元素。

在第二方面的一些实施例中,频谱差异包括与多个频谱区域相对应的多个区域频谱差异,并且更新单元630被配置为:基于多个区域频谱差异,从多个频谱区域中确定预定数目的频谱区域;以及从第二频域表示中确定与预定数目的频谱区域对应的第一组频谱元素。

在第二方面的一些实施例中,更新单元被配置为:基于多个区域频谱差异,确定与多个频谱区域对应的多个选择概率;以及基于多个选择概率,从多个频谱区域中选择预定数目的频谱区域。

在第二方面的一些实施例中,多个频谱区域是基于第二图像的分辨率所确定的。

在第二方面的一些实施例中,区域频谱差异是基于第一频域表示在相应频谱区域的频谱元素与第二频域表示在相应频谱区域内的频谱元素之间的差异的均值所确定的。

在第二方面的一些实施例中,更新单元被配置为:利用第一组频谱元素的值和第二组频谱元素的值的加权和,替换第一频域表示中的第二组频谱元素。

在第二方面的一些实施例中,用于加权和是基于随机权重所确定的。

在第二方面的一些实施例中,第一图像是基于对与第二图像对应的第四图像上采样所生成的,第四图像具有比第二图像更低的分辨率。

在第二方面的一些实施例中,图像质量指示以下中的至少一项:图像的清晰度、图像的噪声数目或图像的伪影程度。

在第二方面的一些实施例中,第一图像和第二图像呈现至少部分相同的视觉内容。

在本公开的第三方面,提供了用于生成样本图像的方法。该方法包括:获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及基于经更新的第一频域表示,生成样本图像。

在本公开的第三方面,提供了用于生成样本图像的方法。该方法包括:获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及基于经更新的第一频域表示,生成样本图像。

在本公开的第三方面,提供了一种电子设备,包括:至少一个计算单元;至少一个存储器,至少一个存储器被耦合到至少一个计算单元并且存储用于由至少一个计算单元执行的指令,指令当由至少一个计算单元执行时,使得设备第一方面或者第一方面中的任意一种实现方式中的方法。

在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现第一方面或者第一方面中的任意一种实现方式中的方法。

在本公开的第五方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行第一方面或者第一方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

可以理解地,上述提供的第三方面的电子设备、第四方面的计算机存储介质或者第五方面的计算机程序产品均用于执行第一方面所提供的方法。因此,关于第一方面的解释或者说明同样适用于第三方面、第四方面和第五方面。此外,第三方面、第四方面和第五方面所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。

本公开的实施例还提供了一种训练图像处理模型的方案。

在本公开的第六方面,提供了用于训练图像处理模型的方法。该方法包括:获取训练数据集;以及利用训练数据集训练图像处理模型,其中训练数据集是基于样本图像所构建的,样本图像是基于以下过程而生成的:由图像生成设备获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;由图像生成设备确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;由图像生成设备基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及由图像生成设备基于经更新的第一频域表示,生成样本图像。

基于这样的方式,本公开的实施例能够提高所训练的图像处理模型的性能,尤其能够提高这样的图像处理模型对于自然图像的处理能力。

本公开的实施例还提供了一种图像处理的方案。

在本公开的第七方面,提供了图像处理的方法。该方法包括:接收输入图像;以及利用图像处理模型处理输入图像,以获得针对输入图像的处理结果;其中图像处理模型是利用基于样本图像所构建的训练数据集来训练的,样本图像是基于以下过程而生成的:由图像生成设备获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量;由图像生成设备确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异;由图像生成设备基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示;以及由图像生成设备基于经更新的第一频域表示,生成样本图像。

基于这样的方式,本公开的实施例能够利用性能更优的图像处理模型来处理输入图像,从而提高图像处理的性能。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;

图2示出了根据本公开的一些实施例的示例样本生成设备的架构的示意图;

图3A和图3B示出了根据本公开的一些实施例的构建训练数据集的示意图;

图4A、图4B和图4C示出了根据本公开的一些实施例的实验结果的示意图;

图5示出了根据本公开的一些实施例的生成样本图像的过程的流程图;

图6示出了根据本公开的一些实施例的样本生成装置的示意性框图;以及

图7示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文所讨论的,随着人工智能技术被广泛引用,人们对训练数据的要求越来越高。通常来说,用于训练机器学习模型的数据往往都需要经过大量预处理与人工标注,因此这些数据的获取往往都十分昂贵。为了缓解数据不足的问题,一些传统的方案通过对现有的训练数据集进行数据扩充,以达到丰富训练数据集的目的。扩充后的数据集能够大幅提升用该数据集所训练的模型的性能。

在计算机视觉领域,传统的数据扩充方案都是基于高层视觉任务设计(如图像分类,目标检测与分割)所设计的,这使得这样的方案难以被直接迁移到底层视觉任务(如图像超分,图像去噪)。譬如,一些传统的方案利用随机拼接来构建新的样本图像,这样的样本图像对于图像分类任务可能是有帮助的。然而,这样的样本图像将难以被有效地用于底层视觉任务,例如,图像超分辨率(Super-resolution)、图像去噪、图像去伪影或图像去雾等,这将导致数据扩充无效,甚至会降低所训练的机器学习模型的性能。此外,传统的方案所生成的样本图像真实性较差,其缺乏对对输入样本的感知,而使得数据扩充效率不高。

根据本公开的各种实施例,提供了一种生成样本图像的方案。在本公开的实施例中,首先获取第一图像和与第一图像对应的第二图像,其中第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量。随后,确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异,并基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示。进一步地,基于经更新的第一频域表示来生成样本图像。基于这样的方式,本公开的实施例能够充分地考虑原样本之间的差异,进而提高样本图像对于模型训练的有效性。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,环境100包括样本生成设备120,样本生成设备120可以从已有的图像数据集110中接收图像对115,并基于图像对115来生成样本图像125。

在一些实施例中,图像对115包括呈现至少部分相同的视觉内容的两个图像,并且其中一个图像具有比另外一个图像更优的图像质量。取决与使用该图像数据集110所训练的图像处理模型的类型,图像质量可以指示该图像处理模型所能够提升的方面,其示例包括但不限于:清晰度、噪声、伪影等。更高的图像质量例如可以指示更高的清晰度,以方便人们查看图片的更多细节。或者,更高的图像质量可以指示更少的噪声或更少的伪影。

在一个示例中,当图像处理模型为图像超分辨率模型时,图像对115可以包括同一张图片的不同分辨率版本,例如,一个图像为低分辨率LR图像,对应的另一个图像为高分辨率HR图像。在另一示例中,当图像处理模型为图像去噪模型时,图相对115例如可以包括同一张图片的有噪声版本和无噪声版本,其例如可以具有相同的分辨率。

在一些实施例中,样本生成设备120可以首先将样本对115转换到相同的分辨率,并基于两者之间的频域表示之间的频谱差异来生成样本图像125。例如,当样本对115包括LR图像和HR图像时,样本生成设备120可以首先将LR图像进行上采样,以获得与HR图像尺寸相同的图像,以用于确定频谱差异。关于样本图像125的具体生成过程将在下文参考图2描述,在此暂不详叙。

如图1所示,样本图像125可以被进一步用于构建训练数据集130。应当理解,可以由样本生成设备120或者其他适当的设备来执行构建训练数据集130的过程。取决与训练数据集130所针对的图像处理模型的类型,可以采用不同的方式来构建训练数据集130。

在一个示例中,当图像处理模型例如是用于高层视觉任务(例如,分类、目标检测)等,则可以利用样本图像125直接构建训练数据集130,其对应的真值(Ground-truth)例如可以是基于样本对115具有更高图像质量的图像所确定,或者是手动标注的。

在另一示例中,图像处理模型例如可以是基于具有相同分辨率的不同图像质量的图像对所训练,例如,图像去噪模型、图像去雾模型或图像去伪影模型等。相应地,可以利用样本图像115和图像数据集中具有更高图像质量的图像来构建训练数据集130中的训练图像对。

在另一示例中,图像处理模型例如可以是基于具有不同分辨率的图像对所训练,例如,图像超分辨率模型。相应地,可以首先对样本图像115进行下采样,以获得新的LR图像。相应地,可以利用该LR图像与样本对115中的HR图像来构建训练数据集130中的训练图像对。

进一步,如图1所示,环境100例如还可以包括模型训练设备140,其可以接收训练数据集130,并利用训练数据集130来训练图像处理模型,以获得经训练的图像处理模型150。应当理解,虽然在图1中,图像处理模型150被示出为深度神经网络模型,但是这仅是示意性的,其他任何适当类型的模型也是可用的,其示例包括但不限于:各类深度神经网络(DNN)、卷积神经网络(CNN)、支持向量机(SVM)、决策树、随机森林模型等等。本公开不旨在对于图像处理模型150的具体结构进行限定。

进一步地,如图1所示,环境100例如还可以包括模型部署设备160,其例如可以部署由模型训练设备140所训练的图像处理模型150。相应地,模型部署设备160可以接收输入图像170,并利用图像处理模型150来处理输入图像170,以生成处理结果180。取决于图像处理模型150的类型,处理结果180例如可以是输入图像170的目标识别结果。或者,处理结果180还可以是基于输入图像170所生成的高分辨率图像。或者,处理结果180也可以是对输入图像170进行去雾后的图像等。

应当理解,图1中所示出的样本生成设备120、模型训练设备140和模型部署设备160可以是相同或不同的计算设备,其应具有一定的计算能力,可以满足实现本申请方法的计算资源的需求。本公开并不限定以上设备的具体形式,例如可以是网络设备也可以是终端设备。

首先参考图2,图2示出了根据本公开的一些实施例的示例样本生成设备120的架构200的示意图。如图2所示,样本生成设备120包括用于实现样本图像125的生成的多个模块。具体地,样本生成设备120可以包括频域变换单元215,其被配置为获取第一图像205和第二图像210。第一图像205和第二图像210可以具有相同的分辨率,并且第二图像210具有比第一图像205更高的图像质量。在一些实施例中,图像质量可以表示图像的清晰度、噪声数目或伪影程度等。

如上文所讨论的,在一些实施例中,当样本对115中的图像具有相同的分辨率时,样本生成设备120可以直接将样本对115用作第一图像205和第二图像210。

在又一些实施例中,样本对115中的图像可以具有不同的分辨率,例如,一个为LR图像,一个为HR图像。相应地,为了执行下文的频谱差异确定,样本生成设备120可以首先利用适当的方法对LR图像进行上采样,以获得与HR图像分辨率相同的低清晰度图像。相应地,样本生成设备120可以将该低清晰度图像作为第一图像205,并将HR图像用作第二图像210。应当理解,样本生成设备120可以利用任何适当的方式来进行上采样,其示例包括但不限于:线性插值、bicubic插值或bilinear插值等。

如图1所示,在获得第一图像205和第二图像210后,频域变换单元215可以将第一图像205变换到第一频域表示220,并将第二图像210变换到第二频域表示225。在本文中,频域表示是指将图像从空域变换到频域所获得的频域信息,例如,频谱图。

在一些实施例中,频域变换单元215可以利用离散余弦变换DCT或离散傅立叶DFT变换来获得第一频域表示220和第二频域表示225。

如图2所示,样本生成设备220还可以包括频域差异确定单元230。在一些实施例中,频谱差异确定单元230可以确定第一频域表示220与第二频域表示225之间的频谱差异235。在一些实施例中,频谱差异确定单元230可以确定第一频域表示220中的频谱元素与第二频域表示225中的对应频谱元素之间的元素差异,并基于元素差异来确定频谱差异235。

在一些实施例中,频谱差异235可以指示第一频域表示220中的每个频谱元素与第二频域表示每个对应频谱元素的差异。

在一些实施例中,频谱差异235还可以包括与多个频谱区域相对应的多个区域频谱差异。如图2所示,以基于DCT变换所获得的第一频域表示220和第二频域表示225作为示例,由于基于DCT变换所获得的频谱图的原点在频谱图的左上角,因此可以以原点为圆心,将频谱图划分为多个扇形频谱区域240,每个环形频谱区域240对应于特定频域范围内的频谱元素。

在一些实施例中,频谱差异确定单元230例如可以将频谱图划分为指定数目的频谱区域。备选地,所划分的频谱区域的数目还可以是基于第一图像205或第二图像210的分辨率。例如,频谱差异确定单元230可以将频谱图划分为r个频谱环,其中

相应地,频谱差异确定单元230可以确定针对每个环形频谱区域240的区域频谱差异,例如,区域频谱差异可以表示为:

其中N

对于基于DFT变换所获得的频域表示来说,其生成的频谱图的原点是在频谱图的中心,频谱差异确定单元230可以基于类似的方式,将频谱图划分为以该原点为中心的多个圆环形频谱区域,并基于与公式(1)类似的方法来去确定每个频谱区域的区域频谱差异。

应当理解,还可以采用其他任何适当形状的频谱区域来确定第一频谱图像220与第二频谱图像225之间的频谱差异235。

如图1所示,样本生成设备120还可以包括频域表示更新单元250。在一些实施例中,频域表示更新单元250可以根据所确定的频谱差异235来从第二频域表示225中确定第一组频谱元素。

在一些实施例中,如上文所介绍的,频谱差异235可以指示第一频域表示220与第二频域表示225中对应频谱元素之间的元素差异。相应地,频域表示更新单元250例如可以将该元素差异与预定的阈值进行比较,并将元素差异大于该阈值的频谱元素确定为第一组频谱元素。

在又一些实施例中,频谱差异235例如可以包括多个区域频谱差异。相应地,频域表示更新单元250例如可以基于多个区域频谱差异,从多个频谱区域中确定预定数目的频谱区域。示例性地,频域表示更新单元250可以从多个频谱区域中选择频谱区域频谱差异最大的K个频谱区域(K为正整数)。

备选地,为了提高所生成样本图像的随机性,频域表示更新单元250还可以根首先根据多个区域频谱差异来确定与多个频谱区域所对应的选择概率。以上文讨论的DCT变换作为示例,每个扇形频谱区域所对应的选择概率可以表示为:

其中e为自然常数,g

相应地,频域表示更新单元250可以根据每个频谱区域所对应的选择概率来从多个频谱区域中选择预定数目的频谱区域。例如,频域表示更新单元250可以根据每个频谱区域的选择概率来进行无放回K(K为正整数)次采样,以获取K个频谱区域。

在一些实施例中,频域表示更新单元250可以进一步从第二频域表示225中确定与经确定的预定数目(例如,K个)的频谱区域对应的频谱元素,以作为第一组频谱元素。基于这样的方式,频域表示更新单元250可以确定出第一频域表示220与第二频域表示225中区域较大的区域。

在一些实施例中,频域表示更新单元250可以进一步利用所确定的第一组频谱元素来更新第一频域表示220中与第一组频谱元素相对应的第二组频谱元素。频域表示更新单元250例如可以基于插值的方法来更新第二组频谱元素。在一些实施例中,频域表示更新单元250可以确定第一组频谱元素和第二组频谱元素的加权和,并利用该加权和来替换第一频域表示220中的对应频谱元素,从而获得经更新的第一频域表示255。示例性地,加权和可以表示为:

其中

在一些实现中,为了进一步提高频域表示混合的随机性从而增强生成的样本图像的多样性,权重值α例如可以是随机数。

如图2所示,样本生成设备120还包括逆变换单元260,其被配置为根据由频域表示更新单元250所生成的经更新的第一频域表示255来生成样本图像125。应当理解,逆变换单元260可以采用与生成第一频域表示220和第二频域表示225的方法相对应的逆变换方法,例如,逆DCT变换或逆DFT变换。

基于以上所讨论的方式,样本生成设备120能够基于输入的第一图像205和第二图像210来生成与第一图像205不同的、具有比第二图像210图像质量更低的样本图像125。通过将图像转换到频域表示,并确定频域表示之间的差异,本公开的实施例既能够保证生成的样本图像125的真实性,还能够丰富差异较大区域的多样性,从而使得所生成的样本图像能够更有效地用于训练图像处理模型。

图3A和图3B示出了根据本公开的实施例的构建训练数据集130的示意图300A和300B。如上文参考图1所讨论的,适当的设备(例如,图1中的样本生成设备120)可以基于所生成的样本图像125来构建训练数据集130。

在一些实施例中,样本生成设备120可以根据与训练数据集130将用于训练的图像处理模型的类型,来采用对应的方式构建训练数据集130。

在一个示例中,图像处理模型例如可以是用于高层视觉任务(例如,分类、目标检测)等,其在训练过程中将接收输入样本图像以及对应的标注信息(即,真值)。相应地,样本生成设备120可以利用样本图像125来直接构建训练数据集130,以作为用于训练图像处理模型的输入样本图像。

在一些实施例中,与该样本图像125所对应的标注信息可以是基于更高图像质量的第二图像210所确定的。以分类模型作为示例,样本图像125的标准信息可以继承第二图像210原有的标注信息“类别:熊猫”。

备选地,标注信息例如还可以是基于图像处理模型对第二图像210的处理结果。由于第二图像210具有更高的图像质量,因此图像处理模型能够获得第二图像210的准确预测结果,其可以进一步用作与样本图像125相对应的标注信息。

在另一示例中,图像处理模型例如可以是基于具有相同分辨率的不同图像质量的图像对而被训练。这样的图像处理模型的示例包括但不限于:图像去噪模型、图像去雾模型或图像去伪影模型等。相应地,如图3A所示,样本生成设备120可以利用所生成的样本图像125和第二图像210来构建训练数据集130中的训练图像对。

基于这样的方式,所生成的样本对能够加强所训练的图像处理模型对于差异较大区域的处理能力,从而能够针对性地提高图像处理模型的性能。

在又一示例中,图像处理模型例如可以是基于具有不同分辨率的图像对所训练,例如图像超分辨率模型。相应地,如图3B所示,为了获取用于训练图像超分辨率模型的图相对,样本生成设备120可以首先对所成的样本图像115进行下采样,以获取低分辨率图像310,并利用该低分辨率图像310与第二图像210来构建训练数据集130中的训练图像对。

基于这样的方式,所生成的样本对能够加强所训练的图像超分辨率模型对于频域差异较大区域的恢复能力,从而能够针对性地提高所训练的图像超分辨率模型的性能。

在基于上文所讨论的方法获得训练数据集130后,如图1所示,模型训练设备140可以进一步基于训练数据集130来训练图像处理模型,以获得经训练的图像处理模型150。在一些实施例中,模型训练设备140例如可以是具有较强运算能力的计算设备,例如,云服务器。基于这样的方式,模型训练设备140可以获得具有更优性能的图像处理模型150。

如结合图1所讨论的,这样的图像处理模型150可以是用于执行高层视觉任务(例如,分类、目标检测或目标分割等)的机器学习模型。或者,图像处理模型150例如也可以是用于执行底层视觉任务(例如,超分辨率、去噪、去雾或去伪影等)的机器学习模型。

在一些实施例中,如图1所示,经训练的图像处理模型150可以进一步被部署到模型部署设备160。模型部署设备160可以接收输入图像170,并利用经训练的图像处理模型150来处理输入图像170以获得对应的处理结果180。

在一些实施例中,模型部署设备160可以是适当类型的终端设备,例如,智能手机、平板电脑、智能手表、笔记本电脑等。

在一些实施例中,输入图像170例如可以是由模型部署设备160的用户所输入的。以图像处理模型150为是图像超分辨率模型作为示例,用户例如可以通过模型部署设备160所提供输入接口来上传输入图像170,并从而获得利用图像超分辨率模型所生成的具有更高分辨率的、更清晰的图像。输入图像170例如可以包括医学影像,基于这样的方式,可以获得更为准确的医学图像信息。

在一些实施例中,输入图像170例如也可以是由模型部署设备160所自动获取的。以图像处理模型150为是图像超分辨率模型作为示例,模型部署设备160例如可以在用户打开相机拍照期间,获取相机所拍摄的图像作为输入图像170,并利用图像超分辨率模型对该输入图像170进行处理,以获得具有更高分辨率、更清晰的图像。

在一些实施例中,输入图像170例如也可以是由模型部署设备160从另一设备所接收的。以图像处理模型150为是图像超分辨率模型作为示例,考虑到码流传输的成本,发送端在发送图像时通常会将较大分辨率的图像压缩为低分辨率图像。模型部署设备160例如可以接收从另一设备所发送的低分辨率图像,并利用图像超分辨率模型来生成对应的具有更高分辨率的、更清晰的图像。基于这样的方式,可以在降低传输成本的情况下提高用户的使用体验。

应当理解,以上场景仅是示意性的,基于本公开的方法所训练的图像处理模型还可以被应用于其他适当的场景中,本公开不再一一列举。

此外,经过实验发现,通过本公开的方法所构建的训练数据集130能够显著地提升图像超分辨率模型的性能。图4A、图4B和图4C示出了根据本公开的一些实施例的测试结果的示意图400A、400B和400C。

如图4A所示,基于本公开的方法对于CARN、RCAN和EDSR超分模型的训练具有显著的提升。图4A中方框圈出的数据(DCTmix)表示采用了本公开的模型训练方法(基于DCT的频域表示更新)的图像处理模型在不同数据集(DIV2K数据集和自然图像数据集)所得到的PSRN(图像峰值信噪比)/SSIM(结构相似性)性能指标。能够看到,本公开的方法相对于基准模型的性能具有较为明显的提升,并且在自然图像数据集上的提升效果尤为显著。

此外,图4B示出了根据本公开的模型训练方法的泛化性能。泛化性能表示将在一种数据集上训练好的模型直接迁移到其他数据集上的性能。如图4B方框所示出的,本公开的方法还能够进一步提升所训练得到的图像处理模型的泛化性能。

图4C进一步示出了利采用了本公开的模型训练方法(基于DCT的频域表示更新)的图像处理模型的视觉效果。图4C以X4图像超分辨率模型为例示出了Urban100和RealSR数据集中两个样本的图像超分辨率结果的视觉差异。从图4C中能够看到,与基线模型相比,本公开的实施例能够获得更优的视觉效果。

图5示出了根据本公开的实施例的生成样本图像的过程500的流程图。过程500例如可以由图1中的样本生成设备120来实施。为了方便描述,以下参考图1和图2来描述过程500。

在框502,样本生成设备120获取第一图像205和与第一图像205对应的第二图像210,其中第一图像205和第二图像210具有相同的分辨率,并且第二图像210具有比第一图像205更高的图像质量。在框504,样本生成设备120确定第一图像205的第一频域表示220和第二图像210的第二频域表示225之间的频谱差异235。在框506,样本生成设备120基于频谱差异235,利用第二频域表225示的至少一部分来更新第一频域表示220。在框508,样本生成设备120基于经更新的第一频域表示255,生成样本图像125。

图7进一步示出了根据本公开实施例的用于生成样本图像的装置600的框图,装置600可以包括多个模块,以用于执行如图5中所讨论的过程500中的对应步骤。如图6所示,装置600包括获取单元610,其被配置为获取第一图像和与第一图像对应的第二图像,第一图像和第二图像具有相同的分辨率,并且第二图像具有比第一图像更高的图像质量。装置600还包括确定单元620,其被配置为确定第一图像的第一频域表示和第二图像的第二频域表示之间的频谱差异。装置600还包括更新单元630,其被配置为基于频谱差异,利用第二频域表示的至少一部分来更新第一频域表示。此外,装置600还包括生成单元640,被配置为基于经更新的第一频域表示,生成样本图像。

在一些实施例中,装置600还包括:数据集构建单元,被配置为基于样本图像,构建用于训练图像处理模型的训练数据集。

在一些实施例中,训练数据集至少包括基于第二图像和样本图像构建的训练图像对。

在一些实施例中,训练数据集至少包括基于第二图像和第三图像构建的训练图像对,第三图像是基于对样本图像下采样所生成的。

在一些实施例中,第一频域表示和第二频域表示是基于离散余弦变换DCT或离散傅立叶变换DFT所生成的。

在一些实施例中,确定单元620被配置为:确定第一频域表示中的频谱元素与第二频域表示中的对应频谱元素之间的元素差异,以确定频谱差异。

在一些实施例中,更新单元630被配置为:基于频谱差异从第二频域表示中确定第一组频谱元素;以及利用第一组频谱元素更新第一频域表示中与第一组频谱元素相对应的第二组频谱元素。

在一些实施例中,频谱差异包括与多个频谱区域相对应的多个区域频谱差异,并且更新单元630被配置为:基于多个区域频谱差异,从多个频谱区域中确定预定数目的频谱区域;以及从第二频域表示中确定与预定数目的频谱区域对应的第一组频谱元素。

在一些实施例中,更新单元630被配置为:基于多个区域频谱差异,确定与多个频谱区域对应的多个选择概率;以及基于多个选择概率,从多个频谱区域中选择预定数目的频谱区域。

在一些实施例中,多个频谱区域是基于第二图像的分辨率所确定的。

在一些实施例中,区域频谱差异是基于第一频域表示在相应频谱区域的频谱元素与第二频域表示在相应频谱区域内的频谱元素之间的差异的均值所确定的。

在一些实施例中,更新单元630被配置为:利用第一组频谱元素的值和第二组频谱元素的值的加权和,替换第一频域表示中的第二组频谱元素。

在一些实施例中,用于加权和是基于随机权重所确定的。

在一些实施例中,第一图像是基于对与第二图像对应的第四图像上采样所生成的,第四图像具有比第二图像更低的分辨率。

在一些实施例中,第一图像和第二图像呈现至少部分相同的视觉内容。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现样本生成设备120、模型训练设备140和/或模型部署设备160。如图所示,设备700包括计算单元701,其可以根据存储在随机存取存储器(RAM)和/或只读存储器(ROM)702的计算机程序指令或者从存储单元707加载到RAM和/或ROM 702中的计算机程序指令,来执行各种适当的动作和处理。在RAM和/或ROM 702中,还可存储设备700操作所需的各种程序和数据。计算单元701和RAM和/或ROM 702通过总线703彼此相连。输入/输出(I/O)接口704也连接至总线703。

设备700中的多个部件连接至I/O接口704,包括:输入单元705,例如键盘、鼠标等;输出单元706,例如各种类型的显示器、扬声器等;存储单元707,例如磁盘、光盘等;以及通信单元708,例如网卡、调制解调器、无线通信收发机等。通信单元708允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如过程600。例如,在一些实施例中,过程600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元707。在一些实施例中,计算机程序的部分或者全部可以经由RAM和/或ROM和/或通信单元708而被载入和/或安装到设备700上。当计算机程序加载到RAM和/或ROM并由计算单元701执行时,可以执行上文描述的过程600的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程1000。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

相关技术
  • 生成样本图像的方法、装置、设备、存储介质和程序产品
  • 生成缺陷图像样本的方法、装置、介质及程序产品
技术分类

06120113115871