导航：首页> 发电、变电或配电>评估用于确定合成图像像素的生成器控制的设备和方法

评估用于确定合成图像像素的生成器控制的设备和方法

文献发布时间：2024-04-18 19:58:21

技术领域

语义图像合成SIS将用户指定的语义布局转换为真实感图像。其应用范围广泛，从图像编辑和内容创建到合成数据增强，其中生成训练数据以满足特定的语义要求。

背景技术

生成对抗网络GAN是一种用于SIS的工具。

合期望的是利用基于GAN的SIS模型来控制在标签地图中指定的语义类的合成过程，以允许用户对由基于GAN的SIS模型生成的图像中的特定类执行有针对性的局部编辑。

对GAN控制的评估可以基于视觉检查。

合期望的是具有一种用于评估GAN控制的度量，而不是视觉检查。

发明内容

本文中的公开内容涉及一种良好的生成器控制发现方法，该方法找到潜在方向作为彼此显著不同并且在不同的初始潜在编码条件下一致的控制。

用于评估生成器控制的设备和计算机实现方法包括提供度量以评估生成器控制发现方法的有效性，以及确定该度量。

所述计算机实现方法用于评估确定合成图像的像素的生成器的控制，其中所述生成器被配置为从包括标签地图和第一潜在编码的第一输入来确定合成图像的像素，其中所述标签地图包括至少一个类到像素中的至少一个的映射，其中所述方法包括提供标签地图和潜在编码，其中所述潜在编码包括潜在空间中的输入数据点，提供所述控制，其中所述控制包括用于在潜在空间中移动潜在编码的方向集，取决于在第一方向上移动的潜在编码的至少一个输入数据点来确定第一潜在编码，其中所述第一方向是从所述方向集选择的，确定由生成器针对不同的第一输入生成的至少一个合成图像对之间的距离，其中所述不同的第一输入包括标签地图，并且随着被选择用于从潜在编码确定第一潜在编码的第一方向而变化。该距离提供了多样性得分。高的多样性得分暗示着每个所发现的潜在方向以独特不同的方式改变所生成的合成图像的外观。

第一输入可以包括类掩模，其中所述类掩模指示针对类要在第一方向上移动的输入数据点，并且所述距离取决于由要考虑的类掩模指示的合成图像的像素来确定。

该方法可以包括确定利用标签地图和未移动的潜在编码生成的合成图像对之间的距离，以及利用标签地图和潜在编码生成的、以第一方向移动的合成图像。该距离提供了解纠缠(disentanglement)得分。低的解纠缠得分意味着GAN控制发现方法的良好解纠缠性质。

该方法可以包括确定利用相同的标签地图和第一方向并且利用变化的潜在编码生成的合成图像对之间的距离。低的一致性得分意味着每个类编辑在由类掩模指示的合成图像的区域中引入一致的改变。

该方法可以包括确定针对不同的对确定的距离的平均值，特别是确定这些距离上的均值。

该方法可以包括确定针对标签地图所包括的所述类中的至少一个类的距离，以及取决于针对所述至少一个类的距离的平均值。

该方法可以包括利用相同的标签地图合成多个合成图像，并且取决于针对所述多个合成图像确定的距离或得分来测试用于处理数字图像的应用的鲁棒性或功能性。

可以确定标签地图以模拟图像传感器的数字图像输出，所述图像传感器特别是视频、雷达、LiDAR、超声波、运动或热图像传感器，其中用于计算机控制的机器的控制信号由模型取决于合成图像来确定，所述计算机控制的机器特别是机器人，优选地是车辆或用于自主驾驶的车辆、家用电器、电动工具、制造机器、个人助理、用于自动光学检查的设备或访问系统，所述模型特别是包括被配置用于检测合成图像中的对象的对象检测器、或者被配置用于对合成图像或合成图像中的对象进行分类的分类器、或者被配置用于分割合成图像的分割器的模型，并且其中取决于合成图像来训练模型，以确定控制信号，和/或从由图形用户接口检测到的用户输入确定标签地图和/或来自方向集的所选择的第一方向，其中合成图像取决于标签地图和/或在所选择的第一方向上移动的潜在编码来确定，并且由显示器、特别是图形用户接口的显示器输出。

用于评估确定合成图像的像素的生成器的控制的设备包括至少一个处理器和至少一个存储器，其中所述至少一个存储器被配置为存储计算机可读指令，当由所述至少一个处理器执行时，所述计算机可读指令使所述设备执行根据前述权利要求之一的方法的步骤，并且其中所述至少一个处理器被配置为执行所述指令。

计算机程序可以包括计算机可读指令，当由计算机执行时，所述计算机可读指令使计算机执行该方法的步骤。该计算机程序具有与该方法的优点相对应的优点。

附图说明

从以下描述和附图导出另外的实施例。在附图中：

图1示意性地描绘了用于确定合成图像的像素的设备，

图2示意性地描绘了数字图像，

图3示意性地描绘了数字图像的标签地图，

图4示意性地描绘了数字图像的类掩模，

图5示意性地描绘了第一合成图像，

图6示意性地描绘了第二合成图像，

图7示意性地描绘了第三合成图像，

图8示意性地描绘了用于评估生成对抗网络控制的过程，

图9示意性地描绘了用于评估生成对抗网络控制的方法。

具体实施方式

图1示意性地描绘了用于评估生成对抗网络控制的设备100。设备100被配置用于确定合成图像的像素。设备100包括至少一个处理器102和至少一个存储器104。

所述至少一个存储器104被配置为存储计算机可读指令，当由所述至少一个处理器102执行时，所述计算机可读指令使设备100执行下面描述的方法的步骤。

所述至少一个处理器102被配置为执行所述指令。

图2示意性地描绘了数字图像202。数字图像202可以是生成的图像。数字图像202包括第一建筑物204、第二建筑物206、第三建筑物208、第一汽车210、第二汽车212和第三汽车314。第一建筑物204位于数字图像的左侧，并且第二建筑物206位于数字图像202的右侧。这些建筑物位于从数字图像202的左下角延伸到位于数字图像202的右上角的第三建筑物208的道路216的相对侧。

第一汽车210在数字图像202中位于第二汽车212的左侧。第三汽车214在数字图像202中位于第二汽车210的右侧。第一汽车210和第二汽车212与第三汽车212相比位于更靠近第一建筑物204。

树218和人行道220在数字图像202中位于第二建筑物206和道路216之间。

在该示例中，数字图像202具有高度220和宽度222。数字图像202包括像素。数字图像202例如具有H＝756个像素的高度220和W＝1024个像素的宽度222。该示例性数字图像202包括1024*756＝774144个像素。

图3示意性地描绘了数字图像202的标签地图302。标签地图302可以具有与数字图像202相同的尺寸。标签地图302包括多个类C中的至少一个类c∈C到数字图像202的像素中的至少一个的映射

标签地图302可以具有比数字图像202更低的空间维度。在该情况下，映射y可以将一组像素分配给一个类。

图4示意性地描绘了数字图像202的类掩模402。类掩模402包括至少一个类c∈C到数字图像202的像素中的至少一个的映射M

类掩模402可以具有与标签地图302相同或更低的空间维度。在该情况下，映射M

图5示意性地描绘了第一合成图像502。第一合成图像502包括对应于根据类掩模402表示街道的像素的第一像素集504和对应于根据类掩模402的其他像素的第二像素集506。

合成图像502可以具有与标签地图302、类掩模402和/或数字图像202相同的特殊尺寸。

在该示例中，表示街道的第一像素集504在颜色上不同于表示街道216的数字图像202的像素。在该示例中，第二像素集506与数字图像202相比没有改变。

图6示意性地描绘了第二合成图像602。第二合成图像602包括对应于根据类掩模402表示街道的像素的第一像素集604和对应于根据类掩模402的其他像素606的第二像素集606。

在该示例中，表示街道的第一像素集604在颜色上不同于表示街道216的数字图像202的像素，并且不同于第一合成图像502的第一像素集504。在该示例中，第二像素集606与数字图像202相比没有改变。

图7示意性地描绘了第三合成图像702。第三合成图像702基于包括映射M

在该示例中，表示街道的第一像素集704在颜色上不同于表示街道216的数字图像202的像素。在该示例中，表示建筑物的第二像素集706在颜色上不同于表示第一建筑物204、第二建筑物206和第三建筑物308的数字图像202的像素。在该示例中，第三像素集708与数字图像202相比没有改变。

图8示意性地描绘了用于评估生成对抗网络控制的过程800。生成对抗网络控制是用于确定合成图像的像素的生成器的控制的示例。过程800包括确定合成图像802’的像素。

过程800旨在生成合成图像802、802’。过程800包括为合成图像802、802’提供标签地图804。标签地图804包括至少一个类c∈C到像素中的至少一个的映射。

过程800包括提供类掩模806。类掩模806包括至少一个类c∈C到像素中的至少一个的映射。

过程800包括提供潜在编码808。潜在编码包括潜在空间中的输入数据点810。潜在编码例如被采样。

潜在编码808可以与类掩模806和/或标签地图804和/或合成图像802、802’在空间上对准。在一个示例中，类掩模806存储在至少二维张量中，潜在编码808存储在至少三维张量中，标签地图804存储在至少三维张量中，并且合成图像802或802’存储在至少三维张量中。在一个示例中，合成图像802或802’的所述至少三维张量具有对应于合成图像802或802’的宽度的维度和对应于合成图像802或802’的高度的维度。合成图像802或802’的宽度可以是数字图像202的给定宽度222。合成图像802或802’的高度可以是数字图像202的给定高度224。在该上下文中，空间上对准可以意味着类掩模806和/或标签地图804的张量包括与对应于合成图像802或802’的宽度的维度大小相同的维度，以及与对应于合成图像802或802’的高度的维度大小相同的维度。

过程800包括提供来自多个类特定方向814的方向812，以用于在潜在空间中移动输入数据点810。在该示例中，所述多个类特定方向814包括针对每个类c∈C的K个方向。类掩模806指示针对类c要在第一方向812上移动的输入数据点810。

过程800包括取决于在方向812上移动的输入数据点810来确定潜在编码808。过程800包括如果输入数据点810被类掩模806选择以用于移动，例如在第一二进制值的情况下，则移动输入数据点810，并且否则不移动输入数据点810。

过程800包括取决于针对输入的生成器816的输出来确定合成图像802或802’，所述输入包括标签地图804和类掩模806以及潜在编码808。所述生成器816可以是生成对抗网络的生成器。生成器816可以包括另一个神经网络，例如扩散模型或VQ模型。

在该示例中，生成器816是语义图像合成(SIS)模型的经良好训练的生成器G。这意味着，例如，生成器被配置为从标签地图和潜在编码合成数字图像。

生成器G例如包括神经网络。该示例中的生成器G包括输入层和输出层以及输入层和输出层之间的至少一个中间层l∈L。

在一个示例中，生成器G＝G(z，v

x(v

其中

h(z，v

是来自生成器G(z，v

在一个示例中，生成器

与从相同潜在编码z合成合成图像而不在第一方向

图9示意性地描绘了用于评估生成对抗网络控制的方法。该方法找到能够有意义地编辑合成图像x的像素的外观的K个方向V＝{v

在一个示例中，这通过用于发现具有优化目标L的潜在方向的方法来实现。用于发现潜在方向的方法可以是不同的方法，并且使用不同的优化目标。

在一个示例中，对于整个合成图像x和独立于类c的方向v

其中|| ||

这意味着期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V。所述不同的第一输入包括相同的标签地图y，并且随着用于从相同的潜在编码z确定第一潜在编码的第一方向

该损失旨在确保应用于同样的输入潜在编码z的所找到的类特定方向集V产生最大程度上不同的语义视觉效果，即以不同的方式改变外观。

在一个示例中，评估方向集V包括确定多样性得分：

其中K是所发现的潜在方向的数量，并且d是利用相同的标签地图y和潜在编码z(例如输入噪声)以及不同的潜在方向

在一个示例中，距离d是LPIPS距离。LPIPS距离在如下中描述：Zhang，R.、Isola，P.、Efros，A.A.、Shechtman，E.、Wang，O.的“The unreasonable effectiveness of deepfeatures as a perceptual metric”(在Computer Vision and Pattern Recognition(CVPR)(2018)中)。

在一个示例中，距离d是MS-SSIM距离。MS-SSIM距离在如下中描述：Wang，Z.、Simoncelli，E.P.、Bovik，A.C.的“Multiscale structural similarity for imagequality assessment”(在Asilomar Conference on Signals，Systems&Computers(2003)中)。

在一个示例中，评估类特定方向集V

其中K是所发现的潜在方向的数量，并且d是利用相同的标签地图y和潜在方向(例如第一方向v

针对所发现的潜在方向的数量对距离进行求和。在一个示例中，方向索引k是随机采样的。

在一个示例中，优化目标包括取决于期望值E

这意味着，期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V

该损失旨在确保应用于同样的输入潜在编码z的所找到的类特定方向集V

在一个示例中，评估类特定方向集V

其中K是所发现的类特定潜在方向的数量，并且d是利用相同的标签地图y和潜在编码z(例如输入噪声)并且利用不同的类特定潜在方向

在一个示例中，评估类特定方向集V

其中d是利用标签地图y和未移动的潜在编码z生成的合成图像x与利用标签地图y和潜在编码z生成的合成图像

在一个示例中，评估类特定方向集V

其中K是所发现的类特定潜在方向的数量，并且d是利用相同的标签地图y和类特定潜在方向(例如第一方向

在一个示例中，对于LPIPS距离，如在Simonyan，K.、Zisserman，A.的“Very deepconvolutional networks for large-scale image recognition”(arXiv preprintarXiv：1409.1556(2014))中所描述的那样，在生成器的特征空间中计算图像之间的距离。这意味着，在所编辑的类的区域中计算特征距离。针对所发现的潜在方向的数量，对距离进行求和。在一个示例中，针对标签地图中的类，方向索引k被随机采样。

用于评估用于确定合成图像x的像素的生成器的控制的方法包括步骤902。

在步骤902中，该方法包括提供生成器816，特别是被配置为从第一输入确定其输出的生成器G。

该方法包括步骤904。

在步骤904中，该方法包括提供标签地图y和潜在编码z。

潜在编码z包括潜在空间中的输入数据点。

可选地，步骤904包括提供类掩模M

在该示例中，取决于标签地图y和类c来确定类掩模M

类掩模M

该方法包括步骤906。

在步骤906中，该方法包括提供用于在潜在空间中移动输入数据点的第一方向。

在一个示例中，提供了第一方向v

在一个示例中，提供了类特定第一方向

该方法包括步骤908。

在步骤908中，该方法包括取决于在第一方向上移动的潜在编码z的至少一个输入数据点来确定第一潜在编码。

在一个示例中，第一输入包括标签地图y和第一潜在编码z+av

这意味着，特别是以给定的强度α在第一方向上移动潜在编码z或潜在编码z的一部分。这更改了跨独立于类的像素的潜在编码。

第一输入可选地包括标签地图y和类掩模M

这意味着，通过取决于类掩模c选择潜在编码z的一部分来移动潜在编码z的一部分。这更改了由类掩模M

该方法包括步骤910。

在步骤910中，该方法包括取决于针对第一输入的生成器的输出来确定合成图像。

在一个示例中，确定合成图像x(v

在一个示例中，确定合成图像

该方法包括步骤912。

在步骤912中，该方法包括确定由生成器816针对不同的第一输入生成的至少一个合成图像对802、802’之间的距离。

该方法可以包括确定针对不同的对确定的距离的平均值。

在一个示例中，确定这些距离上的均值。

在一个示例中，不同的第一输入包括标签地图804，并且随着被选择用于从潜在编码z确定第一潜在编码808的第一方向而变化。例如，针对这些确定特定多样性得分Div或类特定多样性得分Div(c)。

在一个示例中，不同的第一输入包括标签地图804和类掩模806，并且随着被选择用于从潜在编码z确定第一潜在编码808的第一方向而变化。例如，针对这些确定类特定解纠缠得分Dis(c)。

在一个示例中，不同的第一输入包括标签地图804，并且随着利用相同的第一方向从变化的潜在编码z确定的第一潜在编码z

该方法可以包括确定针对标签地图所包括的类中的至少一个类的距离，以及取决于针对所述至少一个类的距离的平均值。

该方法可以使用图像质量度量，例如，如在Park，T.、Liu，M.Y.、Wang，T.C.、Zhu，J.Y.的“Semantic image synthesis with spatial-adaptive normalization”(在Computer Vision and Pattern Recognition(CVPR)(2019)中)和

使用Frechet初始距离(FID)评估利用类特定编辑生成的图像的总体视觉质量，所述Frechet初始距离(FID)如在Heusel，M.、Ramsauer，H.、Unterthiner，T.、Nessler，B.、Hochreiter，S.的“Gans trained by a two time-scale update rule converge to alocal nash equilibrium”(2017)中所描述的那样。FID可以用于根据人类判断来评估所生成的合成图像的视觉质量和保真度。

该方法可以使用均值交并比来评价所生成的合成图像与经由预训练的语义分割网络计算的基准真值语义标签地图的对准。

对于数据增强，该方法可以包括利用相同的标签地图并且利用不同的第一方向合成多个合成图像。

对于验证，该方法可以包括取决于多个合成图像来测试用于处理数字图像的应用的鲁棒性或功能性。该验证可以包括利用相同的标签地图合成多个合成图像802、802’，并且取决于针对所述多个合成图像802、802’确定的距离或得分来测试用于处理数字图像的应用的鲁棒性或功能性。

可以确定标签地图以模拟图像传感器的数字图像输出，所述图像传感器特别是视频、雷达、LiDAR、超声波、运动或热图像传感器。

该方法可以包括用于计算机控制的机器的控制信号由模型取决于合成图像来确定。在一个示例中，取决于合成图像训练模型以确定控制信号。

所述计算机控制的机器可以是机器人。机器人可以是车辆或用于自主驾驶的车辆、家用电器、电动工具、制造机器、个人助理、用于自动光学检查的设备或访问系统。

该模型可以包括被配置用于检测合成图像中的对象的对象检测器。

该模型可以包括被配置用于对合成图像或合成图像中的对象进行分类的分类器。

该模型可以包括被配置用于分割合成图像的分割器。

对于图像编辑应用，该方法在一个示例中包括从由图形用户接口检测到的用户输入确定标签地图。合成图像例如由显示器、特别是图形用户接口的显示器输出。

在该情况下，用户可以绘制标签地图，并且然后使用学习到的方向修改合成图像。用户可以从方向集选择第一方向。例如，输出从以所选择的第一方向移动潜在编码而得到的合成图像。

完整全部详细技术资料下载