掌桥专利:专业的专利平台
掌桥专利
首页

用于确定合成图像的像素的设备和计算机实现的方法

文献发布时间:2024-04-18 19:58:21


用于确定合成图像的像素的设备和计算机实现的方法

技术领域

语义图像合成SIS将用户指定的语义布局转换为真实感图像。其应用范围广泛,从图像编辑和内容创建到合成数据增强,其中生成训练数据以满足特定的语义要求。

背景技术

生成对抗网络GAN是一种用于SIS的工具。

合期望的是利用基于GAN的SIS模型来控制在标签地图中指定的语义类的合成过程,以允许用户对由基于GAN的SIS模型生成的图像中的特定类执行有针对性的局部编辑。

发明内容

用于确定合成图像的像素的设备和计算机实现的方法允许控制在标签地图中指定的语义类的合成过程。

该计算机实现的方法包括提供生成器,该生成器被配置为从包括标签地图和第一潜在编码的第一输入确定输出,其中所述标签地图包括至少一个类到像素中的至少一个的映射,其中所述方法包括提供标签地图和潜在编码,其中所述潜在编码包括潜在空间中的输入数据点,提供用于在潜在空间中移动输入数据点的第一方向,取决于在第一方向上移动的潜在编码的至少一个输入数据点来确定第一潜在编码,取决于针对第一输入的生成器的输出来确定合成图像。所述第一方向是以有意义的可解释方式更改像素的潜在方向。

第一输入可以包括类掩模,其中所述类掩模指示针对类要在第一方向上移动的输入数据点,其中提供第一方向包括提供类,提供用于在潜在空间中移动由类掩模指示的输入数据点的方向集,以及从该方向集选择第一方向。类特定的第一方向是以有意义的可解释方式更改所选取的类的像素的潜在方向。

生成器可以包括用于接收第一输入的输入层和用于输出的输出层以及在输入层和输出层之间的至少一个中间层,其中所述至少一个中间层被配置为取决于第一输入来确定潜在空间中的特征集,其中提供所述方向集包括确定使所述至少一个中间层针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集,其中所述不同的第一输入包括相同的标签地图,并且随着用于从相同的潜在编码确定第一潜在编码的第一方向而变化,或者其中针对类提供方向集包括针对由要考虑的类掩模指示的像素,确定使所述至少一个中间层针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集,其中所述不同的第一输入包括相同的标签地图和相同的类掩模,并且随着用于从相同的潜在编码确定第一潜在编码的第一方向而变化。该机器学习旨在确保应用于同样的输入潜在编码的所找到的潜在方向集产生最大程度上不同的语义视觉效果,即以不同方式改变所选取的类的外观。

针对类提供方向集可以包括:针对由要考虑的类掩模指示的像素,确定使所述至少一个中间层针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集,其中所述不同的第一输入包括相同的标签地图和相同的类掩模,并且随着用于从相同的潜在编码确定第一潜在编码的第一方向而变化。该机器学习旨在确保所找到的潜在方向集影响属于该类的合成图像的图像区域。

针对类提供方向集可以包括:确定使所述至少一个中间层针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集,其中所述不同的第一输入包括相同的标签地图,并且随着用于利用相同的第一方向确定第一潜在编码的潜在编码而变化,或者针对由要考虑的类掩模指示的像素,确定使所述至少一个中间层针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集,其中所述不同的第一输入包括相同的标签地图和相同的类掩模,并且随着用于利用相同的第一方向确定第一潜在编码的潜在编码而变化。该机器学习旨在确保针对不同潜在编码的改变是一致的。

提供类掩模可以包括取决于标签地图和类确定类掩模,其中类掩模指定合成图像中标签地图指定为类像素的像素。

确定第一潜在编码可以包括特别是以给定强度在第一方向上移动潜在编码或潜在编码的一部分。这更改了跨类的潜在编码。

该方法可以包括取决于类掩模选择潜在编码的部分。这更改了由类掩模标识的区域中的潜在编码。

潜在编码可以与类掩模和/或标签地图和/或合成图像在空间上对准。

生成器可以包括第一神经元层和第二神经元层,其中确定合成图像可以包括向第一层提供第一输入,确定包括第一潜在编码或第二潜在编码的第二输入,以及向第二层提供第二输入。所述潜在编码可以在各种层处被注入到生成器中。

确定第二输入可以包括取决于第一方向或第二方向改变潜在编码,或者确定第二输入包括提供另一潜在编码以及取决于第一方向或第二方向改变该另一潜在编码。潜在编码可以在不同的方向上移动并且被注入到不同的层中。

确定第二输入可以包括取决于所述至少一个语义类来确定第二方向。

该方法可以包括利用相同的标签地图并且利用不同的第一方向合成多个合成图像,和/或取决于多个合成图像测试用于处理数字图像的应用的鲁棒性或功能性。对于数据增强,该方法合成了用于数据增强的多样的数据点。对于数据验证,该方法使用多样的合成图像。

该方法可以包括确定标签地图以模拟图像传感器的数字图像输出,所述图像传感器特别是视频、雷达、LiDAR、超声波、运动或热图像传感器,其中用于计算机控制的机器的控制信号由模型取决于合成图像来确定,所述计算机控制的机器特别是机器人,优选地是车辆或用于自主驾驶的车辆、家用电器、电动工具、制造机器、个人助理、用于自动光学检查的设备或访问系统,所述模型特别是包括被配置用于检测合成图像中的对象的对象检测器、或者被配置用于对合成图像或合成图像中的对象进行分类的分类器、或者被配置用于分割合成图像的分割器的模型,并且其中取决于合成图像来训练模型,以确定控制信号,和/或从由图形用户接口检测到的用户输入确定标签地图和/或来自所述方向集的所选择的第一方向,其中合成图像取决于标签地图和/或在所选择的第一方向上移动的潜在编码来确定,并且由显示器、特别是图形用户接口的显示器输出。

用于确定合成图像的像素的设备,其特征在于,所述设备包括至少一个处理器和至少一个存储器,其中所述至少一个存储器被配置为存储计算机可读指令,当由所述至少一个处理器执行时,所述计算机可读指令使所述设备执行所述方法的步骤,并且其中所述至少一个处理器被配置为执行所述指令。该设备具有与该方法的优点相对应的优点。

计算机程序可以包括计算机可读指令,当由计算机执行时,所述计算机可读指令使计算机执行该方法的步骤。该计算机程序具有与该方法的优点相对应的优点。

该优化找到了解纠缠的(disentangled)类特定的潜在控制。在优化中找到的潜在方向可以有效地控制语义类的局部外观,例如,彼此独立地改变它们的内部结构、纹理或颜色。这显著提高了类特定编辑的多样性,同时维持良好的图像质量。

附图说明

从以下描述和附图导出另外的实施例。在附图中:

图1示意性地描绘了用于确定合成图像的像素的设备,

图2示意性地描绘了数字图像,

图3示意性地描绘了数字图像的标签地图,

图4示意性地描绘了数字图像的类掩模,

图5示意性地描绘了第一合成图像,

图6示意性地描绘了第二合成图像,

图7示意性地描绘了第三合成图像,

图8示意性地描绘了用于确定合成图像的像素的过程,

图9示意性地描绘了用于确定合成图像的像素的方法。

具体实施方式

图1示意性地描绘了用于确定合成图像的像素的设备100。设备100包括至少一个处理器102和至少一个存储器104。

所述至少一个存储器104被配置为存储计算机可读指令,当由所述至少一个处理器102执行时,所述计算机可读指令使设备100执行下面描述的方法的步骤。

所述至少一个处理器102被配置为执行所述指令。

图2示意性地描绘了数字图像202。数字图像202可以是生成的图像。数字图像202包括第一建筑物204、第二建筑物206、第三建筑物208、第一汽车210、第二汽车212和第三汽车314。第一建筑物204位于数字图像的左侧,并且第二建筑物206位于数字图像202的右侧。这些建筑物位于从数字图像202的左下角延伸到位于数字图像202的右上角的第三建筑物208的道路216的相对侧。

第一汽车210在数字图像202中位于第二汽车212的左侧。第三汽车214在数字图像202中位于第二汽车210的右侧。第一汽车210和第二汽车212与第三汽车212相比位于更靠近第一建筑物204。

树218和人行道220在数字图像202中位于第二建筑物206和道路216之间。

在该示例中,数字图像202具有高度220和宽度222。数字图像202包括像素。数字图像202例如具有H=756个像素的高度220和W=1024个像素的宽度222。该示例性数字图像202包括1024*756=774144个像素。

图3示意性地描绘了数字图像202的标签地图302。标签地图302可以具有与数字图像202相同的尺寸。标签地图302包括多个类C中的至少一个类c∈c到数字图像202的像素中的至少一个的映射

标签地图302可以具有比数字图像202更低的空间维度。在该情况下,映射y可以将一组像素分配给一个类。

图4示意性地描绘了数字图像202的类掩模402。类掩模402包括至少一个类c∈C到数字图像202的像素中的至少一个的映射M

类掩模402可以具有与标签地图302相同或更低的空间维度。在该情况下,映射M

图5示意性地描绘了第一合成图像502。第一合成图像502包括对应于根据类掩模402表示街道的像素的第一像素集504和对应于根据类掩模402的其他像素的第二像素集506。

合成图像502可以具有与标签地图302、类掩模402和/或数字图像202相同的特殊尺寸。

在该示例中,表示街道的第一像素集504在颜色上不同于表示街道216的数字图像202的像素。在该示例中,第二像素集506与数字图像202相比没有改变。

图6示意性地描绘了第二合成图像602。第二合成图像602包括对应于根据类掩模402表示街道的像素的第一像素集604和对应于根据类掩模402的其他像素606的第二像素集606。

在该示例中,表示街道的第一像素集604在颜色上不同于表示街道216的数字图像202的像素,并且不同于第一合成图像502的第一像素集504。在该示例中,第二像素集606与数字图像202相比没有改变。

图7示意性地描绘了第三合成图像702。第三合成图像702基于包括映射M

在该示例中,表示街道的第一像素集704在颜色上不同于表示街道216的数字图像202的像素。在该示例中,表示建筑物的第二像素集706在颜色上不同于表示第一建筑物204、第二建筑物206和第三建筑物308的数字图像202的像素。在该示例中,第三像素集708与数字图像202相比没有改变。

图8示意性地描述了用于确定合成图像802’的像素的过程800。

过程800旨在生成合成图像802、802’。过程800包括为合成图像802、802’提供标签地图804。标签地图804包括至少一个类c∈C到像素中的至少一个的映射。

过程800包括提供类掩模806。类掩模806包括至少一个类c∈C到像素中的至少一个的映射。

过程800包括提供潜在编码808。潜在编码包括潜在空间中的输入数据点810。潜在编码例如被采样。

潜在编码808可以与类掩模806和/或标签地图804和/或合成图像802、802’在空间上对准。在一个示例中,类掩模806存储在至少二维张量中,潜在编码808存储在至少三维张量中,标签地图804存储在至少三维张量中,并且合成图像802或802’存储在至少三维张量中。在一个示例中,合成图像802或802’的所述至少三维张量具有对应于合成图像802或802’的宽度的维度和对应于合成图像802或802’的高度的维度。合成图像802或802’的宽度可以是数字图像202的给定宽度222。合成图像802或802’的高度可以是数字图像202的高度224。在该上下文中,空间上对准可以意味着类掩模806和/或标签地图804的张量包括与对应于合成图像802或802’的宽度的维度大小相同的维度,以及与对应于合成图像802或802’的高度的维度大小相同的维度。

过程800包括提供来自多个类特定方向814的方向812,以用于在潜在空间中移动输入数据点810。在该示例中,所述多个类特定方向814包括针对每个类c∈C的K个方向。类掩模806指示针对类c要在第一方向812上移动的输入数据点810。

过程800包括取决于在方向812上移动的输入数据点810来确定潜在编码808。过程800包括如果输入数据点810被类掩模806选择以用于移动,例如在第一二进制值的情况下,则移动输入数据点810,并且否则不移动输入数据点810。

过程800包括取决于针对输入的生成器816的输出来确定合成图像802或802’,所述输入包括标签地图804和类掩模802以及潜在编码808。

在该示例中,生成器816是语义图像合成(SIS)模型的经良好训练的生成器G。这意味着,例如,生成器被配置为从标签地图和潜在编码合成数字图像。

生成器G例如包括神经网络。该示例中的生成器G包括输入层和输出层以及输入层和输出层之间的至少一个中间层l∈L。

在一个示例中,生成器G=G(z,v

x(v

其中

h(z,v

是来自生成器G(z,v

在一个示例中,生成器

与从相同潜在编码z合成合成图像而不在第一方向

图9示意性地描绘了用于确定合成图像的像素的方法。该方法找到K个类特定方向的多样集

这是通过优化目标L来实现的。

在一个示例中,对于整个合成图像x和独立于类c的方向v

其中|| ||

这意味着期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V。所述不同的第一输入包括相同的标签地图y,并且随着用于从相同的潜在编码z确定第一潜在编码的第一方向

该损失旨在确保应用于同样的输入潜在编码z的所找到的类特定方向集V产生最大程度上不同的语义视觉效果,即以不同的方式改变外观。

在一个示例中,优化目标包括取决于期望值E

这意味着期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V。所述不同的第一输入包括相同的标签地图y,并且随着用于利用相同的第一方向确定第一潜在编码的潜在编码z而变化。

该损失旨在确保应用于不同输入潜在编码z

在一个示例中,优化目标是找到使多样性损失最小化的方向V:

这鼓励类特定控制(即方向V)集是多样的并引入不同的语义改变。

在一个示例中,优化目标是找到使以下损失最小化的方向V:

在一个示例中,优化目标包括取决于期望值E

这意味着,期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V

该损失旨在确保应用于同样的输入潜在编码z的所找到的类特定方向集V

在一个示例中,优化目标包括取决于期望值E

这意味着,期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V

该损失旨在确保所找到的类特定方向集V

在一个示例中,优化目标包括取决于期望值E

这意味着,期望值E

优化目标是找到使中间层l针对不同的第一输入而输出的不同特征集对之间的距离最大化的方向集V

该损失旨在确保应用于不同输入潜在编码z

在一个示例中,优化目标是找到使多样性损失最小化的类特定方向V

这鼓励类特定控制(即类特定方向V

在一个示例中,优化目标是找到使以下损失之一最小化的类特定方向V

这鼓励类特定控制(即类特定方向V

用于确定合成图像x的像素的方法包括步骤902。

在步骤902中,该方法包括提供生成器816,特别是被配置为从第一输入确定其输出的生成器G。

生成器G包括用于接收第一输入的输入层和用于输出的输出层以及在输入层和输出层之间的至少一个中间层l。

神经网络的中间层l被配置为取决于第一输入来确定潜在空间(即神经网络的特征空间)中的特征集。

该方法包括步骤904。

在步骤904中,该方法包括提供标签地图y和潜在编码z。

潜在编码z包括潜在空间中的输入数据点。

可选地,步骤904包括提供类掩模M

在该示例中,取决于标签地图y和类c来确定类掩模M

类掩模M

该方法包括步骤906。

在步骤906中,该方法包括提供用于在潜在空间中移动输入数据点的第一方向。

在一个示例中,提供了第一方向v

min

在一个示例中,提供了类特定第一方向

在一个示例中,确定类特定方向集V

在一个示例中,确定使多样性损失最小化的类特定方向集V

在一个示例中,确定使以下损失最小化的类特定方向集V

在一个示例中,确定使以下损失最小化的类特定方向集V

在一个示例中,确定使以下损失最小化的类特定方向集V

所述方向集例如利用梯度下降方法来确定。

该方法包括步骤908。

在步骤908中,该方法包括取决于在第一方向上移动的潜在编码z的至少一个输入数据点来确定第一潜在编码。

在一个示例中,第一输入包括标签地图y和第一潜在编码z+αv

这意味着,特别是以给定的强度α在第一方向上移动潜在编码z或潜在编码z的一部分。这更改了跨独立于类的像素的潜在编码。

第一输入可选地包括标签地图y和类掩模M

这意味着,通过取决于类掩模c选择潜在编码z的一部分来移动潜在编码z的一部分。这更改了由类掩模M

该方法包括步骤910。

在步骤910中,该方法包括取决于针对第一输入的生成器的输出来确定合成图像。

在一个示例中,确定合成图像x(v

在一个示例中,确定合成图像

该方法可以包括在若干个方向上移动。

针对两个不同的类,例如类c

潜在编码z可以在各种层处被注入到生成器816中。

生成器816可以包括第一神经元层和第二神经元层。第一输入可以被提供给第一层。该方法可以包括确定包括第一潜在编码或第二潜在编码的第二输入。该方法可以包括向第二层提供第二输入。

确定第二输入可以包括取决于第一方向或第二方向改变潜在编码。

确定第二输入可以包括提供另一个潜在编码,并且取决于第一方向或第二方向改变该另一个潜在编码。

确定第二输入可以包括取决于所述至少一个语义类确定第二方向。

两个方向v

该方法可以包括针对相同的类c,例如建筑物,在不同的层子集上学习不同的方向。例如,在一个特征子集上学习的方向

组合和使用这两个方向的

这两个方向

对于数据增强,该方法可以包括利用相同的标签地图并且利用不同的第一方向合成多个合成图像。

对于数据验证,该方法可以包括取决于多个合成图像来测试用于处理数字图像的应用的鲁棒性或功能性。

可以确定标签地图以模拟图像传感器的数字图像输出,所述图像传感器特别是视频、雷达、LiDAR、超声波、运动或热图像传感器。

该方法可以包括用于计算机控制的机器的控制信号由模型取决于合成图像来确定。在一个示例中,取决于合成图像训练模型以确定控制信号。

所述计算机控制的机器可以是机器人。机器人可以是车辆或用于自主驾驶的车辆、家用电器、电动工具、制造机器、个人助理、自动光学检查的设备或访问系统。

该模型可以包括被配置用于检测合成图像中的对象的对象检测器。

该模型可以包括被配置用于对合成图像或合成图像中的对象进行分类的分类器。

该模型可以包括被配置用于分割合成图像的分割器。

对于图像编辑应用,该方法在一个示例中包括从由图形用户接口检测到的用户输入确定标签地图。合成图像例如由显示器、特别是图形用户接口的显示器输出。

在该情况下,用户可以绘制标签地图,并且然后使用学习到的方向修改合成图像。用户可以从该方向集选择第一方向。例如,输出从以所选择的第一方向移动潜在编码而得到的合成图像。

相关技术
  • 实现CMOS图像传感器于像素合成模式下的相位对焦方法
  • 用于RGB到RGBW图像转换的子像素渲染方法及装置
  • 评估用于确定合成图像像素的生成器控制的设备和方法
  • 用于在图像信号编码中为图像中的像素块组确定比特分配的方法及设备
技术分类

06120116485135