图像合成方法、装置、电子设备及计算机可读存储介质

文献发布时间：2023-06-19 11:02:01

技术领域

本申请属于图像处理领域，具体涉及一种图像合成方法、装置、电子设备及计算机可读存储介质。

背景技术

将语义分割图像输入到对抗网络，从而将语义分割图转换成较为逼真的自然图像。由于语义分割图像中的各个局部所对应的标签不一样，因此，在合成自然图像时，各个局部的处理方式也不相同，导致最后合成的自然图像中，相似局部之间存在较大差异，例如左右眼不对称，左右眉毛颜色不一致等，影响自然图像的显示效果。

通过外表相似度，为各个局部区域之间建立联系，从而使得后续对各个局部区域进行转换时，采用的是相似的处理方式(相似位置的语义向量取值相似，得到的残差计算单元也相似)，有利于提高合成图像的显示效果。

发明内容

有鉴于此，本申请的目的在于提供一种图像合成方法、装置、电子设备及计算机可读存储介质，有利于提高合成图像的显示效果。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种图像合成方法，所述方法包括：

获取包括多个局部区域的语义分割图以及与所述语义分割图同尺度的采样噪声图，每个所述局部区域存在用于表征其所属类别的类标签；根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量；通过对所述语义向量及所述采样噪声图进行处理，得到合成图像。

在上述图像合成过程中，由于是根据各个类标签所表征的对象之间的相似度信息来将语义分割图转换为语义和外观相关的语义向量，从而使得后续生成的语义向量中，用于表征语义分割图中的相似区域(例如左眼区域与右眼区域)的对应标量也相似，因此，后续用于处理相似区域的处理参数相似，从而使得本该相似的区域在最终得到的合成图像中呈现出相似的效果，有利于提高显示效果。

结合第一方面，在一些实施方式中，所述方法应用于图像合成网络，所述图像合成网络包括语义向量生成子网络及语义渲染子网络；所述根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量，包括：通过所述语义向量生成子网络及所述各个类标签所表征的对象之间的相似度信息，对所述语义分割图进行处理，得到与所述语义分割图对应的语义向量。

结合第一方面，在一些实施方式中，所述语义向量生成子网络包括特征提取单元以及一个转换单元；所述通过所述语义向量生成子网络及所述各个类标签所表征的对象之间的相似度信息，对所述语义分割图进行处理，得到与所述语义分割图对应的语义向量，包括：

每个所述特征提取单元获取第一输入信息，其中，第一个所述特征提取单元的所述第一输入信息为所述语义分割图，第二个所述特征提取单元至最后一个所述特征提取单元的所述第一输入信息包括前一个所述特征提取单元的输出结果以及对应的语义分割图，所述对应的语义分割图与前一个所述特征提取单元所获取到的语义分割图同源，且尺度为前一个所述特征提取单元所获取到的语义分割图的预设倍数；每个所述特征提取单元根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图；所述转换单元对每个所述特征图进行调整，得到多个语义向量。

结合第一方面，在一些实施方式中，所述根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图，包括：对所述第一输入信息依次进行卷积操作、激活函数操作、卷积操作以及所述预设倍数的上采样操作，得到与所述第一输入信息对应的图像的各个位置的特征值；根据所述各个位置所属的对应的类标签及所述各个类标签所表征的对象之间的相似度信息，对所述各个位置的特征值进行调整，以使相似度越高的区域所对应的特征值越相似，得到所述特征图。

结合第一方面，在一些实施方式中，所述对每个所述特征图进行调整，得到多个语义向量，包括：针对每个所述特征图，将该特征图的通道个数调整到预设通道数值后，对调整通道个数后的特征图进行归一化处理，得到与该特征图对应的语义向量。

结合第一方面，在一些实施方式中，所述调整通道个数后的特征图为V∈R

结合第一方面，在一些实施方式中，所述特征提取单元的数量为一个或多个。

结合第一方面，在一些实施方式中，所述方法应用于图像合成网络，所述图像合成网络包括语义渲染子网络；所述通过对所述语义向量及所述采样噪声图进行处理，得到合成图像，包括：将所述语义向量及所述采样噪声图输入到所述语义渲染子网络；根据所述语义向量的不同取值，调整所述语义渲染子网络中用于处理所述采样噪声图的残差计算单元的参数，并通过调整参数后的残差计算单元对所述采样噪声图进行处理，输出所述合成图像。

结合第一方面，在一些实施方式中，所述图像合成网络包括语义向量生成子网络，所述语义向量生成子网络包括特征提取单元，所述语义渲染子网络包括残差计算单元，且所述特征提取单元与所述残差计算单元一一对应；所述将所述语义向量及所述采样噪声图输入到所述语义渲染子网络，包括：每个所述残差计算单元获取第二输入信息，其中，每个所述残差计算单元的所述第二输入信息包括来自与其对应的特征提取单元的语义向量，以及包括前一个所述残差计算单元输出的第二输出信息，第一个所述残差计算单元的所述第二输入信息还包括与所述语义分割图同尺度的采样噪声图。

结合第一方面，在一些实施方式中，所述语义向量为V

结合第一方面，在一些实施方式中，所述残差计算单元包括多组残差计算子单元，每组所述残差计算子单元包括至少一对所述空间变化卷积子单元以及所述仿射变换子单元，所述通过调整参数后的残差计算单元对所述采样噪声图进行处理，包括：将处理对象进行所述预设倍数的上采样后，将其输入到所述残差计算单元包括的每组所述残差计算子单元进行仿射变换处理、卷积处理，得到输出结果；将每个所述输出结果进行矩阵相加操作，得到由自身所输出的所述第二输出信息；其中，在当前的i与j的取值组合下，所述残差计算单元处理所述处理对象中第i行第j列所对应的区域；第一个所述残差计算单元的处理对象为所述采样噪声图，其余所述残差计算单元的处理对象为前一个所述残差计算子单元输出的所述第二输出信息。

第二方面，本申请实施例还提高一种图像合成装置，包括：获取模块、转换模块以及合成模块。获取模块，用于获取包括多个局部区域的语义分割图以及与所述语义分割图同尺度的采样噪声图，每个所述局部区域存在用于表征其所属类别的类标签；转换模块，用于根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量；合成模块，用于通过对所述语义向量及所述采样噪声图进行处理，得到合成图像。

结合第二方面，在一些实施方式中，所述装置应用于图像合成网络，所述图像合成网络包括语义向量生成子网络及语义渲染子网络；所述转换模块，用于通过所述语义向量生成子网络及所述各个类标签所表征的对象之间的相似度信息，对所述语义分割图进行处理，得到与所述语义分割图对应的语义向量。

结合第二方面，在一些实施方式中，所述语义向量生成子网络包括特征提取单元以及一个转换单元；所述转换模块，用于通过每个所述特征提取单元获取第一输入信息，其中，第一个所述特征提取单元的所述第一输入信息为所述语义分割图，第二个所述特征提取单元至最后一个所述特征提取单元的所述第一输入信息包括前一个所述特征提取单元的输出结果以及对应的语义分割图，所述对应的语义分割图与前一个所述特征提取单元所获取到的语义分割图同源，且尺度为前一个所述特征提取单元所获取到的语义分割图的预设倍数；通过每个所述特征提取单元根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图；通过所述转换单元对每个所述特征图进行调整，得到多个语义向量。

结合第一方面，在一些实施方式中，所述转换模块，用于对所述第一输入信息依次进行卷积操作、激活函数操作、卷积操作以及所述预设倍数的上采样操作，得到与所述第一输入信息对应的图像的各个位置的特征值；根据所述各个位置所属的对应的类标签及所述各个类标签所表征的对象之间的相似度信息，对所述各个位置的特征值进行调整，以使相似度越高的区域所对应的特征值越相似，得到所述特征图。

结合第二方面，在一些实施方式中，所述转换模块，用于针对每个所述特征图，将该特征图的通道个数调整到预设通道数值后，对调整通道个数后的特征图进行归一化处理，得到与该特征图对应的语义向量。

结合第二方面，在一些实施方式中，所述调整通道个数后的特征图为V∈R

结合第二方面，在一些实施方式中，所述特征提取单元的数量为一个或多个。

结合第二方面，在一些实施方式中，该装置应用于图像合成网络，所述图像合成网络包括语义渲染子网络；所述合成模块，用于将所述语义向量及所述采样噪声图输入到所述语义渲染子网络；根据所述语义向量的不同取值，调整所述语义渲染子网络中用于处理所述采样噪声图的残差计算单元的参数，并通过调整参数后的残差计算单元对所述采样噪声图进行处理，输出所述合成图像。

结合第二方面，在一些实施方式中，所述图像合成网络包括语义向量生成子网络，所述语义向量生成子网络包括特征提取单元，所述语义渲染子网络包括残差计算单元，且所述特征提取单元与所述残差计算单元一一对应；所述合成模块，用于通过每个所述残差计算单元获取第二输入信息，其中，每个所述残差计算单元的所述第二输入信息包括来自与其对应的特征提取单元的语义向量，以及包括前一个所述残差计算单元输出的第二输出信息，第一个所述残差计算单元的所述第二输入信息还包括与所述语义分割图同尺度的采样噪声图。

结合第二方面，在一些实施方式中，所述语义向量为V

结合第二方面，在一些实施方式中，所述残差计算单元包括多组残差计算子单元，每组所述残差计算子单元包括至少一对所述空间变化卷积子单元以及所述仿射变换子单元，所述合成模块，用于将处理对象进行所述预设倍数的上采样后，将其输入到所述残差计算单元包括的每组所述残差计算子单元进行仿射变换处理、卷积处理，得到输出结果；将每个所述输出结果进行矩阵相加操作，得到由自身所输出的所述第二输出信息；其中，在当前的i与j的取值组合下，所述残差计算单元处理所述处理对象中第i行第j列所对应的区域；第一个所述残差计算单元的处理对象为所述采样噪声图，其余所述残差计算单元的处理对象为前一个所述残差计算子单元输出的所述第二输出信息。

第三方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出本申请实施例提供的图像合成方法的流程图之一。

图2示出本申请实施例提供的图像合成网络的结构示意图。

图3示出本申请实施例提供的图像合成方法的流程图之二。

图4示出本申请实施例提供的残差计算单元的结构示意图之一。

图5示出本申请实施例提供的残差计算单元的结构示意图之二。

图6示出本申请实施例提供的图像合成装置的结构框图。

图7示出本申请实施例提供的一种电子设备的结构示意图。

图标：100-电子设备；110-处理器；120-存储器；200-图像合成网络；210-语义向量生成子网络；211-特征提取单元；212-转换单元；220-语义渲染子网络；221-残差计算单元；222-残差计算子单元；2211-空间变化卷积子单元；2212-仿射变换子单元；2213-函数层；400-图像合成装置；410-获取模块；420-转换模块；430-合成模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，针对现有技术中的语义分割图像合成方法所存在的缺陷(合成的自然图像的显示效果不佳)均是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该被认定为申请人对本申请做出的贡献。

为了解决上述问题，本申请实施例提供一种图像合成方法、装置、电子设备及计算机可读存储介质，有利于提高合成图像的显示效果。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的图像合成方法进行介绍。

首先，请参照图1，本申请实施例提供一种图像合成方法，可以包括以下步骤：

步骤S110：获取包括多个局部区域的语义分割图以及与所述语义分割图同尺度的采样噪声图，每个所述局部区域存在用于表征其所属类别的类标签。

步骤S120：根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量。

步骤S130：通过对所述语义向量及所述采样噪声图进行处理，得到合成图像。

其中，当方法可以应用于图像合成网络。

如图2所示，图像合成网络200可以包括语义向量生成子网络210以及语义渲染子网络220。

其中，语义向量生成子网络210包括特征提取单元211以及一个转换单元212，语义渲染子网络220包括残差计算单元221。

值得指出的是，特征提取单元211与残差计算单元221一一对应。也就是说，特征提取单元211与残差计算单元221的数量一致。

例如在一些实施方式中，当特征提取单元211的数量为一个时，残差计算单元221的数量也为一个；例如在另一些实施方式中，当特征提取单元211的数量为N个时，残差计算单元221的数量也为N个。

由图2可知，当特征提取单元211与残差计算单元221的数量均为一个时，唯一的特征提取单元211获取到第一输入信息后，将得到的输出结果传递给转换单元212进行处理，以输出中间处理结果。后续，唯一的残差计算单元221获取第二输入信息并进行处理，该第二输入信息所包括的部分输入信息为转换单元212所输出的中间处理结果。

由图2可知，当特征提取单元211与残差计算单元221的数量均为N时，各个特征提取单元211依次连接，且均与转换单元212连接。此外，各个残差计算单元221依次连接，且均与转换单元212连接。

此时，各个特征提取单元211获取到完整的第一输入信息后，对第一输入信息进行处理，得到输出结果。然后，特征提取单元211不仅将输出结果传递给转换单元212进行处理，以输出中间处理结果，还将输出结果传递给下一个特征提取单元211。

其中，第一个特征提取单元211所获取到的第一输入信息为来自外界输入的信息，其他特征提取单元211所获取到的第一输入信息不仅包括来自外界输入的信息，还包括来自前一个特征提取单元211的输出结果。当然，各个特征提取单元211所获取到的来自外界输入的信息不同。

转换单元212对N个特征提取单元211所输出的输出结果进行处理后，得到N个中间处理结果，然后转换单元212将各个中间处理结果输入与该中间处理结果的上游特征提取单元211对应的残差计算单元221。

也就是说，各个残差计算单元221可以获取到来自与自身对应的特征提取单元211的输出结果经过转换单元212的处理后所得到的中间处理结果。

此外，各个残差计算单元221获取到完整的第二输入信息后，对第二输入信息进行处理，得到输出结果。

其中，第一个残差计算单元221所获取到的第二输入信息为来自外界输入的信息以及来自转换单元212输出的对应中间处理结果；其他残差计算单元221所获取到的第二输入信息不仅包括来自转换单元212输出的对应中间处理结果，还包括来自前一个残差计算单元221的输出结果。

下面将结合图3对应用于图像合成网络200的图像合成方法所包含的步骤进行说明。

步骤S210：每个所述特征提取单元获取第一输入信息。

在本申请实施例中，当需要将一张目标语义分割图进行处理，从而合成与该目标语义分割图对应的自然图像时，可以将该目标语义分割图输入到图像合成网络200中进行处理。

值得指出的是，在本申请实施例中，目标语义分割图的呈现形式可以是一个包括矩阵数据的矩阵，也可以是一张包括矩阵数据的可视化图像。

此外，目标语义分割图包括多个局部区域，且每个局部区域预先被标注类标签，该类标签用于表征对应的局部区域所属的类别。

例如，当目标语义分割图所表征的内容为人脸图像时，目标语义分割图可以包括10个局部区域，分别为左眼区域、右眼区域、左眉毛区域、右眉毛区域、嘴巴区域、鼻子区域、左耳区域、右耳区域、头发区域、皮肤区域。相应的，预先为每个局部区域标注对应的类标签，例如用类标签1表征左眼区域、用类标签2表征右眼区域、用类标签3表征左眉毛区域、用类标签4表征右眉毛区域、用类标签5表征嘴巴区域、用类标签6表征鼻子区域、用类标签7表征左耳区域、用类标签8表征右耳区域、用类标签9表征头发区域、用类标签10表征皮肤区域。

当然，在一些实施方式中，也可以用其他字符来表示类标签，例如用字母A、B、C……来表示类标签。

前文提及，图像合成网络200的语义向量生成子网络210可以包括一个特征提取单元211，相应的，图像合成网络200的语义渲染子网络220也包括一个残差计算单元221。在这种实施方式下，可以直接将目标语义分割图输入到图像合成网络200中(相当于对目标语义分割图进行预设倍数为1的下采样)，此时，特征提取单元211所获取到的第一输入信息为目标语义分割图。

此外，在一些实施方式中，当语义向量生成子网络210包括N个(例如3个)特征提取单元211时，相应的，语义渲染子网络220也包括3个残差计算单元221。在这种实施方式下，可以预先对目标语义分割图进行尺度变换，例如对目标语义分割图进行预设倍数的迭代下采样，得到与特征提取单元211的数量N相同数量张不同尺度的语义分割图。

例如在N＝3的前提下，目标语义分割图的尺度为32×32，且预设倍数为2。在这种假设下，需要进行三次下采样，得到三张语义分割图。假设第一次下采样时，得到尺度为目标语义分割图的尺度的1/2的语义分割图1，第二次下采样时，得到尺度为目标语义分割图的尺度的1/4的语义分割图2，第三次下采样时，得到尺度为目标语义分割图的尺度的1/8的语义分割图3。相应的，语义分割图1的尺度为16×16，语义分割图2的尺度为8×8，语义分割图3的尺度为4×4。

当然，值得指出的是，对目标语义分割图进行下采样后，改变的信息主要为尺度信息，因此，在每个特征提取单元211所获取到的语义分割图内均包括相同数量的局部区域以及各个局部区域被标注的类标签相同。

在得到3张不同尺度的语义分割图后，将语义分割图与特征提取单元211一一对应，且将对应的语义分割图输入对应的特征提取单元211。

值得指出的是，在将语义分割图与特征提取单元211一一对应时，语义分割图的生成顺序与各个特征提取单元211的连接先后顺序呈逆序关系，也就是说，得到的第一个语义分割图1与最后一个特征提取单元211对应，得到的最后一个语义分割图3与第一个特征提取单元211对应。

在这种实施方式下，第一个特征提取单元211所获取到的第一输入信息为语义分割图3(4×4)，后续其他特征提取单元211所获取到的第一输入信息包括自身获取到的语义分割图以及由前一个特征提取单元211所输出的输出结果。其中，第二特征提取单元211获取到的语义分割图为语义分割图1(8×8)，第三特征提取单元211获取到的语义分割图为语义分割图1(16×16)。

步骤S220：每个所述特征提取单元根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图。

其中，对于每个特征提取单元211而言，在获取到第一输入信息后，可以对第一输入信息进行卷积处理，从而得到输出结果，该输出结果为特征提取单元211所获取到的第一输入信息中包括的语义分割图的特征图，且特征图的尺度为第一输入信息中包括的语义分割图的尺度的预设倍数。

例如对应于上述语义向量生成子网络210包括3个特征提取单元211时的举例，对于第一个特征提取单元211而言，其获取到的第一输入信息中所包括的语义分割图3的尺度为4×4，其输出为与语义分割图3对应的特征图，且与语义分割图3对应的特征图的尺度为8×8；对于第二个特征提取单元211而言，其获取到的第一输入信息中所包括的语义分割图2的尺度为8×8，其输出为与语义分割图2对应的特征图，且与语义分割图2对应的特征图的尺度为16×16；对于第三个特征提取单元211而言，其获取到的第一输入信息中所包括的语义分割图1的尺度为16×16，其输出为与语义分割图1对应的特征图，且与语义分割图1对应的特征图的尺度为32×32。

前文提及，在每个特征提取单元211所获取到的语义分割图内包括局部区域以及各个局部区域的类标签。在本申请实施例中，当各个特征提取单元211对各自的第一输入信息进行特征提取时，需要考虑到自身所获取到的语义分割图内各个局部区域的类标签。

可选的，各个特征提取单元211均包括卷积层(conv)、激活函数层(leakyReLU)以及上采样层(upsample)，其中，上采样层是上采样倍数为目标语义分割图进行迭代下采样时所涉及到的预设倍数。例如对应于前述举例说明，预设倍数为2时，上采样层需要进行2倍上采样。此时，各个特征提取单元211呈现出的结构可以为：卷积层(conv)→激活函数层(leakyReLU)→卷积层(conv)→上采样层(upsample，X2，nearest，即采样模式为nearest的2倍上采样)。

在上述实施方式下，各个特征提取单元211对各自的第一输入信息依次进行卷积操作、激活函数操作、卷积操作以及卷积操作以及预设倍数(上文中的举例为2倍)上采样操作，得到与自身的第一输入信息对应的语义分割图中各个位置的特征值。

在得到对应的语义分割图中各个位置的特征值后，各个特征提取单元211再根据各个类标签所表征的对象之间的相似度信息，以及对应的语义分割图中各个位置所属的对应的类标签，对得到的各个位置的特征值进行调整，从而得到由各个调整后的特征值所形成的与自身对应的特征图。其中，在对应的特征图中，相似度越高的区域所对应的调整后的特征值越相似。

值得指出的是，各个类标签所表征的对象之间的相似度信息可以预先保存在本地，也可以由特征提取单元211临时获取到的。此外，各个类标签所表征的对象之间的相似度信息由工作人员预先进行统一配置，例如，将用于表征左眼区域的标签1与用于表征右眼区域的标签2之间的相似度设置为95％，表征两者之间极为相似。

至于各个特征提取单元211根据各个类标签所表征的对象之间的相似度信息对特征值进行调整的规则，则由语义向量生成子网络210在被训练过程中所形成的中间参数来确定。

值得指出的是，语义向量生成子网络210所包括的最后一个特征提取单元211除了包括上述提及到的层结构之外，还可以包括卷积层(conv)以及激活函数层(hard tanh)，以便最后一个特征提取单元211的卷积层(conv)以及激活函数层(hard tanh)继续对最后一个特征提取单元211的前述层结构的输出结果进行卷积操作以及截断操作，从而使得最后一个特征提取单元211最终还可以输出一个粗略的预测图像Coarse Pred。

在对语义向量生成子网络210进行训练时，输入的每个训练样本包括目标语义分割图以及与该目标语义分割图对应的真实自然图像Ground Truth。当训练过程中，针对每个训练样本，最终均可以通过最后一个特征提取单元211输出一个粗略的预测图像CoarsePred。后续，通过最小化该训练样本的粗略的预测图像Coarse Pred与该训练样本的真实自然图像Ground Truth之间的对应位置的欧式距离(将对应位置的像素做差后反向梯度传播)，从而使得各个特征提取单元211更新自身的中间调整参数，该中间调整参数用于确定如何根据各个类标签所表征的对象之间的相似度信息对特征值进行调整，从而使得各个特征提取单元211对调整后的特征值重新编码，以至于最后使得语义向量生成子网络210所输出的粗略的预测图像Coarse Pred达到预设要求，例如粗略的预测图像Coarse Pred与对应的真实自然图像Ground Truth之间的对应位置的欧式距离小于预设参数。

步骤S230：所述转换单元对每个所述特征图进行调整，得到多个语义向量。

前文提及，各个特征提取单元211生成特征图后，除了将特征图传递给下一个特征提取单元211外，还将特征图传递转换单元212进行处理。

其中，转换单元212的主要职是生成与各个特征图对应的语义向量。生成过程可以参照如下方式。

假设特征图为S∈R

在一些实施方式中，针对每个特征图S∈R

在得到调整通道个数后的特征图V∈R

可选的，可以通过softmax函数对V∈R

其中，i、j、x分别表征调整通道个数后的特征图V的行号、列号以及通道编号，V

转换单元212按照上述过程对与每个特征提取单元211对应的特征图进行处理后，得到与各个特征提取单元211对应的语义向量V

步骤S240：每个所述残差计算单元获取第二输入信息。

前文提及，语义渲染子网络220所包括的残差计算单元221的数量与特征提取单元211一致。

其中，第一个残差计算单元221所获取到的第二输入信息为来自外界输入的信息以及来自转换单元212输出的对应中间处理结果(语义向量)；其他残差计算单元221所获取到的第二输入信息不仅包括来自转换单元212输出的对应中间处理结果(语义向量)，还包括来自前一个残差计算单元221的输出结果。第一个残差计算单元221的第二输入信息还包括与输入第一个特征提取单元211的语义分割图同尺度的采样噪声图。

该采样噪声图由从标准高斯分布采样得到的噪声变形(reshape)后得到。例如在上文所示出的一些举例中，输入第一个特征提取单元211的语义分割图3的尺度为4×4，那么采样噪声图的尺度也为4×4。

值得指出的是，对于第一个残差计算单元221而言，由于不存在前一个残差计算单元221，因此，第一个残差计算单元221获取到的第二输入信息中的来自前一个残差计算单元221的输出结果为空。

依旧假设N＝3，目标语义分割图的尺度为32×32，且预设倍数为2。在这种假设下，第一个特征提取单元211获取到的第一输入信息中所包括的语义分割图3的尺度为4×4，其输出为与语义分割图3对应的特征图的尺度为8×8，转换单元212对与语义分割图3对应的特征图进行处理后，得到与第一个特征提取单元211对应的语义向量1{V

相应的，第一个残差计算单元221获取到的第二输入信息包括尺度为4×4的采样噪声图以及与第一个特征提取单元211对应的语义向量1；第二个残差计算单元221获取到的第二输入信息包括第一个残差计算单元221的输出结果以及与第二个特征提取单元211对应的语义向量2；第三个残差计算单元221获取到的第二输入信息包括第二个残差计算单元221的输出结果以及与第三个特征提取单元211对应的语义向量3。

步骤S250：每个所述残差计算单元根据获取到的语义向量的不同取值调整自身的参数，并对所述第二输入信息进行处理，且由最后一个所述残差计算单元输出合成图像。

值得指出的是，在语义渲染子网络220中，预先保存有n个卷积权重以及n个仿射变换权重。其中，n的数值与前述提及到的调整通道个数后的特征图的预设通道数值相同。

针对语义渲染子网络220所包括的每个残差计算单元221而言，包括空间变化卷积子单元2211以及仿射变换子单元2212。其中，每个残差计算单元221在对自身的第二输入信息进行处理的过程中，其空间变化卷积子单元2211的参数需要根据预先保存的n个卷积权重实时计算，其仿射变换子单元2212的参数也需要根据预先保存的n个仿射变换权重实时计算。

针对语义渲染子网络220所包括的每个残差计算单元221而言，可以根据第二输入信息中所包括的语义向量的不同取值调整自身的参数(即卷积权重以及仿射变换权重)，以便基于调整后的参数对第二输入信息中的其他信息进行处理。

可选的，每个残差计算单元221在获取到与自身对应的第二输入信息后，若第二输入信息中所包括的语义向量的行与列存在P种取值组合，相应的，每个残差计算单元221在对自身的第二输入信息进行处理的过程中，其空间变化卷积子单元2211的参数以及其仿射变换子单元2212的参数需要变动P次。

下面将以其中的一个残差计算单元M为例，对残差计算单元M根据其第二输入信息中所包括的语义向量的不同取值，调整自身的参数的过程进行介绍。

假设残差计算单元M获取到的第二输入信息包括语义向量部分信息V

其中，当残差计算单元M为第一个残差计算单元221时，获取到的非语义向量部分信息包括采样噪声图；当残差计算单元M为其他残差计算单元221时，获取到的非语义向量部分信息包括前一个残差计算单元221的输出结果。

语义向量信息为V

残差计算单元M获取到语义向量V

针对i与j的每个取值组合，获取该取值组合下，V

可选的，假设预先保存的n个卷积权重分别为k1、k2、...、kn，在进行线性加权求和时，将V

此外，针对i与j的每个取值组合，还可以将该取值组合下，V

可选的，假设预先保存的n个仿射变换权重{s1(标准差)，m1(均值)}、{s2，m2}、...{sn，mn}。在进行线性加权求和时，将V

此外，值得指出的是，语义渲染子网络220中所包括的每个残差计算单元221的基本结构相同，包括至少一组残差计算子单元222，其中，各组残差计算子单元222所包括的子结构可以相同，也可以不同，且各组残差计算子单元222均包括至少一对空间变化卷积子单元2211、函数层2213、以及仿射变换子单元2212。

在一些实施方式中，每个残差计算单元221包括一组残差计算子单元222，且该一组残差计算子单元222包括两对空间变化卷积子单元2211、函数层2213以及仿射变换子单元2212，从而形成如图4所示的结构：空间变化卷积子单元2211(SCN)→函数层2213(LReLU)→仿射变换子单元2212(SCC)→空间变化卷积子单元2211(SCN)→函数层2213(LReLU)→仿射变换子单元2212(SCC)。

在一些实施方式中，每个残差计算单元221包括两组残差计算子单元222，且第一组残差计算子单元222包括两对空间变化卷积子单元2211、函数层2213以及仿射变换子单元2212：空间变化卷积子单元2211(SCN)→函数层2213(LReLU)→仿射变换子单元2212(SCC)→空间变化卷积子单元2211(SCN)→函数层2213(LReLU)→仿射变换子单元2212(SCC)；第二组残差计算子单元222包括一对空间变化卷积子单元2211、函数层2213以及仿射变换子单元2212：空间变化卷积子单元2211(SCN)→函数层2213(LReLU)→仿射变换子单元2212(SCC)，此外，第一组残差计算子单元222的输出与第二组残差计算子单元222的输出进行矩阵相加操作，从而形成如图5所示的结构。

值得指出的是，无论残差计算单元221包括几组残差计算子单元222，每组残差计算子单元222中的每个空间变化卷积子单元2211以及每个仿射变换子单元2212均需要获取第二输入信息所包括的语义向量部分信息V

各个残差计算单元221通过上述过程确定出当前的i与j的取值组合下的仿射变换权重以及卷积权重后，即确定出自身当前所包括的每个空间变化卷积子单元2211的参数以及每个仿射变换子单元2212的参数，并可以通过当前所确定出的参数对第二输入信息进行处理。

可选的，各个残差计算单元221在对第二输入信息进行处理的过程中，可以先对第二输入信息中所包括的非语义向量部分信息进行上述所提及到的预设倍数的上采样，然后将上采样后的数据输入到自身所包括的每组残差计算子单元222，以便每组残差计算子单元222中的仿射变换子单元2212(SCN)对非语义向量部分信息进行放射变换、每组残差计算子单元222中的函数层2213(LReLU)对其前的SCN的结果进行激活函数处理、每组残差计算子单元222中的空间变化卷积子单元2211(SCC)对其前的LReLU的处理结果进行卷积处理，得到每组残差计算子单元222的最终处理结果。后续，再将每组残差计算子单元222的最终处理结果进行矩阵相加操作，得到由自身所输出的第二输出信息。

值得指出的是，在当前的i与j的取值组合下，残差计算单元221的上述处理过程针对的处理区域为处理对象(第二输入信息中所包括的非语义向量部分信息)中的第i行、第j列所对应的区域。也就是说，针对每个残差计算单元221，当其在获取到第二输入信息后，若其获取到的第二输入信息中的语义向量部分信息中的i与j的取值组合包括P个，那么该残差计算单元221在对第二输入信息中的非语义向量部分信息进行处理时，需要分P次进行处理，且每次处理的是第二输入信息中的非语义向量部分信息中的局部区域。

期间，在每确定一次i与j的取值组合V

每个残差计算单元221均进行上述处理操作后，由最后的残差计算单元221输出合成图像。

在上述过程中，由于根据各个类标签所表征的对象之间的相似度信息对特征图的特征值进行调整，使得后续生成的语义向量中，用于表征特征图中的相似区域(例如左眼区域与右眼区域)的对应标量也相似，因此，后续用于处理相似区域的残差计算单元221的仿射变换权重以及卷积权重也相似，即处理参数相似且相关，从而增强了合成图像中各个区域之间的关联性，使得本该相似的区域在最终得到的合成图像中呈现出相似的效果，有利于提高显示效果。

如图6所示，本申请实施例还提供一种图像合成装置400，图像合成装置400可以包括：获取模块410、转换模块420以及合成模块430。

获取模块410，用于获取包括多个局部区域的语义分割图以及与所述语义分割图同尺度的采样噪声图，每个所述局部区域存在用于表征其所属类别的类标签；

转换模块420，用于根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量；

合成模块430，用于通过对所述语义向量及所述采样噪声图进行处理，得到合成图像。

在一些实施方式中，所述装置应用于图像合成网络，所述图像合成网络包括语义向量生成子网络及语义渲染子网络；所述转换模块，用于通过所述语义向量生成子网络及所述各个类标签所表征的对象之间的相似度信息，对所述语义分割图进行处理，得到与所述语义分割图对应的语义向量。

在一些实施方式中，所述语义向量生成子网络包括特征提取单元以及一个转换单元；所述转换模块420，用于通过每个所述特征提取单元获取第一输入信息，其中，第一个所述特征提取单元的所述第一输入信息为所述语义分割图，第二个所述特征提取单元至最后一个所述特征提取单元的所述第一输入信息包括前一个所述特征提取单元的输出结果以及对应的语义分割图，所述对应的语义分割图与前一个所述特征提取单元所获取到的语义分割图同源，且尺度为前一个所述特征提取单元所获取到的语义分割图的预设倍数；通过每个所述特征提取单元根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图；通过所述转换单元对每个所述特征图进行调整，得到多个语义向量。

在一些实施方式中，所述转换模块420，用于对所述第一输入信息依次进行卷积操作、激活函数操作、卷积操作以及所述预设倍数的上采样操作，得到与所述第一输入信息对应的图像的各个位置的特征值；根据所述各个位置所属的对应的类标签及所述各个类标签所表征的对象之间的相似度信息，对所述各个位置的特征值进行调整，以使相似度越高的区域所对应的特征值越相似，得到所述特征图。

在一些实施方式中，所述转换模块420，用于针对每个所述特征图，将该特征图的通道个数调整到预设通道数值后，对调整通道个数后的特征图进行归一化处理，得到与该特征图对应的语义向量。

在一些实施方式中，所述调整通道个数后的特征图为V∈R

在一些实施方式中，所述特征提取单元的数量为一个或多个。

在一些实施方式中，该装置应用于图像合成网络，所述图像合成网络包括语义渲染子网络；所述合成模块430，用于将所述语义向量及所述采样噪声图输入到所述语义渲染子网络；根据所述语义向量的不同取值，调整所述语义渲染子网络中用于处理所述采样噪声图的残差计算单元的参数，并通过调整参数后的残差计算单元对所述采样噪声图进行处理，输出所述合成图像。

在一些实施方式中，所述图像合成网络包括语义向量生成子网络，所述语义向量生成子网络包括特征提取单元，所述语义渲染子网络包括残差计算单元，且所述特征提取单元与所述残差计算单元一一对应；所述合成模块430，用于通过每个所述残差计算单元获取第二输入信息，其中，每个所述残差计算单元的所述第二输入信息包括来自与其对应的特征提取单元的语义向量，以及包括前一个所述残差计算单元输出的第二输出信息，第一个所述残差计算单元的所述第二输入信息还包括与所述语义分割图同尺度的采样噪声图。

在一些实施方式中，所述语义向量为V

在一些实施方式中，所述残差计算单元包括多组残差计算子单元，每组所述残差计算子单元包括至少一对所述空间变化卷积子单元以及所述仿射变换子单元，所述合成模块430，用于将处理对象进行所述预设倍数的上采样后，将其输入到所述残差计算单元包括的每组所述残差计算子单元进行仿射变换处理、卷积处理，得到输出结果；将每个所述输出结果进行矩阵相加操作，得到由自身所输出的所述第二输出信息；其中，在当前的i与j的取值组合下，所述残差计算单元处理所述处理对象中第i行第j列所对应的区域；第一个所述残差计算单元的处理对象为所述采样噪声图，其余所述残差计算单元的处理对象为前一个所述残差计算子单元输出的所述第二输出信息。

本申请实施例所提供的图像合成装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的图像合成方法所包含的步骤。

此外，请参照图7，本申请实施例还提供一种用于实现本申请实施例的图像合成方法、装置的电子设备100。

电子设备100可以对语义分割图像进行处理，从而执行对语义分割图像进行合成的功能。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、移动上网设备(Mobile Internet Device，MID)、服务器等设备。其中，服务器可以是，但不限于网络服务器、云端服务器等。

其中，电子设备100可以包括：处理器110(包括CPU以及GPU)、存储器120。

应当注意，图7所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。例如，在一些情况下，电子设备100还可以包括显示器，用于显示合成出的图像。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的图像合成方法对应的程序或者前文出现的图像合成装置。可选的，当存储器120内存储有图像合成装置时，图像合成装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，图像合成装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如图像合成装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：获取包括多个局部区域的语义分割图以及与所述语义分割图同尺度的采样噪声图，每个所述局部区域存在用于表征其所属类别的类标签；根据预先获取到的各个类标签所表征的对象之间的相似度信息，将所述语义分割图转换为语义和外观相关的语义向量；通过对所述语义向量及所述采样噪声图进行处理，得到合成图像。

或者在电子设备100内包括有图像合成网络，且图像合成网络包括语义向量生成子网络及语义渲染子网络，所述语义向量生成子网络包括特征提取单元以及一个转换单元，所述语义渲染子网络包括残差计算单元，且所述特征提取单元与所述残差计算单元一一对应的前提下，处理器110在接收到执行指令后，可以执行：每个所述特征提取单元获取第一输入信息，其中，第一个所述特征提取单元的所述第一输入信息为包括多个局部区域的语义分割图，每个所述局部区域存在用于表征其所属类别的类标签，第二个所述特征提取单元至最后一个所述特征提取单元的所述第一输入信息包括前一个所述特征提取单元的输出结果以及对应的语义分割图，所述对应的语义分割图与前一个所述特征提取单元所获取到的语义分割图同源，且尺度为前一个所述特征提取单元所获取到的语义分割图的预设倍数；每个所述特征提取单元根据预先获取到的各个类标签所表征的对象之间的相似度信息，对所述第一输入信息进行特征提取，输出尺度为所述第一输入信息的尺度的所述预设倍数的特征图；所述转换单元对每个所述特征图进行调整，得到多个语义向量；每个所述残差计算单元获取第二输入信息，其中，每个所述残差计算单元的所述第二输入信息包括来自与其对应的所述特征提取单元的语义向量，以及包括前一个所述残差计算单元输出的第二输出信息，第一个所述残差计算单元的所述第二输入信息还包括与输入第一个所述特征提取单元的语义分割图同尺度的采样噪声图；每个所述残差计算单元根据获取到的语义向量的不同取值调整自身的参数，并对所述第二输入信息进行处理，且由最后一个所述残差计算单元输出合成图像。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的图像合成方法、装置、电子设备及计算机可读存储介质，由于是根据各个类标签所表征的对象之间的相似度信息来将语义分割图转换为语义和外观相关的语义向量，从而使得后续生成的语义向量中，用于表征语义分割图中的相似区域(例如左眼区域与右眼区域)的对应标量也相似，因此，后续用于处理相似区域的处理参数相似，从而使得本该相似的区域在最终得到的合成图像中呈现出相似的效果，有利于提高显示效果。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王毅;亓鲁;张祥雨;
专利申请人：北京迈格威科技有限公司;

上一篇：基于三相并联电抗器的电缆线路交流耐压试验方法及系统
下一篇：一种激光打印设备