图像生成方法、服务提供方法、设备、介质和程序产品

文献发布时间：2024-04-18 20:02:18

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像生成方法、服务提供方法、设备、介质和程序产品。

背景技术

生成式模型是近年来在人工智能领域中备受瞩目的一项技术。生成式模型可以实现静态图像、动态图像、视频等多种图像的生成。并且图像生成在智能问答、直播、广告、游戏等多种场景中都有广泛应用。比如生成式模型可以执行数字人的生成任务，该数字人可以扮演多种角色，比如直播间中的虚拟主播、游戏中的非角色玩家(non-playercharacter，简称NPC)或者广告视频中的各自人物等等。又比如生成式模型还可以执行对人脸图像的编辑任务，以对人脸进行换脸、换发型、发色等编辑操作。

在实际中，生成式模型往往都是高度定制化的，即一个生成式模型只能执行一种任务，从而导致生成式模型对任务的通用性不高。因此，如何提高生成式模型的通用性就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种图像生成方法、服务提供方法、设备、介质和程序产品，用以提高生成模型的通用性。

第一方面，本发明实施例提供一种图像生成方法，包括：

获取与图像生成任务对应的参考图像；

将从所述参考图像中提取出的第一特征输入生成模型，所述第一特征与所述图像生成任务对应，所述第一特征包括所述参考图像中目标对象的身份特征和/或所述参考图像的图像特征；

根据所述生成模型的输出结果生成目标图像，所述目标图像和所述参考图像包含相同类型的对象。

第二方面，本发明实施例提供一种服务提供方法，包括：

响应于用户触发的输入操作，获取与图像生成任务对应的参考图像；

输出与所述参考图像包含相同类型的对象的目标图像；

其中，所述目标图像的生成过程包括：

将从所述参考图像中提取出的第一特征输入生成模型，所述第一特征与所述图像生成任务对应，所述第一特征包括所述参考图像中目标对象的身份特征和/或所述参考图像的图像特征；根据所述生成模型的输出结果生成目标图像，所述目标图像和所述参考图像包含相同类型的对象。

第三方面，本发明实施例提供一种服务提供方法，包括：

响应于用户触发的输入操作，获取与问答任务对应的参考图像以及所述问答任务的应答语句；

输出应答视频，所述应答视频中的对象播报所述应答语句，所述应答视频中的对象和所述参考图像中的目标对象类型相同；

其中，所述应答视频的生成过程包括：

将从所述参考图像中提取出的第一特征输入生成模型，所述第一特征与所述图像生成任务对应，所述第一特征包括所述参考图像中目标对象的身份特征和/或所述参考图像的图像特征；根据所述生成模型的输出结果生成所述应答视频。

第四方面，本发明实施例提供一种服务提供方法，包括：

通过调用第一接口获取由终端设备提交的参考图像，所述参考图像与图像生成任务对应；

通过调用第二接口输出目标图像，所述目标图像根据所述生成模型的输出结果生成，所述目标图像和所述参考图像包含相同类型的对象。

第五方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的图像生成方法，或者执行上述第二方面至第四方面中任一方面的服务提供方法。该电子设备还可以包括通信接口，用于与其他设备或通信系统通信。

第六方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如上述第一方面中的图像生成方法，或者上述第二方面至第四方面中任一方面的服务提供方法。

第七方面，本发明实施例提供了一种程序产品，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令被处理器执行时，致使所述处理器能实现如上述第一方面中的图像生成方法，或者上述第二方面至第四方面中任一方面的服务提供方法。

本发明实施例提供的图像生成方法中，获取与图像生成任务对应的参考图像，再将从参考特征中提取的、与图像生成任务对应的第一特征输入生成模型。该第一特征可以包括参考图像的图像特征和/或参考图像中包含的目标对象的身份特征。进一步地，可以利用生成模型的输出结果生成目标图像。

可见，上述的第一特征也即为在图像生成过程中引入的、用于控制图像生成方向的控制条件，借助此条件可以使得最终生成的目标图像中的对象与参考图像包含的对象具有相同类型。并且在实际中，不同的图像生成任务还具有不同的控制条件，因此，使用上述方法后，借助一个生成模型即可以实现不同的图像生成任务，从而提高生成模型的通用性。又一方面，由于控制条件是与图像生成任务对应的，因此，也可以准确、精细地控制图像的生成，使得生成的目标图像满足用户要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像生成方法的流程图；

图2为本发明实施例提供的另一种图像生成方法的流程图；

图3为本发明实施例提供的一种生成模型的结构示意图；

图4为本发明实施例提供的又一种图像生成方法的流程图；

图5为本发明实施例提供的另一种生成模型的结构示意图；

图6a为本发明实施例提供的一种图像生成方法的结构示意图；

图6b为本发明实施例提供的视频换脸任务实现过程的示意图；

图6c为本发明实施例提供的图像换脸任务实现过程的示意图；

图6d为本发明实施例提供的发色编辑任务实现过程的示意图；

图7a为本发明实施例提供的一种服务提供方法的流程图；

图7b为本发明实施例提供的一种服务平台的界面示意图；

图8为本发明实施例提供的另一种服务提供方法的流程图；

图9为本发明实施例提供的又一种服务提供方法的流程图；

图10为本发明实施例提供的一种模型训练方法的流程图；

图11为本发明实施例提供的另一种模型训练方法的流程图；

图12a为本发明实施例提供的又一种服务提供方法的流程图；

图12b为本发明实施例提供的另一种服务平台的界面示意图；

图13为本发明实施例提供的又一种模型训练方法的流程图；

图14为本发明实施例提供的一种图像生成装置的结构示意图；

图15为本发明实施例提供的一种服务提供装置的结构示意图；

图16为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

需要说明的有，本发明所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在对本发明提供的各实施例进行详细描述之前，还可以对本发明涉及到的概念进行解释：

扩散模型是使用变异推理训练的马尔科夫链，其本质为生成模型。该扩散模型可以是隐变量扩散模型或者图像层面的扩散模型，其可以实现利用纯噪声生成图像。

注意力机制(Attention)是一种模仿人类视觉和认知系统的方法，其可以广泛应用于图像生成、语音识别和自然语言处理等任务中。并且注意力机制可以为输入数据分配不同的权重，以使神经网络更加关注与任务相关的关键信息。

投影归一化坐标编码(Projected Normalized Coordinate Code,简称PNCC)是一种对人脸形状进行编码的方法，用以将图像上每个像素点的位置信息进行归一化处理，并编码为一个向量。当进行编码的图像为人脸图像时，该向量可以用于表示人脸的姿态特征，比如人脸的面部表情，脖颈姿态等等。

掩膜(Mask)是图像处理和计算机视觉领域中的重要概念，其为用特定图像对待处理图像进行全部或局部遮挡，从而控制图像处理的区域的过程。

基于上述描述，下面可以结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征、步骤都可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图1为本发明实施例提供的一种图像生成方法的流程图。本发明实施例提供的该图像生成方法可以由具有图像生成能力的生成设备执行。如图1所示，该方法可以包括如下步骤：

S101，获取与图像生成任务对应的参考图像。S102，将从参考图像中提取出的第一特征输入生成模型，其中，第一特征与图像生成任务对应，第一特征包括参考图像中目标对象的身份特征和/或参考图像的图像特征。

生成设备可以获取用户提供的参考图像，并对参考图像进行特征提取，以获取与图像生成任务对应的第一特征。接着，生成设备可以将此第一特征输入至生成模型。其中，生成模型可以部署在生成设备中。

其中，参考图像用于控制图像的生成方向。更具体来说，是从参考图像中提取出的第一特征用于控制图像的生成方式，即第一特征可以理解为控制图像生成方向的控制条件，第一特征可以指导生成模型输出符合图像生成条件的结果。可选地，生成模型可以包括隐变量扩散模型、生成对抗网络(Generative Adversarial Network,简称GAN)以及图像层面扩散模型等模型中的任一种。

可选地，第一特征具体可以包括参考图像中目标对象的身份特征和/或参考图像的图像特征。若参考图像中的目标对象为人脸，则参考图像中目标对象的身份特征也即是该人脸的身份标识。参考图像的图像特征可以图像的全局特征和/或局部特征，局部特征又具体可以包括图像的纹理特征、轮廓特征、姿态特征中的至少一种。

可选地，在不同的图像生成任务中，参考图像可以是不同类型的图像，并且不同图像生成任务所使用的第一特征也不同。

具体来说，当图像生成任务为人脸视频生成任务即视频换脸任务时，参考图像即为由人脸图像序列构成的视频，此种任务使用的第一特征可以包括视频中人脸的纹理特征、姿态特征、全局特征以及视频中人脸的身份特征。并且此图像换脸任务可以应用在智能问答、直播、游戏等多种场景中。当图像生成任务为人脸图像生成任务即图像换脸任务时，参考图像可以为人脸的轮廓图，此种任务使用的第一特征可以包括轮廓图中人脸的轮廓特征和全局特征。

当图像生成任务具体为人脸图像编辑任务，比如更换人脸的发型、发色、口型等等时，参考图像可以是普通的人脸图像，此种任务使用的第一特征可以包括图像中人脸的纹理特征和全局特征。这两种任务可以应用在影视制作、教育培训等领域。

可选地，本实施例提及的图像生成任务除了可以实现人脸的图像或视频的生成，还可以实现人脸的图像或视频的编辑，还可以实现人物全身的图像或视频的生成，人物全身的图像或视频的编辑等等。容易理解的，对于与人物全身相关的任务，使用的参考图像即为包含人物全身的图像或轮廓图，身份特征也即是该人物的身份标识。

S103，根据生成模型的输出结果生成目标图像，目标图像和参考图像包含相同类型的对象。

最终，生成设备可以根据生成模型的输出结果生成目标图像，也即是完成图像生成任务。可选地，可以将输出结果输入解码器，以由该解码器根据输出结果生成目标图像。并且由于从参考图像中提取出的第一特征是作为控制图像生成方向的控制条件，因此，最终生成的目标图像和参考图像包含相同类型的对象，比如都包含人脸或者人物全身。

与步骤S102中提及的各种图像生成任务对应的，最终生成的目标图像可以包括视频帧、静态图像、动态图像中的任一种。

更具体来说，当图像生成任务为图像换脸任务，生成的目标图像为一张静态的人脸图像，并且该图像中的人脸与参考图像中的人脸不同。当图像生成任务为发型编辑任务时，生成的目标图像也为一张静态的人脸图像，但该图像和参考图像中的人脸相同，但发型不同。当图像生成任务为视频换脸任务，生成的目标图像为包含人脸的视频帧。

本实施例中，生成设备获取与图像生成任务对应的参考图像，再将从参考特征中提取的、与图像生成任务对应的第一特征输入生成模型。该第一特征可以包括参考图像的图像特征和/或参考图像中包含的目标对象的身份特征。进一步地，可以利用生成模型的输出结果生成目标图像。

在此需要说明的有，上述的图像生成也可以作为一种服务提供的给用户，并且在图像生成过程中所需的参考图像可以由用户提供。而对于图1所示实施例中提及的各种特征，比如参考图像的纹理特征、轮廓特征、姿态特征、全局特征、身份特征等等，下面可以分别介绍每种特征的生成过程。

可选地，可以将生成特征的设备称为特征提取设备，而此设备即可以是图1所示实施例提及的生成设备，也可以是独立于生成设备的其他设备。

对于局部特征中纹理特征的提取，可选地，特征提取设备可以对参考图像中目标对象所在的图像区域进行遮盖处理，以得到掩膜图像。其中，参考图像为普通的图像或者视频而非轮廓图，并且图像生成任务不同，参考图像中遮盖的区域也不同，具体举例可以参见下述内容。然后，特征提取设备可以利用自身部署的编码器从掩膜图像中提取目标对象的纹理特征。

当图像生成任务具体为图像换脸任务时，特征提取设备可以对整个人脸所在的图像区域进行遮盖处理，以得到掩膜图像。当图像生成任务具体为发色编辑任务时，特征提取设备可以对头发所在的图像区域进行遮盖处理，以得到掩膜图像。当图像生成任务具体为编辑口型任务时，特征提取设备可以对嘴巴及其周围部位，比如下巴进行遮盖处理，以得到掩膜图像。

对于局部特征中轮廓特征的提取，可选地，特征提取设备可以利用自身部署的编码器从轮廓图中提取目标对象的轮廓特征。举例来说，当参考图像为人脸结构轮廓图时，特征提取设备可以从人脸结构轮廓图中提取出人脸的轮廓特征。

对于局部特征中姿态特征的提取，可选地，特征提取设备可以使用PNCC方法将参考图像对应的建模图像中目标对象的每个像素点的位置信息进行归一化处理，并将处理结果输入自身部署的编码器，以由该编码器提取出参考图像中目标对象的姿态特征。可选地，建模图像可以是基于Fa lme框架先对图像进行3D渲染，然后将此3D图像投影成的2D图像。

对于参考图像的全局特征的提取，可选地，特征提取设备可以将参考图像输入自身部署的编码器，以由此编码器输出参考图像的全局特征。

在将图像生成作为一种服务提供给用户后，用户在提供参考图像的同时，还可以提供文本，该文本用于描述用户所需的图像生成任务的任务内容。当用户提供此文本后，可选地，还可以采用另一种方式实现全局特征的提取：先利用编码器对文本进行特征提取，以得到用于描述任务内容的文本特征。然后，将此文本特征输入特征映射模型，以由特征映射模型输出与文本特征对应的参考图像的全局特征。可选地，特征映射模型可以是基于先验知识的概率模型。

在图像生成场景中，相比于图像特征中的全局特征，由于文本特征往往不能准确描述用户对图像的生成需求，因此，特征映射模型可以利用在训练过程中学习到的全局特征和文本特征之间的对应关系，实现文本特征和全局特征之间的映射，从而得到能够准确描述生成需求的全局特征，并最终保证生成的图像是满足用户需求的。而特征映射模型的训练过程可以参见下述相关实施例中的描述。

对于身份特征的提取，可选地，特征提取设备可以使用预训练人脸识别模型比如ArcFace模型，来提取参考图像中人脸的身份特征。

上述提取纹理特征、轮廓特征、姿态特征、全局特征以文本特征的过程中都使用到了编码器，在此需要说明的有，编码器和特征之间存在对应关系。并且在实际中，纹理特征、轮廓特征、姿态特征以及全局特征都可以表现为多维张量，身份特征可以表现为向量。

本实施例中，重点阐述了参考图像的局部特征以及全局特征的提取过程。在实际中，这些图像特征可以看作是图像生成任务的控制条件，通过这些控制条件的灵活组合，借助一个生成模型就能够灵活的实现不同的图像生成任务，从而提高生成模型的通用性。并且控制条件是与图像生成任务对应的，因此，也可以准确、精细地控制图像的生成，使得生成的目标图像满足用户要求。

并且参考图像的全局特征还可以利用用户提供的、用于描述任务内容的文本提取到，此时本发明各实施例中提及的生成模型是支持多模态输入的，即模型输入同时包括文本和图像两种模态，因此，可以提高模型的通用性，丰富模型的使用场景。

根据图1所示实施例中的描述可知，生成模型具体可以为扩散模型，则图2为本发明实施例提供的另一种图像生成方法的流程图。如图2所示，该方法可以包括如下步骤：

S201，获取与图像生成任务对应的参考图像。

上述步骤S201的具体实现过程可以参见图1所示实施例中相关步骤的具体描述，在此不再赘述。

S202，从随机噪声中提取第二特征。

生成设备可以从随机噪声中提取第一特征。其中，随机噪声可以表现为高斯噪声。可选地，第一特征可以借助傅里叶变换或者神经网络模型从随机噪声中提取出来。可选地，神经网络模型具体可以包括卷积神经网络(Convolutional Neural Networks,简称CNN)模型、长短期记忆网络(Long Short-Term Memory，简称LSTM)模型和决策树模型等模型中的任一种。

S203，将包含第一特征和第二特征的待降噪特征输入生成模型，以由生成模型输出待降噪特征中的噪声特征，其中，第一特征从参考图像中提取，与图像生成任务对应的第一特征包括参考图像中目标对象的身份特征和/或参考图像的图像特征。

进一步地，生成设备还可以得到包含第一特征和第二特征的待降噪特征，其中，第一特征是从参考图像中提取出的、与图像生成任务对应的特征，第二特征可以从随机噪声中提取出。接着，生成设备可以将此待降噪特征一并输入至生成模型，以由生成模型输出待降噪特征中的噪声特征。

S204，根据生成模型输出的噪声特征对待降噪特征进行降噪，以得到不包含噪声特征的第三特征。

之后，生成设备还可以根据生成模型输出的噪声特征，对待降噪特征进行降噪，以得到不包含噪声特征的第三特征。

可选地，待降噪特征的降噪过程实际上是一个迭代过程，即生成设备通过迭代的方式，可以逐步去除待噪声特征中的噪声，以最终得到不包含噪声特征的第三特征。具体地，在每一次迭代过程中，可以将本轮迭代时生成模型的输入与输出相减，并将相减得到的结果作为下一次迭代时生成模型的输入。经过预设次数的迭代后得到的特征可以认为是不包含噪声的第三特征。

S205,根据第三特征生成目标图像，目标图像和参考图像包含相同类型的对象。

最终，生成设备可以根据不包含噪声特征的第三特征生成目标图像，也即是完成图像生成任务。可选地，可以将第三特征输入解码器，以由该解码器根据第三特征生成目标图像。并且由于参考图像对应的第一特征是作为控制图像生成方向的控制条件，因此，最终生成的目标图像和参考图像包含相同类型的对象，比如都包含人脸或者人物全身。

本实施例中，生成设备可以将从参考图像中提取出的、与图像生成任务对应的第一特征以及从随机噪声中提取出的第二特征构成待降噪特征，并将此待降噪特征输入生成模型，以由生成模型输出待降噪模型中的噪声特征。其中，第一特征包括参考图像的图像特征和/或参考图像中包含的目标对象的身份特征，参考图像也与图像生成任务对应。进一步地，利用生成模型输出的噪声特征对待降噪特征进行降噪，以得到不包含噪声的第三特征。最终，利用第三特征生成目标图像。

图3为本发明实施例提供的一种生成模型的结构示意图，则基于图2所示的内容，下面可以结合图4更详细地介绍图像生成的过程。图4为本发明实施例提供的又一种图像生成方法的流程图。如图4所示，该方法可以包括如下步骤：

S301，获取与图像生成任务对应的参考图像。

S302，从随机噪声中提取第二特征。

上述步骤S301～步骤S302的具体实现过程可以参见图2所示实施例中相关步骤的具体描述，在此不再赘述。

S303，将从参考图像中提取出的第一特征和第二特征中的局部特征进行拼接，以得到第一拼接特征，与图像生成任务对应的第一特征包括参考图像中目标对象的身份特征和/或参考图像的图像特征。

S304，将第一拼接特征输入生成模型中的卷积层，以由卷积层输出卷积特征，将卷积特征输入生成模型中注意力机制模块，以将注意力机制模块的输出结果确定为噪声特征。

可选地，对于不同的编码器提取出的第一特征和第二特征中的局部特征，其可以表现为不同阶数的张量。

当第一特征和第二特征表现为二阶张量即向量时，可以直接将二者进行拼接。当第一特征和第二特征表现该高阶张量，比如五维张量时，则生成设备可以将第一特征和局部特征在预设维度，比如在通道维度上进行拼接，以得到第一拼接特征。可选地，张量的五个维度可以包括批处理(batch)维度、通道(channe l)维度、时间(t ime)维度、高度(high)维度以及宽度(weight)维度。

然后，生成设备可以将第一拼接特征输入生成模型中的卷积层，以由卷积层对第一拼接特征进行卷积降维处理，从而输出卷积特征。该卷积特征还可以进一步输入生成模型中的注意力机制模块，以最终将注意力机制模块的输出结果确定为噪声特征。

S305，根据生成模型输出的噪声特征对待降噪特征进行降噪，以得到不包含噪声特征的第三特征。

S306，根据第三特征生成目标图像，目标图像和参考图像包含相同类型的对象。

上述步骤S305～步骤S306的具体实现过程可以参见图2所示实施例中相关步骤的具体描述，在此不再赘述。

本实施例中，利用包含图像生成任务的控制条件的第一拼接特征能够更准确、精细地控制图像的生成，使得生成的目标图像满足用户要求。并且利用生成模型中设置的注意力机制模块，还能够使生成模型重点关注卷积特征中的时序信息和空间信息，以降低将时序信息和空间信息确定为噪声的可能性，从而使生成模型能够输出准确的噪声特征。

另外，本实施例中未详细描述的内容以及所能实现的技术效果均可以参见上述各实施例中的相关描述，在此不再赘述。

为了进一步提高图像的生成质量，可选地，上述图4所示实施例中提及的注意力机制模块可以包括多个，用于分别关注卷积层输出的卷积特征中不同维度的信息。具体地，注意力机制模块可以包括空间注意力机制模块(spatial attention)和时序注意力机制模块(temporal attention)。此时图3所示的模型结构进一步表示为图5所示。则上述步骤S304中注意力机制模块的具体工作过程可以描述为：

生成设备可以先将卷积特征输入空间注意力机制模块，以由该注意力机制模块调高卷积特征中描述空间信息的数据的权重。接着，再将空间注意力机制模块的输出结果输入时序注意力机制模块，以由该注意力机制模块调高卷积特征中描述时隙信息的数据的权重，该时序注意力机制模块的输出结果即可以确定为噪声特征。通过权重的调整可以使生成模型重点关注卷积特征中的时序信息和空间信息，以降低将时序信息和空间信息确定为噪声的可能性。

并且针对不同的图像生成任务，空间注意力机制模块和时序注意力机制模块的作用程度不同。比如当最终生成的目标图像为单张图像时，由于单张图像中并不存在时序信息，因此，时序注意力机制模块对于空间注意力机制模块的输出结果起到的是透传的作用，即并不对空间注意力机制模块的输出结果中的数据调整权重。

当最终生成的目标图像为视频帧时，空间注意力机制模块和时序注意力机制模块可以分别从空间维度和时间维度调整卷积特征中数据的权重，以使生成模型在从卷积特征提取噪声特征的同时，也可以重点关注到卷积特征中空间信息和时序信息，以使该空间信息和时序信息可以更全面的保留在第三特征中。

本实施例中，通过多种注意力机制模块的使用，能够从不同维度(时序维度和空间维度)调整卷积特征中各数据的权重，使生成模型更加关注卷积特征中不同维度的信息，以使该空间信息和时序信息可以更全面的保留在第三特征中。最终，生成模型根据包含全面空间信息和时序信息的第三特征能够生成高质量的图像。

如图5所示的模型结构，为了进一步提高噪声特征确定的准确性，可选地，生成模型中还可以设置引导参数(guidance)，该引导参数可以对注意力机制模块的输出结果进行调整，更准确来说是时序注意力机制模块的输出结果进行调整，以得到调整结果，该调整结果可以确定为噪声特征。

在实际中，图像生成任务可以使用纹理特征、轮廓特征、姿态特征、身份特征和全局特征中的至少一种。而针对不同的任务，图像生成过程中使用的特征的重要程度也不同，比如在视频换脸任务中，相较于全局特征和身份特征，纹理特征更为重要，则引导参数可以用于对时序注意力机制模块的输出结果中各种特征的占比进行调整。

正如图1所示实施例中描述的，当图像生成任务为视频换脸任务时，参考图像即为由人脸图像序列构成的视频，此任务使用到的第二特征包括人脸的纹理特征、人脸的姿态特征、人脸的全局特征以及视频中人脸的身份特征。针对这种任务，结合图5所示的模型结构，视频的生成过程可以结合以下描述以及图6a和6b理解。

生成设备可以从随机噪声N

之后，生成设备可以进行第一轮降噪处理：将卷积特征和视频的全局特征输入生成模型中的空间注意力机制模块，再将空间注意力机制模块的输出结果输入生成模型中的时序注意力机制模块，以将时序注意力机制模块的输出结果确定为噪声特征N

之后，与上述方式类似的，生成模型还可以进行下一轮降噪：将Z

最终，生成设备可以将第三特征Z

当图像生成任务具体为图像换脸任务时，参考图像可以为人脸的轮廓图，此时使用的第二特征可以包括轮廓图中人脸的轮廓特征和全局特征。针对这种任务，人脸图像的生成过程可以结合以下描述和图6c理解。

生成设备可以将第二特征Z

当图像生成任务具体为人脸图像编辑任务，比如发色编辑任务时，参考图像可以是普通的人脸图像，此时使用的第二特征包括发色的纹理特征和全局特征。针对这种任务，人脸图像的生成过程可以结合以下描述和图6d理解。

生成设备可以将第二特征Z

综合上述图6a～图6d中的描述可知，针对不同的图像生成任务，生成设备可以针对性的获取与图像生成任务对应的第二特征即控制条件，因此，可以准确、精细地控制图像的生成，使得生成的目标图像满足用户要求。

另外，本实施例中未详细描述的内容以及所能实现的技术效果可以参见上述实施例中的相关描述，在此不再赘述。

上述各实施例已经从流程角度描述了实现图像生成的过程。并且正如上文提及的，该图像生成还可以作为一种服务提供给用户。该服务可以由生成平台提供。则图7a为本发明实施例提供的一种服务提供方法的流程图。该方法的执行主体可以为生成平台。可选地，此生成平台可以部署于云端。如图7a所示，该方法可以包括如下步骤：

S401，响应于用户触发的输入操作，获取与图像生成任务对应的参考图像。

S402，输出与参考图像包含相同类型的对象的目标图像。

响应于用户触发的输入操作，服务平台可以获取用户输入的、与图像生成任务对应的参考图像。

可选地，图7b可以为服务平台提供的一种可选地操作界面(平台首页)，用户可以在该操作界面上触发输入操作，该输入操作可以为用户可以选择任务并进一步输入与任务对应的参考图像过程中产生的各种操作。

之后，服务平台便可以根据参考图像进行图像生成，以得到与参考图像包含相同类型的对象的目标图像。最终，服务平台可以输出目标图像，即将目标图像展示在服务平台的操作界面上(结果页)。可选地，结果页中还可以包括目标图像的下载按钮，以使用户可以下载该图像。

其中，目标图像的生成过程具体可以包括：服务平台可以将从参考图像中提取出的、与用户选中的任务对应的第一特征输入生成模型，以根据生成模型的输出结果生成目标图像。其中，第一特征可以包括参考图像中目标对象的身份特征和/或参考图像的图像特征，目标图像和参考图像中对象的类型相同。

目标图像的具体生成过程可以参见上述各实施例中相关步骤的具体描述，在此不再赘述。

另外，本实施例中未详细描述的内容以及所能达到的其他技术效果还可以参见上述实施例中的描述，在此不再赘述。

下面可以以发色编辑任务为例，对上述服务提供方法的具体实现过程进行描述。用户可以在服务平台首页输入一张拥有黑色头发的女人图像(即参考图像)以及一段描述人脸图像编辑内容的文本，比如“将女人头发的颜色从黑色变为红色”。此时，服务平台可以根据随机噪声以及参考图像、文本进行人脸发色的编辑，最终生成的目标图像为一张拥有红色头发的女人图像，该目标图像可以展示在结果页上。

根据图2～图5所示实施例提供的方法可知，当生成模型具体为扩散模型时，该扩散模型生成图像的过程中还可以使用到噪声。可选地，此噪声可以由平台提供。

可选地，用户触发输入操作后，还可以输入与用户选中的任务的描述信息，该描述信息用于描述任务内容，描述信息的表现形式可以包括语音或者文本。则可以使用上述实施例中提及的特征映射模型，以根据描述信息得到生成图像过程中使用到的参考图像的全局特征。其中，由于特征映射模型支持的数据类型为文本，则还需要将语音形式的描述信息转换为文本。

可选地，由于不同的图像生成任务所需的输入不同，则在用户选择好任务后，平台首页上还可以进一步弹出提示信息，以提示用户输入与选中的任务对应的参考图像以及描述信息。

此过程也可以结合图7b理解。

根据上述各实施例中的描述可知，本发明上述各实施例提及的图像生成方法可以用于生成视频，该视频具体可以是在智能问答、直播或者游戏等不同场景下产生的视频。因此，在不同场景中生成图像也可以作为一种服务提供给用户，则当场景具体为智能问答时，图8为本发明实施例提供的另一种服务提供方法。如图8所示，该方法可以包括以下步骤：

S501，响应于用户触发的输入操作，获取与问答任务对应的参考图像以及问答任务的交互语句。

S502，确定交互语句对应的应答语句。

S503，输出应答视频，应答视频中的对象播报应答语句，应答视频中的对象和参考图像中的目标对象类型相同。

本实施例中，用户同样可以借助图7b所示的服务平台进行输入。在智能问答场景中，用户输入的可以包括参考图像以及问答任务的交互语句，该交互语句可以是一个问题语句或者闲聊语句。则服务平台可以利用自身配置的对话系统理解该交互语句的语义，并确定该交互语句对应的应答语句。之后，服务平台配置的生成模型可以根据参考图像和应答语句生成应答视频。该应答视频中的对象与参考图像中的目标对象类型相同，比如都是人脸，并且应答视频中的对象可以播报应答语句。

其中，应答视频生成的过程可以包括：将从参考图像中提取出的第一特征输入生成模型，第一特征与图像生成任务对应，第一特征包括参考图像中目标对象的身份特征和/或参考图像的图像特征；根据生成模型的输出结果生成应答视频。

另外，本实施例中未详细描述的内容还可以参见上述各实施例中的相关描述，在此不再赘述。

图9为本发明实施例提供的又一种服务提供方法。该服务可以作为一种云服务，则上述各实施例中提及的用于生成图像的生成设备也可以部署在云端，即作为云端设备。如图9所示，该方法可以包括以下步骤：

S601，通过调用第一接口，获取由终端设备提交的参考图像，参考图像与图像生成任务对应。

S602，将从参考图像中提取出的第一特征输入生成模型，第一特征与图像生成任务对应，第一特征包括参考图像中目标对象的身份特征和/或参考图像的图像特征。

S603，通过调用第二接口输出目标图像，目标图像根据生成模型的输出结果生成，目标图像和参考图像包含相同类型的对象。

云端设备可以通过调用自身配置的第一接口获取由终端设备提交的、与图像生成任务对应的参考图像。之后，云端设备可以进一步从该参考图像中提取出第一特征，并将该特征输入云端设备中部署的生成模型，并最终利用生成模型的输出结果生成目标图像。最终，云端设备还可以借助自身配置的第二接口向用户使用的终端设备输出该目标图像。

其中，从参考图像中提取的、与图像生成任务对应的第一特征可以包括参考图像中目标对象的身份特征和/或参考图像的图像特征。并且生成的目标图像和参考图像包含相同类型的对象。

其中，参考图像的输入方式以及目标图像的展示方式可以参见图7b。

另外，本实施例中未详细描述的内容还可以参见上述各实施例中的相关描述，在此不再赘述。

图10为本发明实施例提供的一种模型训练方法的流程图。该方法用于训练上述各实施例中使用到的、借助噪声实现图像生成的生成模型。该方法可以由部署在云端的生成设备或者训练设备执行，如图10所示，该方法可以包括以下步骤：

S701，获取训练图像的原始特征和参照图像的参照特征，其中，训练图像和参照图像各自包含的对象具有相同的身份特征，参照特征包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种。

基于图1所示实施例中提及的各种图像生成任务，训练图像和参照图像都可以是包含人脸或者人物全身的图像或者视频。可以利用编码器分别对训练图像和参照图像进行特征提取，以得到原始特征和参照特征。

其中，利用编码器提取出的参照特征可以包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征。对于参照特征的提取过程可以参见上述各实施例中对生成设备的使用过程的描述。

并且在实际中，不同任务使用到的、作为控制条件的特征不同，也即是不同图像生成任务使用的是不同的特征组合。则为了保证模型的训练效果，就要保证在训练阶段生成模型可以接触到各种特征组合，因此，训练设备可以随机将某一种或几种参照特征置零的方式，使得在训练过程中使用到的参照特征可以包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种。

对于参照特征的置零，一种可选地方式，训练设备可以按照50％的概率将任一种参照特中的数据置零。另一种可选地方式，训练设备可以按照10％的概率对参照特征中的数据置零，或者按照10％的概率保留参照特征。

S702，对原始特征添加随机噪声，以得到目标特征。

S703，将包含目标特征和参照特征的待降噪特征输入生成模型，以由生成模型输出预测噪声。

S704，根据随机噪声和预测噪声之间的损失计算结果，训练生成模型。

然后，训练设备可以对原始特征添加随机噪声，以得到包含噪声的目标特征。其中，随机噪声可以包括服从正态分布的高斯噪声。接着，训练设备可以将包含目标特征和参照特征的待降噪特征输入生成模型，以由生成模型输出预测噪声。训练设备可以对生成模型输出的预测噪声和随机噪声进行损失计算，并根据得到的损失计算结果进行生成模型的训练直至模型收敛。可选地，损失计算过程使用的损失函数可以包括交叉熵损失函数、对数损失函数和平方损失函数等函数中的任一种。

本实施例中，训练设备通过随机将参照特征中的数据置零方式，能够使得在训练过程中使用到的参照特征包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种，也即是能够保证在训练阶段生成模型可以接触到各种特征组合，提高生成模型的训练效果。

基于图5所示的生成模型，作为控制条件的参照特征可以应用在模型中不同位置。则图11为本发明实施例提供的另一种模型训练的流程图。本实施例同样可以由上述的训练设备执行。如图11所示，该方法可以包括以下步骤：

S801，获取训练图像的原始特征和参照图像的参照特征，其中，训练图像和参照图像各自包含的对象具有相同的身份特征，参照特征包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种。

S802，对原始特征添加随机噪声，以得到目标特征。

上述步骤S801～步骤S802的具体实现过程可以参见图10所示实施例中相关步骤的具体描述，在此不再赘述。

S803，将目标特征和参照特征包含的局部特征，在预设维度上进行拼接，以得到第二拼接特征，其中，局部特征包括参照图像包含对象的纹理特征、轮廓特征、姿态特征中的至少一种。

S804，融合时间特征和参照特征包含的身份特征，以得到融合特征，时间特征反映目标特征中噪声特征的占比。

S805，将第二拼接特征以及融合特征输入生成模型中的卷积层，以由卷积层输出卷积特征。

S806，将参照特征中的全局特征以及卷积特征输入生成模型中的注意力机制模块，以由注意力机制模块输出预测噪声。

可选地，对于目标特征和参照特征中的局部特征，其也可以表现为张量，具体可以为五维张量。可选地，训练设备可以将目标特征和局部特征在预设维度，比如在通道维度上进行拼接，以得到第二拼接特征。其中，局部特征可以包括参照图像包含对象的纹理特征、轮廓特征、姿态特征中的至少一种。对于局部特征的提取过程可以参见使用上述各实施例中对生成设备的使用过程的描述，在此不再赘述。

并且在迭代降噪的过程中，对于在不同轮次输入生成模型的特征，该特征中噪声的占比是不同的。即越早轮次的特征噪声占比越高。而在实际的图像生成时，生成模型就需要能够从噪声占比不同的特征中提取出噪声特征。则为了保证模型的训练效果，就要保证在训练阶段生成模型可以接触到噪声占比不同的特征。

此时，则可以引入一个时间特征，该时间特征具体可以表现为向量，用以反映特征中噪声特征的占比。

然后，训练设备可以融合时间特征和参照特征包含的身份特征，以得到融合特征，并进一步将第二拼接特征以及融合特征输入生成模型中的卷积层，以由卷积层输出卷积特征。之后，训练设备可以将卷积特征以及全局特征输入生成模型中的注意力机制模块，以由注意力机制模块输出预测噪声。可选地，注意力机制模块可以包括空间注意力机制模块和时序注意力机制模块。

S807，根据随机噪声和预测噪声之间的损失计算结果，训练生成模型。

上述步骤S807的具体实现过程可以参见图10所示实施例中相关步骤的具体描述，在此不再赘述。

本实施例中，可以在训练生成模型的过程中引入的时间特征，时间特征可以看作是参考信息，利用此参考信息可以使得生成模型准确地输出预测噪声，从而提高生成模型的训练效果。

上述实施例中的服务平台还可以提供模型训练服务，借助云端的算力，服务平台还可以为用户训练出用以得到目标图像的生成模型。则图12a为本发明实施例提供的又一种服务提供方法的流程图。该方法的执行主体可以为训练平台。当用户选择模型训练服务时，上述实施例中的服务平台即为一个训练平台。如图12a所示，该方法可以包括如下步骤：

S901，响应于用户的输入，获取训练图像的原始特征和参照图像的参照特征，其中，训练图像和参照图像各自包含的对象具有相同的身份特征，参照特征包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种。

S902，输出根据原始特征和参照特征训练得到的生成模型。

训练平台可以响应于用户的输入，获取训练图像的原始特征和参照图像的参照特征。基于图1所示实施例中提及的各种图像生成任务，训练图像和参照图像都可以是包含人脸或者人物全身的图像或者视频。

可选地，图12b可以为服务平台提供的一种可选地操作界面(平台首页)，用户可以在该操作界面上触发输入操作。可选地，用户可以直接向训练平台输入训练图像的原始特征和参照图像的参照特征。可选地，用户还可以向训练平台输入训练图像和参照图像，以由训练平台对训练图像和参照图像进行特征提取，以得到原始特征和参照特征。

其中，训练图像和参照图像各自包含的对象具有相同的身份特征，参照特征包括参照图像的局部特征、全局特征以及参照图像中对象的身份特征中的至少一种。

之后，训练平台便可以输出根据原始特征和参照特征训练得到的生成模型，并将训练好的生成模型展示在服务平台的操作界面上(结果页)。该生成模型可以以压缩包的形式供用户下载。

其中，生成模型的训练过程包括：训练平台可以对原始特征添加随机噪声，以得到目标特征。然后，训练平台可以将包含目标特征和参照特征的待降噪特征输入生成模型，以由生成模型输出预测噪声。最终，训练平台可以根据随机噪声和预测噪声之间的损失计算结果，训练生成模型。生成模型的具体训练过程可以参见上述各实施例中相关步骤的具体描述，在此不再赘述。

另外，本实施例中未详细描述以及所能达到的其他技术效果还可以参见上述实施例中的描述，在此不再赘述。

可选地，在生成全局特征的过程中，还可以使用到了特征映射模型。则图13为本发明实施例提供的又一种模型训练方法的流程图，该方法可以用于训练特征映射模型。本实施例同样可以由上述的训练设备执行。如图13所示，该方法可以包括以下步骤：

S1001，获取存在预设对应关系的训练文本特征以及训练图像特征。

S1002，将训练文本特征输入特征映射模型，以由特征映射模型输出预测图像特征。

S1003，根据训练图像特征和预测图像特征之间的损失计算结果，训练特征映射模型。

可选地，训练文本特征以及训练图像特征之间的预设对应关系可以基于历史经验获取。之后，训练设备可以将训练文本特征作为训练数据，将训练图像特征作为监督信息训练特征映射模型，以由特征映射模型输出预测图像特征。

最终，训练设备可以对特征映射模型输出的预测图像特征和训练图像特征进行损失计算，并根据得到的损失计算结果对特征映射模型进行优化。可选地，损失计算过程使用的损失函数可以包括交叉熵损失函数、对数损失函数和平方损失函数中的任一种。

本实施例中，利用有监督训练的方式即借助训练图像特征训练特征映射模型，使得特征映射模型的效果更好，进一步地，在模型使用阶段时，特征映射模型输出的全局特征也更准确。

图13所示的模型训练方法也可以作为一种服务提供给用户，则借助图12b所示的训练平台，该训练平台可以响应于用户的输入，获取存在预设对应关系的训练文本特征以及训练图像特征。之后，训练平台便可以输出根据存在预设对应关系的训练文本特征以及训练图像特征训练得到的特征映射模型，并将训练好的特征映射模型展示在服务平台的操作界面上(结果页)。该特征映射模型可以以压缩包的形式供用户下载。

其中，特征映射模型的训练过程包括：训练平台可以将训练文本特征输入特征映射模型，以由特征映射模型输出预测图像特征。然后，训练平台可以根据训练图像特征和预测图像特征之间的损失计算结果，训练特征映射模型。

特征映射模型的具体训练过程可以参见上述各实施例中相关步骤的具体描述，在此不再赘述。另外，本实施例所能达到的其他技术效果还可以参见上述实施例中的描述，在此不再赘述。

另外，需要说明的有，与图7a所示实施例中的用户可以是图像生成需求的用户，图12a所示实施例中的用户可以是有生成模型训练需求的用户。

以下将详细描述本发明的一个或多个实施例的图像生成装置。本领域技术人员可以理解，这些图像生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图14为本发明实施例提供的一种图像处理装置的结构示意图，如图14所示，该装置包括：

第一获取模块11，用于获取与图像生成任务对应的参考图像。

输入模块12，用于将从所述参考图像中提取出的第一特征输入生成模型，所述第一特征包括所述参考图像中目标对象的身份特征和/或所述参考图像的图像特征，所述第一特征与所述图像生成任务对应。

生成模块13，用于根据所述生成模型的输出结果生成目标图像，所述目标图像和所述参考图像包含相同类型的对象。

其中，所述目标图像包括视频图像、静态图像、动态图像中的任一种；所述参考图像的图像特征包括所述参考图像的局部特征和全局特征。

可选地，所述局部特征包括所述目标对象的纹理特征、轮廓特征、姿态特征中的至少一种。

所述装置还包括：局部特征提取模块14，用于根据所述图像生成任务，对所述参考图像中目标对象所在的图像区域进行掩膜处理，以得到掩膜图像；从所述掩膜图像中提取所述目标对象的纹理特征；从表现为轮廓图的所述参考图像中提取所述目标对象的轮廓特征；从所述参考图像对应的建模图像中提取所述目标对象的姿态特征。

可选地，所述装置还包括：全局特征提取模块15，用于将用于描述任务内容的文本特征输入特征映射模型，以由所述特征映射模型输出与所述文本特征对应的所述参考图像的全局特征。

可选地，所述装置还包括：特征提取模块16，用于从随机噪声中提取第二特征。

所述输入模块12，用于将包含所述第一特征和第二特征的待降噪特征输入生成模型，以由所述生成模型输出所述待降噪特征中的噪声特征，其中，与图像生成任务对应的所述第二特征包括参考图像中目标对象的身份特征和/或所述参考图像的图像特征。

所述生成模块13，用于根据所述生成模型输出的所述噪声特征对所述待降噪特征进行降噪，以得到不包含噪声特征的第三特征；根据所述第三特征生成目标图像，所述目标图像和所述参考图像包含相同类型的对象。

可选地，

所述输入模块12，用于将所述第一特征和所述第二特征中的局部特征进行拼接，以得到第一拼接特征；将所述第一拼接特征输入所述生成模型中的卷积层，以由所述卷积层输出卷积特征，将所述卷积特征输入所述生成模型中注意力机制模块，以将所述注意力机制模块的输出结果确定为所述噪声特征。

可选地，所述输入模块12，用于将所述第一拼接特征以及所述第二特征中的身份特征输入所述生成模型中的卷积层。

可选地，所述输入模块12，用于将所述卷积特征输入所述生成模型中的空间注意力机制模块，再将所述空间注意力机制模块的输出结果输入所述生成模型中的时序注意力机制模块，以将所述时序注意力机制模块的输出结果确定为所述噪声特征。

可选地，所述输入模块12，用于将所述卷积特征和所述第二特征中的全局特征输入所述生成模型中的空间注意力机制模块。

可选地，所述输入模块12，用于根据所述生成模型中的引导参数，调整所述注意力机制模块的输出结果，以得到调整结果；将所述调整结果确定为所述噪声特征。

可选地，所述装置还包括：生成模型训练模块17，用于获取训练图像的原始特征和参照图像的参照特征，其中，所述训练图像和所述参照图像各自包含的对象具有相同的身份特征，所述参照特征包括所述参照图像的局部特征、全局特征以及所述参照图像中对象的身份特征中的至少一种；对所述原始特征添加随机噪声，以得到目标特征；将包含所述目标特征和所述参照特征的待降噪特征输入生成模型，以由所述生成模型输出预测噪声；根据所述随机噪声和所述预测噪声之间的损失计算结果，训练所述生成模型。

可选地，所述生成模型训练模块17，用于将所述目标特征和所述参照特征包含的局部特征进行拼接，以得到第二拼接特征，其中，所述局部特征包括所述参照图像包含对象的纹理特征、轮廓特征、姿态特征中的至少一种；将所述第二拼接特征输入生成模型。

可选地，所述生成模型训练模块17，还用于融合时间特征和所述参照特征包含的身份特征，以得到融合特征，所述时间特征反映所述目标特征中噪声特征的占比；将所述第二拼接特征以及所述融合特征输入所述生成模型中的卷积层，以由所述卷积层输出卷积特征；将所述参照特征中的全局特征以及所述卷积特征输入所述生成模型中的注意力机制模块，以由所述注意力机制模块输出所述预测噪声。

可选地，所述装置还包括：特征映射模型训练模块18，用于获取存在预设对应关系的训练文本特征以及训练图像特征；将所述训练文本特征输入所述特征映射模型，以由所述特征映射模型输出预测图像特征；根据所述训练图像特征和所述预测图像特征之间的损失计算结果，训练所述特征映射模型。

图14所示装置可以执行图1至图6d所示实施例的方法，本实施例未详细描述的部分，可参考对图1至图6d所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图6d所示实施例中的描述，在此不再赘述。

可选地，图14所示的装置还可以认为是一个服务提供装置，其中的所述第一获取模块11，还用于通过调用第一接口获取由终端设备提交的参考图像，所述参考图像与图像生成任务对应。

所述输入模块12，用于将从所述参考图像中提取出的第一特征输入生成模型，所述第一特征与所述图像生成任务对应，所述第一特征包括所述参考图像中目标对象的身份特征和/或所述参考图像的图像特征。

所述生成模块13，用于通过调用第二接口输出目标图像，所述目标图像根据所述生成模型的输出结果生成，所述目标图像和所述参考图像包含相同类型的对象。

则图14所示装置还可以执行图9所示实施例的方法，本实施例未详细描述的部分，可参考对图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图9所示实施例中的描述，在此不再赘述。

图15为本发明实施例提供的一种服务提供装置的结构示意图，如图15所示，该装置包括：

第二获取模块21，用于响应于用户触发的输入操作，获取与问答任务对应的参考图像以及所述问答任务的交互语句。

语句确定模块22，用于确定所述交互语句对应的应答语句。

输出模块23，用于输出应答视频，所述应答视频中的对象播报所述应答语句，所述应答视频中的对象和所述参考图像中的目标对象类型相同。

其中，所述应答视频的生成过程包括：

则图15所示装置可以执行图8所示实施例的方法，本实施例未详细描述的部分，可参考对图8示实施例的相关说明。该技术方案的执行过程和技术效果参见图8所示实施例中的描述，在此不再赘述。

可选地，对于图15所示的装置，所述第二获取模块21，用于响应于用户触发的输入操作，获取与图像生成任务对应的参考图像。

所述输出模块23，用于输出与所述参考图像包含相同类型的对象的目标图像；

其中，所述目标图像的生成过程包括：

可选地,所述第二获取模块21，还用于响应于用户触发的输入操作，获取与所述图像生成任务对应的描述信息，所述描述信息表现为文本或者语音；从所述描述信息中提取所述参考图像的全局特征。

可选地，所述输出模块23，还用于响应于所述用户对所述图像生成任务的选择，输出提示信息，以使所述用户根据所述提示信息输入与选中的图像生成任务对应的参考图像和/或描述信息。则图15所示装置还可以执行图7a～图7b所示实施例的方法，本实施例未详细描述的部分，可参考对图7a～图7b所示实施例的相关说明。该技术方案的执行过程和技术效果参见图7a～图7b所示实施例中的描述，在此不再赘述。

可选地，对于图15所示的装置，第二获取模块21，还用于响应于用户的输入，获取训练图像的原始特征和参照图像的参照特征，其中，所述训练图像和所述参照图像各自包含的对象具有相同的身份特征，所述参照特征包括所述参照图像的局部特征、全局特征以及所述参照图像中对象的身份特征中的至少一种。

输出模块23，用于输出根据所述原始特征和所述参照特征训练得到的生成模型。

其中，所述生成模型的训练过程包括：对所述原始特征添加随机噪声，以得到目标特征；将包含所述目标特征和所述参照特征的待降噪特征输入生成模型，以由所述生成模型输出预测噪声；根据所述随机噪声和所述预测噪声之间的损失计算结果，训练所述生成模型。

则图15所示装置还可以执行图12a～图12b所示实施例的方法，本实施例未详细描述的部分，可参考对图12a～图12b所示实施例的相关说明。该技术方案的执行过程和技术效果参见图12a～图12b所示实施例中的描述，在此不再赘述。

可选地，对于图15所示的装置，第二获取模块21，还用于响应于用户的输入，获取存在预设对应关系的训练文本特征以及训练图像特征。

输出模块23，用于输出根据训练文本特征以及训练图像特征训练得到的特征映射模型。

其中，所述特征映射模型的训练过程包括：将所述训练文本特征输入所述特征映射模型，以由所述特征映射模型输出预测图像特征；根据所述训练图像特征和所述预测图像特征之间的损失计算结果，训练所述特征映射。

则图15所示装置还可以执行图13所示实施例的方法，本实施例未详细描述的部分，可参考对图13所示实施例的相关说明。该技术方案的执行过程和技术效果参见图13所示实施例中的描述，在此不再赘述。

在一个可能的设计中，上述各实施例提供的图像生成方法可以应用在一电子设备中，如图16所示，该电子设备可以包括：处理器31和存储器32。其中，存储器32用于存储支持该电子设备执行上述图1～图13所示实施例中提供的图像生成方法或者服务提供方法的程序，处理器31被配置为用于执行存储器32中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被第一处理器31执行时能够实现上述各图实施例中提供的图像生成方法或者服务提供方法中的步骤。

其中，电子设备的结构中还可以包括通信接口33，用于该电子设备与其他设备或通信系统通信。

另外，本发明实施例提供了一种计算机存储介质，用于储存上述电子设备所用的计算机软件指令，其包含用于执行上述图1～图13所示的图像生成方法或者服务提供方法所涉及的程序。

另外，本发明实施例提供了一种计算机程序产品。该计算机程序产品包括计算机程序或者指令。当计算机程序或者指令被处理器执行时，致使处理器能够实现上述图1～图13所示的方法的步骤或者功能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：阿里巴巴(中国)有限公司;

上一篇：一种基于物联网的工业应急储能电池智能管理方法及系统
下一篇：光圈机构