基于多模态语义匹配的图像风格迁移系统及方法

文献发布时间：2023-06-19 18:58:26

技术领域

本发明涉及一种基于多模态语义匹配的图像风格迁移系统及方法，属于计算机和文化领域。

背景技术

图像风格迁移指的是将一张图像的风格转移到一张自然图像上，使得自然图像在保留原始内容的同时又具有独特的风格。随着移动设备的普及，相机和短视频中的美颜功能被人们广泛使用，大众对于图像风格迁移的效果要求越来越高。此外，图像风格迁移技术在影视制作、动漫渲染等方面均发挥着巨大的作用，所以，进一步研究图像风格迁移技术，有利于发掘其更多的潜在价值与更广泛的应用空间。

图像风格迁移技术作为深度学习技术在文化领域的应用，自从2015年Gatys等人首次将VGG网络应用于图像风格迁移领域，便引领了将深度学习与图像风格迁移相结合算法的研究风潮，并涌现了大量优秀的算法。

图像风格迁移方法需要以风格图像和内容图像作为输入来提供风格和内容信息。然而，在许多实际情况下，用户可能没有合适的可供参考的风格图像，而使用文本来描述风格偏好相对于使用风格图像更容易获得且更容易调整。因此，构建一种支持文本和图像等多模态数据作为输入的图像风格迁移模型是非常必要的。目前，大多数图像风格迁移方法假设图像风格可以由其深度特征的全局统计来表示，例如Gram矩阵或协方差矩阵。这种全局统计从整个图像捕获风格，并应用于内容图像，使得内容图像不同语义区域由风格图像中不匹配的语义区域进行渲染，导致最终风格化结果语义风格混乱、内容结构损坏等问题。因此，借助多模态的基于语义匹配的图像风格迁移方法，是很有必要的。。

发明内容

本发明的目的是：实现支持文本和图像等多种模态数据作为输入，并保证输出图像内容语义区域由风格图像相匹配的风格语义区域来渲染，以提升图像风格迁移过程的灵活性，实现自然、美观、高质量的图像风格化结果。

为了达到上述目的，本发明的一个技术方案是提供了一种基于多模态语义匹配的图像风格迁移系统，其特征在于，包括内容图像输入模块、风格信息输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块，其中：

内容图像输入模块，用于向图像风格迁移模块输入内容图像，为图像风格迁移模块的最终输出结果提供内容信息；

风格信息输入模块，用于向图像风格迁移模块输入风格信息，该风格信息为用于描述风格的文本数据或用于描述风格的风格图像，实现支持以文本或者图像两种模态的数据作为输入为图像风格迁移模块的最终输出结果提供风格信息；

风格图像向量库：基于风格图像数据集建立风格图像向量库，为风格图像数据集中的每张风格图像创建文本标签后，采用图文对比多模态预训练模型对风格图像数据集中每张带有文本标签的风格图像进行编码后得到风格图像向量，基于所有风格图像向量建立向量库；

文本图像检索模块：采用图文对比多模态预训练模型将通过风格信息输入模块输入的文本数据编码为文本向量，然后检索风格图像向量库中与当前文本向量语义匹配度最高的风格图像向量，并向图像风格迁移模块输出对应的风格图像；

结果输出模块：将经过图像风格迁移模块处理后得到的风格化图像特征重新还原为图像后输出。

优选地，所述风格图像以及所述内容图像的图像大小相同。

优选地，所述文本标签包括当前风格图像的创作者名称以及对当前风格图像语义内容的文本描述。

优选地，所述结果输出模块将经过所述图像风格迁移模块处理的风格化结果保存至本地指定文件夹下。

本发明的另一个技术方案是提供了一种基于多模态语义匹配的图像风格迁移方法，其特征在于，包括以下步骤：

S100、原始图像处理：

将用户通过内容图像输入的内容图像转换为设定大小的图像，若用户通过风格信息输入模块输入的风格信息为风格图像，则将风格图像转换为与内容图像相同大小的图像；

获取风格图像数据集，将风格图像数据集中的风格图像转换为设定大小的图像；

S200、风格图像标注：

为风格图像数据集中的每一个风格图像创建一个文本标签，文本标签的内容至少包括对当前风格图像语义内容的文字描述，最终形成一张表格，表格中每行记录了风格图像数据集中一张风格图像的路径和其对应的文本标签；

S300、构建风格图像向量库：

基于步骤S200获得的表格，按照索引顺序读取表格中相应路径下的风格图像，采用图文对比多模态预训练模型对每一张风格图像进行编码得到风格图像向量，从而构建获得风格图像向量库；

S400、图像风格迁移，根据输入的数据模态选择不同的方式得到最终的风格化结果：

如果用户通过风格信息输入模块输入的是用于描述风格的文本数据，则通过文本图像检索模块将所输入的文本数据编码为文本向量，然后从风格图像向量库中检索出与当前文本向量匹配度最高的风格图像向量，并将其还原成风格图像后和通过内容图像输入的内容图像一起输入图像风格迁移模块得到最终的风格化结果；

如果用户通过风格信息输入模块输入的是用于提供风格信息的风格图像，则直接将风格图像与通过内容图像输入的内容图像一起输入到图像风格迁移模块后得到最终的风格化结果；

S500、分析结果展示：结果输出模块将经过图像风格迁移模块处理后的风格化图像特征重新还原为图像后输出。

优选地，步骤S200中，所述文本标签还包括当前风格图像的创作者名称。

优选地，所述步骤S300包括以下步骤：

S301、根据步骤S200中创建的表格，按照索引顺序读取路径下的风格图像，通过图文对比多模态预训练模型中的图像编码器提取图像特征得到风格图像向量；

S302、采用Milvus云原生向量数据库保存风格图像向量。

优选地，所述步骤S400中，文本图像检索模块的具体操作包括如下步骤：

S401、将输入的文本数据通过图文对比多模态预训练模型中的文本编码器进行文本特征提取得到文本向量；

S402、将文本向量与风格图像向量库中的风格图像向量比较，计算两者之间的欧式距离，检索出风格图像向量库中与文本向量匹配度最高的风格图像向量；

S403、根据风格图像向量的索引，在步骤S200得到的表格中查询对应索引下风格图像的路径，返回风格图像。

优选地，所述步骤S400中，图像风格迁移模块的具体操作包括如下步骤：

S404、将内容图像和风格图像通过预训练的VGG网络提取图像特征得到内容图像特征向量和风格图像特征向量；

S405、对内容图像特征和风格图像特征进行归一化并嵌入以计算得到注意力图；

S406、将S405步骤中得到的注意力图作为仿射变换重新排列风格图像特征的分布，使得内容图像语义区域与风格图像的相关语义区域在特征图上对应，得到语义匹配的风格化图像特征；

S407、将内容图像特征与调整分布之后的风格图像特征，通过通道连接操作拼接在一起，识别出相应的内容图像特征和风格图像特征语义区域之间的局部差异，然后通过插值操作来补齐这种差异，解决最终风格化结果的局部失真情况；

S408、将上一步获得的风格化图像特征输入到下一个样式转换模块，依据步骤S405、S406和S407进行注意力操作和插值操作实现进一步细化；

S409、将经过三次样式转换模块的风格化图像特征输入到结果输出模块以输出最终的风格化结果。

本发明结构设计合理，利用图文对比多模态预训练模型(CLIP)构建文本图像检索模块，为图像风格迁移系统的输入引入文本模态来描述风格信息，使得整体的图像风格迁移系统能够支持文本和风格图像两个模态的数据作为风格信息。同时，图像风格迁移模块通过注意力机制和插值操作，调整风格图像的特征分布，使得最终迁移结果的内容语义区域是由与其相匹配的风格语义区域来渲染的，在减少内容语义结构损失的基础上实现高质量的风格化效果。

附图说明

图1为本发明基于多模态语义匹配的图像风格迁移系统的流程框图；

图2为本发明基于多模态语义匹配的图像风格迁移系统的整体框架图；

图3为本发明基于多模态语义匹配的图像风格迁移系统的文本图像检索模块的结构框图；

图4为本发明基于多模态语义匹配的图像风格迁移系统的图像风格迁移模块和结果输出模块的结构框图；

图5为本发明基于多模态语义匹配的图像风格迁移系统的图像风格迁移模块中的样式转换模块的结构框图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，本发明实施例提出了一种基于多模态语义匹配的图像风格迁移系统，包括内容图像输入模块、风格图像输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块，其中：

内容图像输入模块，用于向图像风格迁移模块输入内容图像，为图像风格迁移模块的最终输出结果提供内容信息。

风格信息输入模块，用于向图像风格迁移模块输入风格信息，该风格信息包括用于描述风格的文本数据或用于描述风格的风格图像，为图像风格迁移模块的最终输出结果提供风格信息。

在本实施方式中，内容图像和风格图像通过开源的图像数据集进行获取。对于内容图像数据集和风格图像数据集，其图像大小不一，因此先将内容图像和风格图像数据集的图像大小都转换为512*512像素，方便后续对图像数据的处理。

风格图像向量库：基于风格图像数据集建立风格图像向量库，为风格图像数据集中的每张风格图像创建文本标签后，采用图文对比多模态预训练模型(CLIP)对风格图像数据集中每张带有文本标签的风格图像进行编码后得到风格图像向量，基于所有风格图像向量建立向量库。本实施例中，文本标签的内容包括当前风格图像的创作者名称以及对当前风格图像语义内容的一段简短描述。最终形成一张与风格图像数据集相对应的表格，表格中每行记录风格图像数据集中一张风格图像的路径和其对应的文本标签。

文本图像检索模块：采用图文对比多模态预训练模型(CLIP)将通过风格信息输入模块输入的文本数据编码为文本向量，然后检索风格图像向量库中与当前文本向量语义匹配度最高的风格图像向量，并向图像风格迁移模块输出对应的风格图像。

图像风格迁移模块，用于将输入的风格图像风格迁移到输入的内容图像上，并保持内容图像内容结构的完整性。

结果输出模块：将经过图像风格迁移模块处理后得到的风格化图像特征重新还原为图像后输出。在本实施方式中，结果输出模块会将经过图像风格迁移模块处理的风格化结果保存至本地指定文件夹下，方便后续对风格化结果的展示和评估。

以下列举所述多模态的基于语义匹配的图像风格迁移系统的较优实施例，以清楚的说明本发明的内容，应当明确的是，本发明的内容并不限制于以下实施例，其他通过本领域普通技术人员的常规技术手段的改进亦在本发明的思想范围之内。

如图2所示，本发明实施例提出了一种基于多模态语义匹配的图像风格迁移方法，包括如下步骤：

S100、原始图像处理：原始的内容图像和风格图像大小不一，为方便后续对图像数据的处理，统一将原始内容图像和风格图像转换为512*512像素的图像。具体的，本实施例使用Python的第三方库Opencv-python可以快速调整图像的大小。

S200、风格图像标注：为风格图像数据集中的每一个风格图像创建一个文本标签，文本标签的内容包括当前风格图像的创作者名称以及对当前风格图像语义内容的一段简短描述。最终形成一张与风格图像数据集对应的表格，表格中每行记录风格图像数据集中一张风格图像的路径和其对应的文本标签。

具体的，标注后的风格图像需要根据其在表格中的索引和存放路径，通过图文对比多模态预训练模型(CLIP)中的图像编码器进行特征提取，将提取的风格图像向量按照索引保存至风格图像向量库中。

S300、构建风格图像向量库：

根据步骤S200所获得的表格，采用图文对比多模态预训练模型(CLIP)对风格图像数据集中每一张风格图像进行编码得到风格图像向量，以构建风格图像向量库。本实施例中，构建风格图像向量库的处理具体包括如下步骤：

S301、根据步骤S200中创建的表格，按照索引顺序读取相应路径下的风格图像，通过图文对比多模态预训练模型(CLIP)中的图像编码器提取其图像特征得到风格图像向量；

S302、采用Milvus云原生向量数据库保存风格图像向量，形成风格图像向量库，它具备高可用、高性能、易拓展的特点，可对海量数据集进行向量相似度检索并实现实时召回。

S400、图像风格迁移，根据输入的数据模态选择不同的方式得到最终的风格化结果：

如果用户通过风格信息输入模块输入的是用于提供风格信息的风格图像，则直接将风格图像与通过内容图像输入的内容图像一起输入到图像风格迁移模块后得到最终的风格化结果。

本实施例中，文本图像检索模块的具体操作包括如下步骤：

S401、将输入的文本数据通过图文对比多模态预训练模型(CLIP)中的文本编码器进行文本特征提取得到文本向量；

S403、根据风格图像向量的索引，在步骤S200得到的表格中查询对应索引下风格图像的路径，返回风格图像。如图3所示。

本实施例中，图像风格迁移模块的具体操作包括如下步骤：

S404、将内容图像和风格图像通过预训练的VGG网络提取图像特征得到内容图像特征向量和风格图像特征向量；

S405、对内容图像特征和风格图像特征进行归一化并嵌入以计算得到注意力图；

S408、将上一步获得的风格化图像特征输入到下一个样式转换模块，依据步骤S405、S406和S407进行注意力操作和插值操作实现进一步细化。样式转换模块如图5所示。

S409、将经过三次样式转换模块的风格化图像特征输入到结果输出模块以输出最终的风格化结果。

S500、分析结果展示：结果输出模块将经过图像风格迁移模块处理后的风格化图像特征重新还原为图像后输出。具体的，结果输出模块输出的结果将保存到指定的文件夹中，便于后续对风格化结果的展示和评估。

本发明对应在计算机上的具体操作流程如下：

(1)进入图像风格迁移网页；

(2)选择风格化方式，可以用鼠标点击选择预设的风格图像或者点击风格图像上传按钮上传自定义的风格化图像，也可以在文本框中输入风格描述语言描述风格；

(3)点击内容图像上传按钮，上传内容图像；

(4)点击图像风格迁移按钮，等待系统生成风格化结果；

(5)等待一段时间后，网页会弹出显示“图像风格迁移完成”，然后在网页上显示风格化结果，并将结果保存到指定文件夹下。

综上所述，本实施例公开的技术方案相对于现有技术，具有如下优势：

本发明通过图文对比多模态预训练模型(CLIP)中的图像编码器对开源风格图像数据集中的风格图像进行特征提取，并将风格图像向量保存至Milvus云原生向量数据库，构建了一个通过文本来检索语义匹配度高的风格图像的文本图像检索模块。在图像风格迁移模块中利用注意力机制和插值操作逐渐调整风格图像特征分布与内容图像特征分布对齐，使得最终的风格化结果的内容语义区域和风格语义区域是相互匹配的，在保证风格化结果内容结构完整性的同时获得更好的风格化效果。本发明将文本图像检索模块和图像风格迁移模块结合在一起构建了一个基于多模态语义匹配的图像风格迁移系统，同时支持文本驱动和图像驱动两种模态数据提供风格信息的图像风格迁移。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：武星;胡明涛;
专利申请人：上海大学;

上一篇：一种用于电机控制器电路板的检测装置
下一篇：一种市政工程公用管线施工方法