掌桥专利:专业的专利平台
掌桥专利
首页

内窥镜图像生成网络训练方法、图像生成方法及系统

文献发布时间:2024-04-18 20:00:50


内窥镜图像生成网络训练方法、图像生成方法及系统

技术领域

本发明属于医疗图像处理技术领域,尤其涉及一种内窥镜图像生成网络训练方法、图像生成方法及系统。

背景技术

在医疗领域,胶囊内镜具有无痛、无伤、拍摄图像信息量大等优点,具备广泛的应用价值,随着AI技术的发展,目前多采用分类模型对原始图片进行分类、识别。

分类模型训练时需要大量的训练数据,并且为了提高分类模型的准确度,需要将胶囊内镜采集到的原始图像转换为目标风格的图像后,将具有目标风格的内窥镜图像输入分类模型中,以提高分类模型的准确度。

现有技术中,通常是将原始图像输入风格迁移网络中以得到统一风格的训练图像,然而,风格迁移网络同样需要训练,在目标风格的图像难以采集导致训练数据稀疏时,直接采用稀疏的训练数据训练风格迁移网络,将会导致风格迁移网络所生成的样本数量有限,并且容易造成过拟合,风格迁移网络所生的图像质量低,难以用于分类模型输入进行分类。

发明内容

本发明实施例的目的在于提供一种内窥镜图像生成网络训练方法、图像生成方法及系统,旨在解决目标风格的图像样本稀疏,采用稀疏的图像样本训练图像生成网络后,导致图像生成网络所生成的样本有限、易于过拟合,导致图像质量低的问题。

为实现上述目的,本发明实施例提供如下技术方案:

第一方面,本发明提供一种内窥镜图像生成网络训练方法,具体包括以下步骤:

获取通过稠密数据集训练的第一内窥镜图像生成网络,所述第一内窥镜图像生成网络包括映射网络M1、生成器G1和判别器D1;

构建第二内窥镜图像生成网络,所述第二内窥镜图像生成网络包括偏移量预测网络P以及映射网络M2、生成器G2和判别器D2,其中,所述映射网络M2继承所述映射网络M1的参数,所述生成器G2继承所述生成器G1的参数,所述判别器D2继承所述判别器D1的参数;

采用稀疏数据集训练所述第二内窥镜图像生成网络,所述映射网络M2用于生成所述稀疏数据集中的图像的风格向量并输入到所述偏移量预测网络P,所述偏移量预测网络P用于预测所述风格向量的偏移向量,所述生成器G2用于根据所述风格向量和所述偏移向量生成合成图像,所述判别器D2用于判别所述合成图像为所述稀疏数据集中的图像的概率;

在训练后的第二内窥镜图像生成网络中去除所述判别器D2,得到目标内窥镜图像生成网络。

第二方面,本发明提供了一种内窥镜图像生成方法,具体包括以下步骤:

获取待转换风格的原始图像;

确定目标内窥镜图像生成网络,所述目标内窥镜图像生成网络用于生成目标风格的内窥镜图像,其中,所述目标内窥镜图像通过第一方面任一项所述的内窥镜图像生成网络训练方法所训练;

将所述原始图像输入所述目标内窥镜图像生成网络中,得到具有所述目标风格的内窥镜图像。

第三方面,本发明提供了内窥镜图像生成网络训练系统,具体包括:

第一内窥镜图像生成网络获取模块,用于获取通过稠密数据集训练的第一内窥镜图像生成网络,所述第一内窥镜图像生成网络包括映射网络M1、生成器G1和判别器D1;

第二内窥镜图像生成网络构建模块,用于构建第二内窥镜图像生成网络,所述第二内窥镜图像生成网络包括偏移量预测网络P以及映射网络M2、生成器G2和判别器D2,其中,所述映射网络M2继承所述映射网络M1的参数,所述生成器G2继承所述生成器G1的参数,所述判别器D2继承所述判别器D1的参数;

第二内窥镜图像生成网络训练模块,用于采用稀疏数据集训练所述第二内窥镜图像生成网络,所述映射网络M2用于生成所述稀疏数据集中的图像的风格向量并输入到所述偏移量预测网络P,所述偏移量预测网络P用于预测所述风格向量的偏移向量,所述生成器G2用于根据所述风格向量和所述偏移向量生成合成图像,所述判别器D2用于判别所述合成图像为所述稀疏数据集中的图像的概率;

目标内窥镜图像生成网络生成模块,用于在训练后的第二内窥镜图像生成网络中去除所述判别器D2,得到目标内窥镜图像生成网络。

第四方面,本发明提供了一种内窥镜图像生成系统,具体包括:

原始图像获取模块,用于获取待转换风格的原始图像;

目标内窥镜图像生成网络确定模块,用于确定目标内窥镜图像生成网络,所述目标内窥镜图像生成网络用于生成目标风格的内窥镜图像,其中,所述目标内窥镜图像通过第一方面任一项所述的内窥镜图像生成网络训练方法所训练;

目标内窥镜图像生成模块,用于将所述原始图像输入所述目标内窥镜图像生成网络中,得到具有所述目标风格的内窥镜图像。

第五方面,本发明提供了一种电子设备,所述电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面任一项所述的内窥镜图像生成网络训练方法,和/或,第二方面所述的内窥镜图像生成方法。

第六方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明第一方面任一项所述的内窥镜图像生成网络训练方法,和/或,第二方面所述的内窥镜图像生成方法。

与现有技术相比,本发明的有益效果是:

本发明实施例先获取通过稠密数据集训练的包括映射网络M1、生成器G1和判别器D1的第一内窥镜图像生成网络,通过继承第一内窥镜图像生成网络的映射网络M1、生成器G1和判别器D1,并设置偏移量预测网络P得到包含偏移量预测网络P以及映射网络M2、生成器G2和判别器D2的第二内窥镜图像生成网络,采用稀疏数据集训练第二内窥镜图像生成网络得到目标内窥镜图像生成网络,其中,偏移量预测网络P用于预测映射网络M2所生成的风格向量的偏移向量,使得生成器G2用于根据风格向量和偏移向量生成合成图像,实现了先通过稠密数据集训练生成器,再通过偏移量预测网络P预测稠密数据集与稀疏数据集之间的风格的偏移向量,以对生成器进行微调得到用于生成具有稀疏数据集风格的图像的目标内窥镜图像生成网络,解决了直接采用稀疏数据训练风格迁移网络导致风格迁移网络所生成的样本数量有限,且稀疏数据集中图像特征是有偏的、容易造成过拟合的问题,训练所得到的目标内窥镜图像生成网络可以生成大量具有目标风格的、高质量的不受稀疏数据集分布限制的内窥镜图像,保证了模型输出的多样性。

进一步地,由于训练生成器G2时只更新少量参数,相比训练整个生成器网络,更加节省算力资源,训练时间更短。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。

图1示出了本发明一个实施例提供的内窥镜图像生成网络训练方法的流程图。

图2示出了一个实施例中第一内窥镜图像生成网络的结构示意图;

图3示出了另一个实施例中第一内窥镜图像生成网络的结构示意图;

图4示出了第二内窥镜图像生成网络的结构示意图;

图5示出了目标内窥镜图像的结构示意图;

图6示出了本发明一个实施例提供的内窥镜图像生成方法的流程图。

图7示出了本发明一个实施例提供的内窥镜图像生成网络训练系统的应用架构图;

图8示出了本发明一个实施例提供的内窥镜图像生成系统的应用架构图;

图9示出了本发明一个实施例提供电子设备的应用架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1示出了本发明实施例提供的内窥镜图像生成网络训练方法的流程图。具体的,本发明实施例的内窥镜图像生成网络训练方法具体包括以下步骤:

步骤S101,获取通过稠密数据集训练的第一内窥镜图像生成网络,第一内窥镜图像生成网络包括映射网络M1、生成器G1和判别器D1。

本实施例的第一内窥镜图像生成网络可以是StyleGAN(Style-GenerativeAdversarial Networks,风格生成对抗网络),StyleGAN为基于样式(也称风格)的生成对抗网络,用于合成与真实图像无法区别的人工样本,如图2所示为本发明实施例的第一内窥镜图像生成网络的一个示意图,该第一内窥镜图像生成网络包括映射网络M1、生成器G1以及判别器D1,其中,映射网络M1的输出层与生成器G1的输入层连接,生成器G1的输出层与判别器D1的输入层连接,映射网络M1在输入随机向量时输出风格向量,并将风格向量输入到生成器G1,生成器G1用于根据所输入的风格向量生成合成图像,并将合成图像和真实图像输入判别器D1,判别器D1用于判别所输入的合成图像为真实图像的概率。

本实施例中稠密数据集可以是指具有一定风格的大量图像,比如,可以是包含具有风格A的一万张以上的内窥镜图像的数据集,内窥镜图像是指对人体消化道器官进行拍摄后获取的图像,即稠密数据集可以是样本充足的数据集,可以通过稠密数据集训练第一内窥镜图像生成网络,使得第一内窥镜图像生成网络中的映射网络M1、生成器G1和判别器D1得到充分训练,能够使得第一内窥镜图像生成网络生成与输入图像无法区分的人工样本;在一个实施例中,第一内窥镜图像生成网络可以通过以下步骤训练:

S1011,获取随机向量z_A,并将随机向量z_A输入第一内窥镜图像生成网络的映射网络M1,以将随机向量z_A映射到隐空间得到风格向量w_A。

在一个示例中,可以生成服从正态分布的随机向量z_A,该随机向量z_A可以是512维的向量,将512维的随机向量z_A输入映射网络M1后,可以得到512维的风格向量w_A,风格向量用于表示输入图像中消化道器官的主要属性,包括但不限于以下特征:

粗糙的——消化道类型,光照,颜色等;

中等的——病灶,絮状物,气泡,蠕动波等;

精细的——血管,褶皱等。

S1012,将风格向量w_A输入到生成器G1中,生成具有风格A的合成图像A1。

本实施例中,生成器G1的输入通道为18个,可以将映射网络M1所输出的风格向量w_A复制18份,得到风格向量w_A1、w_A2、……、w_A18,分别将18份风格向量输入生成器G1,以通过生成器G1生成具有A风格的合成图像A1,其中,A风格可以是训练图像A0所具有的风格,每张训练图像包含上述特征中的至少一种,且还具有各自的成像风格,成像风格包括不同相机、不同相机参数、不同光照等形成的独有的色彩、颗粒度等模式。

S1013,分别将合成图像A1和稠密数据集中的训练图像A0输入判别器D1,得到合成图像A1和训练图像A0为真实图像的概率。

如图3所示,在另一个实施例中,第一内窥镜图像生成网络还包括图像增强模块T,图像增强模块T用于对合成图像A1和训练图像A0进行图像增强处理,得到增强处理后的合成图像A1和训练图像A0,其中,图像增强模块T可以对图像进行随机遮挡、随机平移或随机色偏等增强处理。

在一个实施例中,图像增强模块T对输入的图像进行增强处理时,可以根据以下关系式对所输入的图像进行随机遮挡处理:

其中,Oi,j为随机遮挡后的输出图像,Mi,j为掩膜矩阵,Ii,j为输入图像,i为图像横坐标,j为图像纵坐标,w为输入图像的宽度,h为输入图像的高度,r0和r1为0到1之间的随机数,r为被遮挡区域的宽度与图像的宽度的比值,r取值为0到0.5之间。

进一步的,可以根据以下关系式对所输入的图像进行随机平移处理:

其中,r2和r3分别为水平平移和垂直平移的比例,取值为-0.5到0.5,负数表示向左和向上平移,正数表示向右和向下平移,xi和yi为平移前的像素坐标,x0和y0为平移后的像素坐标,

更进一步的,可以根据以下关系式对所输入的图像进行随机色偏处理:

其中,s为色偏系数,取值0.5-1.5,Ii为输入图像的第i个像素的颜色值,

和普通的数据增强方式不同,这里数据增强模块是可微分的,作为梯度回传的一环节,有利于调整数据的分布,避免小样本学习的过拟合,提高模型的泛化能力。

需要说明的是,图像增强模块T对图像处理时,对随机遮挡、随机平移以及随机色偏处理的先后顺序不作限制。

在另一个实施例中,图像增强模块T还可以是经过训练的图像增强网络,以将图像输入该图像增强网络后得到增强处理后的图像,本实施例通过对合成图像A1和训练图像A0进行增强处理,实现了对合成图像A1和训练图像A0进行正则化再输入判别器D1,可以避免过拟合,提高泛化能力。

在对图像进行增强处理后,可以将增强处理后的合成图像A1和增强处理后的训练图像A0输入判别器D1,得到合成图像A1和训练图像A0为真实图像的概率,本实施例中,判别器D1可以是采用经过ImageNet数据集预训练的视觉Transformer(ViT,VisionTransformer),使得判别器D1能够更好的提取所输入的图像的全局统计信息,具备更强的对抗能力。

S1014,基于概率计算第一内窥镜图像生成网络的生成器损失和判别器损失。

在一个实施例中,当需要调整生成器G1和映射网络M1的网络参数时,期望所生成的合成图像A1尽可能的使得判别器D1判别合成图像A1为真实图像(即训练图像A0)的概率更大,在判别器D1的网络参数不变时,可以通过以下损失函数计算生成器损失loss_G1:

当需要调整判别器D1的网络参数时,期望判别器D1可以识别出合成图像A1和真实图像(训练图像A0),在映射网络M1和生成器G1的网络参数不变时,可以通过以下损失函数计算判别器损失loss_D1:

其中,z_A为所输入随机向量,x_A为训练图像A0,M1()为第一内窥镜图像生成网络中的映射网络,G1()为第一内窥镜图像生成网络中的生成器,T()为图像增强模块,D1()为第一内窥镜图像生成网络中的判别器。

S1015,根据生成器损失和判别器损失调整第一内窥镜图像生成网络的网络参数。

在一个实施例中,可以采用批量梯度下降法、随机梯度下降法等方法调整第一内窥镜图像生成网络中的映射网络M1、生成器D1以及判别器D1的网络参数,直到生成器损失和判别器损失小于预设值或者训练迭达次数达到预设次数为止,即得到训练好的第一内窥镜图像生成网络。

本实施例通过稠密数据集中的大量训练图像A0训练第一内窥镜图像生成网络,使得第一内窥镜图像生成网络中的映射网络M1、生成器G1和判别器D1得到充分训练,生成器G1能够输出高质量的具有风格A的内窥镜图像。

步骤S102,构建第二内窥镜图像生成网络,第二内窥镜图像生成网络包括偏移量预测网络P以及映射网络M2、生成器G2和判别器D2,其中,映射网络M2继承映射网络M1的参数,生成器G2继承生成器G1的参数,判别器D2继承判别器D1的参数。

具体的,本实施例的第二内窥镜图像生成网络在复制第一内窥镜图像生成网络的基础上,增加了偏移量预测网络P,如图4所示,第二内窥镜图像生成网络包括偏移量预测网络P以及映射网络M2、生成器G2、图像增强模块T和判别器D2,其中,映射网络M2继承映射网络M1的参数,生成器G2继承生成器G1的参数,判别器D2继承判别器D1的参数,偏移量预测网络P用于预测映射网络M2所输出的风格向量的偏移向量,并将偏移向量和风格向量相加后输入到生成器G2。

本实施例通过复制训练好的第一内窥镜图像生成网络的方式构建第二内窥镜图像生成网络,使得第二内窥镜图像生成网络中的各个网络继承第一内窥镜图像生成网络的网络参数,一方面,可以提高第二内窥镜图像生成网络的训练效率,另一方面,使得第二内窥镜图像具有生成丰富样本的初始能力。

步骤S103,采用稀疏数据集训练第二内窥镜图像生成网络,映射网络M2用于生成稀疏数据集中的图像的风格向量并输入到偏移量预测网络P,偏移量预测网络P用于预测风格向量的偏移向量,生成器G2用于根据风格向量和偏移向量生成合成图像,判别器D2用于判别合成图像为稀疏数据集中的图像的概率。

本实施例中,稀疏数据集可以是具有一定风格的数量少于200张的图像集,采用稀疏数据集训练第二内窥镜图像生成网络可以包括以下步骤:

步骤S1031,获取随机向量z_B,并将随机向量z_B输入映射网络M2,以将随机向量z_B映射到隐空间得到风格向量w_B。

具体的,可以生成服从正态分布的随机向量z_B输入到映射网络M2,通过映射网络M2将随机向量z_B映射到隐空间得到风格向量w_B。

步骤S1032,复制预设数量i个风格向量w_Bi,并输入到偏移量预测网络P中,得到风格向量w_Bi的偏移向量△wi。

示例性的,由于生成器G2具有18个通道,可以将风格向量w_B复制18份得到风格向量w_B1、w_B2、……、w_Bi,i=18,并将w_B1、w_B2、……、w_Bi输入到偏移量预测网络P中,得到偏移向量△w1、△w2、……、△wi,△wi表示稠密数据集中训练图像A0到稀疏数据集中训练图像B0的风格向量的偏移量,亦即训练图像A0到训练图像B0的风格差异。

步骤S1033,将风格向量w_Bi和偏移向量△wi合并,得到目标风格向量w_Bti。

具体的,如图4所示,映射网络M2输出训练图像B0的风格向量w_B,并复制i份后得到风格向量w_Bi,风格向量w_Bi输入到偏移量预测网络P后得到偏移向量△wi,可以通过加法器对风格向量w_Bi和偏移向量△wi进行相加运算,得到i份目标风格向量w_Bti。

步骤S1034,将目标风格向量w_Bti输入到生成器G2中,得到生成具有风格B的合成图像B1。

具体的,可以将i份目标风格向量w_Bti输入生成器G2的i个输入通道中,并调整生成器G2最后一层网络的网络参数,以使得生成器G2生成具有B风格的合成图像B1。

步骤S1035,分别将合成图像B1和稀疏数据集中的训练图像B0输入判别器D2,得到合成图像B1和训练图像B0为真实图像的概率。

如图4所示,第二内窥镜图像生成网络同样可以包括图像增强模块T,在分别将合成图像B1和训练图像B0输入判别器D2之前,可以将合成图像B1和训练图像B0输入图像增强模块T,以对合成图像B1和训练图像B0进行增强处理,再将增强处理后的合成图像B1和训练图像B0输入判别器G2中,以对合成图像B1和训练图像B0进行正则化处理再输入判别器D2,可以避免由于稀疏数据集中的训练图像B0过少导致过拟合,提高泛化能力。

步骤S1036,基于概率计算第二内窥镜图像生成网络的生成器损失和判别器损失。

在一个实施例中,当需要调整生成器G2、映射网络M2以及偏移量预测网络P的网络参数时,期望所生成的合成图像B1尽可能具有训练图像B0的风格同时保留对应的内容,使得判别器D2判别合成图像B1为真实图像(即训练图像B0)的概率更大,在判别器D2的网络参数不变时,通过以下损失函数计算生成器损失loss_G2:

当需要调整判别器D2的网络参数时,期望判别器D2可以识别出合成图像B1和真实图像(训练图像B0),在映射网络M2、生成器G2以及偏移量预测网络P的网络参数不变时,通过以下损失函数计算判别器损失loss_D2:

其中,z_B为所输入的随机向量,x_B为训练图像B0,M2()为第二内窥镜图像生成网络中的映射网络,G2()为第二内窥镜图像生成网络中的生成器,T()为图像增强模块;D2()第二内窥镜图像生成网络中的判别器,w_B为训练图像B0的风格向量,P()为风格偏移预测网络,w_Bt为训练图像B0的目标风格向量。

这里判别器分别输入合成图像和训练图像,都得到为真实图像的概率。对于判别器,是希望能够正确识别真假的,因此会希望合成图像对应的概率低,训练图像对应的概率高;对于生成器,希望合成图像可以骗过判别器,因此是相反的,合成图像对应的概率高,训练图像对应的概率低,所以他们使用不同的损失函数。

步骤S1037,根据生成器损失和判别器损失调整第二内窥镜图像生成网络的网络参数。

在一个可选实施例中,可以基于生成器损失和判别器损失调整第二内窥镜图中生成器G2的最后一层网络的参数,以及调整判别器D2和偏移量预测网络P的所有参数,优选的,可以将生成器G2的参数的学习率设置为偏移量预测网络P的参数的学习率的0.1倍。

本实施例通过微调生成器G2的最后一层网络的参数,一方面,实现了第二内窥镜图像生成网络从初始时生成风格A的内窥镜图像到生成风格B的内窥镜图像的转变,另一方面,尽可能使得生成器G2保留通过稠密数据集训练的生成器G1的网络参数,使得生成器G2所生成的图像不受稀疏数据集分布的限制,保证了生成器G2所生成的图像的多样性。

步骤S104,在训练后的第二内窥镜图像生成网络中去除判别器D2,得到目标内窥镜图像生成网络。

如图5所示,在第二内窥镜图像生成网络训练结束后,生成器G2生成风格B的内窥镜图像的质量已足够高,可以将第二内窥镜图像生成网络中的判别器G2、图像增强模块T去除,得到目标内窥镜图像生成网络,可以将该目标内窥镜图像生成网络的网络参数和风格B的标识码进行关联存储,在需要生成风格B的内窥镜图像时,可以通过风格B的标识码查找相应的网络参数并加载网络参数后,采用加载网络参数后的内窥镜图像生成网络生成风格B的内窥镜图像。

本发明实施例先获取通过稠密数据集训练第一内窥镜图像生成网络,通过继承第一内窥镜图像生成网络的映射网络、生成器和判别器,并设置偏移量预测网络P得到第二内窥镜图像生成网络,采用稀疏数据集训练第二内窥镜图像生成网络得到目标内窥镜图像生成网络,实现了先通过稠密数据集训练生成器,再通过偏移量预测网络P预测稠密数据集与稀疏数据集之间的偏移向量,以对生成器进行微调,得到用于生成具有稀疏数据集的风格的目标内窥镜图像生成网络,解决了直接采用稀疏的数据训练风格迁移网络导致风格迁移网络所生成的样本数量有限,并且容易造成过拟合的问题,训练所得到的目标内窥镜图像生成网络可以生成大量具有目标风格的、高质量的不受稀疏数据集分布限制的内窥镜图像。

图6示出了本发明实施例提供的内窥镜图像生成方法的流程图。具体的,本发明实施例的内窥镜图像生成方法具体包括以下步骤:

S201,获取待转换风格的原始图像。

待转换风格的原始图像可以是内窥镜采集到的图像,比如可以是不同内窥镜采集到图像,原始图像由于不同内窥镜之间的器件差异、参数设置不同、内窥镜工作时所在人体消化道的差异等因素,不同原始图像具有不同的风格,为了提高分类模型的准确度,需要将原始图像转换为统一风格的内窥镜图像,其中,分类模型用于对原始图像分类的模型。

S202,确定目标内窥镜图像生成网络,目标内窥镜图像生成网络用于生成目标风格的内窥镜图像。

在一个实施例中,不同内窥镜图像生成网络可以用于生成不同风格的内窥镜图像,可以通过目标风格的标识查找匹配的目标内窥镜图像生成网络的网络参数,并加载网络参数,其中,目标内窥镜图像通过本发明实施例提供的内窥镜图像生成网络训练方法所训练。

S203,将原始图像输入目标内窥镜图像生成网络中,得到具有目标风格的内窥镜图像。

将原始图像输入目标内窥镜图像生成网络后,生成的内窥镜图像具有目标风格以及保留原始图像的内容。

本实施例的目标内窥镜图像生成网络先通过稠密数据集训练后设置偏移量预测网络,再采用稀疏数据集进行训练得到目标内窥镜图像生成网络,其中,偏移量预测网络用于预测映射网络所生成的风格向量的偏移向量,使得生成器用于根据风格向量和偏移向量生成合成图像,目标内窥镜图像生成网络实现了生成稠密数据集的风格图像到生成稀疏数据集的风格图像的转换,解决了直接采用稀疏的数据训练风格迁移网络导致风格迁移网络所生成的样本数量有限,并且容易造成过拟合的问题,通过该目标内窥镜图像生成网络可以生成高质量的具有目标风格且保留原始图像内容的内窥镜图像。

图7示出了本发明实施例提供的内窥镜图像生成网络训练系统的应用架构图,本实施例的内窥镜图像生成网络训练系统包括:

第一内窥镜图像生成网络获取模块301,用于获取通过稠密数据集训练的第一内窥镜图像生成网络,第一内窥镜图像生成网络包括映射网络M1、生成器G1和判别器D1;

第二内窥镜图像生成网络构建模块302,用于构建第二内窥镜图像生成网络,第二内窥镜图像生成网络包括偏移量预测网络P以及映射网络M2、生成器G2和判别器D2,其中,映射网络M2继承映射网络M1的参数,生成器G2继承生成器G1的参数,判别器D2继承判别器D1的参数;

第二内窥镜图像生成网络训练模块303,用于采用稀疏数据集训练第二内窥镜图像生成网络,映射网络M2用于生成稀疏数据集中的图像的风格向量并输入到偏移量预测网络P,偏移量预测网络P用于预测风格向量的偏移向量,生成器G2用于根据风格向量和偏移向量生成合成图像,判别器D2用于判别合成图像为稀疏数据集中的图像的概率;

目标内窥镜图像生成网络生成模块304,用于在训练后的第二内窥镜图像生成网络中去除判别器D2,得到目标内窥镜图像生成网络。

在一个实施例中,第一内窥镜图像生成网络通过以下模块训练:

映射网络M1输入模块,用于获取随机向量z_A,并将随机向量z_A输入第一内窥镜图像生成网络的映射网络M1,以将随机向量z_A映射到隐空间得到风格向量w_A;

生成器G1输入模块,用于将风格向量w_A输入到生成器G1中,得到生成具有风格A的合成图像A1;

判别器D1输入模块,用于分别将合成图像A1和稠密数据集中的训练图像A0输入判别器D1,得到合成图像A1和训练图像A0为真实图像的概率;

第一内窥镜图像生成网络损失计算模块,用于基于概率计算第一内窥镜图像生成网络的生成器损失和判别器损失;

第一内窥镜图像生成网络参数调整模块,用于根据生成器损失和判别器损失调整第一内窥镜图像生成网络的网络参数,并返回映射网络M1输入模块,直至所述生成器损失和所述判别器损失满足预设条件或训练次数达到预设次数,得到训练后的第一内窥镜图像生成网络。在一个实施例中,第一内窥镜图像生成网络还包括图像增强模块T,还包括:

图像增强模块输入模块,用于将合成图像A1和训练图像A0输入图像增强模块T,得到增强处理后的合成图像A1和训练图像A0;

判别器D1输入模块包括:

增强图像输入单元,用于分别将增强处理后的合成图像A1和增强处理后的训练图像A0输入判别器D1,得到合成图像A1和训练图像A0为真实图像的概率。

在一个实施例中,图像增强模块通过以下单元对图像进行增强处理:

遮挡处理单元,用于根据以下关系式对所输入的图像进行随机遮挡处理:

其中,Oi,j为随机遮挡后的输出图像,Mi,j为掩膜矩阵,Ii,j为输入图像,i为图像横坐标,j为图像纵坐标,w为输入图像的宽度,h为输入图像的高度,r0和r1为0到1之间的随机数,r为被遮挡区域的宽度与图像的宽度的比值,r取值为0到0.5之间;

平移处理单元,用于根据以下关系式对所输入的图像进行随机平移处理:

其中,r2和r3分别为水平平移和垂直平移的比例,取值为-0.5到0.5,负数表示向左和向上平移,正数表示向右和向下平移,xi和yi为平移前的像素坐标,x0和y0为平移后的像素坐标,

色偏处理单元,用于根据以下关系式对所输入的图像进行随机色偏处理:

其中,s为色偏系数,取值0.5-1.5,Ii为输入图像的第i个像素的颜色值,

在一个实施例中,第一内窥镜图像生成网络损失计算模块包括:

第一内窥镜图像生成网络生成器损失计算单元,用于通过以下损失函数计算生成器损失loss_G1:

第一内窥镜图像生成网络判别器损失计算单元,用于通过以下损失函数计算判别器损失loss_D1:

其中,z_A为所输入的随机向量,x_A为训练图像A0,M1()为第一内窥镜图像生成网络中的映射网络,G1()为第一内窥镜图像生成网络中的生成器,T()为图像增强模块,D1()为第一内窥镜图像生成网络中的判别器。

在一个实施例中,第二内窥镜图像生成网络包括图像增强模块,第二内窥镜图像生成网络训练模块303包括:

映射网络M2输入单元,用于获取随机向量z_B,并将随机向量z_B输入映射网络M2,以将随机向量z_B映射到隐空间得到风格向量w_B;

偏移量预测网络输入单元,用于复制预设数量i个风格向量w_Bi,并输入到偏移量预测网络P中,得到风格向量w_Bi的偏移向量△wi;

向量合并单元,用于将风格向量w_Bi和偏移向量△wi合并,得到目标风格向量w_Bti;

生成器G2输入单元,用于将目标风格向量w_Bti输入到生成器G2中,得到生成具有风格B的合成图像B1;

判别器D2输入单元,用于分别将合成图像B1和稀疏数据集中的训练图像B0输入判别器D2,得到合成图像B1和训练图像B0为真实图像的概率;

第二内窥镜图像生成网络损失计算单元,用于基于概率计算第二内窥镜图像生成网络的生成器损失和判别器损失;

第二内窥镜图像生成网络调整单元,用于根据生成器损失和判别器损失调整第二内窥镜图像生成网络的网络参数。

在一个实施例中,第二内窥镜图像生成网络损失计算单元包括:

生成器损失计算子单元,用于通过以下损失函数计算生成器损失loss_G2:

判别器损失计算子单元,用于通过以下损失函数计算判别器损失loss_D2:

其中,z_B为所输入的随机向量,x_B为训练图像B0,M2()为第二内窥镜图像生成网络中的映射网络,G2()为第二内窥镜图像生成网络中的生成器,T()为图像增强模块;D2()第二内窥镜图像生成网络中的判别器,w_B为训练图像B0的风格向量,P()为风格偏移预测网络,w_Bt为训练图像B0的目标风格向量。

在一个实施例中,第二内窥镜图像生成网络调整单元包括:

网络参数调整子单元,用于基于生成器损失和判别器损失调整第二内窥镜图中生成器G2的最后一层网络的参数,以及调整判别器D2和偏移量预测网络P的所有参数。

本发明实施例所提供的内窥镜图像生成网络训练系统可执行本发明实施例所提供的内窥镜图像生成网络训练方法,具备执行方法相应的功能模块和有益效果。

图8示出了本发明实施例提供的内窥镜图像生成系统的应用架构图,本实施例的内窥镜图像生成系统包括:

原始图像获取模块401,用于获取待转换风格的原始图像;

目标内窥镜图像生成网络确定模块402,用于确定目标内窥镜图像生成网络,目标内窥镜图像生成网络用于生成目标风格的内窥镜图像,其中,目标内窥镜图像通过本发明实施例提供的内窥镜图像生成网络训练方法所训练;

目标内窥镜图像生成模块403,用于将原始图像输入目标内窥镜图像生成网络中,得到具有目标风格的内窥镜图像。

本发明实施例所提供的内窥镜图像生成系统可执行本发明实施例所提供的内窥镜图像生成方法,具备执行方法相应的功能模块和有益效果。

图9示出了可以用来实施本发明的实施例的电子设备500的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图9所示,电子设备500包括至少一个处理器501,以及与至少一个处理器501通信连接的存储器,如只读存储器(ROM)502、随机访问存储器(RAM)503等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器501可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器501可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器501执行上文所描述的各个方法和处理,例如内窥镜图像生成网络训练方法,和/或,内窥镜图像生成方法。

在一些实施例中,内窥镜图像生成网络训练方法,和/或,内窥镜图像生成方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由处理器501执行时,可以执行上文描述的内窥镜图像生成网络训练方法,和/或,内窥镜图像生成方法的一个或多个步骤。备选地,在其他实施例中,处理器501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行内窥镜图像生成网络训练方法,和/或,内窥镜图像生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术分类

06120116541694