admin管理员组

文章数量:1026989

DA

DA-GAN:基于深度注意力机制的生成对抗网络的实例级图像翻译

摘要:

无监督的图像转换,目的是转换两组独立的图像集风格,在没有成对数据集的情况下找到两者的正确关联是很具有挑战性的。现存的工作大部分是基于生成对抗网络,它可以令转换后的图像数据分布和目标数据分布区分不出。然而,这种数据集层次的约束是无法学习到实例级别的对应关系。(例如:在目标配置任务中的语义对齐部分)。这种限制通常会导致假阳性(如几何或者语义修改),并进一步导致模式崩溃的问题。为了解决上述问题,我们针对实例级别的图像翻译提出了一种新颖的框架,深度注意力机制的生成对抗网络(DA-GAN),这个设计能够分解图像翻译任务,将两个数据集水平上的翻译转换成高维隐空间的实例级水平。特别的,我们连接了深度注意力编码器,这样的话实例级的对应关系就能够通过学习到的实例对被发现。因此,这种约束既能在数据及水平上又可以在实例级水平上。和其他目前的方法相比,我们的方法具有优越性和广泛的应用性。例如,姿态变换,数据增强等。

1.介绍

机器能否具有人的能力去关联不同的图像集,并且做相互转换?这个问题能够被列为图像翻译问题。换句话说,学习一个映射函数,通过找到底层对应关系,例如相似的语义,从一个图像集到另一个进行转换但底层信息不变。近些年的工作在有监督问题上已经取得很大的进步,但主要是在成对样本上。然而,成对样本的获取是很难的并且很昂贵的。因此,科研工作转向发展那些非成对数据的无监督学习方法。在无监督学习任务中,我们只需要获得两个独立的样本集。成对关系的缺失使我们更难找到正确的对应关系,因此它也更具有挑战性。现存的工作主要是基于生成对抗网络,它可以使生成的样本与原样本无法分辨出。然而我们指出数据本身是结构化的。这样的数据集级别的约束阻碍它们寻找有意义的实例级的通信。通过实例级的对应,我们参考更高层次的包含目标身份等信息。这些可辨认的目标能够受任务驱动自动调整。如图1所示,描述文本里的文字对应着鸟的照片里面相符合的部分和属性。因此,错误经常发生因为现存工作中实例级别的对应关系缺失。例如,在对象配置任务中,结果通常展示颜色和纹理的变化,然而几何变化失败。在文本转图像的合成系统中,颗粒度的细节经常丢失。

受这个重要问题的影响,产生了一个疑问:我们能否找到一个算法它能够在无监督配置下实例级别和数据集级别上找到一个有意义的对应关系。为了解决这个问题,本文中,我们介绍一个基于生成对抗网络致力于无监督学习的域翻译方法DA-GAN,它已经在翻译任务取得成功,取得了视觉上吸引人的成果。

第二,如何进一步加强数据集级别的约束,这样就可以减轻模式崩溃的问题。在实际中,所有输入样本都将映射成相同的样本,而优化没有取得进展。为了解决这个问题问题是,我们引入了一种多层对抗的训练过程去鼓励不同的模式以实现尽可能公平的概率分布在训练过程中。所以说,提供一个有效的方法去鼓励映射函数能够包含目标域中的所有模式,在最优化过程取得进步。我们的主要贡献可以总结为以下三个方面:

1.我们把任务分解成了实例级别的图像翻译,这样的话,通过提出混合损失我们的约束不仅可以用在实例级别也可以在数据集级别上。

2.就我们所知,我们是第一个把注意力机制应用在生成对抗网络上的。

3.我们介绍了一种新颖的网络框架DA-GAN,它可以产生视觉上吸引人的结果并且在很多任务上都有应用性。

图1:(a)文本到图像的生成。 (b)对象配置。我们可以观察到StackGAN中两者语义特征上实例级别的对应关系的缺失(红色标注框)和CycleGAN中几何人为因素的影响。我们的方法可以成功产生正确的对应关系(黄色标注框)我们采用的是实例级别的翻译。

2相关工作

生成对抗网络

自从生成对抗网络(GANs)被Goodfellow等人提出,研究人员对其进行了有力地研究。已经提出了一些稳定的训练技术,也生成了一些引人注目的结果。鉴于这些生成模型,基于生成对抗网络很多方法取得了很大的发展。大多数方法都使用了条件变量,例如属性或类别标签。也有很多工作是基于图像生成图像的。例如图像编辑,超分辨率。其他的方法使用来自不同域的条件特征做图像生成。Reed等人用编码的文本描述作为条件信息,生成64*64分辨率的符合文本描述的图像。他们的后续工作可以产生128*128分辨率的图像通过在对象部分位置上使用附加注释信息。在StackGAN 论文中,两个不同阶段的GANs被用来产生高分辨率的图像。比较StackGAN,我们提出的DA-GAN可以产生256*256分辨率的图像。更重要的是,我们通过未配对的数据训练网络,并达到视觉上具有吸引力的结果。

图像翻译

“Pix2pix”这篇论文使用附加条件的生成对抗网络去学习一个从输入图像到输出图像的映射。相似的想法被应用到了很多工作当中,例如从简笔画或者属性或者语义布局到图像的转换。最近,有人提出了这个域转换网络(DTN)并取得了结果在小分辨率的人脸和数字图像翻译上。

CoGAN和跨模态场景网络用一种权重分享的策略来学习一种跨模态的共同表示。另一条并行工作鼓励输入和输出共享某些内容特性尽管它们的风格可能不同。它们也用敌对网络,带有附加项来执行输出,要接近于预先定义的度量空间中的输入,例如类别标签空间、图像像素空间和图像特性空间。在CycleGAN中,提出了一个循环一致性损失来执行一对一的映射。

我们注意到现在的工作对于未配对图像翻译工作都引入了循环一致性约束。神经类型转换是另一种执行图像-图像转换的方式,通过将一种样式的图像内容与另一种基于预先训练的深层特征的图像结合起来做图像合成。不同于样式转换,域翻译的目的是学习两个图像集合之间的映射,而不是在两个具体的图像之间做映射。

3.方法

我们旨在学习一个映射函数F,它可以将来自于源域S的样本:映射到目标域:,表示成F:S->T。正如图2所示,我们提出的DA-GAN包含四个模块:深度注意力编码器(DAE),生成器(G)和两个判别器(D1,D2)。这个映射是由源域和目标域管理。来自源域翻译后的样本为S’,来自目标域翻译后的样本为T’。

图2:用一个姿态变化的例子来说明DA-GAN的原理。给定两张鸟的图像,分别来自源域S和目标域T,姿态变化的目的是将源鸟S的姿态转化为目标鸟T的姿态,但是仍然保持着S的身份,前向过程如图(a)所示,两个输入图像被输入到DAE中,DAE是用来将图像映射到隐空间中(虚线框部分)。生成器接受这些来自隐空间的高维表示DAE(s)和DAE(t)去生成翻译后的样本。例如:,,提出的的DAE的细节信息如(b)(用橙色方块标记),给定一个图像X,一个定位函数将首先从X的特征图预测N个感兴趣区域。然后,在X上生成N个注意力掩码,以便产生N个注意区域,即。最后,每个区域的特征包括实例级表示。通过在S和T上进行相同的操作,实例级对应关系将会在隐空间里被发现。我们利用实例(instance)级和数据集(set)级上的约束进行优化,如图(c)。所有的注释都列在(d)。

3.1深度注意力编码器

将样本投射到隐空间中,我们结合注意力机制联合学习一个深度注意力编码器(DAE)。给定一个输入图像的特征映射E(X)(E是一个编码器,可以以任何形式被使用),我们首先采用定位函数floc()来预测一组注意力区域的位置,公式如下:

                                       (1)

表示区域的中心坐标位置,N表示预测区域的总数。一旦一个注意力区域被关注,我们产生一个注意力掩膜M­I。我们用w和h表示输入图像X的半宽和半长。之后我们应用区域参数:

                 ,               (2)

裁剪操作可以通过在X上对位相乘来实现,例如Ri=XMi,这部分可以产生注意力区域:,隐空间里的X的实例级别的特征表示可以定义为如下:

                                       (3)

为了遵从反向传递算法,这里我们采用了注意力掩膜:

这里是sigmoid函数。理论上,K尽量大,就成了阶梯函数,是一个两维的矩形函数。为了学习到这些注意力区域,我们添加了一个几何矩形。Y是图像X的标签,d是数据空间中相似度度量。实际中,有很多种距离优化方式d,例如,VGG分类器。

3.2实例级别的图像翻译

随着DAE模块将s和t映射到隐空间,我们可以约束它们让其在隐空间相互匹配。因此,我们对源域和目标域应用了一个一致性损失:

                        (5)

另一方面,我们也考虑了来自目标域的样本,进一步强制映射为确定性的。理论上,如果映射是双射(一对一对应的),从一个集合到它本身的操作对称群。映射可以被认为是一个对本身操作的排列。因此,我们利用一个对称损失去强制F能够将样本从T映射回本身,例如。损失函数定义为:

                        (6)

这也可以被认为是一种应用于从T采样的样本的自动编码器类型的损失,d是一种距离测量。从理论上讲,d有很多选项,例如,距离,或通过辨别器学习的特征的距离,或者通过其他网络,比如VGG分类器。

3.3数据集级别的图像翻译

直接使用鉴别器D1来区分翻译后的样本是否来自目标域的真实样本,生成器则被迫使生成无法被区分是否来自目标域的样本,公式如下:

       (7)

尽管还有另一个问题——模式崩溃。在理论,大的模式通常有更高的机会吸引鉴别器的梯度更新,生成器会因为丢失模式而不会受到惩罚。在实践中,所有的输入样本映射到相同的输出,这样的优化不会取得进步。这个问题要求对生成器丢失模式添加一个惩罚项。

正如我们前面所提到的,可以考虑到DAE.G可以考虑成的自动编码器。然后对每一个T,F(t)会产生非常密切的定位模式。因此我们添加了另一个判别器D2,来自目标域的样本以执行重建的t’区分不出t。因此增加了一个额外的生成器优化目标。给出了目标函数:

       (8)

这种多模态对抗性的训练过程对惩罚模式丢失是至关重要的。它鼓励F(t)向一种附近的数据生成分布模式移动。这样,我们就能在不同的模式下得到公平概率的质量分布。

图3:10类鸟的可视化分布。每一种颜色表示一种鸟类别。黑色×表示生成的样本分布。(a):DA-GAN生成的数据分布。(b)StackGAN生成的数据分布。

图4:在鸟和人脸图上的由DAE预测的感兴趣位置。

3.4完整目标函数和实现细节

       我们的完整的目标函数如下:

         (9)

是一致性损失和对称损失的权重,我们旨在解决如下公式:

                             (10)

我们应用包含残差模块的生成器。对于生成器来说,实例级的特征表示在通道维度上连接之后被送入到几个残差模块。最后,一系列的上采样层被用来生成一个翻译后的图像。对于判别器,生成的图像通过一系列下采样模块。最后,一个一个节点的连接层来产生决策分数。上采样模块由邻近上采样组成。批处理标准化和ReLU激活函数在每个卷积层之后都被应用除了最后一个卷积。

4.实验

在本节中,我们在各种各样的任务中验证了该方法的有效性,包括域适应,文本到图像合成,对象配置,为数据增强而做的姿态转换,人脸到动物和骨架合成,到卡通人物合成。我们在几个数据集上进行这些实验,包括MNIST,CUB-200-2011,SVHN,FaceScrub和AnimePlanet等数据集。

4.1基准

l  GAN-INT-CLS方法基于文本描述成功合成了64*64的花鸟图像。

l  GAWWN是Reed等人的后续工作,能够生成128*128分辨率的图像。

l  StackGAN是目前从文本到256*256高清图像合成的最新的工作。

l  SA是从子空间学习域适应的最早的工作。

l  DANN是受深度特征学习的另外一个域适应工作

l  UNIT是最近的无监督学习基于共享隐空间和循环损失的图像到图像的翻译工作。

l  DTN将混合损失函数应用到了无监督域翻译领域中。

l  CycleGAN是应用循环损失的图像到图像的翻译工作。

l  VAT是一个源于类型转换的新技术,虽然它和寻找密集对应不同

4.2 DA-GAN的内容分析

我们在MNIST数据集上训练了一个分类器并使用它在翻译的样本中进行定量评估。结果如表1所示。如我们所见,DA-GAN接近很高的准确度在翻译的样本集上。虽然结果是没有了DAE的非成对样本。我们微调了VGG分类器,CUB-200-2011数据集上,用它来测试我们从文本到图像的生成,准确性下降到60.6%。我们还展示了一些有DAE的结果在图4中。可以看出f是可以参与语义区域。例如,鸟头,翅膀,等等,人类的眼睛,嘴巴,等等。

为了验证所提议的DA-GAN在减轻模式崩溃的问题上是有效的。我们在CUB-200-2011的一个子数据集上进行一个娱乐实验。我们选择了10种鸟类。为了模拟大的模式,我们选择了一些类似的类(例如,有些类是属于同一类别)。图3中的密集区域显示有相似外观的鸟类。我们通过输入文本描述,大约生成600张图像,生成数据的分布如图所示3(b)所示。和StackGAN相比,DA-GAN产生的样本种类更多,有更大的覆盖范围。

4.3域适应

我们将提到的这个框架应用到域适应领域,即适应一个在一个领域(源域)中的有标签样本训练好的分类器去分类另一个新领域(目标域)中未标记的样本点。为了实现这个目的,我们将图像从SHVN转换为MNIST域。这个实验的结果在表1中。我们发现我们的方法对于SVHN到MNIST的翻译任务达到了94.6%的准确率,也就是说好于目前最好的工作90.53%。

图5:文本到图像的合成结果样本

表1:(a):DA-GAN的内容评估。(b)不同工作的域适应性能对比。(c)文本到图像合成的不同方法的对比

4.4文本到图像的合成

我们文本到图像的合成的任务中进行定性和定量的评估。比较几个在CUB-200-2011数据集上目前最好的工作,结果如图6所示。定量评估通过两个指标:inception得分和模式丢失的数量。inception的分数定义为:

x表示一个生成的样本,y是由inception模型预测的标签。在我们实验中,我们微调了VGG19模型,虽然inception得分被认为是一个较好的样本评估方法。但是,inception有时对于缺失的模式无法较好的评估。为了更好的验证,我们采用另一个评估方法—模式缺失,它表示一个分类器报告的缺失的模式数。例如从来没有生成的模式数量大小。如图表1(c)所示,就inception而言,DA-GAN实现了较好的改进,缺失的模式数量大为减少,它再次证明了我们提出的框架。一些视觉上的对比图如图5所示。

4.5目标变形

我们采用CUB-200-2011数据集的几个子类来进行对象配置实验。例如将一个鸟转换成目标品种的鸟。一些结果如图6所示。第一行是每个品种的真实样本图像,我们的目标是将鸟(a)转化为下面6个品种。在这些选定的目标鸟类中,(b)是在空间和几何属性上最相似的一个。(c)选择有相似的空间属性但和(a)有不同的几何属性。(d,e)有不同的空间和几何属性。我们可以看到,没有类似的语义结构,由于对应匹配方法的局限性,VAT在翻译鸟类方面失败了。

CycleGAN对空间的变化是鲁棒性的,但在改变鸟类几何形状时失败了。与DA-GAN的研究结果相比,两者都显示了缺失纹理信息的模糊的图像细节。我们可以看到,DA-GAN在尽管有很大的空间和几何差异的图像属性时,也可以成功翻译。它有力地证明了我们的主张,即实例级对应关系在翻译工作时非常有用的。我们也进行了一些定量的实验在表2中。由DA-GAN产生的图像在分类精度和真实度方面有具有优越性。

图6:对象配置结果样本。从上到下依次是真实样本,VAT产生的样本,CycleGAN和DA-GAN产生的样本。

图7:姿态变换的结果样本。每一组图像第一列是源鸟s,第二列是目标鸟t,第三列是由DA-GAN生成的鸟。

4.6更多的应用

我们进一步做了姿态变形的实验,在改变几何形状时被认为是更难的。结果如图12所示。我们可以看到,我们成功地改变了鸟的姿态,尽管在集合变化上还存在很大的鸿沟。在实际使用情况来看,我们也可以利用这些变形的样本进行数据扩充。

对于每个图像,我们随机选择了10个目标的相关参考。每个图像都选择最好的那个结果被用于增强数据,产生了大约10K个鸟类的图像。然后我们应用一个预先训练的VGG模型做数据增强,在分类任务上显示了细微的改进。结果如表3所示。我们采用DA-GAN将人的脸转换成动漫脸,同时还保留着人类的身份,我们还比较了我们的结果和VAT的结果。我们可以看到,VAT无法解决我们正在处理的任务。生成的图像不属于目标域,即动画的脸。更严重的是,当两个查询的脸是有不同的拍摄角度产生时,由于不正确的语义对应关系,VAT将会产生人为干扰。更多的实验在骨架到卡通人物翻译任务中。

表2:目标配置的定量评估

5总结

在这篇论文中,针对图像翻译任务我们提出了一个新的无监督的框架。我们的直觉是将从两个数据集级别的图像翻译任务分解为隐空间里的实例级别的任务。实例级对应可以通过将注意力机制集成到生成对抗网络中获得。扩展的定量和定性结果验证了DA-GAN可以显著改善图像到图像翻译任务的性能。在更广泛的应用上也有很大的优势,并成功地生成视觉上吸引人的图像结果。我们发现,一些失败案例是由不正确的注意力结果引起的。这是因为由弱监督注意力机制学习到的实例有时会展现出不足。为了处理这一任务,我们会寻找更加鲁棒性和有效的算法。


DA

DA-GAN:基于深度注意力机制的生成对抗网络的实例级图像翻译

摘要:

无监督的图像转换,目的是转换两组独立的图像集风格,在没有成对数据集的情况下找到两者的正确关联是很具有挑战性的。现存的工作大部分是基于生成对抗网络,它可以令转换后的图像数据分布和目标数据分布区分不出。然而,这种数据集层次的约束是无法学习到实例级别的对应关系。(例如:在目标配置任务中的语义对齐部分)。这种限制通常会导致假阳性(如几何或者语义修改),并进一步导致模式崩溃的问题。为了解决上述问题,我们针对实例级别的图像翻译提出了一种新颖的框架,深度注意力机制的生成对抗网络(DA-GAN),这个设计能够分解图像翻译任务,将两个数据集水平上的翻译转换成高维隐空间的实例级水平。特别的,我们连接了深度注意力编码器,这样的话实例级的对应关系就能够通过学习到的实例对被发现。因此,这种约束既能在数据及水平上又可以在实例级水平上。和其他目前的方法相比,我们的方法具有优越性和广泛的应用性。例如,姿态变换,数据增强等。

1.介绍

机器能否具有人的能力去关联不同的图像集,并且做相互转换?这个问题能够被列为图像翻译问题。换句话说,学习一个映射函数,通过找到底层对应关系,例如相似的语义,从一个图像集到另一个进行转换但底层信息不变。近些年的工作在有监督问题上已经取得很大的进步,但主要是在成对样本上。然而,成对样本的获取是很难的并且很昂贵的。因此,科研工作转向发展那些非成对数据的无监督学习方法。在无监督学习任务中,我们只需要获得两个独立的样本集。成对关系的缺失使我们更难找到正确的对应关系,因此它也更具有挑战性。现存的工作主要是基于生成对抗网络,它可以使生成的样本与原样本无法分辨出。然而我们指出数据本身是结构化的。这样的数据集级别的约束阻碍它们寻找有意义的实例级的通信。通过实例级的对应,我们参考更高层次的包含目标身份等信息。这些可辨认的目标能够受任务驱动自动调整。如图1所示,描述文本里的文字对应着鸟的照片里面相符合的部分和属性。因此,错误经常发生因为现存工作中实例级别的对应关系缺失。例如,在对象配置任务中,结果通常展示颜色和纹理的变化,然而几何变化失败。在文本转图像的合成系统中,颗粒度的细节经常丢失。

受这个重要问题的影响,产生了一个疑问:我们能否找到一个算法它能够在无监督配置下实例级别和数据集级别上找到一个有意义的对应关系。为了解决这个问题,本文中,我们介绍一个基于生成对抗网络致力于无监督学习的域翻译方法DA-GAN,它已经在翻译任务取得成功,取得了视觉上吸引人的成果。

第二,如何进一步加强数据集级别的约束,这样就可以减轻模式崩溃的问题。在实际中,所有输入样本都将映射成相同的样本,而优化没有取得进展。为了解决这个问题问题是,我们引入了一种多层对抗的训练过程去鼓励不同的模式以实现尽可能公平的概率分布在训练过程中。所以说,提供一个有效的方法去鼓励映射函数能够包含目标域中的所有模式,在最优化过程取得进步。我们的主要贡献可以总结为以下三个方面:

1.我们把任务分解成了实例级别的图像翻译,这样的话,通过提出混合损失我们的约束不仅可以用在实例级别也可以在数据集级别上。

2.就我们所知,我们是第一个把注意力机制应用在生成对抗网络上的。

3.我们介绍了一种新颖的网络框架DA-GAN,它可以产生视觉上吸引人的结果并且在很多任务上都有应用性。

图1:(a)文本到图像的生成。 (b)对象配置。我们可以观察到StackGAN中两者语义特征上实例级别的对应关系的缺失(红色标注框)和CycleGAN中几何人为因素的影响。我们的方法可以成功产生正确的对应关系(黄色标注框)我们采用的是实例级别的翻译。

2相关工作

生成对抗网络

自从生成对抗网络(GANs)被Goodfellow等人提出,研究人员对其进行了有力地研究。已经提出了一些稳定的训练技术,也生成了一些引人注目的结果。鉴于这些生成模型,基于生成对抗网络很多方法取得了很大的发展。大多数方法都使用了条件变量,例如属性或类别标签。也有很多工作是基于图像生成图像的。例如图像编辑,超分辨率。其他的方法使用来自不同域的条件特征做图像生成。Reed等人用编码的文本描述作为条件信息,生成64*64分辨率的符合文本描述的图像。他们的后续工作可以产生128*128分辨率的图像通过在对象部分位置上使用附加注释信息。在StackGAN 论文中,两个不同阶段的GANs被用来产生高分辨率的图像。比较StackGAN,我们提出的DA-GAN可以产生256*256分辨率的图像。更重要的是,我们通过未配对的数据训练网络,并达到视觉上具有吸引力的结果。

图像翻译

“Pix2pix”这篇论文使用附加条件的生成对抗网络去学习一个从输入图像到输出图像的映射。相似的想法被应用到了很多工作当中,例如从简笔画或者属性或者语义布局到图像的转换。最近,有人提出了这个域转换网络(DTN)并取得了结果在小分辨率的人脸和数字图像翻译上。

CoGAN和跨模态场景网络用一种权重分享的策略来学习一种跨模态的共同表示。另一条并行工作鼓励输入和输出共享某些内容特性尽管它们的风格可能不同。它们也用敌对网络,带有附加项来执行输出,要接近于预先定义的度量空间中的输入,例如类别标签空间、图像像素空间和图像特性空间。在CycleGAN中,提出了一个循环一致性损失来执行一对一的映射。

我们注意到现在的工作对于未配对图像翻译工作都引入了循环一致性约束。神经类型转换是另一种执行图像-图像转换的方式,通过将一种样式的图像内容与另一种基于预先训练的深层特征的图像结合起来做图像合成。不同于样式转换,域翻译的目的是学习两个图像集合之间的映射,而不是在两个具体的图像之间做映射。

3.方法

我们旨在学习一个映射函数F,它可以将来自于源域S的样本:映射到目标域:,表示成F:S->T。正如图2所示,我们提出的DA-GAN包含四个模块:深度注意力编码器(DAE),生成器(G)和两个判别器(D1,D2)。这个映射是由源域和目标域管理。来自源域翻译后的样本为S’,来自目标域翻译后的样本为T’。

图2:用一个姿态变化的例子来说明DA-GAN的原理。给定两张鸟的图像,分别来自源域S和目标域T,姿态变化的目的是将源鸟S的姿态转化为目标鸟T的姿态,但是仍然保持着S的身份,前向过程如图(a)所示,两个输入图像被输入到DAE中,DAE是用来将图像映射到隐空间中(虚线框部分)。生成器接受这些来自隐空间的高维表示DAE(s)和DAE(t)去生成翻译后的样本。例如:,,提出的的DAE的细节信息如(b)(用橙色方块标记),给定一个图像X,一个定位函数将首先从X的特征图预测N个感兴趣区域。然后,在X上生成N个注意力掩码,以便产生N个注意区域,即。最后,每个区域的特征包括实例级表示。通过在S和T上进行相同的操作,实例级对应关系将会在隐空间里被发现。我们利用实例(instance)级和数据集(set)级上的约束进行优化,如图(c)。所有的注释都列在(d)。

3.1深度注意力编码器

将样本投射到隐空间中,我们结合注意力机制联合学习一个深度注意力编码器(DAE)。给定一个输入图像的特征映射E(X)(E是一个编码器,可以以任何形式被使用),我们首先采用定位函数floc()来预测一组注意力区域的位置,公式如下:

                                       (1)

表示区域的中心坐标位置,N表示预测区域的总数。一旦一个注意力区域被关注,我们产生一个注意力掩膜M­I。我们用w和h表示输入图像X的半宽和半长。之后我们应用区域参数:

                 ,               (2)

裁剪操作可以通过在X上对位相乘来实现,例如Ri=XMi,这部分可以产生注意力区域:,隐空间里的X的实例级别的特征表示可以定义为如下:

                                       (3)

为了遵从反向传递算法,这里我们采用了注意力掩膜:

这里是sigmoid函数。理论上,K尽量大,就成了阶梯函数,是一个两维的矩形函数。为了学习到这些注意力区域,我们添加了一个几何矩形。Y是图像X的标签,d是数据空间中相似度度量。实际中,有很多种距离优化方式d,例如,VGG分类器。

3.2实例级别的图像翻译

随着DAE模块将s和t映射到隐空间,我们可以约束它们让其在隐空间相互匹配。因此,我们对源域和目标域应用了一个一致性损失:

                        (5)

另一方面,我们也考虑了来自目标域的样本,进一步强制映射为确定性的。理论上,如果映射是双射(一对一对应的),从一个集合到它本身的操作对称群。映射可以被认为是一个对本身操作的排列。因此,我们利用一个对称损失去强制F能够将样本从T映射回本身,例如。损失函数定义为:

                        (6)

这也可以被认为是一种应用于从T采样的样本的自动编码器类型的损失,d是一种距离测量。从理论上讲,d有很多选项,例如,距离,或通过辨别器学习的特征的距离,或者通过其他网络,比如VGG分类器。

3.3数据集级别的图像翻译

直接使用鉴别器D1来区分翻译后的样本是否来自目标域的真实样本,生成器则被迫使生成无法被区分是否来自目标域的样本,公式如下:

       (7)

尽管还有另一个问题——模式崩溃。在理论,大的模式通常有更高的机会吸引鉴别器的梯度更新,生成器会因为丢失模式而不会受到惩罚。在实践中,所有的输入样本映射到相同的输出,这样的优化不会取得进步。这个问题要求对生成器丢失模式添加一个惩罚项。

正如我们前面所提到的,可以考虑到DAE.G可以考虑成的自动编码器。然后对每一个T,F(t)会产生非常密切的定位模式。因此我们添加了另一个判别器D2,来自目标域的样本以执行重建的t’区分不出t。因此增加了一个额外的生成器优化目标。给出了目标函数:

       (8)

这种多模态对抗性的训练过程对惩罚模式丢失是至关重要的。它鼓励F(t)向一种附近的数据生成分布模式移动。这样,我们就能在不同的模式下得到公平概率的质量分布。

图3:10类鸟的可视化分布。每一种颜色表示一种鸟类别。黑色×表示生成的样本分布。(a):DA-GAN生成的数据分布。(b)StackGAN生成的数据分布。

图4:在鸟和人脸图上的由DAE预测的感兴趣位置。

3.4完整目标函数和实现细节

       我们的完整的目标函数如下:

         (9)

是一致性损失和对称损失的权重,我们旨在解决如下公式:

                             (10)

我们应用包含残差模块的生成器。对于生成器来说,实例级的特征表示在通道维度上连接之后被送入到几个残差模块。最后,一系列的上采样层被用来生成一个翻译后的图像。对于判别器,生成的图像通过一系列下采样模块。最后,一个一个节点的连接层来产生决策分数。上采样模块由邻近上采样组成。批处理标准化和ReLU激活函数在每个卷积层之后都被应用除了最后一个卷积。

4.实验

在本节中,我们在各种各样的任务中验证了该方法的有效性,包括域适应,文本到图像合成,对象配置,为数据增强而做的姿态转换,人脸到动物和骨架合成,到卡通人物合成。我们在几个数据集上进行这些实验,包括MNIST,CUB-200-2011,SVHN,FaceScrub和AnimePlanet等数据集。

4.1基准

l  GAN-INT-CLS方法基于文本描述成功合成了64*64的花鸟图像。

l  GAWWN是Reed等人的后续工作,能够生成128*128分辨率的图像。

l  StackGAN是目前从文本到256*256高清图像合成的最新的工作。

l  SA是从子空间学习域适应的最早的工作。

l  DANN是受深度特征学习的另外一个域适应工作

l  UNIT是最近的无监督学习基于共享隐空间和循环损失的图像到图像的翻译工作。

l  DTN将混合损失函数应用到了无监督域翻译领域中。

l  CycleGAN是应用循环损失的图像到图像的翻译工作。

l  VAT是一个源于类型转换的新技术,虽然它和寻找密集对应不同

4.2 DA-GAN的内容分析

我们在MNIST数据集上训练了一个分类器并使用它在翻译的样本中进行定量评估。结果如表1所示。如我们所见,DA-GAN接近很高的准确度在翻译的样本集上。虽然结果是没有了DAE的非成对样本。我们微调了VGG分类器,CUB-200-2011数据集上,用它来测试我们从文本到图像的生成,准确性下降到60.6%。我们还展示了一些有DAE的结果在图4中。可以看出f是可以参与语义区域。例如,鸟头,翅膀,等等,人类的眼睛,嘴巴,等等。

为了验证所提议的DA-GAN在减轻模式崩溃的问题上是有效的。我们在CUB-200-2011的一个子数据集上进行一个娱乐实验。我们选择了10种鸟类。为了模拟大的模式,我们选择了一些类似的类(例如,有些类是属于同一类别)。图3中的密集区域显示有相似外观的鸟类。我们通过输入文本描述,大约生成600张图像,生成数据的分布如图所示3(b)所示。和StackGAN相比,DA-GAN产生的样本种类更多,有更大的覆盖范围。

4.3域适应

我们将提到的这个框架应用到域适应领域,即适应一个在一个领域(源域)中的有标签样本训练好的分类器去分类另一个新领域(目标域)中未标记的样本点。为了实现这个目的,我们将图像从SHVN转换为MNIST域。这个实验的结果在表1中。我们发现我们的方法对于SVHN到MNIST的翻译任务达到了94.6%的准确率,也就是说好于目前最好的工作90.53%。

图5:文本到图像的合成结果样本

表1:(a):DA-GAN的内容评估。(b)不同工作的域适应性能对比。(c)文本到图像合成的不同方法的对比

4.4文本到图像的合成

我们文本到图像的合成的任务中进行定性和定量的评估。比较几个在CUB-200-2011数据集上目前最好的工作,结果如图6所示。定量评估通过两个指标:inception得分和模式丢失的数量。inception的分数定义为:

x表示一个生成的样本,y是由inception模型预测的标签。在我们实验中,我们微调了VGG19模型,虽然inception得分被认为是一个较好的样本评估方法。但是,inception有时对于缺失的模式无法较好的评估。为了更好的验证,我们采用另一个评估方法—模式缺失,它表示一个分类器报告的缺失的模式数。例如从来没有生成的模式数量大小。如图表1(c)所示,就inception而言,DA-GAN实现了较好的改进,缺失的模式数量大为减少,它再次证明了我们提出的框架。一些视觉上的对比图如图5所示。

4.5目标变形

我们采用CUB-200-2011数据集的几个子类来进行对象配置实验。例如将一个鸟转换成目标品种的鸟。一些结果如图6所示。第一行是每个品种的真实样本图像,我们的目标是将鸟(a)转化为下面6个品种。在这些选定的目标鸟类中,(b)是在空间和几何属性上最相似的一个。(c)选择有相似的空间属性但和(a)有不同的几何属性。(d,e)有不同的空间和几何属性。我们可以看到,没有类似的语义结构,由于对应匹配方法的局限性,VAT在翻译鸟类方面失败了。

CycleGAN对空间的变化是鲁棒性的,但在改变鸟类几何形状时失败了。与DA-GAN的研究结果相比,两者都显示了缺失纹理信息的模糊的图像细节。我们可以看到,DA-GAN在尽管有很大的空间和几何差异的图像属性时,也可以成功翻译。它有力地证明了我们的主张,即实例级对应关系在翻译工作时非常有用的。我们也进行了一些定量的实验在表2中。由DA-GAN产生的图像在分类精度和真实度方面有具有优越性。

图6:对象配置结果样本。从上到下依次是真实样本,VAT产生的样本,CycleGAN和DA-GAN产生的样本。

图7:姿态变换的结果样本。每一组图像第一列是源鸟s,第二列是目标鸟t,第三列是由DA-GAN生成的鸟。

4.6更多的应用

我们进一步做了姿态变形的实验,在改变几何形状时被认为是更难的。结果如图12所示。我们可以看到,我们成功地改变了鸟的姿态,尽管在集合变化上还存在很大的鸿沟。在实际使用情况来看,我们也可以利用这些变形的样本进行数据扩充。

对于每个图像,我们随机选择了10个目标的相关参考。每个图像都选择最好的那个结果被用于增强数据,产生了大约10K个鸟类的图像。然后我们应用一个预先训练的VGG模型做数据增强,在分类任务上显示了细微的改进。结果如表3所示。我们采用DA-GAN将人的脸转换成动漫脸,同时还保留着人类的身份,我们还比较了我们的结果和VAT的结果。我们可以看到,VAT无法解决我们正在处理的任务。生成的图像不属于目标域,即动画的脸。更严重的是,当两个查询的脸是有不同的拍摄角度产生时,由于不正确的语义对应关系,VAT将会产生人为干扰。更多的实验在骨架到卡通人物翻译任务中。

表2:目标配置的定量评估

5总结

在这篇论文中,针对图像翻译任务我们提出了一个新的无监督的框架。我们的直觉是将从两个数据集级别的图像翻译任务分解为隐空间里的实例级别的任务。实例级对应可以通过将注意力机制集成到生成对抗网络中获得。扩展的定量和定性结果验证了DA-GAN可以显著改善图像到图像翻译任务的性能。在更广泛的应用上也有很大的优势,并成功地生成视觉上吸引人的图像结果。我们发现,一些失败案例是由不正确的注意力结果引起的。这是因为由弱监督注意力机制学习到的实例有时会展现出不足。为了处理这一任务,我们会寻找更加鲁棒性和有效的算法。


本文标签: DA