一篇文章读懂“GAN”——生成式对抗网络-猿圈-程序猿的知识社区

机器学习是一个不断发展的领域，因此对于很多人来说，时刻跟踪这一领域的最新进展是很难的。GAN（生成式对抗网络）是最近引起广泛关注的新兴领域之一，为了让大家能够更好地跟上技术发展的脚步，我们安排了一个简短的GAN速成文章：

　　·它们适用于哪些生成模型

　　·过去的时间里它们发生了什么样的变化

　　·它们可应用于哪里

　　·GAN带来的挑战

　　·这个新兴的技术领域未来如何

　　下面我们就开始吧。

生成模型

使用生成模型，目的是对给定数据集的分布进行建模。对于我们今天讨论的生成模型，该数据集通常是一组图像，但也可能是其他类型的数据，例如音频样本或时间序列数据。

获取此分布模型的方法有两种：隐式或显式。

那么两者之间有什么区别？

有了显式的生成模型，您就可以掌握概率密度。我们可以直接对该分布中的所有变量建模。而对于隐式生成模型，您必须进行抽样以了解我们的模型分布。

当我们评估生成模型时，一种实现方法是使用图像。因此，我们可以从模型分布中取样，然后目视检查样本，以查看它们与原始数据的匹配程度。样本图像离训练图像越近，说明我们的模型越好。

生成模型的类型

在深度学习中，当我们谈论生成模型时，通常是指下列四种模型之一：

　　·自回归（Autoregressive）

　　·可逆的（Reversible）

　　·变分自动编码器（Variational Autoencoders）

　　·生成式对抗网络（Generative Adversarial Networks）

自回归模型：使用自回归模型，您可以根据之前生成的像素来生成每个像素，从而生成图像。也就是说，当使用自回归模型生成图像时，会逐像素生成图像。这是一个自回归模型的例子。

可逆模型：可逆模型的概念是采用GAN，但要使生成器过程可逆。这意味着我们可以通过可逆模型（从噪声到图像以及从图像到噪声）同时传递图像和噪声。这是可逆模型的一个例子。

变分自动编码器：自动编码器由一对相连的网络组成：编码器和解码器。变分自动编码器的特点是具有连续的潜在空间。这样可以轻松进行采样和插入，这在使用VAE探索特定方向上已有数据的变化时特别有用。这是一个变体自动编码器的例子。

生成式对抗网络

简要介绍完其他生成模型之后，现在我们开始讲解GAN或生成对抗网络。

（图像来自于Brock 2018）

首先，让我们查看一些由GAN生成的图像，以了解过去五年中已取得的进展。上面的这些图像是无条件生成的ImageNet样本，该样本来自名为BigGAN的模型，该模型由Andrew Brock在2019年国际学习代表大会（ICLR）上提出。

这些图像样本之所以引人注目，主要有两个原因：清晰度和类别的多样性。一个动物、一个蘑菇、食物、一道风景，这些都是一起生成的，而且分辨率都很高。

但并不总是这样。

（图片来自Goodfellow et al 2014）

这是最初的GAN论文中的图片，作者为Ian Goodfellow等人。2014年该论文发表时，一跃成为最先进的图像生成技术。但是与BigGAN的样本相比，可以说是天壤之别。从上图所示的这些样本中可以看到，图像分辨率很低，并且容貌尚未完全解析。

(图像案例来自 Karras et al. 2019)

现在让我们快进大概4年，到Nvidia的StyleGAN论文发布，这些生成的人物图像看起来已经非常真实。从2014年的模糊图像开始，GAN所生成的面孔在短短4年内就与真人几乎无法区分。

GAN概述

像上面我们所介绍的其他模型一样，GAN是生成模型的一种形式。但是，与我们讨论的其他模型不同，GAN是隐式生成模型。这意味着如果我们想查看模型的分布情况，就必须对其进行抽样。

那么GAN如何工作？

GAN有两个网络：生成器（生成组件）和鉴别器（对抗组件）。

鉴别器经过训练可以识别生成的示例，并将其与实际示例区分开。我们通过采用一组真实的示例和一组生成的示例，并让鉴别器尝试对真实示例进行分类，以此来训练辨别器。通过训练，我们希望鉴别器能够识别样本是来自于真实的分布还是生成的分布。

与鉴别器相对应的是生成器，它可以吸收随机噪声，并学会将随机噪声转换为看起来逼真的样本，逼真到足以欺骗鉴别器。

随着时间的流逝，这种情况会发生，因为生成器在生成看起来像真实示例的样本方面变得越来越好，而鉴别器甚至会随机猜测样本是真实的还是生成的。我们可以将其想象成一个两人的极大极小博弈，而鉴别器进行随机猜测的这个点就是它的纳什均衡。

训练GAN生成器

生成器将如何学习将随机噪声转换为可以通过鉴别器的图像？

生成器获取样本(通常来自高斯分布)，并通过神经网络对其进行转换以创建样本。同样，我们的目标是让这个示例看起来尽可能真实。

最初，这些转换是完全没有意义的。把随机噪声通过发生器，另一边得到的结果就会很像随机噪声。

(说明噪声向图像的转换过程。噪音来自Adobe Stock，面容来自Karras et al. 2018)

现在，当您生成一个灰度点的图像并将其传递给鉴别器时，大多数情况下鉴别器会将其识别为一个并不真实的例子。使用反向传播，您将获得一个通过生成器发送的信号，该信号告诉生成器中的各层，根据刚发送给鉴别器的样本的不良性能来更新其权重。

经过这些调整后，更多的随机噪声会通过生成器创建一个新图像发送给鉴别器。这次，鉴别器可能会被我们的样本所欺骗了，因为——这主要是由于训练初期的随机性——图像中的某些特征类似于真实数据集。然后，生成器得到一个信号，表明最后一个样本表现良好，并再次相应地更新其权重。

通过许多次迭代并生成大量图像，生成器权重将根据它们在欺骗鉴别器方面的表现而继续更新。如果训练顺利，生成器可以获取随机噪声并将其转换为逼真的图像。

生成器和鉴别器都可以使用此过程完全不受监督地进行训练，并且由于损失函数产生的动态特性，可以创建大量样本。

GAN中的损失函数

在GAN中，生成器和鉴别器都有各自的损失函数。尽管这两种不同的损失函数允许我们通过GAN进行无监督学习，但它们也给训练带来了一些挑战。

鉴别器的代价是希望将真实样本正确标识为真实样本，并且希望将生成的样本正确标识为已生成（等式1）。

（等式1）

您可以在此等式的左侧看到，第一项表示将真实样本标识为真实，而右边项表示将生成的样本标识为生成。

有趣的是，生成器的成本只是该函数的负数（等式2）。

（等式2）

您可以在这里看到一个常数，其中方程式是指鉴别器将真实示例识别为真实示例，因为生成器与过程中的这一部分没有直接关系。但是人们发现，如果像上面的方程式那样使用生成器的损失函数，损失就会饱和。因此，我们要做的就是稍微改变一下公式（公式3）。

（等式3）

使用此版本的损失函数，如果生成器创建可被鉴别器很轻松地识别为生成，那么生成器将获得非常强的信号。通过使用第二个等式，它不再完全是一个由两人组成的极大极小博弈，而是使训练按照我们希望的那样进行，而且训练比以前更加稳定。

GAN的应用

现在我们已经掌握了GAN训练的知识，让我们深入讲解一些关于应用程序的知识。

GANs最早的应用之一来自Goodfellow的原始论文，该论文显示了MNIST数字1和5之间的插值。这是一种表示学习，因为通过训练生成器和鉴别器，我们可以学习原始数据集的潜在表示。

（图片来自Karras et al.2019）

你可以在上面的StyleGAN论文和其他GAN论文的图片中看到同样的应用。

在这个特定示例中，我们看到的是采用源A的样式并将其应用于源B的结构。在左上角，我们将眼镜应用于不同的图像，或者让左边的人们看起来像小孩子。

（图像示例来自Zhu et al. 2017和Isola et al. 2016）

GAN的另一个应用是图像翻译——在某些情况下，它是图像风格转换的一种更通用的方法。

在左边（Zhu），我们看到CycleGAN正在进行一些图像增强，而在右边，Pix2Pix论文（Isola）中，我们正在将图像从一种风格转换为另一种风格。

所以我们有左侧的街景视图的分割图像，以及右侧的实景图像。然后是卫星图像和类似的地图的图像。

使用Pix2Pix模型训练这种风格的转换，您可以实现从卫星图到地图，以及从地图到卫星图的变换。因此，如果您要对一组图像进行样式转换，这些模型是最有效的。

GAN的挑战

但是，GAN的所有进步并非没有挑战。

从理论上讲，GAN就像这个有序的两人极大极小博弈一样，逐渐达到其纳什均衡。我们让噪声通过生成器，生成器学会欺骗鉴别器，然后从理论上讲，鉴别器不再善于检测差异并开始随机猜测。

作为该博弈的运作方式，GAN面临三个主要挑战：

　　·模式崩溃

　　·过分讲究的训练

　　·GAN的评估

模式崩溃

（模式崩溃的图像，来自Goodfellow 2016）

对于模式崩溃，模型只学习多模式数据集的一个或几个模式。我们训练GAN的数据通常有非常多的模式，这使得模式崩溃存在一定的问题。

过分讲究的训练

然后是训练的问题。之前，我们提到了生成器和鉴别器的成本函数。由于此模型中有两个不同的成本函数，因此在平衡这两者方面您可能遇到更多的挑战。

评估GAN

在评估GAN时，有几个问题需要考虑。

首先，来自生成器的好样本并不一定意味着您已经很好地了解了分布。

其次，估算可能性是很难的，也就很难衡量对分布学习的好坏。这就引出了第三个问题:很难知道从分布中到底学习到了多少。

最后，评估GAN是一个活跃的研究领域，目前并没有通用的评估方法。许多论文提出了新的评估指标，但在后来的出版物中并没有受到关注。

GAN的未来

在本篇概述中，我们主要介绍了GAN在生成图像方面的应用，但这并不是GAN的唯一应用——无论是今天已经看到的，还是未来即将出现的。

GAN也正在飞跃发展，例如为语音模拟生成音频，开发新药品，为建筑物设计平面图，为结构生成组件，创建图形设计布局，生成表格数据等等。

随着这类机器学习模型在不同行业和应用中的不断发展，人们对GAN的概念越来越满意，他们将继续寻找更多的领域来利用这一技术。因此，从2014年到今天、到未来，在我们用尽这种对抗网络所带来的所有机遇之前，GAN仍有很长的路要走。

原文作者：Andrew Martin

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8674 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览