生成对抗网络研究综述

刘鹤丹,叶汉平,徐梦真,赵旭磊

(厦门大学嘉庚学院 信息科学与技术学院,福建 漳州 363105)

随着人工智能和深度学习的发展,GAN的出现成为了深度学习领域学者们研究的热点。GAN在多个领域均表现得极其出色,如图像的生成[1]、修复[2]、识别[3-5]等。机器学习算法可分为监督学习和无监督学习两类,监督学习譬如YOLO系列[6]需要依赖已知的带标记数据进行训练,这类算法虽有较好的效果但消耗成本较高;
而无监督学习因其无须提前标记好数据,受到越来越多学者们的青睐,并且GAN具有无须监督和做数据标记的优势,解决了数据集问题[7]。GAN不仅可生成高质量图像,还可进行图像增强、图像迁移。

GAN(生成对抗网络)[8]由两大部分组成:生成器网络(Generative Model)、判别器网络(Discriminative Model)。生成器根据要求会不断生成与实际标签数据相近的数据,并传递给判别器;
判别器会区分生成器生成数据的结果与实际标签之间的区别,并且判别器会根据判断后产生的误差反向传递至生成器中进行更新,生成器收到反馈后会生成更加接近的数据再传递给判别器,迭代数次后,直至生成器生成的数据使判别器无法区分数据的真实性才停止训练。

如图1所示,生成器G接收到随机变量z的数据后,会生成假样本数据G(z);
将其传入到判别器D中,判别器会对接收的真实样本数据x进行判别处理并输出生成结果。生成结果为判别器D输入的是否为真实分布的概率,若为1则数据为真实数据,为0则为假数据。同时,判别器D会把输出结果返回给生成器G用于其训练。当D的输出概率值为0.5左右,表明无法区别数据来源,即模型已达到最优状况,则停止训练。而该停止条件如果导致判别器D判别没调好,会造成不收敛、模式崩溃、梯度弱化,甚至消失等问题,当梯度消失时,训练的生成器G相当于没有训练时的状态。这也是GAN模型难以训练的原因[9]。

图1 GAN网络模型的基本结构示意图

GAN的训练较为困难,因此在研究者们的不断探索中出现了很多不同的变体模型,本章对具有代表性的变体模型进行简述与分析。

2.1 DCGAN

DCGAN(Deep Convolutional GAN)[10], 由 Alec Radford于2015年提出,是最基本的GAN版本,通过改变卷积神经网络的结构提高了样本质量和收敛速度,许多GAN模型都基于DCGAN进行了改进。它可以很好地适应于卷积神经网络,能够有效实现高质量图片的生成和相关模型生成。其中包含了一种突破性的关键技术:批归一化。DCGAN的生成效果如图2所示。虽然DCGAN的批归一化效果被证明是有效的,但经过实验发现如果改变某些层的BN或者改变激活函数,都可能导致网络生成的图像为噪声。

图2 DCGAN的生成效果

2.2 BigGAN

BigGAN(Large Scale GAN)[11]被称为史上最强的GAN图像生成器,首次生成具有高保真度和低品种差距的图像。它与传统的GAN的区别之一在于训练中采用了很大的Batch值,同时也增强了卷积的通道数和网络参数,还包含了“截断技巧”和模型稳定性的控制等。随着相关研究的不断进步,还衍生出了BiGAN、BigBiGAN。BigGAN的生成效果如图3所示。

图3 BigGAN的生成效果

2.3 StyleGAN

StyleGAN (A Style-based Generator Architecture for GAN)[12]从ProGAN中演变而来,具有可基于样式的生成器,可生成更高质量的高分辨率图像。StyleGAN将生成的过程可控化,可通过数据集中的属性转换图像中的风格,譬如可以实现无监督地修改人脸姿势、身份、发型等,生成相对应的图像,还可以生成汽车、卧室等高质量图像。

StyleGAN参考了ProGAN,发现渐进层的视觉特征会受层和分辨率的影响,越高的分辨率越可进行更细微和精确地控制。根据不同的分辨率范围,在StyleGAN中分为粗糙、中等、高质三种类型。StyleGAN在GAN模型基础上删除了传统输入,添加了噪声noise,使用了自适应实例归一化(AdaIN)。

StyleGAN极大幅度地提高了研究者们对GAN合成的理解和可控性。随着StyleGAN的发展,其版本已经延续到StyleGAN3。StyleGAN的生成效果如图4所示。

图4 StyleGAN的生成效果

2.4 StackGAN

StackGAN(Text to Photo-Realistic Image Synthesis With Stacked GAN)[13]是首个可根据文本描述来生成图像分辨率达到256×256的网络模型。StackGAN的训练方式分为两个阶段。其中Stage-I会通过给定的文字生成低分辨率(64×64)图片;

Stage-Ⅱ在Stage-Ⅰ基础上生成高分辨率(256×256)图片并捕获被Stage-I忽视的文字信息,修正Stage-I结果的缺陷、添加细节。这种分段式模型可能由于每个任务找不到重点而导致生成失败。StackGAN 的生成效果如图5所示。

图5 StackGAN 的生成效果

2.5 CycleGAN

CycleGAN (Unpaired Image-To-Image Translation Using Cycle-Consistent GAN)的核心思想是:设有X域和Y域两个域,从X中映射Y,再从Y中映射X,循环往复[14],如图6所示。

图6 CycleGAN的核心原理

CycleGAN主要应用于域迁移(Domain Adaptation)领域。域迁移是将数据从一个域移动到另一个域的过程,譬如将照片中的马转换成斑马。在传统算法中,一般对于两个域之间的某一物体相互转换需要该两个域之间具有相同的成对图片作为数据集进行训练,如pix2pix[15],而CycleGAN并不需要成对的图片作为训练数据,只需要有充足的图片数据集就可实现物品之间的相互转换。CycleGAN的生成效果如图7所示。

图7 CycleGAN的生成效果

3.1 图像生成

GAN作为一个生成模型,能从大量的无标签数据中无监督地学习到一个具备生成各种形态(图像、语音、语言等)数据能力的函数(生成器),因此可以达到数据增广的目的。但GAN并不是单纯地对真实数据的复现,而是具备一定的数据内插和外插作用。例如:路面生成[16]、机器翻译[17-18]、二次元风格转换[19]、人脸生成[20]等。

在CQMM的基本框架下,课题组以如下方式引入家庭负债率变动所产生的这两条传递渠道:首先,假定居民负债率的变化是外生的。其次,建立居民负债率的变动对居民贷款和存款的影响机制。在贷款方面,构建行为方程由居民负债率和GDP共同决定居民贷款;
在存款方面,居民负债率将决定居民消费,进而决定居民存款。最后,定义居民贷存比为居民贷款与居民存款之比,将其与一年期人民币基准贷款利率作为解释变量,对资金市场的加权利率进行回归,以此内生化资本市场的利率决定。

3.2 图像超分辨率

图像超分辨率相关的研究中一个比较重要的课题是对天文图像和卫星图像做超分辨率,该课题的成果在各领域得到广泛应用。例如SRGAN(Super-Resolution Generative Adversarial Network)[21]可应用于图像超分辨率方面。它基于相似性感知方法[22]提出了损失函数,可有效解决恢复后的图像丢失高频细节问题。

3.3 图像合成

图像合成是通过某种形式的图像描述创建新图像的过程。CycleGAN[14]和pix2pix[15]均属于图像合成领域,具体应用例如:应用于场景合成的pix2pix[15],应用于人脸合成[23]的TpGAN[24],应用于文本到图像合成的StackGAN[13],应用于风格迁移的CycleGAN[14]。

3.4 其 他

GAN除了被应用于以上三个领域外,在其他领域也有着很好的表现,如3D打印[25]、图形修复[26]、图片编辑[27]、人体相关的姿态估计[28]、自动驾驶[29]、目标跟踪检测[30-32]等。

4.1 GAN的优势

GAN是一种生成式模型,相比于其他生成模型只用到了反向传播,而无需复杂的马尔科夫链,可产生更为清晰和真实的样本;
其采用无监督训练,可广泛用在无监督、半监督学习领域。相比于其他机器学习模型,不受样本脆弱性的影响,可应用于图片风格迁移、超分辨率、图像补全、去噪等场景,避免了损失函数设计的困难;
还可以通过GAN生成以假乱真的样本,缓解了小样本机器学习的困难。

4.2 GAN的劣势

训练GAN需要达到纳什均衡,采用梯度下降法不一定都可以实现。目前并没有达到纳什均衡的更好方法,因此训练GAN并不稳定。

(1)梯度消失:随着训练次数增加,G、D的生成和判别能力逐渐增强且互相影响,当D训练到最好的情况下,原始GAN中G的损失函数存在自相矛盾的缺陷,从而导致GAN很难训练,微调敏感。

(2)模式崩溃:模型只学习到真实样本分布的一部分,导致模型生成的样本单一,样本差异较小。

(3)GAN不适合处理文本等离散形式的数据。

如何根据简单的随机输入生成多样的、能够更好地与人类进行交互的数据,更好地配合深度学习,是GAN的近期发展方向。如何让GAN与特征学习、模仿学习、强化学习等技术更好地融合,利用GAN的特性或博弈论思想来推动人工智能的发展与应用,提高其对世界的理解甚至激发其创造能力是值得研究的问题。GAN是生成式模型,采用模型学习方式来估测其分布并生成同分布的新样本,因此在图像视觉计算、语音语言处理、信息安全等领域有巨大的应用价值。但GAN解决了生成式模型问题的同时也引入了新的问题[33],譬如有限的注释、多样性有限、受限数据、训练波动大等。以下四个方面是今后针对GAN进行研究的新方向:

(1)资源问题的解决受数据集的限制,使得GAN没有普适性和安全性。

(2)可结合其他机器学习算法改善GAN的目标函数和框架,对结构进行拓展。

(3)实现统一的度量标准。由于GAN的速度有快有慢,各自都有自己的优势,所以无法判断模型的好坏。

(4)需要更加完善的体系来减少梯度损失、模型不稳定等因素带来的干扰。

本文简要介绍了GAN的基本概念、代表模型及主要应用领域,从多个角度对GAN和传统算法进行深入的对比与分析,阐述了GAN在当前社会的研究意义以及未来前景预测。

猜你喜欢 分辨率样本居民 基于生成对抗网络的无监督图像超分辨率算法网络安全与数据管理(2022年1期)2022-08-29石器时代的居民阅读与作文(小学高年级版)(2021年6期)2021-09-10原生VS最大那些混淆视听的“分辨率”概念家庭影院技术(2018年9期)2018-11-02规划·样本领导决策信息(2018年16期)2018-09-27随机微分方程的样本Lyapunov二次型估计数学学习与研究(2017年3期)2017-03-09高台居民读者(乡土人文版)(2013年12期)2013-05-03“官员写作”的四个样本西南学林(2011年0期)2011-11-12从600dpi到9600dpi微型计算机(2009年4期)2009-12-23锐化与显示器分辨率数码摄影(2009年12期)2009-12-07

推荐访问:综述 对抗 生成