本文是一篇计算机论文,本文还设计了一个GAN反演算法,采用需要优化的编码器与预先训练过的层次化语义分解模型的生成器组成一个自编码器网络结构,通过最小化真实图像与重建输出之间的差异,得到能够将真实图像映射为隐编码的编码器。基于层次化分解模型与GAN反演算法的研究结果,设计了一个街景图片生成与编辑系统,以方便用户进行交互式的街景图片生成和编辑。
第一章 绪论
1.1 选题背景及意义
随着相关研究成果的落地,人工智能与深度学习这些术语对大众来说已经不再陌生。其中,判别式模型在进行图像识别[1]、分类[2]任务时,准确性不断提高。而生成模型能够捕获丰富的底层数据分布,在图像生成[3]、视频生成[4, 5]和图像超分辨率[6, 7]等领域被广泛地应用。变分自编码器(variational autoencoder, VAE)[6]就是其中的一种,主要被应用于解决样本不足和标签不平衡的问题。但它是通过最大似然估计来训练的,会受到视频与图像这些高维数据集的维数诅咒。而基于马尔可夫链蒙特卡罗算法(Markov chain Monte Carlo, MCMC)的模型不能足够快地混合不同模态,生成过程较为缓慢[8]。此外,从高维空间中采样会出现模糊、计算缓慢和不够准确等问题。2014年,生成对抗网络(Generative Adversarial Nets, GAN)的提出为生成模型的构建提供了一个新思路,GAN利用反向传播进行训练,避免了与MCMC训练类似的问题[9]。与VAE相比,GAN没有变分下界,也可以生成清晰的图像而不使用任何偏差。此外,GAN可以并行生成数据样本,生成样本所需的时间更短。GAN包括两个模型:生成模型(Generator, G)和判别模型(Discriminator, D)。G通过捕获数据分布生成数据,而D用来判断样本是真实的还是由G生成的。D和G均使用梯度下降进行博弈,直到纳什均衡。此时G生成的数据与真实分布十分接近,从而导致D无法区分。最初引入时,GAN只能合成MNIST数字和低分辨率灰度面。近年来,随着相关理论与技术的不断完善,GAN已经能够合成种类丰富的高分辨率图像[3, 10],在视频生成[11, 12]和数据增强[13]等领域也被广泛应用。
GAN内部通过映射,将输入的随机分布采样的代码转为图像输出。广义的潜在空间一般被视为黎曼流形[14, 15]。早期的工作集中于探索如何通过在潜在空间中的插值使输出图像平滑地变化,无论图像是否是语义上可控的[16, 17]。人类通常以语义的层次结构来解释一个场景,如场景的中出现的物体、空间位置关系、场景亮度和色彩风格等。当前在图像风格迁移的相关实验中,已经能够得到在人类认知层面具有不同语义的场景图片。然而,基于这种方式进行图像编辑,只具有一个整体属性——即图像的风格。在这些实验结果中,向随机方向移动通常会同时影响几个变化因素,而不同的方向相互“干扰”。
1.2 国内外研究现状
1.2.1 GAN语义分解的研究现状
GAN是深度领域最有前景的算法之一。模型开发人员、用户和科研工作者们高度关注GAN机制。其中生成模型和判别模型以一种博弈方式进行训练,在输出特征、内部网络结构、特征提取过程和输出结果之间产生因果关系。对GAN可解释性的研究,不仅能够验证GAN应用的有效性、可靠性和鲁棒性,还可以诊断GAN在具体应用中的弱点,为设计更好的网络结构提供支持。
2018年,一种叫做ELEGANT的模型被提出[33]。它解决了当时进行人脸属性迁移问题时存在的局限性,例如不能同时传输多个人脸属性以及无法通过实例生成图像等。ELEGANT模型接收两个具有相反属性的图像作为输入(例如一组微笑图像和另一组非微笑图像)。它的实现思路主要是将不同的属性编码成解纠缠的部分,通过交换图像的某些编码,将完全相同类型的属性从一幅图像传输到另一幅图像。所有属性都以潜在空间中的方式编码,这使得能够对多个属性进行定向操作。ELEGANT提出了比较开创性的方法,为以后的工作提供了新的思路,但其实验结果本身并不尽如人意,在进行某些属性迁移时,其它的属性也很容易受到影响,进行属性迁移后的图像可能会出现扭曲、失真等情况。
2019年Ali人通过研究生成式对抗网络的“可操纵性”[34],证明了GAN不是简单地复制现有的训练数据点,而是可以泛化到训练分布之外。实验者们发现,虽然生成模型会受到训练数据集的偏差带来的影响,但它们也表现出一些泛化能力:通过改变潜在空间中的方向,可以在创建逼真图像的同时改变其分布特征。由此提出了一种模型,它能够以自监督的方式进行训练,通过优化潜在空间中的轨迹,使生成图像发生轻微的变化。实验者们成功操纵了生成图像的特征变化,这些变化可以对应于相机变焦、水平和垂直运动、相机旋转和重新着色。实验者们量化了GAN转换的限制幅度,并得出以下结论:可以通过操纵潜在空间来控制生成图像特征的改变,但是能够改变的幅度受限于数据集的限制,不能超过训练数据集的范围。
第二章 相关理论基础
2.1 生成对抗网络
2.1.1 网络架构
GAN可以将输入的噪声变量映射到更为复杂的数据分布,因此能够应用于图像生成任务。GAN是基于两个网络的非合作博弈的概念:一个生成器G和一个判别器D,其中G和D相互竞争。G的目标是通过生成合成图像来欺骗D,即训练生成神经网络以最大限度地提高最终的分类误差,而D的作用是从真实图像中检测出G生成的人工图像,即训练判别神经网络以最大限度地降低最终的分类误差。相应的网络架构如图2-1所示:
2.2 子空间模型理论基础
2.2.1 主成分分析
在后续章节中,为了进行语义分解,建立了一个子空间模型。其理论依据为主成分分析(Principal component analysis,PCA)。PCA作为一种完善的降维技术[48],可以用于选择每组数据中具有高度代表性的信息。相关流程如图2-4所示。
从图2-4中可以看出,在执行PCA相关操作的时候,首先可以选取特定数量的正交分量,即将数据压缩到所选的维度。然后通过计算相关矩阵,以及相关矩阵的特征向量和特征值来完成主成分的识别任务。然后,可以使用与不同主成分相关的单个特征的正交和,研究它们在考虑的主要正交分量中的相对权重来确定特征的排名。最后,将数据映射到由zdim特征向量构造的新空间中,得到降维后的数据。
研究表明,在GAN的潜在空间或特征空间中应用主成分分析(PCA)能够识别重要的潜在方向[49]。在高维潜在空间Z中随机采样,再通过PCA投影到低维潜在空间W,能够可视化Z空间中特征的分布。然后将投影后生成的图像嵌入到相应的投影位置。
各向同性先验分布p(z)并不表明哪个方向是有用的。另一方面,输出在高维像素空间中的分布极其复杂,难以推理。实际上,在GAN浅层上的特征张量的主成分代表了重要的变化因素。将PCA应用于StyleGAN的方法十分简单。实验目标即为确定p (w)的主轴。为此,可以对N个随机向量z1:N进行采样,并计算相应的wi = M(zi)值。然后计算这些w1:N值的PCA。这为w提供了一个基础V。
第三章 面向街景图片生成与编辑的层次化语义分解模型 ··········· 21
3.1 街景图片语义分解模型整体设计 ································ 21
3.2 面向街景图片生成与编辑的GAN模型结构详解 ····················· 23
第四章 街景图片生成与编辑实验结果分析 ·························· 33
4.1 数据集介绍 ······························ 33
4.2 实验环境 ······························· 35
第五章 基于图像编码的GAN反演算法····················· 49
5.1 算法概述 ······························ 49
5.2 基于图像编码的GAN反演算法设计 ······················ 50
第六章 街景图片编辑系统设计与实现
6.1 需求分析
为了将本章提出的街景图片交互式编辑系统应用于实际场景中,对其应满足的需求总结如下:
1. 用户管理:
为了确保系统的安全性,需要对访问网站的用户做出限制。相应模块需包含认证及登录相关功能。
2. 图片预处理:
在进行反演算法的相关实验时,所有的街景道路图片的像素都被转换为256×256大小。因此在对真实图像进行操作之前,需要进行相应的预处理。
3. 图片重构:
为了满足真实图像编辑的需求,需采用第五章中GAN反演算法的预训练模型,将输入的真实图像转换为GAN隐空间中的隐编码,以便进一步进行属性编辑。
4. 图片编辑:
相应的功能模块需要满足两种需求:直接生成具有不同属性的虚假样本与真实图片属性编辑,两种操作都需要采用第四章中预训练的层次化语义分解模型来实现。前者只需直接调节生成器输入隐编码特定的可解释维度即可,后者则需要结合图片重构生成隐编码。
5. 实时结果反馈:
将经过编辑后的图片实时上传到前端页面,方便用户下载使用。
第七章 总结与展望
7.1 全文总结
生成对抗网络的可解释性探索是当前深度学习领域的热点之一。在研究与应用领域都有广泛的应用。在理论方面,促进了人类对于深度模型的理解与认知;在实际应用中,能够低成本定向生成符合预期的样本。简而言之,该方法寻找一系列对应于图像转换相关的不同语义方向,能够轻易地区分一种转换与另一种转换。在这种规范下,进行训练的主要目的是寻找一些特征方向,对应于与生成图片的变动关联的独立因素。实验中观察到许多所获得的方向都是人类可解释的。采用无监督学习的方式进行可解释性研究既可以节约大量的人力成本,还有利于发现未被认知的可解释维度。但是这种研究方式只能确保实验中分理出的维度相互正交,而这些维度并不一定能够对应于特定的单一目标语义。因此在实验中应该合理提取与语义信息对应的可解释性维度,并通过优化模型减少多个语义纠缠在同一维度上的现象。这也是本实验的重点工作内容。
在本文中,为了克服无监督方法中的属性纠缠问题,在模型中添加了一个潜在映射网络。潜在映射网络将生成器的输入转换为具有丰富的解纠缠语义的中间潜在空间。与当前大多数相关研究不同,本实验的目标不是初始的潜在空间,而是分层生成表征。这种方法能够揭示场景生成学习的语义层次,这与人类的感知高度一致。具体操作为在不同的生成器层中嵌入具有正交基的线性子空间。通过生成对抗训练学习目标分布,使这些层子空间自动发现每一层对应一组语义属性或可解释变化的“特征维度”。子空间各个维度之间的正交性利用海森惩罚与正交雅可比正则化相结合的方式来保证。本文还从流形的视角对子空间模型的作用机制进行了直观的分析,揭示了模型能够实现预期功能的深层原因。在找出这些特征维度中与特定语义概念相对应的属性后,通过遍历这些特征维数的系数,使生成模型产生与空间相对关系相对应的连续变化的图像。此外,为了更好地针对本实验的目标数据集(街景图片数据集)进行实验与结果分析,对场景图片中的主要变化因素进行了探究。通过对生成图片的定性与定量分析,证明了在本实验中,经过训练的模型能够生成大量逼真的道路街景图片,并且获得了良好的解纠缠效果。这验证了实验模型的有效性。
参考文献(略)