高糊图片可以做什么?Goodfellow等人用它生成一组合理图像
选自arXiv
作者:DavidBerthelot、PeymanMilanfar、IanGoodfellow
机器之心编译
参与:魔王、小舟
给出一张低分辨率图像 , 你可以用它做什么 , 用机器学习方法将它尽量恢复原貌?除此之外呢?近日 , 谷歌DavidBerthelot、PeymanMilanfar , 以及Goodfellow提出了一种名为LAG的生成器 , 可以基于一张低分辨率图像生成一组合理的高分辨率图像 。
生成逼真图像是一件困难的任务 , 近来研究人员提出了很多处理该任务的方式 。 如果我们把这项任务限制在生成特定类别的图像 , 任务就会简单许多 。 也就是说 , 不用基于自然图像流形生成任意图像作为样本 , 而是从自然图像的特定「子空间」内采样图像 , 而这一过程由来自相同子空间的低分辨率图像指引 。
最近谷歌发表了一项研究 , 作者为谷歌研究院DavidBerthelot、PeymanMilanfar , 以及前谷歌大脑科学家、现苹果机器学习特殊项目组负责人IanGoodfellow 。

文章图片
论文链接:https://arxiv.org/pdf/2003.02365.pdf
代码地址:https://github.com/google-research/lag
该研究试图解决的问题与单张图像超分辨率问题接近 , 但又有区别 。 图像超分辨率问题是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程 , 而该研究目的不在于此 , 它试图使用输入图像作为指引 , 生成一组合理的高分辨率图像 。
具体而言 , 该生成采样框架仅使用输入(大概率是极低分辨率的图像)来指向网络应生成的样本类别 。 而且 , 该算法的输出不只是与输入相关的单张图像 , 而是基于自然图像流形采样得到的相关图像集合 。
LAG方法仅在对抗潜在空间中使用感知损失进行学习 , 无需像素损失 。
那么LAG效果如何呢?下图展示了该方法在人脸、卧室和教堂这三个类别上的图像生成效果:

文章图片
研究贡献
LAG方法旨在解决现有方法的基本缺陷 , 并做出了以下贡献:
将输入图像建模为一组可能的图像 , 而不是单张图像 , 即建模了(低分辨率)输入图像的流形;
学习单个感知潜在空间 , 来描述预测和真值之间的距离;
分析条件GAN(conditionalGAN)和LAG之间的关系 。
LAG方法
给定一个低分辨率的输入图像y , 该研究希望预测出可能的高分辨率图像的感知中心x 。 该研究提出将可能的高分辨率图像建模为随机向量z(z∈R^n,z~N(0,1)) 。 在该模型中 , (y,z)唯一地映射到一张高分辨率图像x_z 。 该研究假设高分辨率图像x是在z=0的正态分布的中心点获得的 。
训练所用的函数需要(y,z)来预测高分辨率图像x_z 。 该研究采用GAN术语 , 将此函数G称为生成器:

文章图片
该研究设计了critic函数 , 用于判断高分辨率图像x是否和低分辨率图像y相对应 。 该研究提出将critic函数C分解为两个函数:
从图像到潜在空间p的投影P;
从该潜在空间到R的映射F 。
研究者将p称为「感知潜在空间」 。 将投影函数P定义为:

文章图片
由φ和ψ参数化的criticC:

文章图片
是F和P的组成部分:

文章图片
函数G、P和F都是用神经网络实现的 。
LAG实现细节:损失、条件和架构
该研究使用具有梯度惩罚(gradientpenalty)的WassersteinGAN损失 。 值得注意的是 , 使用relativisticGAN和谱归一化卷积也能得到不错的结果 。 不过 , 该研究没有穷尽所有可能的GAN损失选择(不在该论文研究范围内) 。
研究者通过向critic提供低分辨率输入与真值的绝对差异来简化critic任务 。 即 , 计算

文章图片
其中x_z=G(y,z)是生成的样本 , H:R^x|→R^y是缩放算子 , r是颜色分辨率 。 缩放算子为高分辨率图像生成对应的低分辨率图像 。 研究者将缩放算子的输出四舍五入到最接近的颜色分辨率 , 在该案例中r=2/255 。 这种做法是为了避免网络不稳定 。 为了允许通过rounding操作进行梯度传播 , 该研究使用了Hinton的直通估计器(straightthroughestimator)[7] 。
假设stopgradientoperation为sg , 则直通估计器为:

文章图片
这里 , 研究者并没有提倡某一个特定的神经网络架构 , 因为有很多潜在可用的实现 。 更新更好的架构层出不穷 , LAG应该与其他架构相适应 。 在实践中 , 研究者决定使用类似EDSR的残差网络 。 对于critic , 该研究使用了几乎一样的架构 , 但顺序是相反的 。
该架构按照[9,19]提出的方法训练得到 。 关于架构和训练细节 , 以及TensorFlow代码 , 参见GitHub项目 。
LAG的效果:生成逼真的图像合集
LAG方法的主要优势在于不止生成一张图像 , 而是基于一张低分辨率输入图像生成一组合理的图像 。 也就是说 , 建模可能图像的集合 , 并预测位于其中心的图像 , 还能够基于z~N(0,1)的分布生成样本 。
该研究用三个类别说明LAG方法的能力:人脸、教堂和卧室 , 还展示了该方法的跨类别生成图像能力 。

文章图片
图1:对于不同的z值 , 基于8x下采样输入得到的生成图像示例 。

文章图片
图2:对于不同的z值 , 基于32x下采样输入得到的生成图像示例 。
镜像图像
在该实验中 , 研究者试图观察LAG网络跨类别生成图像的性能 , 即考虑给定图像及其镜像图像 。

文章图片
图5:基于16x下采样输入得到的生成图像示例 。

文章图片
图6:基于16x下采样输入得到的生成图像示例 。
噪声和随机输入
出于完备性考虑 , 研究者在该实验中考虑了LAG网络对带噪声图像输入或仅包含噪声的输入图像的反应 。

文章图片
【高糊图片可以做什么?Goodfellow等人用它生成一组合理图像】图7:基于32x下采样输入得到的生成图像示例 , 输入图像具备噪声 , 且噪声逐渐增加 。
推荐阅读
- 人间风物志|游雍和宫:有人说这是北京必打卡景点之一,但我并不觉得非去不可
- 最强蜗牛8月可用密令全攻略
- 绿色可循环包装好处多,为啥收快递时却遇不到?
- 中国冰淇淋市场总量超千亿元 还有哪些机会可挖掘?
- 提供“让兴趣成为职业”的可能 “微经济”有大宝藏
- 潜力巨大,人生最不能设限的三大星座,叛逆桀骜,却充满无限可能
- 东京奥运场馆8月将陆续开放,可供运动员进入练习
- 海关|(视频)甲虫……青蛙?!NO!
- 微信朋友圈|微信朋友圈可以删评论了?微信拍一拍摇一摇怎么玩方法攻略介绍
- 赵本山|有种“自作孽不可活”叫程野,赵本山来都救不了他,你可是真能作!
