|这个模型脑补能力比GAN更强,ETH超分辨率模型SRFlow
编辑:小舟、魔王
近日 , 来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow 。 该模型具备比 GAN 更强的脑补能力 , 能够根据低分辨率输入学习输出的条件分布 。 该论文已被 ECCV 2020 收录 。
超分辨率是一个不适定问题(ill-posed problem) , 它允许对给定的低分辨率图像做出多种预测 。 这一基础事实很大程度上被很多当前最优的深度学习方法所忽略 , 这些方法将重建和对抗损失结合起来 , 训练确定性映射(deterministic mapping) 。
近日 , 来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow 。 该模型是一种基于归一化流的超分辨率方法 , 具备比 GAN 更强的脑补能力 , 能够基于低分辨率输入学习输出的条件分布 。
本文插图
论文地址:https://arxiv.org/pdf/2006.14200.pdf
项目地址:https://github.com/andreas128/SRFlow?
研究者使用单个损失函数 , 即负对数似然(negative log-likelihood)对模型进行训练 。 SRFlow 直接解释了超分辨率问题的不适定性 , 并学习预测不同逼真度的高分辨率图像 。 此外 , 研究者利用 SRFlow 学到的强大图像后验来设计灵活的图像处理技术 , 能够通过传输其他图像的内容来增强超分辨率图像 。
该研究展示了基于人脸图像以及其他超分辨率图像实验 , 结果表明 SRFlow 在 PSNR 和感知质量度量上都优于当前最优的 GAN 方法 , 同时 SRFlow 允许探索超分辨率解空间 , 以实现生成图像的多样性 。
下图展示了基于 GAN 的 ProgFSR 与基于归一化流的 SRFlow 的对比结果:
本文插图
SRFlow 方法简介
研究者将超分辨率公式化为:给定低分辨率(LR)输入图像 , 学习高分辨率(HR)图像的条件概率分布问题 。 该方法旨在通过捕获基于自然图像流形的所有可能超分辨率(SR)图像 , 来明确地解决超分辨率问题的不适定性 。
为此 , 研究者设计了条件归一化流架构 , 使用基于对数似然的训练来学习丰富的分布 。
用于超分辨率的条件归一化流
超分辨率的目标是通过生成缺失的高频细节 , 来预测给定低分辨率图像 x 的更高分辨率版本 y 。 大多数当前方法学习确定性映射 x→y , 而该研究旨在获取与 LR 图像 x 对应的自然 HR 图像 y 的全条件分布 。
这是一个颇具挑战性的问题 , 因为该模型必须捕获多种可能的 HR 图像 , 而不仅仅是预测单个 SR 输出 。 该研究的目的是在给定大量 LR-HR 训练对的情况下 , 以纯数据驱动的方式训练分布的参数 θ 。
条件 流层
流层(flow-layer)f^n_θ 的设计需格外精细 , 以确保 well-conditioned inverse 和易于处理的雅可比行列式 。 [10,11] 首次解决了该挑战 , 最近也有很多研究者对此感兴趣 [5,14,21] 。
该研究从无条件 Glow 架构 [21] 开始 , 该架构本身基于 RealNVP [11] 。 这些架构使用的流层可以以直接的方式设置为有条件的 [3,49] 。 研究者对其进行了概述 , 并介绍了该研究提出的 Affine Injector 层 。
架构
SRFlow 的架构如图 2 所示:
本文插图
应用和图像处理
研究者将 SRFlow 网络用于多项应用和图像处理任务 , 该研究的技术利用了 SRFlow 网络的两个关键优势 , 而这是基于 GAN 的超分辨率的方法 [47] 所不具备的 。
首先 , 该研究的网络对 HR 图像空间内的分布建模 , 而不仅仅是预测单个图像 。 因此 , 它通过捕获多个可能的 HR 预测而具有极大的灵活性 。 这就允许使用其它指导信息或随机采样来探索不同的预测 。
其次 , 该流网络 f_θ(y; x) 是完全可逆的编码器 - 解码器 。 因此 , 任何 HR 图像都可以被编码成到潜在空间(latent space)中 , 并精确地重构为 。 这种双射的对应关系允许在潜在空间和图像空间中灵活操作 。
随机超分辨率
给定 LR 图像 x , 我们可以通过采样不同的 SR 预测 , 探索 SRFlow 学习到的分布 。 正如基于流的模型的观察结果那样 , 方差较小的采样可以实现最佳结果 [21] 。 因此 , 研究者使用具有方差 τ(也称为温度)的高斯分布 。 当 τ = 0.8 时 , 结果如下图 3 所示:
本文插图
LR 一致性风格迁移
对 LR 图像 x 进行超分辨处理时 , SRFlow 允许迁移现有 HR 图像的风格 。
【|这个模型脑补能力比GAN更强,ETH超分辨率模型SRFlow】下图 4 展示了图像中面部特征、发色和眼睛颜色的风格迁移:
本文插图
潜在空间归一化
研究者利用 SRFlow 网络 f_θ 的可逆性和学得的超分辨率后验 , 开发了更先进的图像处理技术 。 该方法的核心思想是将包含所需内容的任意 HR 图像映射到潜在空间 , 在该空间中对潜在统计量(latent statistics)进行归一化 , 使其与给定 LR 图像中的低频信息一致 。 令 x 为低分辨率图像 , 为任意高分辨率图像(不一定与 LR 图像 x 一致) 。 该研究的目标是获得 HR 图像 y , 其包含的图像内容 , 并与 LR 图像 x 一致 。
图像内容迁移
该研究旨在通过传输其他图像的内容来操纵 HR 图像 。 令 x 为 LR 图像 , y 为对应的 HR 图像 。 如要处理超分辨率图像 , 则是 x 的 SR 样本 。 但 , 我们也可以通过将 x 设置为 y 的 down-scaled 版本 , 来操纵现有的 HR 图像 y 。 研究人员将其他图像的内容直接嵌入 y 的图像空间 , 进而操纵 y , 如下图 5 所示:
本文插图
图像恢复
研究者将学得的图像后验应用于图像恢复任务 , 进而其能力 。 注意 , 此处研究者采用了相同的 SRFlow 网络 , 该网络仅针对超分辨率进行训练 。 研究者探索了对图像中的高频信息产生主要影响的因素 , 如噪声和压缩伪影 。
本文插图
实验
研究者将其提出的方法与当前 SOTA 方法进行了对比 , 并执行了控制变量分析 。
人脸超分辨率
该研究基于 CelebA 测试集中的 5000 张图像 , 评估了 SRFlow 在人脸超分辨率图像任务中的性能 , 并与 bicubic、RRDB [47]、ESRGAN [47] 和 ProgFSR [19] 进行了对比 。
本文插图
本文插图
通用超分辨率
研究者在 DIV2K 验证集上评估了 SRFlow 在通用超分辨率任务中的性能 , 并与 Bicubic、EDSR 、RRDB、ESRGAN 和 RankSRGAN 进行了对比 。
本文插图
与基于 GAN 的方法 [47,56] 相比 , SRFlow 实现了明显更好的 PSNR、LPIPS 和 LR-PSNR 结果 , 并在 PIQUE 和 BRISQUE 方面也得到了出色的结果 。
图 8 中的可视化结果表明 , EDSR 和 RRDB 的感知效果较差 , 这些结果几乎不会产生高频细节 。 相比之下 , 与 ESRGAN 相比 , SRFlow 能够生成丰富的细节 , 实现了良好的感知效果 。
如第一行所示 , ESRGAN 生成的图像在多个位置存在严重的褪色伪影(discolored artifact)和振铃效应(ringing pattern) 。 而 SRFlow 能够生成更加稳定和一致的结果 。
本文插图
控制变量研究
此外 , 为了研究深度和宽度这两个因素的影响 , 研究者进行了控制变量实验 。 图 9 显示了在 CelebA 数据集上的结果:
本文插图
如何根据任务需求搭配恰当类型的数据库?
在AWS推出的白皮书《进入专用数据库时代》中 , 介绍了8种数据库类型:关系、键值、文档、内存中、关系图、时间序列、分类账、领域宽列 , 并逐一分析了每种类型的优势、挑战与主要使用案例 。
推荐阅读
- 天暖了,趁着这个功夫我们做一个芝麻馅,不煎不炸,蒸熟后包上芝麻糖馅,糯糯甜甜,真好吃
- 炒土豆丝的时候,不要直接下锅!加上这个步骤,又香又脆
- 肝癌|深度总结|慢乙肝抗病毒治疗中发生肝癌的风险预测模型
- 自从学会做这个,我家隔三差五吃,拌一拌上锅一蒸,蘸着料吃,老香了
- 冬天|“我今年23岁,不敢和人牵手拥抱,都是因为这个恼人的玩意儿”
- 细胞|“首个人类胚胎完整模型”!两篇《自然》报道重大进展
- 月季|似牡丹似芍药似菊花,这个系列的月季太特别了吧!
- 细胞|科学家用人类皮肤细胞制成活的、完整的早期胚胎模型
- 吃了半辈子黄瓜,这个做法百吃不腻,开胃又下饭,一日三餐都适合
- 炸油条需要加酵母吗?记住这个方法,再也不用去街边买了
