|建造自己的「天空之城」，这项研究可以虚空造物、偷天换日

机器之心报道
机器之心编辑部
看过宫崎骏动画电影《天空之城》的小伙伴，想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日，密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究，不仅可以创建空中堡垒，更可以转变场景中的天气和光照，让你有身临其境的感觉。此外，这项研究完全基于视觉，能够很好地应用于在线或离线场景，且可以执行实时处理。

本文插图

哈尔的移动城堡？天空之城？这幅图是否让你想起了这两部电影中的场景……

本文插图

上：《天空之城》剧照；下：《哈尔的移动城堡》剧照。
是电影场景变为现实了吗？真的有人建造了一座空中楼阁？答案是也不是。
这座空中城堡的确是人为「构建」的，但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。

本文插图

荒野、公路、疾驰的汽车，还有天边的巨型神秘建筑物，有科幻 / 末世电影内味儿了。然而，这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片？！
别急，还有大招。（以下示例左图为原始画面，右图为处理后画面。）

本文插图

右图场景是不是更像《天空之城》了？

本文插图

这场景让人想起一句歌词「打开这深夜，抚摸寒星光，我只想走进圆月亮」。
除了改变天空（比如增加悬浮城堡、改变色彩和云朵等），这项技术还能变换场景中的天气和光照。

本文插图

今日天气多云转晴。

本文插图

雷暴预警！一瞬间天昏地暗，雷电交加。
看起来，这项技术似乎都可以用到电影业了。那它是如何做到的呢？
这项研究提出一种用于视频中天空置换与协调的视觉方法，该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片，要么需要在智能手机上集成惯性测量单元（IMU）以便拍摄视频，而这项研究是完全基于视觉的，对视频捕获设备没有任何要求，还能很好地应用于在线或离线场景。此外，该方法可以执行实时处理，无需用户交互。
研究人员将这个艺术加工过程分解成 3 个任务：天空抠图（sky matting）、运动估计和图像融合，并在智能手机和行车记录仪在户外采集到的视频上进行了实验，结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。
论文地址：https://arxiv.org/pdf/2010.11800.pdf
GitHub 地址：https://github.com/jiupinjia/SkyAR
项目主页：https://jiupinjia.github.io/skyar/
Google Colab 地址：https://colab.research.google.com/drive/1-BqXD3EzDY6PHRdwb3cWayk2KictbFaz?usp=sharing
方法
下图概述了该研究提出的方法，它由 3 个模块组成：天空抠图网络、运动估计算法以及 skybox 。

本文插图

天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类（前景 vs 天空）问题的方法不同，该研究设计了一种基于深度学习的由粗到细的预测 pipeline ，以产生更精确的检测结果和更悦目的混合效果。
运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体（例如，太阳、云等）位于无穷远，并用 Affine 矩阵建模它们相对于前景的运动。
skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数， skybox 将基于运动扭曲天空背景并将其与前景混合。 skybox 还应用了重光照和重新着色技术，使混合结果在颜色和动态范围方面更加逼真。
实现细节
该方法使用 ResNet-50 作为天空抠图网络的编码器（全连接层被移除）。解码器部分包括 5 个卷积上采样层（coordinate 卷积 + relu + 双线性上采样）和一个像素级预测层（coordinate + sigmoid）。该研究方法遵循 UNet [30] 的配置，并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置：

本文插图

实验
天空增强和天气模拟

本文插图

除了前文及上图展示的处理效果以外，该研究还展示了该方法与 CycleGAN 方法之间的对比结果，具体如下图 5 所示：

本文插图

图 5：该研究提出方法与 CycleGAN 的定性对比结果。
下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN 。
【|建造自己的「天空之城」，这项研究可以虚空造物、偷天换日】

本文插图

速度
下表 3 展示了该研究提出方法的速度：

本文插图

研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言，处理速度有所不同：该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps) ，在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps) ，不过仍有很大提升空间。
根据统计，天空抠图阶段需要花费相当多的时间，因此用更高效的 CNN 主干网络（如 MobileNet 或 EfficientNet）替换 ResNet-50 ，可以提高处理速度。
局限性
该方法也存在一些局限性。
首先，天空抠图网络仅基于白天的图像训练，因此该方法可能无法检测夜晚视频中的天空区域。
其次，当视频特定时间段没有天空像素时，或者天空中没有纹理时，该方法无法精确建模天空背景的运动。
下图 8 展示了两个失败案例：

本文插图

作者简介

本文插图

本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。
他参与撰写的论文被 AAAI、CVPR、ICCV、ACM MM 等多个学术顶会接收。此外，他还曾担任 NeurIPS、AAAI、ACCV 和 WACV 等多个学术会议的程序委员，以及 ICLR 会议及 IEEE Transactions on Image Processing 等多份期刊的审稿人。
此前，机器之心报道过的一项用人脸照片生成游戏专属角色的研究也有他的参与。

本文插图

|建造自己的「天空之城」，这项研究可以虚空造物、偷天换日

推荐阅读

爱时尚的花轮同学|适合35-45岁的女人，温柔减龄，今秋流行穿“半高领”打底衫

开花|软糯香甜会开花，终于找到童年记忆里的味道！这根玉米不得了

信用卡@14家银行批卡提额规则，强烈建议收藏

医脉通呼吸科@患者表现为肺水肿，但病因却出乎意料……

娱乐的小腿|补水保湿效果超好，用完连黑眼圈都变淡了，李佳琦推荐的这些眼霜

四川岳池县的农家茶俗浅说

花卉：养花的8大“谣言”，害人“没商量”，你信过几个？

【】巴萨欧冠出局后：梅西父亲连发2个时代全家福默默支持

如何做好品牌推广，品牌推广的要点和要素

南宫|河北南宫：打造文化地标

减肥为什么要坚持三个月？

黑旋风周腾飞5支世界超级强队对中国不服气！10轮大战后让你们心服口服

联通宽带客服电话人工服务?联通宽带报修电话?

创业|一手创立2家世界500强稻盛和夫：一切成功都归结于“利他之心”

汽车|北京交警随手拍微信小程序启用举报最高奖励3000元？官方回应

郭皇后怎么死的郭太后为什么不是皇后

「静静聊车」【防御性驾驶技巧要点】

在家怎么做热瑜伽

和喜欢的女生走一起，遇到漂亮妹子，她经常说这个女生挺漂亮吗，问我咋样。。应该怎样回答好这个问题

静月斋文化|赌徒死后三世报恩，最终结缘成父子，新聊斋：老翁行善救赌徒