果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!


果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
大数据文摘出品
作者:刘俊寰
对历史 , 我们总是充满了无限的遐想 , 而北京这座城市充满了太多故事 , 对于过去或现在生活在这里的人 , 都是一份情怀 。
在电影中 , 我们经常能看到对老北京街道的还原 , 但布景终归只是布景 。 试想在90年前 , 有人用摄像机记录下了当时的一切呢?
早在5月 , 微博博主“大谷Spitzer”分享了他对百年前老北京视频的修复结果 , 如今在和央视的合作下 , 时隔两个月 , 第二期节目终于如约而至 , 在新的视频中 , 除了仍然熙熙攘攘的老北京街道 , 你还能看到很多生活化的场景 , 甚至听到他们的声音 。
比如在学校外面买饭时孩子们的喧闹声:
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
或者是盲人乐手在街边弹奏表演:
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
甚至是在剃头小摊剃头 , 这效果可以堪比不少Tony老师了:
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
“这头剃得好不疼 , 剃得不好 , 真疼!”“你家几口人啊““十口人?!怎么那么些人呢?““一天挣两毛钱够挑费不?“看到这里 , 有网友表示 , “感觉剃头师傅说了段相声” 。
这剃头小哥也是个话痨 , 他对着镜头拍头说“剃挺好”的时候 , 文摘菌觉得 , 这怎么就这么像“黄渤×夏雨”呢?
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
有网友也表示认同 , 笑称道 , “黄渤 , 你为什么穿越回去剃头” 。
这次除了画面 , 声音修复是一大亮点 , 不过碍于GIF的限制 , 想听最纯正的老北京话 , 大家可以点击下方链接??:
对于大谷来说 , 有了两次的经验 , 这次的修复项目要显得得心应手了许多 , 在整体效果的呈现上 , 大谷也十分满意 , 不过颜色上还存在闪烁 , 分辨率也还可以再提升 。
大谷表示 , 会总结每次的经验教训 , 争取下一次比上一次的效果更好 , 当然他也会尝试加入一些新技术 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
这次的修复项目 , 大谷和央视进行了合作 , 在央视的宣传下 , 更多人得以领略百年老北京风光 , 不少网友感叹道科技的进步和贡献:
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
也有网友感叹道时间的流逝 , “下一个90年 , 未来的人看到我们现在生活面貌 , 不知道会是什么感想” 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
视频发布一周后 , 在微博、知乎等多个社交平台上都掀起了讨论热潮 , 文摘菌也再次联系到大谷 , 第二次接受采访的他也显得要游刃有余许多 。
用AI项目做声音修复 , 老北京视频有声音啦!说到本次视频的来源 , 大谷介绍道 , 可以称得上本次修复过程中最困难的地方了 。
虽然网上能找到两段相关的视频影像 , 两分钟的宣传片和六分钟的正片 , 但是网上的版本水印非常重 , 基本不能用 , 这才触发了大谷向美国南卡罗莱纳大学影像库“求救” , 申请了视频的使用权 , 得到了学校内部版本的视频 , 这才解决了水印的问题 。
“那边的人很配合 。 ”大谷说 , 当然他们提出了一些要求 , 就是要加上视频前的小黄纸片 , 和版权声明部分 , 除此之外 , 对视频的后续处理和分享都是自由的 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
视频开头的小黄纸片
除了水印外 , 由于年代差距 , 这两段宣传片和正片的内容是不重复的 , 再加上当时的工作人员不懂中文 , 两段视频的时间顺序是完全乱掉的 , 比如前一秒还是宣传片的内容 , 后一秒就马上跳到了全片末尾 。
所以拿到这个视频之后 , 大谷的第一个工作就是把视频重新剪辑到正确的时间流上 。
在声音的修复上 , 当时制作团队所使用的录音设备无形之中帮到了大忙 , 微博网友@失重的梁柱介绍道:
福克斯有声电影新闻在当时是比较新鲜的模式 。 区别于华纳兄弟开发了维他风(Vitaphone)和RCA 开发的光电留声机(Photophone) , 福克斯的有声电影(Movietone)属于单摄影机系统 , 可将声画同时录制到胶片上 , 较之以往是十分便捷的 。 而目前所见的拍摄中国的原声影片 , 很多都出自福克斯的这一系列 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
得益于设备的先进 , 视频本身的录音效果就已经足够好 , 再加上南卡罗莱纳大学可能也进行了一些初步处理 , 大谷所做的工作主要是底层去噪 , 也就是处理掉那些经常出现在录音中的、吱吱的毛刺声 。
大谷表示 , AE或PR里的去噪功能就很好 , 系统首先会学习一小段噪音波形 , 随后会自动把后续出现的噪音部分抵消 , 这样的话听上去会清晰很多 。 但去噪主要针对以低频为主的声音 , 处理后整体的声音效果听上去就会比较“干” , 所以在去噪后 , 大谷还加入了一些混响 , 让声音听上去更自然 , 当然文摘菌可是一点都没听出来 。
不过 , 在盲人演奏的音乐部分 , 大谷除了加了混响外 , 基本没有做其他处理 , 因为音乐本身的混声就比较严重了 , 如果再去噪的话 , 低音乐器的声音就会被掩盖住 。
随后 , 大谷还介绍了一个声音修复的AI项目 , 导入一段默片 , AI系统就可以自动补充出音效 , 比如导入《火车进站》 , 系统就能补充火车的音效 , 由远及近 , 非常逼真 , 有了这项技术就可以更轻松地对更多老电影进行声音修复了 。
不过 , 这个项目还没有开源 , 大谷表示他也会持续关注最新进展 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
论文链接如下 , 感兴趣的朋友们可以尝尝鲜:
http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html 大谷说到 , 这其实是第一次针对原声视频进行修复 , 也是很有意义的一次进步 。 南卡罗莱纳大学影像库内部还保存有很多有声老视频 , 也希望未来能够和他们继续取得联系 。
画面大升级:边缘更平滑 , 整体效果更好了除了声音上的修复外 , 文摘菌也注意到 , 与第一期视频相比 , 本次视频中画面上颜色跳来跳去的情况少了很多 , 这与大谷使用的不同软件有着直接关系 。
大谷表示 , 在画面分辨率上首先进行了进一步的提升 , 与第一期不同 , 本次修复主要使用的是Topaz , Topaz在边缘的处理上要更加平滑 , 画面效果也更好 。
其次就是利用到了DeepRemaster这项技术 , 与这项技术的邂逅是在YouTube上的推荐流上 , 这其实是GitHub上的一个开源项目 , 目前还在研究中 。
GitHub链接:
发现这项技术之后 , 大谷就发邮件征得了两位日本研究员的同意 。
在使用过程中 , 大谷发现 , DeepRemaster非常好上手 , 可以导入一些手绘图或者历史图像作为参考图 , 修复的效果就会稳定在参考图的范围内 , 同时场景中颜色的抖动也变得更加平稳 。
在本次视频中 , 盲人音乐家表演的部分和“黄渤”拍头的部分都是通过这个技术实现的 。
当然 , DeepRemaster技术本身也存在瓶颈 , 不是所有的场景都能直接套用 , 就大谷的个人经验来说 , 对于动作剧烈或者是人脸很多的场景 , 比如市井 , 都没办法使用这项技术 , DeepRemaster更适合那些静帧、平移的画面 , 比如音乐表演 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
在画面和声音的修复工作上 , 大谷也进行了有机的结合 , 比如电脑自动补帧的时候 , 就可以利用空隙在PR上修复声音 , 两个部分可以不矛盾地进行 , 有时候会穿插着来 , 也会返工二次修复声音部分 。
除了在声音和画面上的修复外 , 我们也注意到 , 在这次的项目上 , 大谷也和央视进行了一次合作 , 他表示 , 自己主要负责技术修复 , 央视主要负责宣发 , “这也省了很多力气 , 上传审核视频都是很费时的” 。
有了前两次的经验 , 这次的修复显得要“顺手”很多 , 整个制作周期大概持续了一个月的时间 , 这段时间里 , 其实也不是全身心地扑在这上面 , 也有在开发自己的游戏 , 做一些其他的项目 。
在和央视的合作过程中 , 央视也会对整体的修复提出参考意见 , 比如音乐的剪辑 , 以及字幕的添加等 。 大谷感叹道 , 添加字幕的过程同样也是一次学习的体验 , 同时也可以让观众更好地理解人物对话 。
不只如此 , 修复后的老视频在社交媒体上传播之后 , 大谷收到了很多反馈 , 比如第二期老视频的出处本来是模糊的 , 后来有大神根据修复后的画面等信息综合后 , 指出这是100年前老济南西门泺源门(濼源门) , 这些都是宝贵的互动 。
破案过程 , 欢迎围观:
神器DeepRemaster:如何把修复效果稳定在参考图范围内和第一期修复视频一样 , 在这次新的视频过程中 , 大谷仍然借鉴了YouTube博主Denis Shiryae的影像修复教程 , 以及使用到了上海交大联合提出的DAIN补帧技术 。
除此之外 , 如上文所说 , 新一期视频中使用到的新技术DeepRemaster由日本筑波大学和早稻田大学两位研究者合作提出 , 论文曾被计算机图形学顶会SIGGRAPH Asia 2019收录 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
论文链接:
DeepRemaster之所以强大 , 是因为它与近年来使用递归模型处理视频的方法不同 , 该方法对老旧影像的修复是基于全卷积网络实现的 。
在这项研究中 , 研究人员提出了一种单一框架 , 该框架基于带有注意力机制的时间卷积神经网络 , 主要以半交互的方式处理所有重制任务 。 同时 , 论文提出的source-reference注意力 , 允许模型在处理任意数量的彩色参考图像时 , 不需要进行分割就能视频着色 , 也很好地保持了时间一致性 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
输入一系列的黑白图像 , 通过预处理网络修复 , 修复的结果作为最终输出视频的亮度通道 。 然后 , source-reference网络将预处理网络的输出和任意数目的彩色参考图像结合 , 产生视频的最终色度通道 。
在效果测试上 , 研究人员对一些老视频进行了测试 , 比如下图 , 结果正如大谷所说 , 在静止的场景内 , 输入少量参考图像后 , 系统就能输出稳定、一致的数千帧图像 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
与以往的方法相比 , DeepRemaster生成的图像与真实世界的色彩更加一致 。
果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!
本文插图
未来 , 大谷表示 , 他会继续关注新的技术和老视频修复领域 , 也会尝试将这些新的AI修复技术利用到老视频修复上 。
换句话说 , 现在是不是就可以期待第三期的老北京修复视频了?!搓手~
本文经授权转载自大数据文摘(ID:BigDataDigest) , 如需二次转载请联系原作者 欢迎转发到朋友圈 。【果壳|用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复!】


    推荐阅读