CSDN|独家揭秘!抖音爆款实时视频漫画变身特效背后技术( 二 )


抖音这次推出的漫画变身特效主要技术也还是GAN , 但与以往相比也有差异之处 。
此前 , 变漫画功能基本都基于人脸表情跟踪 , 学界和工业界都没有千人千面的实时漫画生成方法 , 这次抖音推出的漫画特效是在视频中实时实现的 , 这项技术在全球也是首次落地 。 在视频中 , 可实现人脸和头发变漫画的效果 , 配合背景风格迁移技术 , 完成全屏漫画的实时生成 , 并且通过“手动滑杆”道具 , 能与真实视频随意切换 。
CSDN|独家揭秘!抖音爆款实时视频漫画变身特效背后技术
本文插图

实际上 , 抖音实时漫画特效在最终技术选型之前 , 曾对比过大量当前生成技术方法 , 包括生成漫画的方法 , 如 ugatit , 也有做其他任务的方法 , 如 MUNIT 等 。 但经调研发现 , 当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题 , 首先是训练不稳定 , 超参数进行一些微小的调整就可能对结果产生很大影响 , 而且还容易遇到梯度消失的问题 。 对此 , 抖音的改善方案是尝试多种 loss , 包括WGAN、LSGAN等 , 但目前为止还是没有银弹 , 所以需要在实验过程中监控梯度的变化 。
抖音技术团队告诉CSDN , 在漫画视频技术探索过程中 , 技术团队在初期尝试中屡屡碰壁 , 在前期预研中 , 输出版本效果与图片版相差较大 , 且性能也未能达标 。 在几次尝试效果均不理想的情况下 , 团队内部一度对实时漫画的可行性也出现了怀疑 。
但好在几次失败的尝试后 , 在总结经验时有人指出了关键所在:之前的模型结构单一 , 不同模型的优缺点不完全一致 。 于是 , 技术团队尝试了模型嫁接的方法 , 用不同的模块拼接出新模型 , 大幅提升了漫画的生成质量 。 在质量达标后 , 又通过计算每层的重要程度来裁剪模型 , 最终确定了实时版模型的结构 。
效果产品团队也参与模型效果调优 , 总结出参数与效果之间的定量关系 , 通过微调参数优化模型 。 最终 , 行业首发的高清实时真人漫画风格处理爆款才得以诞生 。
与静态图片处理相比 , 实现实时漫画处理究竟难在哪里呢 , 尤其是在手机端实现?
抖音技术团队表示 , 实时视频漫画处理难度还是挺高的 , 比如模型本身计算量需要非常小 , 在有限的计算量下要达到比较好的漫画效果 , 需要让每一次运算都要充分发挥其价值 。 其次 , 抖音的用户众多 , 用户使用的机型性能差距也非常大 。 为了满足不同层次用户的需求 , 抖音研发了复杂的模型下发策略 , 实现了模型的定制化下发 , 这在最终保证了实时漫画的成功上线 , 在效果和性能方面达到实时漫画的要求 。
此外 , 抖音漫画特效启用了自研的推理引擎ByteNN , 这个针对端侧算法快速落地的推理引擎不仅支持 CPU 和 GPU 的通用计算能力 , 也充分发挥了厂商 NPU/DSP 硬件的加速能力 , 端侧性能和功耗均处于业界领先水平 , 这也保证了实时漫画能够稳定支持抖音海量的用户群体 。
当然 , 这个实时漫画特效目前的算法针对一些特殊场景还是有一定优化空间 , 在之后的迭代中也会从模型本身和推理引擎两个方面入手 , 提升模型效果的同时优化推理性能 。
在泛娱乐场景 , GAN还有更大发挥空间
从当前推出的一些漫画生成效果来看 , GAN这个热门技术确实为娱乐领域注入了很多新小的血液 , 引入了一些新鲜的玩法 。 不仅限于漫画 , 泛娱乐领域中 , GAN方法的应用潜力肉眼可见 , 未来 , 这项新兴技术还会有哪些技术发展趋势 , 或者研究热点呢?
抖音技术人员认为 , GAN本质上是分布之间的迁移 , 只要能定义分布之间的映射 , 就能尝试GAN 。 至于未来GAN还可以在哪些方向上大有用武之地 , 他们认为真实感和非真实感的风格迁移可能是长期的热点 。 除此之外 , 生成网络与3D技术的结合也可能是未来的热点之一 。


推荐阅读