「科技日报」AI造假 vs AI打假 终结“猫鼠游戏”不能只靠技术

  人脸识别作为生物识别中的重要手段 , 成为了近年身份识别中最热门的领域 。 但与人脸识别技术共同发展的 , 还有借助机器学习系统、图像视频和音频内容 , 更改人脸、物体或环境呈现方式的深度伪造技术 。 随着这一技术的日趋成熟 , 其引发的诸多社会问题也开始凸显 。 在对抗虚假视频方面 , 目前各方在寻求技术突破的同时 , 也致力于在制度建设方面做出改变 。

  俗话说“眼见为实” , 人们往往对看到的图像、视频深信不疑 , 而随着Photoshop、美图秀秀等图像编辑软件的兴起 , 人工智能造假技术的更迭 , 图像篡改变得越来越容易 , 假图片、假新闻等在网上泛滥成灾 , 人们也愈发不敢相信自己的眼睛 。

  为了应对美国大选季期间高发的虚假信息 , 近日 , 谷歌决定出手 , 以AI治AI 。 有专家指出 , 深度伪造技术(Deepfake)是AI发展到一定阶段的产物 , 随着这种技术的发展 , 相应的检测技术也会越来越先进——如同“猫抓老鼠的游戏” , 将是一场永无休止的竞赛 。

  假视频越来越逼真

  2019年11月 , 在北美上映的电影《爱尔兰人》反响热烈 , 其中令人咋舌的是电影特效制作公司运用虚拟影像重建技术 , 将片中主角们集体“减龄” , 抹平年近80岁演员们容颜上的岁月痕迹 , 使之重新焕发青春 。 这种让耄耋之年的演员重回年轻模样的“换脸”技术着实让观众心头一震 。

  “Deepfake专指基于人工智能的人体图像合成技术 , 主要应用于‘换脸’ , 其在很多领域有积极的商业价值 , 但是一旦被‘黑产’盯上用作谋利工具 , 则会给个人和社会带来风险和挑战 。 ”远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲介绍说 。

  这其中最饱受争议的是“换脸”技术被一些情色网站利用 。 不久前 , 网络上走红的“一键脱衣”软件DeepNude , 只要输入一张完整的女性图片就可自动生成相应裸照 , 并且生成照片存在着广泛传播的风险 , 最终在各方压力下这款APP被下架 。

  不仅如此 , 不久前还出现了语音版的Deepfake 。 加拿大一家创业公司开发出的语音合成系统RealTalk , 仅基于一定的文本输入即可生成和真人声音十分相似的声音 。 演示中 , 系统模仿了美国一位著名脱口秀喜剧演员、主持人的声音 , 以至于本人听后高呼“真的可怕” 。 而未来这种技术还可能会发展到只需几秒钟的音频素材 , 即能复制出他人声音的程度 。

  让人更为头疼的是 , Deepfake技术让虚假信息“如虎添翼” , 尤其在社会重大事件中能够起到强劲搅拌作用 , 以至于可能会影响到人们决策以及社会稳定 。 据相关文献 , 2016年美国总统大选前的一个月内 , 每个美国网民平均会接触1—3篇假新闻 。 2020年初 , 新冠肺炎病毒席卷全国 , 就有造假者运用上述技术伪造钟南山院士发言 , 而针对“辟谣”的百度搜索指数(1月19日—1月25日)与去年春节期间相比 , 增长了5.4倍 。

  以AI治AI揪出假视频

  “自Deepfake2017年年底首次出现以来 , 随着其技术的开源 , 合成剪辑视频的数量不断增长 。 要对付假视频 , 就要在网络海量信息中 , 快速找到虚假图片 , 并对图像识别后精准提取其中语义 , 这也是目前人工智能算法上的核心研究发力点 。 ”谭茗洲表示 。

  要识别虚假视频 , 首先 , 我们来分析一下Deepfake都有哪些招数 。

  “目前图像篡改类型主要分为复制—粘贴、拼接、图像修补/局部区域去除和人脸PS四大类 。 ”行业专家曹娟博士近日在接受科技日报采访人员采访时指出 , “既有的检测方法主要基于手工特征方法和深度学习的方法 , 前者包括基于图像的物理属性(光照不连续、阴影不连续、色差等)、相机属性(颜色滤波阵列、传感器噪声、EXIF数据分析等)、压缩痕迹(DCT系数、块状效应等)、像素级属性(复制—粘贴、重采样等);后者包括Encoder-Decoder模型、约束卷积模型和Multi-domain模型等 。 ”

  “魔”高一尺 , “道”可高一丈吗?近日 , 谷歌母公司Alphabet旗下的Jigsaw联手Google Research、美国马里兰大学等多家研究机构 , 开发了名为Assembler的实验平台 , 旨在帮助应用者通过简单操作 , 快速识别Deepfake , 减少AI技术滥用所带来的伤害 。

  谭茗洲介绍:“实际上 , 这个平台是把多个图像检测器集成为一个工具 , 每个检测器都针对特定类型的图像进行处理 。 比如 , 有的检测器能判断图像是否有复制粘贴痕迹 , 检测主要关注图像颜色、噪点等 。 ”

  具体而言 , 其机器学习模型既能利用图像的颜色值来查找异常 , 也能检查图像的噪点模式是否存在不一致 。 算法上 , 能够查找被编辑过的JPEG压缩图像区域外观相似的区块 , 以判断其中一个图像是否被复制粘贴到另一个区域上 。

  “然而 , 真实场景中 , 媒体经常面对的是经过复杂处理后编辑的低分辨率的图像 , 这就给检测技术带来新的挑战 。 光用底层算法不能准确抓住图像上损失掉的篡改痕迹 , 还需要结合高层语义算法来识别 。 ”曹娟说 。

  曹娟进一步指出 , 现有检测假视频的方法尚存在三个主要局限性 。 第一 , 通用性不够 , 大部分检测只针对特定类型的篡改 , 如何寻找篡改的共同属性 , 让模型能应对多种篡改类型是未来的研究重点之一 。 第二 , 对抗能力不够 , 目前篡改手段不断隐蔽 , 经过复杂的处理 , 篡改痕迹往往会消失 , 导致检测性能大大下降 。 如何提高模型的鲁棒性 , 应对各种真实的应用场景 , 是未来的核心任务 。 第三 , 目前的方法基本都是对图像划分成小块 , 再逐块处理 , 非常耗时耗资源 。

  共建保证信息真实的生态体系

  国际咨询公司Gartner曾预测:到2020年 , 互联网虚假信息或产生更大危害 , 基于人工智能技术的造假能力或将远超虚假检测的能力 。 2018年3月 , 《科学》杂志刊登的一篇论文指出:近年来虚假新闻的兴起 , 突显出互联网时代现有的对抗错误信息制度和技术的不足 , 目前迫切需要重建一个保证信息真实性的信息生态系统 。

  “如今更重要的是提升针对性的检测技术、完善相关法律及认证机制 。 ”谭茗洲强调 。

  2019年9月5日 , 脸书(Facebook)相关负责人宣布 , 脸书正与微软公司联合包括美国麻省理工学院、英国牛津大学、美国康奈尔大学等在内的多所大学研究检测Deepfake的方法 , 同时非营利性研究组织Partnership on AI也参与其中 , 该组织的成员包括谷歌、苹果、亚马逊、IBM等大型科技公司 。

  曹娟介绍说 , 在研究方面 , 除Assembler平台之外 , 目前国内做的比较好的有中科院计算所、中科院自动化所、北京交通大学、中山大学、深圳大学等 , 国外的美国加州大学伯克利分校、美国宾汉姆顿大学、美国马里兰大学等 。 同时 , 很多企业和研究机构也在积极研发实用的图像篡改检测工具和平台 , 如美国Amped Software公司开发的Amped Authenticate工具 。

  2019年11月29日 , 国家互联网信息办公室发布《网络音视频信息服务管理规定》 , 要求网络音视频信息服务提供者应当具有与新技术新应用发展相适应的安全可控的技术保障 , 部署违法违规音视频和非真实音视频鉴别技术 。

  专家建议 , 防治虚假视频 , 有关部门要建立相关管理制度 , 特别是新闻视频、新闻内容管理方面;在传播渠道上 , 要建立过滤机制 , 在技术上实现高效过滤 , 并且还要对所有造假视频音频实现溯源 , 同时 , 增加对检测技术研发资金的投入 , 激发技术创新 。 (采访人员 华 凌)


    推荐阅读