AI人工智能|OpenAI新模型曝光：给它半张图片，能够猜测补全 AI人工智能

去年 2 月，位于美国旧金山的研究实验室 OpenAI 宣布，其 AI 系统已经可以自行用英文写出一段令人信服的短文。在这个被称为 GPT-2 的模型中输入一个句子或段落的开头，该模型就可以按照所给文本的思路续写出一篇文章，其上下文的连贯性几乎同人类一样，可以假乱真。
如今，该实验室正在探索若在相同的算法中输入某张图片的一部分会发生什么。在本周的机器学习国际会议（ICML 2020）上，这一研究成果获得了最佳论文的荣誉称号，为图像生成开辟了一条新的路径。
GPT-2 的核心其实是一个强大的预测引擎。它通过查看从互联网各处搜索得来的数十亿单词、句子和段落，学习并掌握了英语这门语言的结构。掌握了这一结构， GPT-2 就可以从统计学的角度预测单词出现的顺序，从而操纵单词，将不同的单词组成新的句子。
因此， OpenAI 的研究人员决定将单词换成像素，在 ImageNet（最受欢迎的深度学习图像库）上用图片训练相同的算法。由于该算法最初是为处理一维数据（例如文本字符串）而设计的，于是研究人员将图片展开为单像素序列。他们将新模型命名为 iGPT ，发现它可以理解视觉世界的二维结构。提供给该模型某张图片上半部分的像素序列，它就可以合乎情理地预测出图片的下半部分。
下面，你可以看到一些例子。最左列是研究人员提供的图片，最右列是原始图片，中间是 iGPT 在预测的基础上补全的图片。

文章图片

文章图片

iGPT 的这一训练结果让人非常吃惊，它展示了开发计算机视觉系统的一条新路径，即利用在无人为标签的数据上进行训练的无监督学习。事实上， 2005 年左右，早期的计算机视觉系统就曾试用过这一技术，但由于当时使用人为标签数据的监督学习更为成功，这一技术就遭到了冷落。但是，无监督学习的优势就在于 AI 系统可以在没有人工过滤器的前提下去了解世界，大大减少了标记数据的体力劳动。
iGPT 与 GPT-2 使用相同算法的，这一事实也显示了 iGPT 具有良好的适应能力。这也与 OpenAI 的最终目标一致，即创造出更通用的机器智能。
同时，该方法为生成深度伪造图片提供了一种新思路。在过去，生成式对抗网络（GAN）是生成深度伪造图片最常用的算法类别，必须用高度精确的数据进行训练。例如，若想用 GAN 生成一张脸，那么训练的数据也只能是脸。相反， iGPT 通过数百万和数十亿的图片学习了视觉世界的结构，从而可以生成极有可能真实存在的图片。虽然从计算层面上来看，训练这一模型成本太过昂贵，为其进入图像库设下了一道天然的屏障，但这一问题在不久的将来很快就可以得到解决。
OpenAI 没有接受采访，但在《麻省理工科技评论》去年参加的一次内部政策小组会议上，其政策总监杰克·克拉克（Jack Clark）对 GPT 式生成模型未来存在的风险进行了思考，包括将其应用于图像领域会发生什么。他基于自身所见，预测了该领域的研究轨迹走向并说到， “很快会应用到视频。大概再过 5 年，就可以在 5 到 10 秒的间隔内完成条件视频生成。”接着，他描述了自己想象的情景：输入一张政客的照片，照片上政客的旁边发生了爆炸，该模型就很可能输出该政客被谋杀的信息。
【AI人工智能|OpenAI新模型曝光：给它半张图片，能够猜测补全】编译：李珊

AI人工智能|OpenAI新模型曝光：给它半张图片，能够猜测补全

推荐阅读

晓光讲娱乐当年刘强东承诺做够5年就能买房，如今来京东上班的第一号员工，过得咋样了

肉价、菜价、水果价，啥时候降？官宣来了→

谢昀杉|从“鬼马童星”到销声匿迹，谢昀杉走错了哪一步？

直播吧|法夫尔：桑乔的未来？这问题赛季结束后再看看吧

「武网」武网正赛首日 | 金花主场亮相，名将携手晋级

加油的舞蹈啦啦队舞蹈

吃黄油渣上火吗？黄油渣的营养价值有哪些?

赵露思|从绝望的文盲到大骂脏话，赵露思，终于走到今天这一步

环保|环保倒退20年！日本货船持续漏油，毛里求斯海洋生物开始死亡

开发、运维、测试，哪个岗位更有前途？

二婚前依旧对林徽因不忘情的徐志摩：回电报时听到这话后彻底死心

静海君|如何出装才能收益最大化，从魔女斗篷的技能机制看法师的困境

星座不靠谱呦|天蝎真的冤枉死了！，冷血狂魔？12星座中看起来最“冷血”的星座

板块|收评：三大指数全天震荡沪指涨0.1% 旅游概念延续强势

六堡茶的保存方法

智通财经|基石金融(08112)：“20合1”并股6月5日生效

小姐姐|康辉公开央视更衣室！铁皮柜上挂满毛巾衣服，房间杂乱狭小太真实

墨迹天气|吉林省气象台发布雷电黄色预警

[医疗队]医生朱彬：我的兄弟在战斗，我要回去！

就这样人类最早的文字之一汉字诞生了?人类最早的文字之一是什么创造的汉字