谷歌|谷歌新AI火了:世界最长单词都能画!( 二 )


文章图片

首先,使用基于Transformer的图像标记器ViT-VQGAN,将图像编码为离散的标记序列 。
然后再通过Transformer的编码-解码结构,将参数扩展到200亿 。
以往关于文本生成图像的研究,除了最早出现的GAN,大体可以分成两种思路 。
一种是基于自回归模型,首先文本特征映射到图像特征,再使用类似于Transformer的序列架构,来学习语言输入和图像输出之间的关系 。
这种方法的一个关键组成部分就是图像标记器,将每个图像转换为一个离散单元的序列 。比如DALL-E和CogView,就采用了这一思路 。
另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型,比如DALL-E 2和Imagen 。
他们摒弃了图像标记器,而是采用扩散模型来直接生成图像 。可以看到的是,这些模型产生的图像质量更高,在MS-COCO零样本FID得分更好 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

而Parti模型的成功,则证明了自回归模型可以用来改善文本生成图像的效果 。
与此同时,Parti还引入并发布了新的基准测试——PartiPrompts,用于衡量模型在12个类别和11个挑战方面的能力 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

但Parti还是有一定的局限性,研究人员也展示了一些bug:
比如,对否定的描述就没招了~
一个没有香蕉的盘子,旁边一个没有橙汁儿的玻璃杯 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

还会犯一些常识性错误,例如不合理地缩放 。比如这张图,机器人竟然比赛车高出好几倍 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前 。太阳落在城市景观上 。漫画书插图 。
谷歌“自己卷自己”
在这项研究来自Google Research,团队中的华人居多 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

研究核心工作人员包括Yuanzhong Xu、Thang Luong等,目前均就职于谷歌从事AI相关研究工作 。
(Thang Luong在谷歌学术上的引用量高达20000+)
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

△左:Yuanzhong Xu;右:Thang Luong
不过有意思的是,同为“说句话让AI作画”,同为出自谷歌之手的Imagen,它跟Parti还真有点千丝万缕的关系 。
在Parti的GitHub的项目文档中就有提到:
感谢Imagen团队,他们在发布Imagen之前与我们分享了其最近完整的结果 。
他们在CF-guidance方面的重要发现,对最终的Parti模型特别有帮助 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

而且Imagen的作者之一Burcu Karagol Ayan,也参与到了Parti的项目中 。
(有种谷歌“自己卷自己”那味了)
不仅如此,就连“隔壁”DALL-E 2的作者Aditya Ramesh,也给Parti在MS-COCO评价方面做了讨论工作 。
以及DALL-Eval的作者们,也在Parti数据方面的工作提供了帮助 。
One More Thing
有一说一,就“文本生成图像”这事,可不只是研究人员们的宠儿 。
网友们在“玩”它这条路上,也是乐此不疲(脑洞不要太大好吧) 。
【谷歌|谷歌新AI火了:世界最长单词都能画!】前一阵子让Imagen画一幅宋朝“虎戴VR”,直接演变成AI作画大战 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

△图:Imagen作画DALL·E、MidJourney等“闻讯赶来”参与其中 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

△ DALL·E作画甚至还有把Wordle和 DALL-E 2搞到一起的:
谷歌|谷歌新AI火了:世界最长单词都能画!


推荐阅读