谷歌|谷歌新AI火了:世界最长单词都能画!

朋友,你知道这个英文单词是什么吗?
Pneumonoultramicroscopicsilicovolcanoconiosis.
这个世界公认最长——由45个字母组成的单词,意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病) 。
但如果说,现在不是让你拼读这个单词,而是……把它给画出来呢?
(读都读不出来,还画画???)
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

谷歌最新提出来的一个AI——Parti,它就能轻松hold住这事 。
在把这个单词“投喂”给Parti后,它就能有模有样地生成多张合情合理的肺部疾病图片:
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

但这只是Parti小试牛刀的能力,据谷歌介绍,它是目前最先进的“文本转图像”AI 。
例如,跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合”,输出结果是这样的:
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

(不知道的还真以为是画报呢)
而且在算法路数上,还不同于谷歌自家的Imagen,Parti可以说是把“AI作画”卷出了新高度 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

就连谷歌AI负责人Jeff Dean也连发数条推文,玩得不亦乐乎:
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

可扩展到200亿参数:更逼真,更“聪明”
事实上,Parti的能力还不止于此 。
得益于模型可扩展到200亿参数,一方面,它生成的图像更加细节逼真 。
不管是短短几个字,还是五十多个个单词的小段落,都能清晰展现出来 。
比如,The back of a violin,小提琴的背面 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

亦或是照着梵高《星空》来描述的夜晚画面 。ps,这段有67个单词 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

结果Parti也不在话下,一揽子把各种风格的图全给你画出来了~
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

这也正是Parti的第二大能力,不光细节到位,风格也能做到多变 。
还有像“浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋”这种奇特的描述,它也能在整出花活的同时还不落细节 。
风格上,则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

甚至有时候它还会讲双关笑话 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

(Toad’ay,癞蛤蟆)
具体在测试结果上,MS-COCO、Localized Narrative(LN,4倍长的描述)上FID分数,Parti都取得了最先进的结果 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

尤其在MS-COCO零样本的FID得分仅为7.23,微调FID得分为3.22,超过了此前的Imagen和DALL-E 2 。
所有组件都是Transformer
时隔一个月,谷歌再把AI作画卷出新高度,结果作者却说:秘诀很简单 。
谷歌|谷歌新AI火了:世界最长单词都能画!
文章图片

Parti主要是将文本生成图像视作序列到序列之间建模 。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出从文本变成了图像 。
从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer 。
谷歌|谷歌新AI火了:世界最长单词都能画!


推荐阅读