谷歌|谷歌新AI火了:世界最长单词都能画!
朋友,你知道这个英文单词是什么吗?
Pneumonoultramicroscopicsilicovolcanoconiosis.
这个世界公认最长——由45个字母组成的单词,意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病) 。
但如果说,现在不是让你拼读这个单词,而是……把它给画出来呢?
(读都读不出来,还画画???)
文章图片
谷歌最新提出来的一个AI——Parti,它就能轻松hold住这事 。
在把这个单词“投喂”给Parti后,它就能有模有样地生成多张合情合理的肺部疾病图片:
文章图片
但这只是Parti小试牛刀的能力,据谷歌介绍,它是目前最先进的“文本转图像”AI 。
例如,跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合”,输出结果是这样的:
文章图片
(不知道的还真以为是画报呢)
而且在算法路数上,还不同于谷歌自家的Imagen,Parti可以说是把“AI作画”卷出了新高度 。
文章图片
就连谷歌AI负责人Jeff Dean也连发数条推文,玩得不亦乐乎:
文章图片
可扩展到200亿参数:更逼真,更“聪明”
事实上,Parti的能力还不止于此 。
得益于模型可扩展到200亿参数,一方面,它生成的图像更加细节逼真 。
不管是短短几个字,还是五十多个个单词的小段落,都能清晰展现出来 。
比如,The back of a violin,小提琴的背面 。
文章图片
亦或是照着梵高《星空》来描述的夜晚画面 。ps,这段有67个单词 。
文章图片
结果Parti也不在话下,一揽子把各种风格的图全给你画出来了~
文章图片
这也正是Parti的第二大能力,不光细节到位,风格也能做到多变 。
还有像“浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋”这种奇特的描述,它也能在整出花活的同时还不落细节 。
风格上,则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……
文章图片
甚至有时候它还会讲双关笑话 。
文章图片
(Toad’ay,癞蛤蟆)
具体在测试结果上,MS-COCO、Localized Narrative(LN,4倍长的描述)上FID分数,Parti都取得了最先进的结果 。
文章图片
尤其在MS-COCO零样本的FID得分仅为7.23,微调FID得分为3.22,超过了此前的Imagen和DALL-E 2 。
所有组件都是Transformer
时隔一个月,谷歌再把AI作画卷出新高度,结果作者却说:秘诀很简单 。
文章图片
Parti主要是将文本生成图像视作序列到序列之间建模 。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出从文本变成了图像 。
从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer 。
推荐阅读
- 飞机|长途机票燃油附加费涨至200元!今年第五次涨价 历史新高
- 生科医学|美国顶级专家福奇服用辉瑞新冠口服药后复阳:症状更糟糕
- 蒋欣|39岁蒋欣撕掉“微胖标签”,体重成功降到90斤,美出新高度
- 暴雪|《暗黑破坏神2:重制版》更新上线:掉装率提升、游戏大厅改进等
- 任天堂|任天堂发布最新财报数据:NS销量跌了20%
- 微软|首次突破20% 微软Win11份额升至第三:年度重磅更新即将到来
- 法术|《艾尔登法环》新手职业推荐入门攻略(珍藏版)
- 汽车|毁经典!新一代丰田皇冠效果图曝光:像大号雷凌
- 印尼一市不戴口罩者罚坐灵车-印度疫情最新消息
- 如何白手起家创业致富,最新白手起家创业点子-