人人都能看懂的Sora技术报告( 二 )


可先制作低分辨率视频原型
此外 , 还可以用Sora在较低分辨率下快速制作原型内容,然后再以全分辨率生成内容,而这一切都能用同一个模型完成 。这就像是先用铅笔画出草图,确认了设计之后再用颜料画出精美的画作,既高效又方便 。
通过实验发现 , 直接在视频的原生宽高比上训练 , 可以改善视频的构图和取景 。将Sora与另一个版本的模型进行了比较 , 后者会将所有训练用的视频裁剪成正方形 。结果发现 , 那些在正方形视频上训练的模型有时会生成画面中主体只部分可见的视频 。相比之下,Sora生成的视频在取景上有了明显的改善 。
为什么Sora能更好的理解提示词
训练文本到视频生成系统需要大量带有对应文本描述的视频 。OpenAI借鉴了在DALL·E 3中介绍的重新标注技术,将其应用于视频 。
首先,OpenAI训练了一个能生成高度描述性文本的模型,然后用这个模型训练集中的所有视频生成文本描述 。OpenAI发现,在高度描述性的视频描述上训练可以提高文本的准确性以及视频的整体质量 。
这就像是给视频配上一本详细的说明书 。当电脑在学习如何根据文本生成视频时,如果这些文本描述得越详细,电脑就能更准确地理解和再现文本中描述的场景,从而制作出更高质量的视频 。这种方法不仅让视频更贴合文本,还提升了视频的整体观赏性 。
与DALL·E 3类似,OpenAI也利用GPT将用户的简短提示转化为更长、更详细的说明,然后这些说明会被送到视频模型中 。这样做使得Sora能够根据用户的提示生成高质量的视频,准确地反映用户的要求 。
这个过程就像是有一个智能助手,当你告诉它你想看的视频大概是什么样子的时候,它不仅听懂了你的要求 , 还能扩展你的想法,给出更具体、更丰富的描述 。然后,这个描述就像是给Sora的一个详细蓝图,让Sora知道该如何制作出你想要的视频,确保最终的视频既符合你的期待,又有高质量的表现 。
图生成视频
Sora能够基于图片和提示生成视频 。下面展示了一些例子,这些视频是基于DALL·E 2和DALL·E 3生成的图片制作的 。
这意味着Sora不仅仅是一个视频制作工具 , 它更像是一个全能的创意伙伴,能够帮助你将任何想法变为现实 。无论是有一个具体的场景想要动画化,还是想要给一张图片添加故事背景,或者是想看看某个瞬间如果向前或向后延续会是什么样,Sora都能帮你实现 。这大大扩展了创作的可能性 , 让你可以更自由地表达和探索创意 。

人人都能看懂的Sora技术报告

文章插图
将图片转成视频
02
视频合成
Sora支持多种视频合成技术 , 包括扩展视频、视频到视频编辑(替换视频中的场景),以及无缝连接两个视频 。这些能力极大地拓展了Sora的适用范围,降低了视频后期处理的门槛 。
扩展视频
Sora还能够扩展视频,无论是向前还是向后延伸时间 。下面有四个视频,它们都是从一个生成的视频片段开始,向后倒退延伸的 。因此,这四个视频的开始各不相同,但都会以同样的场景结束 。
可以利用这种方法,将一个视频向前和向后延伸,从而制作出一个无缝的无限循环视频 。
通过Sora制作了一个无限循环的视频 。
这种能力就像是给视频添加了时间旅行的功能 。想象一下 , 你有一个精彩的瞬间或场景,通过Sora,你不仅可以看到这个场景接下来会发生什么 , 还可以探索如果时间倒流,这个场景会如何展开 。这为创造具有吸引力和创意的内容提供了无限的可能性,比如制作循环播放的背景视频、讲述一个故事的不同开头但相同结局的版本,或者仅仅是为了创造一些美妙且引人入胜的视觉体验 。
视频到视频编辑技术
通过扩散模型,已经使得从文本提示编辑图片和视频成为可能 。OpenAI还将一种方法——SDEdit——应用到了Sora上 。这项技术使得Sora能够零次学习(zero-shot)地转换输入视频的风格和环境 。
这就像是给Sora一个魔法棒,让它能够理解你的文字提示,然后按照这些提示改变视频的外观和感觉 。比如 , 你可以让一个晴朗的海滩视频变成雪地里的场景,或者将日间的场景转变为夜晚,甚至更换整个视频的艺术风格,比如从现实风格变为卡通风格,而这一切都不需要重新拍摄视频,仅仅通过输入新的文本提示就可以实现 。


推荐阅读