人人都能看懂的Sora技术报告( 三 )


上面的视频中展现了将原视频进行场景替换后生成的新视频 。
这种技术大大扩展了视频编辑的可能性,让创作者能够轻松实验和创新,将原本平凡的视频转换为全新的视觉体验,增加了内容的创意和多样性 。
视频连接
我们还可以利用Sora在两个输入视频之间进行逐渐的插值,创造出完全不同主题和场景组成的视频之间的无缝过渡 。在下面的例子中,中间的视频是左右两边对应视频之间的过渡 。
上面的视频中展现了将两个视频拼接后的新视频 。
这就像是有了一座魔法桥,可以将两个完全不同的世界连接起来 。比如,一个视频是在繁忙的城市街道,另一个视频是在宁静的乡村田野,Sora可以创造出一个过渡视频 , 观众可以看到城市逐渐变成乡村的画面,就像是从一个场景平滑地旅行到另一个场景 。
这种能力为视频制作提供了新的创意手段,允许创作者以前所未有的方式来讲故事或展示内容 。无论是为了讲述一个跨越不同地点的故事,还是为了创造吸引人的视觉效果,通过Sora连接视频的功能都能让视频内容变得更加丰富和吸引人 。
03
图片生成
Sora也具备生成图片的能力 。这个模型能够生成不同大小的图片——分辨率最高可达2048x2048 。

人人都能看懂的Sora技术报告

文章插图
这种能力使Sora成为一个多才多艺的创意工具,不仅可以制作视频,也能创造出精美的静态图像,适用于各种视觉艺术和设计领域 。
涌现能力
Emerging simulation capabilities
02
当在大规模上训练时,视频模型展现出了一些有趣的涌现能力 。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面 。这些属性的出现,并不需要对三维、物体等进行明确的引导——它们完全是规模效应的现象 。
与世界互动 。Sora有时可以模拟以简单方式影响世界状态的行为 。例如,画家可以在画布上留下随时间持续存在的新笔触,或者一个人吃汉堡时留下咬痕 。
模拟数字世界 。Sora还能够模拟人工过程——一个例子是视频游戏 。Sora可以在模拟《Minecraft》世界及其动态的同时,用基本策略控制玩家 。通过用提及“Minecraft”的字幕提示Sora,可以零次学习地引发这些能力 。
这些能力表明,继续扩大视频模型的规模是朝着开发能够高效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路 。
Sora训练方法
How training Sora
03
借鉴了ChatGPT的训练思路
虽然Sora是一个视频模型 , 但其训练方式与诸如ChatGPT这类语言模型相似 。不同之处在于,Sora使用的训练数据是视频和图片 , 而ChatGPT则使用文本数据 。
训练过程类似 , 首先需要对视觉数据(即视频和图片)进行压缩,然后将简化后的视频分解成许多小块(这里称为视觉补?。??每个小块包含视频的一小部分画面和时间,就像是将一段故事分成一幕幕小片段一样 。这样的处理有助于使电脑更容易学习和理解视频中的信息 。
人人都能看懂的Sora技术报告

文章插图
用于视频生成的缩放转换器
Sora被描述为一种扩散模型,你可以将其想象成一个超级洗衣机 。给它一些“脏”衣服块(在我们的例子中,这些带有噪声的视频块),再加上一些清洗指令(比如文字提示),它就能够训练自己预测出这些衣服块原本的干净样子 。而且,Sora作为一个扩散变换器,在语言模型、计算机视觉和图像生成等领域都显示出了惊人的扩展能力 。
人人都能看懂的Sora技术报告

文章插图
就像变换器在不同领域都表现出色一样,Sora也利用这种能力来学习如何从噪声中恢复出清晰的视频块 。这使得Sora在处理视频和图像时变得非常强大和灵活 。
在实验中,发现扩散变换器在视频模型方面也能够有效地扩展 。进行了一个实验,用固定的种子和输入比较了训练过程中视频样本的质量变化 。随着训练计算量的增加,样本质量显著提高 。
Sora的局限性
尽管Sora作为一个模拟器展现了许多涌现能力,但它目前还存在许多限制 。例如,它不能准确地模拟许多基本互动的物理过程,比如玻璃碎裂 。其他互动,比如吃食物,不总是导致物体状态的正确变化 。OpenAI在官网上列举了模型的其他常见失败模式——比如在长时间样本中发展的不连贯性或物体的突然出现 。(有人竟把它当作Sora翻车视频??)


推荐阅读