人人都能看懂的Sora技术报告

 

人人都能看懂的Sora技术报告

文章插图

本文详解了AI target=_blank class=infotextkey>OpenAI Sora的技术报告 , 阐述了它的核心功能:视频生成、视频合成、图片生成以及它的强大之处,最后解释了Sora背后的原理、局限等 。
首先 , 让我们来谈谈这个名字 。OpenAI所推出的Sora并不仅仅是一个视频生成工具,而是被定位为世界模拟器,这一定位颇具格局 。那么,什么是世界模拟器呢?OpenAI认为,这个工具能够有效地模拟物理和数字世界,包括其中的物体、动物和人类等各种元素 。
从字里行间可以看出,这个模型是构建元宇宙的一个非常有效的途径 。
以往的视频生成模型和算法往往局限于特定类别的视觉数据,比如较短或固定大小的视频 。与此不同的是 , Sora是一个通用的视觉数据模型——它能够生成持续时间、宽高比和分辨率多样的视频和图像,甚至能够生成长达一分钟的高清视频 。
这意味着,Sora超越了以往模型的限制,不仅能够处理更广泛类型的视觉内容 , 还能生成更长、更高质量的视频 。这种能力让Sora在视频生成和图像处理领域展现出更为强大和灵活的潜力 , 无论是为社交媒体内容创作、电影制作预览、虚拟现实环境构建,还是为科研和教育提供视觉资料,Sora都表现出了巨大的应用前景 。
Sora的核心功能
Sora Features
01
Sora的核心功能可以归纳为三个:视频生成、视频合成以及图片生成 。因此,我们不能简单地将其视为一个仅限于视频生成的工具,否则将忽略其许多实用的功能 。
尽管视频生成和视频合成在其他AI视频工具中也存在 , 但Sora有其独特的优势和强大之处 。
01
视频生成
视频生成是Sora的核心功能,但它拥有几个强大的特点,使其能够在竞争激烈的AI视频工具市场中脱颖而出:
生成长达1分钟视频
大多数工具通常只能生成几秒到十几秒的视频 。而Sora则可以直接生成长达一分钟的视频,且这一分钟的视频并非单一场景 , 而是由多个镜头组成 。更令人印象深刻的是,Sora能够确保多个镜头之间的人物、场景等保持一致性 。理论上讲,Sora可以生成更长的视频,就像使用ChatGPT写文章时能够比以前写更长一样,但这可能受到算力的限制 。
上面的视频长达一分钟,但它是有多个镜头组成,不同镜头有不同的景别
可生成不同尺寸的视频
Sora能够生成不同尺寸的视频,包括宽屏的1920x1080p视频、竖屏的1080x1920视频,以及这两者之间的所有尺寸 。这意味着Sora可以直接按照不同设备的原生宽高比创建内容 。这样做的好处是,无论是手机、电脑还是电视,Sora都能为它们直接制作出完美匹配的视频 。
上面的视频有不同的长宽比
更优秀的语义理解
Sora采用了独特的训练方法 , 使其能够更好地理解语义(即提示词),从而生成更符合需求的视频 , 后文详细说明 。
3D一致性
这个功能也可以理解为对运动相机的支持,比如类似航拍环绕镜头,Sora能随着相机的移动和旋转,人物和场景元素在三维空间中一致地移动,让人有身临其境的感觉 。
上面的视频模拟了一个一镜到底的航拍镜头,可以看到随着镜头运动,人物和场景元素并为发生变化 。
多镜头之间的角色一致性
Sora可以持续地模拟人物、动物和物体,即使它们被遮挡或离开画面 。同样 , 它能够在单个样本中生成同一角色的多个镜头 , 并在整个视频中保持他们的外观 。
上面的视频中斑点狗有一次被行人遮挡,但再次出现后它的形象仍然可以保持一致 。
上面的视频中包含2个镜头,但角色形象在2个镜头中保持了一致 。
以下是一些更具体的说明:
可变的视频时长、分辨率、宽高比
以往的视频生成方法通常会将视频调整为标准尺寸,比如裁剪成4秒长、分辨率为256x256 。然而,OpenAI发现 , 直接在视频原始尺寸上进行训练有许多好处 。
就好比是 , 如果我们让孩子总是穿着同一尺码的衣服,可能就无法培养他们选择合适衣服的能力 。但如果让他们尝试不同尺码和样式的衣服 , 他们就能更好地了解什么样的衣服最适合自己 , 也能更自在地表达自己的风格 。
同样地,当我们让电脑处理原始大小的视频时,电脑就能学会更好地理解和生成各种不同尺寸和形式的视频,这样生成的视频也会更加多样化和自然 。


推荐阅读