人人都能看懂的Sora技术报告 _Sora

文章插图
“
本文详解了AI target=_blank class=infotextkey>OpenAI Sora的技术报告，阐述了它的核心功能：视频生成、视频合成、图片生成以及它的强大之处，最后解释了Sora背后的原理、局限等。
首先，让我们来谈谈这个名字。OpenAI所推出的Sora并不仅仅是一个视频生成工具，而是被定位为世界模拟器，这一定位颇具格局。那么，什么是世界模拟器呢？OpenAI认为，这个工具能够有效地模拟物理和数字世界，包括其中的物体、动物和人类等各种元素。
从字里行间可以看出，这个模型是构建元宇宙的一个非常有效的途径。
以往的视频生成模型和算法往往局限于特定类别的视觉数据，比如较短或固定大小的视频。与此不同的是， Sora是一个通用的视觉数据模型——它能够生成持续时间、宽高比和分辨率多样的视频和图像，甚至能够生成长达一分钟的高清视频。
这意味着，Sora超越了以往模型的限制，不仅能够处理更广泛类型的视觉内容，还能生成更长、更高质量的视频。这种能力让Sora在视频生成和图像处理领域展现出更为强大和灵活的潜力，无论是为社交媒体内容创作、电影制作预览、虚拟现实环境构建，还是为科研和教育提供视觉资料，Sora都表现出了巨大的应用前景。
Sora的核心功能
Sora Features
01
Sora的核心功能可以归纳为三个：视频生成、视频合成以及图片生成。因此，我们不能简单地将其视为一个仅限于视频生成的工具，否则将忽略其许多实用的功能。
尽管视频生成和视频合成在其他AI视频工具中也存在，但Sora有其独特的优势和强大之处。
01
视频生成
视频生成是Sora的核心功能，但它拥有几个强大的特点，使其能够在竞争激烈的AI视频工具市场中脱颖而出：
生成长达1分钟视频
大多数工具通常只能生成几秒到十几秒的视频。而Sora则可以直接生成长达一分钟的视频，且这一分钟的视频并非单一场景，而是由多个镜头组成。更令人印象深刻的是，Sora能够确保多个镜头之间的人物、场景等保持一致性。理论上讲，Sora可以生成更长的视频，就像使用ChatGPT写文章时能够比以前写更长一样，但这可能受到算力的限制。
上面的视频长达一分钟，但它是有多个镜头组成，不同镜头有不同的景别
可生成不同尺寸的视频
Sora能够生成不同尺寸的视频，包括宽屏的1920x1080p视频、竖屏的1080x1920视频，以及这两者之间的所有尺寸。这意味着Sora可以直接按照不同设备的原生宽高比创建内容。这样做的好处是，无论是手机、电脑还是电视，Sora都能为它们直接制作出完美匹配的视频。
上面的视频有不同的长宽比
更优秀的语义理解
Sora采用了独特的训练方法，使其能够更好地理解语义（即提示词），从而生成更符合需求的视频，后文详细说明。
3D一致性
这个功能也可以理解为对运动相机的支持，比如类似航拍环绕镜头，Sora能随着相机的移动和旋转，人物和场景元素在三维空间中一致地移动，让人有身临其境的感觉。
上面的视频模拟了一个一镜到底的航拍镜头，可以看到随着镜头运动，人物和场景元素并为发生变化。
多镜头之间的角色一致性
Sora可以持续地模拟人物、动物和物体，即使它们被遮挡或离开画面。同样，它能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持他们的外观。
上面的视频中斑点狗有一次被行人遮挡，但再次出现后它的形象仍然可以保持一致。
上面的视频中包含2个镜头，但角色形象在2个镜头中保持了一致。
以下是一些更具体的说明：
可变的视频时长、分辨率、宽高比
以往的视频生成方法通常会将视频调整为标准尺寸，比如裁剪成4秒长、分辨率为256x256 。然而，OpenAI发现，直接在视频原始尺寸上进行训练有许多好处。
就好比是，如果我们让孩子总是穿着同一尺码的衣服，可能就无法培养他们选择合适衣服的能力。但如果让他们尝试不同尺码和样式的衣服，他们就能更好地了解什么样的衣服最适合自己，也能更自在地表达自己的风格。
同样地，当我们让电脑处理原始大小的视频时，电脑就能学会更好地理解和生成各种不同尺寸和形式的视频，这样生成的视频也会更加多样化和自然。

人人都能看懂的Sora技术报告

推荐阅读

北青网综合|四川宜宾市珙县发生4.1级地震，震源深度6千米

冯题说娱乐|德布劳内不愧为“真核”，四边锋的打法更是犀利，比利时大胜冰岛

车辆知多少|让你也能拥有大长腿，不想穿成“矮冬瓜”这个秋冬穿好靴子

大学生如何提升自己的就业能力如何提高就业能力

美国@噩耗！截至5月4日，美国内乱疫情双双爆发，特朗普想哭也晚了

明朝古代最专情的帝王，一生一世只爱一人，是好皇帝也是模范丈夫

游戏对长|G2和UOL打两场训练赛，62分钟140个人头，感觉真被峡谷之巅同化了

【严肃说数码】iPhone 11又获销量第一，千元机荣耀20S位列第二，还有谁？

电影|今年不设红地毯金鸡百花电影节低调开幕

OPPO手机当最强“私有”充电协议拥有者OPPO走向“兼容”，会发生什么？

地理标志产品,海南白沙绿茶入编中国地理标志产品大典

电影|动画电影《白蛇2青蛇劫起》全新海报公布：许仙被青蛇嫌弃了

智能家▲荣耀30和荣耀v30区别

剖腹产产后一个月可以穿塑身衣吗,产后要穿收腹衣吗-

公司offer长啥样公司offer什么意思

税率|契税法明年9月施行：税率未调整，或不影响购房成本

罗说NBA|快船仍未摆出最强阵容，连续12次打铁！小卡三战命中率仅26％

嘴唇溃疡是什么原因(外嘴唇溃疡是什么原因造成的)

海外网|【战疫全时区】伊朗新增2625例确诊病例累计超27.8万例

三八礼物送哪些好呢