别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

【导读】AI target=_blank class=infotextkey>OpenAI Sora还没用上 , 国产Sora刚刚正式宣布全面开源!「Open-Sora 1.0」所有的训练细节模型权重全面开源 , 1万美元64块GPU复现,训练成本直降46% 。

别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
图片来源:由无界AI生成
不久前OpenAI Sora以其惊人的视频生成效果迅速走红 , 在一众文生视频模型中突出重围,成为全球瞩目的焦点 。
继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora 1.0」——涵盖了整个训练流程 , 包括数据处理、所有训练细节和模型权重 , 携手全球AI热爱者共同推进视频创作的新纪元 。
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
Open-Sora开源地址:https://Github.com/hpcaitech/Open-Sora
先睹为快,我们先看一段由Colossal-AI团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频 。
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
Open-Sora 1.0生成的都市繁华掠影
这仅仅是Sora复现技术冰山的一角,关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo展示和详细的上手教程,Colossal-AI团队已经全面免费开源在GitHub 。
同时,新智元第一时间联系了该团队,了解到他们将不断更新Open-Sora的相关解决方案和最新动态,感兴趣的朋友可以持续关注Open-Sora的开源社区 。
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
全面解读Sora复现方案
接下来,我们将深入解读Sora复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略 。
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
模型架构设计
模型采用了目前火热的Diffusion Transformer(DiT)[1]架构 。
作者团队以同样使用DiT架构的高质量开源文生图模型PixArt-α [2]为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上 。
具体来说,整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型 。
其中,STDiT 每层的结构如下图所示 。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块 , 用于建模时序关系 。
在时间注意力模块之后,交叉注意力模块用于对齐文本的语意 。与全注意力机制相比,这样的结构大大降低了训练和推理开销 。
与同样使用空间-时间注意力机制的Latte [3]模型相比,STDiT可以更好的利用已经预训练好的图像DiT的权重,从而在视频数据上继续训练 。
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元

文章插图
STDiT结构示意图
整个模型的训练和推理流程如下 。据了解 , 在训练阶段首先采用预训练好的Variational Autoencoder(VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型 。
在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声 , 与提示词嵌入(prompt embedding)一起输入到STDiT中 , 得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频 。
模型的训练流程
训练复现方案
我们向该团队了解到,Open-Sora的复现方案参考了Stable Video Diffusion(SVD)[3]工作,共包括三个阶段,分别是:
1. 大规模图像预训练;
2. 大规模视频预训练;
3. 高质量视频数据微调 。
每个阶段都会基于前一个阶段的权重继续训练 。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标 。
训练方案三阶段
第一阶段:大规模图像预训练
第一阶段通过大规模图像预训练 , 借助成熟的文生图模型,有效降低视频预训练成本 。
作者团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术 , 我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重 。
同时,由于目前没有高质量的时空VAE,他们采用了Stable Diffusion [5]模型预训练好的图像VAE 。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本 。


推荐阅读