Open-Sora AI视频生成

Posted by eye on 03-26,2024

Open-Sora

Open-Sora 这是一项致力于高效制作高质量视频并使所有人都能访问模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的民主化,还提供了一个简化且用户友好的平台,简化了视频制作的复杂性。通过 Open-Sora,我们的目标是激发内容创作领域的创新、创造力和包容性。

新功能

  • Open-Sora-v1 发布。模型权重可在此处获取。仅用 400K 视频片段和 200 H800 天(与稳定视频扩散中的 152M 样本相比),我们就能够生成 2 秒 512×512 视频。
  • 从图像扩散模型到视频扩散模型的三个阶段训练。我们提供每个阶段的权重。
  • 支持训练加速,包括加速 Transformer、更快的 T5 和 VAE、以及序列并行。在 64x512x512 视频上训练时,Open-Sora 将训练速度提高了55% 。详细信息位于acceleration.md
  • 我们提供数据预处理管道,包括下载、视频剪辑和字幕工具。我们的数据收集计划可以在datasets.md中找到。
  • 我们发现VideoGPT的 VQ-VAE质量较低,因此采用Stability-AI的更好的 VAE 。我们还发现时间维度上的修补会降低质量。请参阅我们的报告以了解更多讨论。
  • 我们研究了不同的架构,包括 DiT、Latte 和我们提出的 STDiT。我们的STDiT在质量和速度之间实现了更好的权衡。请参阅我们的报告以了解更多讨论。
  • 支持剪辑和 T5 文本调节。
  • 通过将图像视为一帧视频,我们的项目支持在图像和视频上训练 DiT(例如 ImageNet 和 UCF101)。有关更多说明,请参阅commands.md
  • 支持使用DiT、Latte和PixArt的官方权重进行推理。