翻译了OpenAI关于Sora相关的技术报告：《Video generation models as world simula...

network · 发表于 2024-2-17 06:05:18

翻译了OpenAI关于Sora相关的技术报告：《Video generation models as world simulators | 视频生成模型：构建虚拟世界的模拟器》

这篇技术报告主要介绍了两方面内容：(1) OpenAI如何将各种类型的视觉数据转化为统一的表示形式，从而实现生成模型的大规模训练；(2) 对 Sora 模型能力和局限性的定性评价。

报告中没有包含模型和实施的详细信息。

Sora 属于扩散型 Transformer（diffusion transformer）。

我们知道，传统的 Transformer，主要有Encoder和Decoder，Encoder是将文本编码成 Token，从而可以将自然语言变成可以统一处理的数字或代码。而 Decoder 则是将 Token 反向解码成文本。

而 Sora 也是类似的思路，只不过它编码的结果不是Token，报告里面叫 Patches（中文暂译做补片），Encoder 将视频压缩为低维潜空间，再将其分解为 Patches。同样 Sora 也能从 Patches 反向解码成视频图像。（参考图一）

Sora 同时还是一种扩散模型，能将有噪声的图像块，基于 Prompt 还原出清晰的图像。（参考图二）

另外，报告中特地提到了：“我们的研究显示，扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。”

据说微软前一段时间给OpenAI搞了五千亿个视频用于训练。

原文：https://openai.com/research/video-generation-models-as-world-simulators…

译文：https://baoyu.io/translations/openai/video-generation-models-as-world-simulators

network · 发表于 2024-2-18 05:39:48

Sora的核心技术源自Diffusion Transformers （DiT）模型

这是一个2022年12月由伯克利和纽约大学两位研究人员提出的模型，目前这两位一个在Meta AI，一个在OpenAI…🤓

根据其中一个作者
@sainingxie
（目前就职于Meta AI），根据他他提供的深入分析，Sora是一个基于DiT的混合模型，包含VAE、ViT、DDPM。

自编码器（VAE）：用来处理视频数据，使得视频在生成时可以保持时间上的连贯性。

视觉变换器（ViT）：让模型更灵活地处理不同的视频数据，比如可以只关注视频中的某些特定部分。

DDPM：帮助生成更高质量的视频。

•Sora的”视频压缩网络”实质上是一个在原始视频数据上训练的VAE，其中标记化对于保持良好的时间一致性很关键。

•在DiT项目中，强调了简单性和可扩展性。ViT的灵活性使模型在处理输入数据时更加灵活，而Sora展示了DiT的缩放定律也适用于视频。

•Sora的关键进展包括其”新兴模拟能力”，特别是在长视频生成方面的突破，以及对训练数据来源和构建的讨论缺失。

DiT项目地址：https://wpeebles.com/DiT
论文：https://arxiv.org/abs/2212.09748
GitHub：https://github.com/facebookresearch/DiT

其他技术细节与推测：

• Sora可能还使用了Patch n’ Pack（NaViT）来适应不同的分辨率、持续时间和宽高比。

• NaViT模型：提出了一种新的视觉变换器，能够处理任意分辨率和纵横比的输入，摆脱了传统上需要将图像调整到固定分辨率的限制。

• 灵活性和效率： NaViT不仅在使用上提供了灵活性，还在大规模的监督学习和图像-文本对比学习中展示了提高的训练效率。

• 跨任务应用能力： NaViT能够被高效地迁移到包括图像和视频分类、对象检测、语义分割等标准视觉任务，并在这些任务上取得了优异的性能。

• 推理时的灵活性：在推理阶段，NaViT允许根据需要灵活调整输入分辨率，以在计算成本和模型性能之间找到最佳平衡。

Patch NaViT论文：https://arxiv.org/abs/2307.06304

对于视频质量的推测，基于模型大小和计算量的估算，Sora可能拥有约3B参数，这表明训练Sora模型可能不需要预期的那么多GPU，预计将有非常快的迭代。

最新进展：

DiT在Sora中的应用表现出色，NYU的团队最近发布了一个新的DiT模型，称为SiT，具有相同的架构但提供了更高的性能和更快的收敛速度，对其在视频生成上的表现表示出了浓厚的兴趣。

SiT论文：https://arxiv.org/pdf/2401.08740.pdf
下午9:43 · 2024年2月17日
·
4万
查看

账号		自动登录	找回密码
密码			注册