Sora, Pika, Runway - AI视频生成工具比较 | 分享

Sora 简介

近日，OpenAI 发布了最新的文字生成视频 AI 模型 Sora，在科技界掀起了一股讨论的热潮。

Sora 可以生成长达一分钟的视频，同时保持视觉质量并紧扣用户的提示词。它也能生成具有多个角色、特定运动类型以及精确细节的复杂场景。

在 Sora 的介绍页面中，OpenAI 展示了将近 50 个示例视频，来说明如何在一个生成的视频中创建多个镜头等能力。

但是他们也承认目前的模型存在一些缺陷，比如难以准确地模拟复杂场景的物理特性，并且可能无法理解因果关系。一个人咬了一口饼干，饼干可能没有咬痕。它还可能混淆提示词中的空间细节，例如混淆左和右。

介绍中也提到了 Sora 的技术细节，与 GPT 模型类似，它使用 Transformer 架构，释放了上级扩展性能。

除了能够一次生成整个视频，它也能扩展生成的视频，使其更长。它能够仅从文本指令生成视频，也能够获取现有的静态图像并从中生成视频。

它使用了 DALL·E 3 中的重新捕获技术，该技术可为视觉训练数据生成高度描述性的标题。

官网也提供了 Sora 的技术报告，以下是一些要点：

因为 Sora 暂时没有开放使用，仅从官网的描述文字中，我们可以把它和之前的 AI 视频生成模型做一个简单的对比。

* 因 Sora 暂未开放使用，以上对比仅仅基于产品介绍页面的描述。更多内容，期待 Sora 正式开放使用后进行评测。