X
M
L
a
b

Sora 简介

近日,OpenAI 发布了最新的文字生成视频 AI 模型 Sora,在科技界掀起了一股讨论的热潮。

Sora 可以生成长达一分钟的视频,同时保持视觉质量并紧扣用户的提示词。它也能生成具有多个角色、特定运动类型以及精确细节的复杂场景。

在 Sora 的介绍页面中,OpenAI 展示了将近 50 个示例视频,来说明如何在一个生成的视频中创建多个镜头等能力。

但是他们也承认目前的模型存在一些缺陷,比如难以准确地模拟复杂场景的物理特性,并且可能无法理解因果关系。一个人咬了一口饼干,饼干可能没有咬痕。它还可能混淆提示词中的空间细节,例如混淆左和右。

介绍中也提到了 Sora 的技术细节,与 GPT 模型类似,它使用 Transformer 架构,释放了上级扩展性能。

除了能够一次生成整个视频,它也能扩展生成的视频,使其更长。它能够仅从文本指令生成视频,也能够获取现有的静态图像并从中生成视频。

它使用了 DALL·E 3 中的重新捕获技术,该技术可为视觉训练数据生成高度描述性的标题。


Sora 技术报告

官网也提供了 Sora 的技术报告,以下是一些要点:

  • 视频压缩网络:训练了一个网络来降低视觉数据的维度。
  • 采样灵活性:直接以不同设备的本机宽高比为它们创建内容。
  • 改进框架和构图:在视频的原始长宽比上进行训练可以提高构图和取景。
  • 语言理解:先训练了一个高度描述性的字幕模型,然后使用它为所有视频生成文本字幕。
  • 可以让DALL·E生成的图片动起来。
  • 既可以向前拓展视频,也可以向后拓展。
  • 为两个完全不同主题和场景的视频创建无缝过渡。


Sora vs. Pika vs. Runway

因为 Sora 暂时没有开放使用,仅从官网的描述文字中,我们可以把它和之前的 AI 视频生成模型做一个简单的对比。


SoraPikaRunway
侧重点文字生成视频图片生成视频宽范围的视频编辑
视频时长最多 60s3s4s
功能强大中等强大
输入模态文字优先,也支持图片图片图片、视频、文本
输出风格接近现实风格化或艺术化的动画范围宽泛
定价尚未公布免费订阅
优势视频时长,对人类行为和复杂场景的理解基于图像的创意动画AI 工具加持的视频编辑


* 因 Sora 暂未开放使用,以上对比仅仅基于产品介绍页面的描述。更多内容,期待 Sora 正式开放使用后进行评测。