AI未来指北特约作者 郝博阳
编辑 郑可君
OpenAI放出重磅第三弹:Sora正式上线!会员无需额外付费就能用
跳票10个月后,OpenAI在北京时间12月10日凌晨终于正式推出了Sora。
但与大家期待中的Sora 2.0级别的大版本升级不同,一致性、1分钟视频输出统统没有。
正如OpenAI的产品经理所言,这次的发布更注重于形成一个 “端到端”的可交付产品。
对于基础模型本身的升级,Sora团队只提到了“用很大的功夫让Sora能够更快、更便宜地生成”。这一更快更便宜的新版Sora被称为Sora Turbo。
而在OpenAI官网的产品更新页里,也丝毫没提及模型的改进,只有对产品本身的介绍。
让我们先来一起看看官方发布的内容效果:
(官网上的部分展示)
可以说,整体和过往Sora的演示水平相差不大。
而17分钟的发布会看完,感受是Sora此次在产品设计上确实向专业影视软件靠近了一些。但模型的原地踏步,让它很难成为一道用户所期待的大餐。
(Sam Altman整场发布会表情都比较严肃)
总体梳理一下发布会提供的关键信息:ChatGPT会员可直接使用Sora Turbo,Plus用户每月50次生成配额,Pro用户享无限慢速模式和500次快速通道;新版除了基础文本生成视频外,还加入了故事板编辑工具、场景混合功能和循环视频制作,支持多种分辨率和最长20秒视频输出,用户还能保存预设风格、一键分享作品到社区。
向着AI生成的FinalCut迈进Sora的核心界面相当简洁明了:它将整个系统分为探索区(Explore)、个人库(Library)和创作系统(Creation System)三大核心区域。
探索区作为Sora的社区中心,采用信息流的形式展示用户分享的作品。用户可以直接在流式的页面中预览播放视频,点击后进入详情页查看完整内容。
这是一个很常规的产品设计,比较特别的是,Sora在每个作品的详情页底部都会展示完整的创作方法,包括具体的文本提示词、使用的参考图片,以及创作工具的详细设置。Sora的开发者在直播中如此评价这一功能:帮助用户最大限度的获取灵感。
个人库则是用户的创作管理中心,提供网格和列表两种视图模式。用户可以创建多级文件夹对作品进行分类整理,也可以将重要作品添加到收藏夹中快速访问。系统还设置了专门的上传区域,用于存储用户的参考图片和视频素材。
创作系统是Sora的核心。整个创作系统包含基础合成器、故事板和高级编辑功能三层工具体系。
基础合成器提供最直接的创作入口,支持通过文字描述生成视频,或将静态图片转换为动态视频,或者直接用视频生成视频这三种模式。
用户可以在横向、方形和竖向三种画面比例中选择,分辨率最高支持1080p,视频长度可在5-20秒范围内调节。系统支持同时生成多个不同版本(最多四个),方便用户对比选择。
此外,OpenAI还内置了多种视觉风格模板,如定格动画和气球世界等,方便用户快速实现特定的视觉效果。
故事板是此次发布中最具创新性的功能,也是Sora最具野心的尝试。它为用户提供了类似专业视频编辑软件的时间轴界面。用户可以在时间轴上添加多个场景卡片,每个卡片都可以包含详细的场景描述或上传的参考图片。用户可以将多个提示词串联起来,系统会自动处理场景之间的过渡效果。
通过调整场景卡片之间的间隔,用户可以控制场景转换的效果。系统会自动理解上传图片的场景内容,生成符合逻辑的动作描述,用户也可以手动修改这些描述来精确控制场景发展。
如果你对生成不满意,还可以在故事版中用Recut,只保留其中一部分的生成,让Sora重新生成另外的部分。
在高级编辑功能方面,Sora提供了Remix、Blend和Loop三个专业工具。Remix支持对已有视频进行创意改编,用户可以通过1-8级的强度调节来控制改编程度。
此外,还可以选择"温和"、"适中"或"强烈"的预设选项。系统能够保留用户指定的原视频元素,同时对其他内容进行创造性改变。
Blend功能则允许将两个不同的视频场景融合,借由此创造出介于梦境与现实之间的奇异画面。用户可以调节融合比例和方式,选择需要保留的关键元素,系统会自动处理场景之间的过渡效果。
(花与冰晶的Blend)
Loop功能专门用于创建无缝循环的视频片段,支持用户自定义循环的起始点,并提供少帧和多帧两种处理模式,分别适用于相似度高和差异较大的片段。
在视频处理流程上,Sora采用了分级处理机制。360p的预览版本生成速度很快,通常只需20秒左右,而1080p的完整版本则需要2-3分钟的处理时间。系统支持后台处理,允许用户同时提交多个任务,并提供实时的处理进度反馈。
为了辅助创作过程,Sora还提供了一系列辅助功能。系统会根据用户输入提供提示词优化建议;允许保存和复用常用的参数组合,比如设置成各种预设风格。在协作方面,用户可以将作品直接分享到探索区;复制他人作品的创作参数,添加标签和描述,以及参与作品评论与反馈。
别期待太多,问题还是不少因为这次Sora的模型本身没有大的提升,因此错误依然很显见。在发布会生成的视频中,我们就可以明显看到Sora翻了两回车。
第一个是指令跟随。在展示故事版功能时,工程师要求Sora生成一只鹤从水里抓出鱼来,结果最终呈现里鱼却没了踪影。而且在这一场景中,水花的溅射也极其夸张,像是朝河里扔了个铁锭子。而水花出现的时间也飘忽不定,鸟喙未到,水花先散。
第二个是物理理解的问题。在用猛犸象群生成的机器人的场景中,前景的机器人几乎叠在了一起。看起来动作非常诡异。
这些不过是Sora目前技术不成熟的一个小小切面。
发布会开始前一小时,Youtube最知名的科技评测网红 Marques Brownlee(MKBHD)就已经抢先发布了深度体验报告。
经过了一周的测试,他对Sora的长短板有着更深入的理解。
Brownlee在测试中发现,Sora的粒子和流体模拟非常到位,“令人惊讶的是,Sora对流体动力学的处理相当出色,水的波动和火焰的效果往往能达到令人信服的程度。即使烟雾效果可能还不够完美。”
Sora在文字渲染方面表现出色。当用户明确要求特定文字时,系统能够准确呈现,这一点在制作标题动画和介绍性内容时特别有用。尽管背景中可能偶尔出现混乱的文字,但只要在提示词中明确指定,关键文字的呈现往往都很准确。
而运动,这个视频生成的老大难问题,也是Sora最大的短板。在生成监控摄像头风格的画面时,人物移动的速度常常显得不自然,时快时慢。甚至当他尝试创作运动场景时,动作总会以一种超现实主义的方式前后交错。
对此Brownlee的结论是:Sora压根儿不懂物理。
但在处理抽象艺术、动画人物等不需要严格遵循物理规律的内容时,效果则相当令人满意。因为你会把奇怪的物理特性当成是一种风格化。
在Sora放出前,大家都认为一致性问题会得到很大改善。然而在Brownlee的测试中,物体在画面中的一致性问题反而尤其突出。
物品可能会在经过其他物体遮挡后突然消失,或者在没有任何明显原因的情况下凭空出现。比如当Brownlee要求系统生成一个科技评测视频时,画面中的"评测者"手里的智能手机会突然消失。
这种现象在处理包含多个移动物体的复杂场景时特别明显。
至于高级控制功能,如内置的故事板工具,似乎也需要多次训练和尝试才能保证有效。Brownlee提醒到:“你需要仔细斟酌每个场景的提示词,因为系统对文字描述的理解有时会出人意料。”
在安全性方面,Sora采用了多重保护措施。系统会自动识别并拒绝处理包含公众人物、品牌标识或未成年人的图片,所有生成的视频都会添加独特的水印动画。但Brownlee表示,这种严格的内容审核机制某种程度上限制了工具的应用范围。无法生成小扎四角笼中大战马斯克的画面,这着实有点让人遗憾。
对于这些缺陷,OpenAI的产品经理在发布会最后表示:“我认为,如果你带着只需点击一个按钮就能生成一部电影的期待来到Sora,那你的期待可能是不对的。Sora是一个工具。它让你可以同时身处多个地方,尝试多种想法,尝试以前完全不可能的事情。但实际上,我们认为这是对幕后创作者的一种超级特别的延伸。”
说实话,大家也没这个期待。只是期待这次更新让Sora离一键生成电影更近一点。但它并没做到。
GPT Plus就能用,Pro不限量在定价策略上,OpenAI显示出了相当的克制。他们并没有为Sora单独设定订阅费用,而是选择将其捆绑进现有的ChatGPT付费计划中。
每个Plus用户(月费20美元,约合人民币145元)每月可以获得50次生成机会,而支付每月200美元的Pro用户则能享受无限次数的"慢速"生成权限,外加500次优先处理的生成机会。
因为OpenAI并没有提供ChatGPT会员以外的充值购买次数的设计,对于重度用户来讲,也许他们不得不花200美元买Pro版才能满足使用需求了。
特别值得注意的是,生成视频的分辨率也会影响你的配额消耗。想要1080p的高清视频?那可能会消耗更多的生成次数。
另外这一服务有比较严格的地区限制。Sam Altman在发布会上透露,“今天起,Sora将在美国和大多数国际市场推出,"他说,"但欧洲和英国用户可能需要等待一段时间。还有部分其他国家也暂时不能使用。”根据其官网的Sora支持国家列表看,无法使用的地区也包括中国和中国香港地区。
发表评论