12月5日凌晨,就在OpenAI宣布将于未来12天连续进行12场发布会直播时,Google DeepMind同时在官网发布了大型基础世界模型Genie 2,可通过单张图片和文字描述生成种类多样的可玩3D世界。作为今年初推出的 Genie 模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的又一次突破。
DeepMind透露,Genie 2具备从不同视角(如第一人称视角与等距视角)生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,但多数情况下维持在10到20秒之间。
博客中放出了大量由模型生成的视频示例,来展示Genie 2在行动控制、长视界记忆、长视频生成、NPC、物理等方面的效果与优势。例如,输入“森林中的可爱人形机器人”,模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。
据悉,经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”(非玩家角色)的行为。许多生成的场景画质接近 3A级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。
技术方面,谷歌提到,Genie 2 是一个自回归潜在扩散模型,在大型视频数据集上进行训练。经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。该模型使用与大语言模型类似的因果掩码进行训练。在推理时, Genie 2能以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。
谷歌对世界模型研究的投入正在持续扩大。今年 10 月,DeepMind 聘请了OpenAI前视频生成项目负责人Tim Brooks,同时两年前从Meta挖来了以开放式实验闻名的Tim Rocktäschel。与之相似的模型还有“AI教母”李飞飞创立的 World Labs 和以色列初创公司 Decart 的产品。
虽然大多数基础世界模型可以模拟游戏和 3D 环境,但还存在伪影、一致性和幻觉相关的问题。Google DeepMind还在博客最后放了一些有趣的“花絮”,Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个“鬼魂”出现在花园,在雪场的人物角色从滑板上跳下来,相比滑雪更爱跑酷,以及一个魔法球爆炸。
就3D游戏生成这一领域研究,谷歌还表示,游戏在人工智能研究领域发挥着重要作用。游戏的吸引力、独特的挑战组合和可衡量的进展使其成为安全测试和推进 AI 能力的理想环境。自 Google DeepMind 成立以来,游戏就一直非常重要,是研究的重心。然而,训练更通用的具身智能体的传统瓶颈在于缺乏足够丰富和多样化的训练环境。
发表评论