谷歌发布新AI模型Genie：图片即可创造虚拟世界

2024-02-28 19:44:35 董心

导读日前，谷歌发布新AI模型Genie，可接收文本提示、草图或想法，创造可互动的虚拟世界。

日前，谷歌发布新AI模型Genie，可接收文本提示、草图或想法，创造可互动的虚拟世界。 Genie拥有110亿个参数，可以说是一个基础世界模型。它由三部分组成，一个时空视频标记器、一个自回归动力学模型，以及一个简单且可扩展的潜在行动模型。

Genie通过了互联网上超过20万小时的2D游戏视频训练，目前还是一个研究预览版。它是在无监督和无标签视频的情况下进行训练的，能够学习各种角色的动作、控制和行动，做到一致性。对用户而言，只要提供一段文本、一张草图，甚至是一个想法，Genie就会完成剩下的工作，生成一款2D游戏。谷歌称，Genie可以将任何图像转换成可互动的2D世界。与Sora呈现出的高清晰度和高真实度相比，Genie似乎不那么在意画面真实性，而是将重点放在潜在动作预测上。虽然这距离像《星际迷航》中那样的真正全息甲板还有一段路要走，但它确实表明，有一天走进一个房间，用几句话创造一场完全互动的冒险是可能的。作为一个研究项目，Genie的上市日期尚未确定，以及是否会成为真正的产品还不清楚。但重要的是其用于内容生成的潜在技术和新方法，包括通向开放世界的未标记学习。 Genie带来的另一个重大突破是对真实世界物理的更深入理解，这可以用于训练机器人更有效地导航环境，或完成训练中没有经历过的任务。谷歌称，Genie开启了图/文生成交互世界的新纪元，并将成为实现通用AI代理的推动力。

标签：谷歌发布

​谷歌发布新AI模型Genie：图片即可创造虚拟世界

谷歌发布新AI模型Genie：图片即可创造虚拟世界