首页 > 信息 > 红酒 > 正文
2026-04-21 06:55

我在谷歌AI世界生成器里建了一座棉花糖城堡,这创意绝了!

  我在谷歌AI世界生成器里建了一座棉花糖城堡,这创意绝了!

  【编者按】在AI浪潮席卷全球的今天,谷歌DeepMind再次掷出一枚震撼弹——正式向公众开放其备受瞩目的“创世神”项目(Project Genie)。只需一句话或一张图,就能瞬间生成可交互的虚拟世界,这听起来像是科幻电影的桥段,如今正走进现实。从云端棉花糖城堡到巧克力河流,从黏土动画风格的奇幻大地到办公桌上的玩具总动员,AI正在以惊人的创造力重新定义“造物”的边界。然而,这场看似浪漫的科技盛宴背后,是巨头们对“世界模型”这一AGI核心赛道的激烈角逐。当李飞飞的World Labs、Runway、LeCun的AMI Labs纷纷入局,谷歌选择以游戏为切口,将实验室黑科技推向大众。尽管当前版本仍显稚嫩——60秒时限、交互生硬、版权镣铐重重,但这场实验已然揭开了“人人皆可创世”的序幕。未来,当世界模型突破娱乐的框架,成为训练机器人、模拟现实的基座,人类与虚拟世界的共生时代或将真正来临。现在,请系好安全带,跟随本文一同探访这个由代码编织的、既荒诞又迷人的新宇宙。

  谷歌DeepMind正式开放“创世神”项目访问权限,这款AI工具能够根据文字提示或图像创建交互式游戏世界。

  从本周四起,美国的谷歌AI Ultra订阅用户即可体验这款实验性研究原型。它由谷歌最新世界模型Genie 3、图像生成模型Nano Banana Pro以及Gemini共同驱动。

  此举距离Genie 3研究预览版发布仅五个月,是DeepMind为加速开发更强大世界模型而广泛收集用户反馈和训练数据的重要一环。

  世界模型是一种能生成环境内部表征的AI系统,可用于预测未来结果并规划行动。包括DeepMind专家在内的许多AI领袖认为,世界模型是实现通用人工智能的关键一步。但就近期而言,DeepMind等实验室设想的商业化路径将从视频游戏等娱乐形式起步,逐步拓展至在模拟环境中训练具身智能体(即机器人)。

  DeepMind发布“创世神”之际,世界模型竞赛已悄然升温。李飞娇的World Labs去年底发布了首款商用产品Marble;AI视频生成初创公司Runway近期也推出了世界模型;前meta首席科学家Yann LeCun的创业公司AMI Labs同样将聚焦世界模型开发。

  “能让更多人接触并给予反馈,这令人兴奋,”DeepMind研究主管Shlomi Fruchter在视频采访中笑着对TechCrunch表示,对“创世神”的发布流露出毫不掩饰的激动。

  DeepMind研究人员向TechCrunch坦言,该工具仍处于实验阶段,表现并不稳定:有时能惊艳地生成可玩世界,有时却产生令人困惑的偏差结果。以下是其运作方式:

  用户首先通过文字提示描述环境和主角来绘制“世界草图”,之后可在生成的世界中以第一或第三人称视角操控主角探索。Nano Banana Pro会根据提示生成图像,理论上用户可在Genie以此图像为起点创建交互世界前进行修改。修改功能大体有效,但模型偶尔会出错——比如你要绿色头发,它却给了你紫色。

  用户也能用现实照片作为模型构建世界的基础,但这同样效果参差。(下文详述)

  对图像满意后,“创世神”仅需几秒即可生成可探索世界。用户还能通过改编现有世界的提示词来重新混合出新版本,或在图库中浏览精选世界、使用随机工具获取灵感。探索结束后,可下载该世界的视频片段。

  目前DeepMind仅允许60秒的世界生成与导航,部分源于预算和算力限制。由于Genie 3是自回归模型,需要大量专用算力,这严格限制了DeepMind能为用户提供的体验时长。

  “限制60秒是为了让更多用户能用上,”Fruchter解释道,“基本上当你使用时,某处就有一块专属芯片全力支持你的会话。”他补充说,超过60秒的测试增量价值会递减。

  “这些环境很有趣,但由于交互水平有限,环境的动态性在某程度上受制约。这仍是我们希望改进的局限。”

  笔者试用时,安全护栏已全面启动:无法生成任何近似裸露的内容,也不能创造丝毫涉及迪士尼或其他版权素材的世界。(去年12月,迪士尼曾向谷歌发出禁令,指控其AI模型通过迪士尼角色和IP训练并生成未授权内容等侵权行径。)我甚至无法让Genie生成美人鱼探索水下仙境或冰雪女王驻守冬日城堡的世界。

  尽管如此,演示效果仍令人印象深刻。我构建的第一个世界是尝试实现童年幻想:探索一座云中城堡,城堡由棉花糖构成,河流是巧克力酱,树木全是糖果。(没错,我曾是个胖乎乎的孩子。)我要求模型以黏土动画风格呈现,它真的交付了一个童年时的我会沉醉其中的奇幻世界——城堡淡彩与白色相间的尖塔和塔楼看起来蓬松可口,仿佛能撕下一块蘸入巧克力护城河。(见上方视频)

  当然,“创世神”仍有问题待解。

  模型擅长根据艺术风格提示(如水彩、动漫风或经典卡通美学)创造世界,但在处理照片级真实或电影感世界时往往失败,成果常像电子游戏而非真实场景中的人物。

  使用真实照片作为基础时,它的表现也不稳定。当我提供办公室照片并要求原样重建时,它生成的世界虽有相似家具(木桌、植物、灰色沙发),但布局不同,且看起来冰冷数字化,缺乏生气。

  但当我输入一张放有毛绒玩具的书桌照片时,“创世神”让玩具在空间中活动起来,甚至其他物体在玩具经过时偶有反应。

  这种交互性正是DeepMind致力改进的方向。测试中多次出现角色直接穿墙或穿透固体物体的情形。

  DeepMind最初发布Genie 3时,研究人员强调其自回归架构能记忆已生成内容。我通过重返已生成环境区域测试这一点,模型大多成功。唯有一次,我生成猫咪探索书桌的场景,仅当我转身回望桌面右侧时,模型才生成第二个杯子。

  最令人沮丧的是操控方式:用箭头键环视、空格键跳跃/上升、WASD键移动。非游戏玩家的我感到十分吃力,按键时常无响应或方向错误。试图从房间一端走到另一端的门口,常变成混乱的之字形挣扎,就像推着轮子坏掉的购物车。

  Fruchter向我保证团队清楚这些缺陷,并再次提醒“创世神”仅是实验原型。未来,团队希望提升真实感并改进交互能力,包括赋予用户对动作和环境更精细的控制权。

  “我们并不将其视为人们可日常使用的端到端产品,但其中已闪现某种独特而有趣的、无法以其他方式实现的雏形,”他如是说。