Gemini 3 Pro 前脚刚亮相,Nano Banana Pro 又紧随其后登场,短短几天,谷歌两大新品就掀翻全球 AI 圈,上演了一场 「王者归来」 的戏码。
两款模型都来自 DeepMind,眼下 Gemini 和 Nano Banana 余热未过,DeepMind 已投身下一个方向——在最新采访中,DeepMind 首席执行官兼联合创始人 Demis Hassabis(戴密斯·哈萨比斯) 直言世界模型是通往 AGI 的关键部分。
「世界模型是目前我投入最多时间的领域。你可能知道前几天发布的 SIMA 2(注:谷歌一款基于 Gemini 技术的 3D 虚拟世界 AI 智能体),我有时候会把它称作 『在 Genie 思维中玩的 SIMA』。这些东西让我着迷,我认为它们将是实现 AGI 的关键组件。它们在底层使用 Gemini,但有各种扩展。」
目前,谷歌内部已将世界模型用于训练其他智能体及机器人,哈萨比斯认为,世界模型会有很多内部研究用例,也将出现一些出色的外部应用。
当被问及世界模型是否会迎来 「ChatGPT 时刻」 时,哈萨比斯给出了肯定的回答,但只有解决了高昂的推理/服务成本瓶颈,并实现保持长时间一致性的能力之后,世界模型才能迎来真正的爆发时刻。
哈萨比斯提到的 Genie,即是谷歌世界模型的 「代表作」。短短一年半时间里,DeepMind 就将 Genie 从 2D 一路升级至能实时生成交互式 3D 环境的 Genie 3。只需一句话,Genie 3 就能在 720p 分辨率下创造一个用户可以边走边看的动态世界,场景细节能在长达一分钟的记忆中保持连贯。除了游戏外,Genie 3 还能为机器人或自动驾驶系统提供多元化训练场景,可以为 AI 智能体研究提供更长、更稳定的交互回合。

▌让 AI「读懂」 世界,还是 「看懂」 世界?
当下,这种对 「世界模型」 的追求正迅速在硅谷研究一线中蔓延。
Meta 公司首席人工智能科学家、图灵奖得主杨立昆 (Yann LeCun) 在本周三正式官宣,将于年底从 Meta 离职。他计划创立一家专注于 「世界模型」 技术的初创公司,该技术旨在突破网络数据的局限,通过分析更广泛的信息来更准确地呈现物理世界及其特性。
AI 教母李飞飞同样也是世界模型的拥趸,其创业公司 WorldLabs 在一周前推出了首款产品 Marble,由多模态世界模型驱动,这个被其称为 「构建空间智能未来的基础」 的产品,能从一张图片、一段视频或一句话中构建持久的 3D 世界。
英伟达此前也已推出世界基础模型开发平台 Cosmos,可以帮助开发者直接生成合成数据,用于自动驾驶和机器人研究训练中。
从本质上来说,这背后触及的是 AI 最核心、最本质的分歧——想实现真正的 AGI,是应该让 AI 通过文字 「读懂」 世界,还是让 AI「看懂」 世界?
「读懂派」 代表如 OpenAI,认为只要堆砌的数据资料足够多,智能就能自动涌现;「看懂派」 则认为大语言模型充其量只是一个强大的文本数据库,记住了海量文本,却完全不理解文本背后的物理世界。用李飞飞的话来说,世界模型能让 「看见」 晋升为 「推理」,让 「感知」 转化为 「行动」,让 「想象」 落地为 「创造」。
必须承认的是,与 「读懂派」 交出的 ChatGPT、Sora 等已引发全球轰动的模型相比,世界模型领域目前确实缺乏现象级消费产品,谷歌的 Genie 几乎是唯一表现惊艳的案例。在这种情况下,这条路难免面临 「雷声大、雨点小」 的质疑声,甚至被部分舆论判定为 「皇帝的新衣」。
但这是否意味着世界模型前途黯淡?下结论还为时过早。
大语言模型的成功,某种程度上建立在海量公开文本和代码的 「喂食」 上;而构建一个能理解并推演物理规律的世界模型,底层挑战无疑更为艰深。这项技术仍处于初期爬坡阶段,它需要的或许不是即刻的喝彩,而是更多一些的耐心与时间。
(财联社)
文章转载自 东方财富









