如何让具身智能成为真正的物理 AI?答案或许是世界模型。
在前几天的 GTC 大会上,谈及物理 AI,黄仁勋分享了如何利用 Omniverse 数字孪生技术训练、打造机器人。这一想法可以追溯到今年初,当时他在 CES 2025 主题演讲中提到,世界模型是实现物理人工智能的关键,能够帮助 AI 理解物理世界的规律,从而实现机器人、自动驾驶汽车等设备的自主操控。
基于相似的理念,10 月 26 日,特斯拉发布了自研神经网络世界模型 (World Simulator),并附上多个演示视频。其中一条视频以第一人称视角记录了机器人在 3D 数据合成环境中四处行走的过程。特斯拉表示,Optimus 正在神经网络世界模型中进行训练,其能够在 100% 仿真环境下学习,将模拟训练的策略部署到真实世界。
什么是世界模型?区别于宽泛意义上的 AI 模型,世界模型并非通过可获取的语言、图像及视频来理解现实场景,而是通过大量数据学习现实世界的物理规则,实施因果推理,从而预测、生成合乎现实规律的未来。其终极目的在于,通过训练让人工智能适应现实世界而非理论世界,让 AI 进化为物理 AI。
正如图灵奖得主、Meta 首席 AI 科学家杨立昆所言:「我们不是在造会说话的机器人,而是在造会思考的物理实体。」
当下,世界模型的理念正成为科技巨头们,乃至全科技界的共识:xAI 挖角英伟达专家,致力于研发出用于游戏领域和机器人系统的世界模型;Meta 发布代码世界模型 (Code World Model),探索如何使用世界模型改进 AI 代码生成性能;「AI 教母」 李飞飞筹集 2.3 亿美元创建的世界模型初创公司 World Labs,开发出了一款能够渲染持久且一致 3D 世界的实时框架模型 (RTFM)。
世界模型何以引得人工智能先驱们竞相发力?或与具身智能本身的争议有关。宇树科技 CEO 王兴兴曾强调:「之所以目前机器人还未能达到智能,现在最大的问题是模型问题,而不是数据问题。」 东吴证券指出,作为具身智能的大脑,AI 模型的技术路线仍处在探索阶段,并且成为了机器人等终端产品大规模应用的最大瓶颈。
世界模型的优势恰在此体现。根据弗若斯特沙利文近期发布的 《2025 年中国世界模型发展白皮书》,具身智能代表着 AI 从纯粹的信息处理转向物理世界的交互,其所需的数据需要整合文本指令、多视角视觉、物理交互等多维信号,复杂度远超纯文本或单一视觉模态。而世界模型能生成视觉逼真、物理精确的合成数据,有效克服传统仿真数据与真实世界之间的差异。
据上述机构统计,当前超过 80% 自动驾驶算法使用世界模型进行辅助训练,其已推动自动驾驶系统持续学习、自主验证并快速迭代优化。
国内世界模型研发进展上,宇树、智元等人形机器人厂商走在前列。今年 9 月,宇树开源了 UnifoLM-WMA-0 世界模型架构,用于推进物理环境中的学习与执行效率,为未来与更复杂模型的融合预留了工程接口。智元方面,其于今年 8 月发布了行业首个机器人世界模型开源平台 Genie Envisioner,旨在使机器人在同一世界模型中完成从 「看」 到 「想」 再到 「动」 的端到端推理与执行。
与此同时。其他机器人机构亦动作频频。日前,湖北人形机器人创新中心发布了具身基础模型 GigaBrain-0,其背后采用了世界模型平台 GigaWorld 生成数据。同样在今年,北京人形机器人创新中心和成都人形机器人创新中心先后发布了全新的世界模型架构 WoW,以及国内首个基于世界模型的机器人任务执行系统 R-WMES。
不过,作为一种技术路径,世界模型的研究仍处于早期阶段。东吴证券判断,世界模型代表具身智能算法层最前沿的探索方向,预计具身智能大脑市场会成为具身智能市场里发展最快,技术难度最高,也是最关键的环节。
从投资层面来看,国投证券表示,结合物理 AI 和世界模型需要运用到的技术和环节,仿真、感知以及机器人厂商会受益,建议关注:1) 已经具备物理 AI 产品的国内 CAE(计算机辅助工程) 厂商;2) 为世界物理模型提供技术支撑的 3D 感知厂商;3) 提供工业数字孪生解决方案的厂商。

(财联社)
文章转载自 东方财富




