作者:
孙磊
12 月 11 日,小鹏汽车董事长何小鹏发文称,小鹏汽车的 VLA 2.0(Vision-Language-Action,视觉语言动作模型) 将在下个季度发布,「因为是第一个版本,所以压力很大」。
此外,何小鹏还与公司自动驾驶团队立下特别 「赌约」:若 2026 年 8 月 30 日前,小鹏 VLA 系统在国内达到特斯拉FSD V14.2 版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂。反之,自动驾驶负责人需在金门大桥完成裸跑挑战。

图片来源:新浪微博
就在前一天,理想汽车自动驾驶研发高级副总裁郎咸朋在社交平台发布长文,回应宇树科技创始人王兴兴此前对 VLA 模型的质疑。
「我跟王兴兴观点最不一样的地方在于,他认为模型架构更重要,但我认为模型的关键是要与整个具身智能系统适配。在此基础上,数据是起决定意义的。」 郎咸朋认为,「VLA 就是自动驾驶最好的模型方案。」

图片来源:新浪微博
近几年,辅助驾驶行业经历了多次 「技术底座」 的范式迁移——从企业普遍把激光雷达+高精地图奉为 「黄金组合」,到引入 BEV(鸟瞰图)+Transformer 摆脱高精度地图,再到端到端将辅助驾驶带入 AI 时代,企业普遍按照这个路径来推进辅助驾驶功能。
但进入 2025 年,行业在辅助驾驶的发展方向上出现了 VLA 与世界模型的 「分歧」,而理想与小鹏就是选择 VLA 方案的代表。

两技术派别 「各执一词」
据了解,VLA 被业内视为端到端方案的 「智能增强版」。其名称中的 V 代表视觉感知 (Vision),A 代表动作执行 (Action),而中间的 L 则是大语言模型 (Language Model)。V 负责实时感知环境,A 负责输出具体控制指令,L 则像 「中台」 一样,把感知信息转译为可供 A 执行的规划与决策。
清华大学车辆与运载学院助理研究员颜宏伟表示:「VLA 是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性。」
「VLA 模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。」 元戎启行 CEO 周光认为。
不过,王兴兴在今年 8 月的一次演讲中则表示:「我个人对 VLA 模型还是保持比较怀疑的态度。」 在他看来,VLA 模型是一个相对比较傻瓜式的架构,在和真实世界交互时,它的数据质量、能采集的数据是不太够用的。
郎咸朋则认为,空谈架构不如看疗效。在自动驾驶领域,脱离了海量真实数据谈模型架构都是空中楼阁,「我们之所以坚持 VLA,是因为我们拥有数百万辆车构建的数据闭环,这让我们能在当前算力下,把驾驶水平做到接近人类」。

图片来源:理想汽车官网
郎咸朋称,要想做好自动驾驶,必须先把自动驾驶当作完整的具身智能系统对待,每一部分在研发过程中要相互配合才能将价值发挥出来。此外,他还认为,模型的关键是要与整个具身智能系统适配,在此基础上,数据是起决定意义的。在机器人领域获取数据相对困难,但在自动驾驶领域,特别是建立起数据闭环能力的车企来说并不是大问题。
尽管郎咸朋表明了机器人领域与汽车领域有别,车企搭建数据闭环并非难事,仍有一些汽车背景的公司并未踏上 VLA 这条路径。比如,华为智能汽车解决方案 BU CEO 靳玉志就表示:「我们不会走向 VLA 的路径。这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。」
「华为更看重 WA(世界行为模型),也就是 World Action,中间省掉 Language 这个环节……直接通过 Vision 这样的信息输入控车,而不是把各种各样的信息转成语言,再通过语言大模型来控制车。」 靳玉志进一步解释称,华为乾崑自研的 WEWA 架构包含云端的世界引擎 (WE) 与车端的世界行为模型 (WA)。其中,WE 负责海量数据训练与场景生成,WA 则实现车端的实时环境推理与拟人化决策。
据悉,「世界模型」 源自人类对环境的认知机制,指的是 AI 系统通过感知数据构建一个对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力。在辅助驾驶中,它不再只是 「看见」 世界,而是理解世界,预测未来可能发生的情况,并提前做出决策。例如,它不仅能识别前方有一辆自行车,还能预测它是否会突然变道,从而提前减速或避让。
除华为外,蔚来、商汤等企业也都在此技术路线上进行布局。
VLA 与世界模型未来有望深度融合
需要注意的是,尽管不同企业对于 VLA 和世界模型两种技术 「各执一词」,但两者并不矛盾。
国海证券在研报中表示:「VLA 与世界模型在技术上并非同级或对立关系。我们将发展路径分为两派,实质上是产业玩家在实现端到端能力之后,在能力优化侧重点上出现了分化。」
「双方技术融合趋势明显,双方均在向对方领域渗透。例如,VLA 引入强化学习与仿真优化动作生成。」 国海证券表示。
理想汽车董事长李想在去年底的直播中也提到,VLA 可以拆解为预训练、后训练和强化学习三个层面。强化学习中最重要的一步就是在世界模型里闭环学习,引入舒适度、碰撞、交通规则等规则来打磨、反馈,让 VLA 比人类开得更好。
「世界模型的高算力需求 (训练和推理都是) 决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练,这也是理想目前正在做的。」 郎咸朋说。
小马智行CTO 楼天城则表示:「我了解大部分公司两种技术都用,比如 Waymo 也用了谷歌 Gemini 大语言模型。世界模型和 VLA 模型不是一个维度的东西,而是交错的。这两个东西不矛盾、不冲突,机器人领域非常多。我认为想要做百辆无人车以上,世界模型最关键。对其他公司 (而言),可能做 VLA 模型卖车最关键。大家选择不同的路线是因为目标不同。」
值得一提的是,既向 C 端卖车,又计划推出 Robotaxi 的小鹏,有将两种技术融合的趋势。在 11 月 5 日的 2025 AI DAY 小鹏科技日上,小鹏汽车正式发布了第二代 VLA。第一代 VLA 的方案是 V 到 L 再到 A,第二代 VLA 是 V+L 到 A,也就是把 L 转移到了输入端。

图片来源:小鹏汽车官网
「第一代 VLA 模型中间涉及两次语言转换,这会带来大量信息损耗,比如一段 1200 多字的文字描述也无法精准地 『翻译』 一个十几秒的视频,而以视觉为核心,则把模型看到的世界直接转换成运动轨迹。」 何小鹏说。
11 月 7 日的上海进博会上,小鹏汽车自动驾驶产品高级总监袁婷婷分享了她对小鹏二代 VLA 架构的理解:「小鹏的二代 VLA 既是 VLA 模型,也是世界模型。」
在其展示的 PPT 中,世界模型是作为二代 VLA 的一个记录器存在的:当 V 和 L 作出车辆运动轨迹和动作决策时,这个决策会被记录到世界模型中;同时,与这个决策一同被记录的,还有决策前的车辆状态,即 V 和 L 形成的感知信号。也就是说,小鹏二代 VLA 在用其 VLA 数据训练世界模型。
在小米汽车主任科学家陈龙看来:「一个管 『抽象思考』,一个管 『物理感知』,完全没必要拉踩!VLA+WM 的结合,才是通往更强通用具身智能。」
对于辅助驾驶底层技术的演进,国元证券方面认为,未来,VLA 与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点。
长安汽车智能驾驶高级总工程师则表示,在未来 2 至 3 年内,辅助驾驶的技术架构还将迎来 1 至 2 轮迭代,到 2028 年有望收敛至相对稳定的状态。
(每日经济新闻)
文章转载自东方财富





