11 月 20 日,智源研究院院长王仲远表示,具身智能面临两大痛点:一是高质量数据匮乏,几十万小时数据难称海量,以视频为主数据源或是最佳路径;二是商业化有伪需求泡沫风险。当前硬件稳定性制约商业化,量产应由真实需求驱动。王仲远认为未来两三年机器人不会在家庭 「满街跑」,工业等场景机器人或更快落地,产业成熟需数据与商业化相互促进。
每经记者|可杨 每经编辑|张益铭
具身智能正被视为通往通用人工智能 (AGI) 的关键拼图。
从去年的蹒跚学步,到如今能够完成连续翻跟斗、跳舞、打拳击甚至拖动汽车等动作,具身智能的发展速度似乎正在超越人们的想象。然而,在这些炫目的演示背后,行业是否真的来到了爆发的前夜?
11 月 20 日,智源研究院院长王仲远在接受包括 《每日经济新闻》 记者 (以下简称 「每经记者」) 在内的媒体采访时表示,当前具身智能面临两大核心痛点:高质量数据的极度匮乏,以及商业化落地中伪需求带来的泡沫风险。在他看来,具身智能距离真正的 「ChatGPT 时刻」 尚有距离,未来两三年内,机器人不会在家庭场景中 「满街跑」。
谈数据困境:几十万小时的数据依然不能叫 「海量」
过去七十年的人工智能发展史上,每一次重要跃迁都由数据、算力和模型规模三者叠加推动。具身智能也不例外。「数据,尤其是高质量的数据,决定模型能力的上限。」 王仲远对每经记者表示。
要让机器人具备像人类一样理解物理世界并进行决策的大脑,现有的数据路径面临巨大挑战,具身智能的数据难题在于行业缺乏海量的真机采集数据。
针对行业热议的真机数据与仿真数据,王仲远认为,即便是拥有几万台机器人日夜不停地采集数据,在现阶段依然难以称之为海量。他表示,如果某一天,全球有上亿台机器人每天在真实环境中产生动作、触觉、决策等全模态数据,那将会是具身智能的 「ChatGPT 时刻」。但显然,距离那一天还非常遥远。
几十万小时的仿真数据,远未达到引发智能涌现的量级。「即使是几十万小时的数据,依然不能叫海量数据,所以还远没有到具身 ChatGPT 的时刻。」
在此背景下,王仲远认为,以视频作为主数据源是最佳路径。「视频数据是最符合第一性原理、能够规模化获取的。」 他解释。相比真实机器人采集的动作数据,视频天然包含时间、空间、因果、意图、图像、文本,甚至可以拓展到声音、3D 信息,是少数能够在现阶段做到大规模的数据类型。
通过学习海量的互联网视频数据,模型可以建立起对物理世界运行规律的基础认知。「我们在 Emu 系列原生多模态大模型的研发中发现,视频数据可以作为一个基座。模型不需要刻意为特定机器人本体训练调优,因为它学到了通用的物理常识。」
「行业里普遍的共识是数据非常重要。更具体地来讲,高质量且规模化的数据是非常重要的。」 但王仲远同时也表示,行业不能忽略数据是否真正能形成 「飞轮」。他强调,数据必须最终回到模型与场景,而不是为了堆数据而堆数据。
对此,王仲远给出的标准是,数据必须训练出具备泛化能力的模型;模型必须能支持真正有商业价值的场景。
谈商业化:警惕伪需求带来的量产泡沫
尽管具身智能还在继续加速跑,但商业化落地的考验已经来到眼前。
2025 年被不少业内人士称为人形机器人的量产元年,部分企业甚至宣称出货量已过万台。王仲远表示,这显然是一个好现象,万台的出货量是硬件打磨的重要开端。
不过,面对这一热潮,王仲远直言,当前的硬件稳定性依然是制约商业化的重要因素。
「我们自己买了 10 台某款机器人,在一两个月内就坏了 5 台。」 王仲远分享了一个真实的案例,在实验室里,许多机械臂在长时间运行后会出现过热保护,甚至需要在一旁架设电风扇降温,仿佛需要找一个 「保姆」 来照顾机器人。
「这就意味着很多硬件还没有到真正可用的阶段。量产能够在规模化的过程中不断打磨,从而解决硬件使用的时长、稳定性、安全性等问题。所以我也希望有更多硬件能够实现量产,企业规模能够不断扩大。」 王仲远表示。
与此同时,王仲远提醒,行业需要分辨这种量产是由真实的商业需求驱动,还是仅仅由政策补贴和投资热度催生的伪需求。
王仲远认为,如果是由示范项目带来的一次性小需求,可能撑不起持续的量产。一旦落地效果达不到预期,采购方会暂停购买,行业便可能进入低谷。但他也强调,从更长的周期看,他对具身智能依然乐观。硬件一定要先达到可用,再到好用;量产一定要由真实需求驱动。这是产业走向成熟的唯一路径。
基于对硬件现状和市场逻辑的判断,王仲远给出了一个明确的预期:未来两三年内,具身智能最大的确定性是 「机器人不会进入家庭 『满街跑』」。
他认为,家庭场景的复杂度、非结构化特征以及对成本的高度敏感,决定了它是最难攻克的高地。人形机器人要进入家庭,可能需要 5 到 10 年的技术沉淀。相比之下,工业场景中的专用机器人,或者具备一定泛化能力的特种机器人,将更快实现落地。
对于具身智能产业而言,数据与商业化落地仿佛已经互为掣肘。「如果有一天,机器人数量越来越多,产生了海量机器人与真实世界交互的数据,这些数据能够被企业广泛用来训练,也许能催生真正意义上的具备强大泛化能力的通用具身基础模型。」
封面图片来源:视觉中国-VCG211378353242
文章转载自 每经网

