对话智源研究院院长王仲远：具身智能面临两大核心痛点，与「ChatGPT 时刻」尚有距离

11 月 20 日，智源研究院院长王仲远表示，具身智能面临两大痛点：一是高质量数据匮乏，几十万小时数据难称海量，以视频为主数据源或是最佳路径；二是商业化有伪需求泡沫风险。当前硬件稳定性制约商业化，量产应由真实需求驱动。王仲远认为未来两三年机器人不会在家庭「满街跑」，工业等场景机器人或更快落地，产业成熟需数据与商业化相互促进。

每经记者｜可杨每经编辑｜张益铭

张俊杰和高海纯将举行婚礼？天合光能回应：是真的，和霸王茶姬尚无商业合作

年底了，聪明钱在干什么？——道达投资手记

具身智能正被视为通往通用人工智能（AGI）的关键拼图。

从去年的蹒跚学步，到如今能够完成连续翻跟斗、跳舞、打拳击甚至拖动汽车等动作，具身智能的发展速度似乎正在超越人们的想象。然而，在这些炫目的演示背后，行业是否真的来到了爆发的前夜？

11 月 20 日，智源研究院院长王仲远在接受包括《每日经济新闻》记者（以下简称「每经记者」）在内的媒体采访时表示，当前具身智能面临两大核心痛点：高质量数据的极度匮乏，以及商业化落地中伪需求带来的泡沫风险。在他看来，具身智能距离真正的「ChatGPT 时刻」尚有距离，未来两三年内，机器人不会在家庭场景中「满街跑」。

谈数据困境：几十万小时的数据依然不能叫「海量」

过去七十年的人工智能发展史上，每一次重要跃迁都由数据、算力和模型规模三者叠加推动。具身智能也不例外。「数据，尤其是高质量的数据，决定模型能力的上限。」王仲远对每经记者表示。

要让机器人具备像人类一样理解物理世界并进行决策的大脑，现有的数据路径面临巨大挑战，具身智能的数据难题在于行业缺乏海量的真机采集数据。

针对行业热议的真机数据与仿真数据，王仲远认为，即便是拥有几万台机器人日夜不停地采集数据，在现阶段依然难以称之为海量。他表示，如果某一天，全球有上亿台机器人每天在真实环境中产生动作、触觉、决策等全模态数据，那将会是具身智能的「ChatGPT 时刻」。但显然，距离那一天还非常遥远。

几十万小时的仿真数据，远未达到引发智能涌现的量级。「即使是几十万小时的数据，依然不能叫海量数据，所以还远没有到具身 ChatGPT 的时刻。」

在此背景下，王仲远认为，以视频作为主数据源是最佳路径。「视频数据是最符合第一性原理、能够规模化获取的。」他解释。相比真实机器人采集的动作数据，视频天然包含时间、空间、因果、意图、图像、文本，甚至可以拓展到声音、3D 信息，是少数能够在现阶段做到大规模的数据类型。

通过学习海量的互联网视频数据，模型可以建立起对物理世界运行规律的基础认知。「我们在 Emu 系列原生多模态大模型的研发中发现，视频数据可以作为一个基座。模型不需要刻意为特定机器人本体训练调优，因为它学到了通用的物理常识。」

「行业里普遍的共识是数据非常重要。更具体地来讲，高质量且规模化的数据是非常重要的。」但王仲远同时也表示，行业不能忽略数据是否真正能形成「飞轮」。他强调，数据必须最终回到模型与场景，而不是为了堆数据而堆数据。

对此，王仲远给出的标准是，数据必须训练出具备泛化能力的模型；模型必须能支持真正有商业价值的场景。

谈商业化：警惕伪需求带来的量产泡沫

尽管具身智能还在继续加速跑，但商业化落地的考验已经来到眼前。

2025 年被不少业内人士称为人形机器人的量产元年，部分企业甚至宣称出货量已过万台。王仲远表示，这显然是一个好现象，万台的出货量是硬件打磨的重要开端。

不过，面对这一热潮，王仲远直言，当前的硬件稳定性依然是制约商业化的重要因素。

「我们自己买了 10 台某款机器人，在一两个月内就坏了 5 台。」王仲远分享了一个真实的案例，在实验室里，许多机械臂在长时间运行后会出现过热保护，甚至需要在一旁架设电风扇降温，仿佛需要找一个「保姆」来照顾机器人。

「这就意味着很多硬件还没有到真正可用的阶段。量产能够在规模化的过程中不断打磨，从而解决硬件使用的时长、稳定性、安全性等问题。所以我也希望有更多硬件能够实现量产，企业规模能够不断扩大。」王仲远表示。

与此同时，王仲远提醒，行业需要分辨这种量产是由真实的商业需求驱动，还是仅仅由政策补贴和投资热度催生的伪需求。

王仲远认为，如果是由示范项目带来的一次性小需求，可能撑不起持续的量产。一旦落地效果达不到预期，采购方会暂停购买，行业便可能进入低谷。但他也强调，从更长的周期看，他对具身智能依然乐观。硬件一定要先达到可用，再到好用；量产一定要由真实需求驱动。这是产业走向成熟的唯一路径。

基于对硬件现状和市场逻辑的判断，王仲远给出了一个明确的预期：未来两三年内，具身智能最大的确定性是「机器人不会进入家庭『满街跑』」。

他认为，家庭场景的复杂度、非结构化特征以及对成本的高度敏感，决定了它是最难攻克的高地。人形机器人要进入家庭，可能需要 5 到 10 年的技术沉淀。相比之下，工业场景中的专用机器人，或者具备一定泛化能力的特种机器人，将更快实现落地。

对于具身智能产业而言，数据与商业化落地仿佛已经互为掣肘。「如果有一天，机器人数量越来越多，产生了海量机器人与真实世界交互的数据，这些数据能够被企业广泛用来训练，也许能催生真正意义上的具备强大泛化能力的通用具身基础模型。」

封面图片来源：视觉中国-VCG211378353242

文章转载自每经网

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30