阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军，云栖大会激辩「通往 AGI 的大模型发展之路」

【TechWeb】9 月 20 日消息，在 2024 云栖大会上，极客公园创始人、总裁张鹏对话阶跃星辰创始人、首席执行官姜大昕，月之暗面 Kimi 创始人杨植麟，清华大学人工智能研究院副院长、生数科技首席科学家朱军，三人对 AGI 发展现状和未来展望进行了激烈讨论和前瞻展望。

一个带 AI 功能的跨平台 Terminal 桌面软件

2024 年，AI 发展变慢了吗？过去 18 个月，AGI 的发展是加速还是减速？如何评价 OpenAI 最新发布的 O1 模型？强化学习将改变什么？大模型时代的创业新范式是什么？

姜大昕表示 AI 技术发展加速， AI 发展正在经历关键的技术范式迭代： OpenAI 的大模型 o1 探索出了通过强化学习让 AI 具备人类慢思考（可主动反思、纠错的复杂思考）能力的方式，接下来提升强化学习模型的泛化能力和加速推进多模态理解生成一体化是 AI 技术进一步突破的关键。阶跃星辰积极探索新的技术范式，已经在万亿参数模型上实现了强化学习训练的方法论。同时，持续打磨更高性能的底层大模型，提升 C 端产品体验。据他透露，近期阶跃星辰自研的 Step-2 万亿参数 MoE 语言大模型已接入智能助手「跃问」，展现出更强大的指令跟随、创作和推理能力。

谈到 AI 产品未来的可能形态，杨植麟表示，以后的 AI 可能要思考或者调用各种工具，它可能执行分钟级别、小时级别甚至天级别的任务，所以产品形态上可能会更接近一个人，它更接近「助理」的概念，帮你完成异步的任务。这里面的产品形态设计可能也会发生很大的变化，想象空间蛮大。

谈到未来 18 个可能发生的事情，朱军表示，预想未来 18 个月可能比较令人兴奋的一个进展，我希望看到 AGI 的 L3 已经基本上实现。至少在智能体，比如我们说的世界模型的创建生成、虚实融合，至少在一些特定场景下的决策能力的巨大的提升。其实它会利用我们今天讲到的推理、感知等等。

以下为对话实录摘录：

主持人：从 ChatGPT 的发展，引发了整个世界对于 AGI 这个事情的理解，发展到现在也 18 个月了。各位的感受是怎么样的，过去 18 个月，AGI 的发展是加速还是减速？

姜大昕：我觉得过去 18 个月速度还是在加速的，速度还是非常快的。因为当我们回顾过去 18 个月发生的大大小小的 AI 事件以后，可以从两个维度去看，一个是数量的角度，一个是质量的角度。

从数量的角度来看，还是每个月都会有新的模型、新的产品、新的应用涌现出来。比如单从模型来看，OpenAI 2 月份发了一个 sora，我记得当时还是过年的时候，把大家轰炸了一下。然后 5 月份出了一个 GPT-4o，上周又出了 o1。OpenAI 的老对手 Anthropic 它有 Claude3 到 Claude3.5 的系列，再加上谷歌 Gemini 系列、Claude 系列、LLaMA 的系列，等等。

所以，回顾过去，我们的感觉还是 GPT-4 是一家独大，遥遥领先。到了今年就变成了一个好像是群雄并起，你追我赶的局面，所以感觉各家是在提速了。

从质量的角度来看，我觉得有三件事情可能给我的印象非常的深刻。

第一件事情，GPT-4O 的发布。因为我看它，认为它是在多模融合这样的一个领域上了一个新的台阶。在 GPT4O 之前，是有 GPT4V，它是一个视觉的理解模型，有 Dalle、Sora，这是视觉的生成模型。还有 Whisper 这是声音模型。所以原本这些孤立的模型到了 4O 这里都融合在一起了。

那为什么融合这件事情非常的重要？是因为我们的物理世界本身就是一个多模的世界，所以多模融合一定是有助于更好的去为我们的物理世界建模，去模拟世界这样一件事情。

第二件事情，特斯拉发布的 FSD V12。大家知道它是一个端到端的大模型，它把感知信号变成一个控制序列。智驾是一个非常有代表性的，它是一个从数字世界走向物理世界一个真实的应用场景。所以，我觉得 FSDV12 它的成功，意义不仅在于智驾本身，这套方法论可以认为是为将来的智能设备如何和大模型相结合，更好的去探索物理世界指明了一个方向。

第三件事情，上周的 O1，我对它的理解，它第一次证明了语言模型其实也可以有人脑的慢思考，就是系统 2 的能力。而我们觉得系统 2 的能力它是归纳世界所必备的一个前提条件，是一个基础的能力。所以，我们一直认为，AGI 的演进路线可以分为模拟世界、探索世界、最后归纳世界。而过去几个月的时间我们看到 GPT4O、FSD V12 和 O1 分别在这三个阶段或者这三个方向上都取得了非常大的突破，而且更重要的是为将来的发展也指明了一个方向。所以无论是从数量还是质量上来说，都是可圈可点。

杨植麟：我觉得整体也是属于加速发展的阶段，核心可以从两个维度来看（AI 的发展），第一个维度是纵向的维度，也就是说你的智商是一直在提升的，这个主要现在的反应方式还是你去看文本模型能做到多好。第二个是横向的发展。除了文本模型之外，刚才姜总提到的，也会有各种不同的模态，这些模态会做一个横向的发展，更多的让你这个模型具备更多的技能，能够去完成更多的任务，然后同时跟纵向的智商的发展相结合。

在这两个维度上，我觉得都看到了非常大的进展，比如说在纵向的维度上，其实智商是一直在提升的，比如说我们如果去看竞赛数学能力，去年是完全不及格，到今年已经能做到 90 多分，像代码基本上也是一样，能够击败很多专业的编程选手，包括因此也产生了很多新的应用机会，比如说像现在比较流行的类似 curser 这样的，通过自然语言直接去写代码的这样的软件也越来越普及，这是技术发展的结果。包括我们去看很多具体的技术指标，现在的语言模型能支持的上下文的长度，我们如果去年这个时间点去看的话，大部分的模型都只能支持 4K-8K 的，但是从今天去看你会发现 4K-8K 已经是非常低的数了，128K 是一个标配，已经有很多可以支持 1M 甚至 10M 的长文本的长度。所以，它这个其实也是后面你的智商不断提升的一个很重要的基础。

包括最近的很多进展，它不光只是说 Scaling，Scaling 还是会持续。而且很多进展也来自于你的后训练算法的优化，来自于你数据的优化，这些优化它的周期是会更短的。所以，这个周期更短导致你整体 AI 发展节奏也会进一步加快，包括我们最近在数学上看到的很多进展，其实也是得益于这些技术的发展。

横向上当然也产生了很多新的突破，当然 Sora 可能是影响力最大的，在这里面完成了这个视频生成。包括最近有特别多新的产品和技术出来，现在你已经可以通过一个论文直接生成基本上你看不出来是真是假的双人的对话。类似这样的不同模态之间的转化、交互和生成，其实会变的越来越成熟。所以，我觉得整体是在加速的过程中。

朱军：AGI 这里面大家最关注的还是大模型，刚才两位也讲了去年包括今年大模型也发生了很多重要的变化。整个的进展我是非常同意刚才讲到的，在加快。

另外，我想补充一点，大家在解新的问题，这个速度也在加快了，我们说它的 Leaning corve 在变的更陡。原来如果你看语言模型，可能从 2018 年最早去做的，到去年以及到今年，大家走了五六年的路。但其实从去年开始，上半年大家还是关注语言模型，下半年在讨论多模态，从多模态理解再到多模态生成。我们再回过头看的话，比如说图像或者视频，其实视频最明显，从今年的 2 月份，当时很多人被震惊到了，因为它很多没有公开，就说怎么去突破？有很多的讨论。但事实上我们现在看到这个行业里面，大概用了半年的时间，已经做到了可以去用，而且达到了一个很好的一些效果，在时空一致性上。所以大概走了半年的路。

所以这里面加速的一个最核心的原因，现在大家对这种路线的认知和准备上，达到了比较好的程度。当然我们还有物理的条件，比如说像云的设施，计算的资源的准备上，不像 ChatGPT 当时出来的时候，大家当时更多的是一种不知所措，我觉得很多人可能没准备好去接受这个，所以中间去花了很长时间去学习、去掌握这个。当我们掌握了之后再发现这个进展的话，再去做新的问题，其实它的速度是越来越快的。

当然，这个可能不同的能力它再辐射到实际的用户的角度来说，有一些快慢之分，当然也分行业。这个可能在广泛的角度来说，大家可能没感知到。但是从技术来说，其实这个进展我感觉是曲线越来越陡，而且可能对后边我们要预测未来的话，包括向更高阶的 AGI 发展，我是比较乐观的，可能会看到比之前更快的速度去实现了。

主持人：最近 OpenAI 刚刚出的 O1 的新的模型，也是在专业人群里形成了非常多的影响，现在还在很丰富的讨论。怎么评价 O1 进展的意义？

姜大昕：确实我看到一些非共识，有些人觉得意义很大，有些人觉得也不过如此。我觉得大家如果去试用 O1 的话，可能第一印象是它的推理能力确实非常惊艳，我们自己试了很多 Query，觉得推理能力确实上了一个很大的台阶。

然后我们去思考它背后的意义究竟是什么，我能想到的有两点：1. 它第一次证明了 Large language model，就是语言模型，它可以有人脑的慢思考的能力。它和以前 GPT 的范式，或者 GPT 的训练，它叫，Predict next Token，它只要这样训练了，就注定了它只有 system 1 的能力。而 O1 是用了一个强化学习的训练框架，所以带来了系统 2 的能力。

系统 1 的体现，它是一个直线性思维，虽然我们看到 GPT4 有时候可以把一个复杂的问题拆解成很多步，然后分步去解决，但它还是直线性的。系统 1 和系统 2 最大的区别在于，系统 2 能够去探索不同的路径，它能够自我去反思、自我去纠错，然后不断的试错，直到找到一个正确的途径，这是系统 2 的特点。这次 O1，它是把以前的模仿学习和强化学习结合起来了，使得一个模型同时有了人脑系统 1 和系统 2 的能力。所以我觉得从这个角度来看，它的意义是非常大的。

第二，它带来了一个 Scaling Law 的新方向，我理解 O1 试图回答的一个问题，就是说 RL（强化学习）究竟怎么去泛化。因为强化学习它不是第一个，DeepMind 一直走的是强化学习的路线，从 AlphaGo 到 AlphaFold 到 AlphaGeometry，其实它在强化学习上是非常厉害的。但以前强化学习的场景都是会为特定场景去设计，AlphaGo 只能下围棋，AlphaFold 只能去预测蛋白质的结构。所以这次 O1 的出现，它是在 RL 强化学习通用性和泛化性上了一个大的台阶，而且它 scale 到了一个很大的规模，所以我把它看成 scaling 带来新的技术范式，我们不妨称之为 RL Scaling。而且我们看到有意思的一点，O1 并没有到很成熟的阶段，它还是一个开端，但是这个恰恰让人觉得非常的兴奋，这就等于 OpenAI 跟我们说，我找到了一条上限很高的道路，而且你仔细去思考它背后的方法，你会相信这条路实际上是能走得下去。所以 O1 从能力上来讲，我觉得它展示了 Language model 可以有系统 2 的能力，从技术上来说它带来新的 scaling 范式，所以它的意义还是非常大的。

朱军：我的看法，它是代表着一个显著的质变。我们也对 AGI 大概做了一些分级，学术界，包括产业界大家有 L1-L5 的分级。其实 L1 的话相当于聊天机器人，就是像 ChatGPT 等，之前大家做了很多对话的。L2 叫推理者，实际上可以做复杂问题深度思考的推理。L3 叫智能体，回应吴总讲的「数字世界」走向「物理世界」，我要去改变的，我要去交互的。L4 是创新者，它要去发现、创造一些新的东西，或者发现一些新的知识。L5 是组织者，它可以去协同，或者某种组织方式更高效来运转，这是大家对于 AGI L1-L5 的分级，当然每一级也有 narrow 和 general 的区分，在某些 Task 上展示出来。比如 O1 在 L2 的 narrow 场景下，在一些特定任务下已经实现了人类达到很高阶的智能水平。我觉得从分级角度来看，它确实代表着整个行业巨大的进步。

刚才技术上姜总也讲了，它将过去强化学习或者其他一些技术，其实在研究里已经做了很多东西，但实际上它在大规模基座模型上能够做出来的效果，这还是从工程上，或者从实现上来说对行业很大的触动。当然它也会错发或者激发出来很多未来的探索，或者实际的研发，可能会走向从 narrow 到 general 的跃迁。刚才讲到速度，我相信它会很快，因为大家已经有很多准备了，我也期待这个领域里更多将 L2 做得更好，甚至更高阶的能实现。

杨植麟：我觉得它的意义确实是很大，主要意义在于它提升了 AI 的上限。AI 的上限是说，你现在去提升 5%、10% 的生产力，还是说 10 倍的 GDP，我觉得这里最重要的问题就是你能不能通过强化学习进一步 scaling，这是完全提升了 AI 上限的东西。我们如果看 AI 历史上七八十年的发展，唯一有效的就是 scaling，唯一有效的就是加更多的算力。但在 O1 提出之前，可能也有很多人在研究强化学习，但都没有一个非常确切的答案，强化学习如果和大语言模型，或者和 training processin 这些东西整合在一起，它能否持续提升。比如 GPT4 这一代模型的提升，更多是确定性的提升，我在一样范式下把规模变得更大，它肯定是确定性的提升。但是我觉得 O1 的提升并不是一个完全确定性的，这样的提升。

所以在之前大家可能会担心现在互联网上大部分优质数据都已经被使用完了，然后你可能继续使用这个数据也没有更多数据可以挖掘，所以你原来的范式可能会遇到问题。但 AI 有效了，你又需要进一步 scaling，那你这个 scaling 从哪里来，我觉得很大程度上解决了这个问题，或者说至少证明了它初步可行。初步可行的情况下，可能我们会有越来越多人投入去做这个事情，最终你要做到 10 倍 GDP 的最终效果，它完全有可能，我觉得是一个很重要的开端。

我觉得对很多产业格局上，或者对于创业公司新机会来说也会发生一些变化。比如我觉得这里很关键的一个点，你的训练和推理算力占比是会发生很大的变化，这个变化我不是说训练的算力会下降，训练的算力还会持续提升。与此同时，推理的算力提升会更快，那这个比例的变化本质上会产生很多新的机会，可能这里很多新的创业公司的机会。一方面，如果你达到一定的算力门槛，它可以在这里做很多算法的基础创新，那你可以在基础的模型上甚至取得突破，所以我觉得这个很重要。

对于算力相对小一点的公司，它也可以通过后训练的方式，在一些领域上做到一些效果，这里也会产生更多的产品和技术机会，所以我觉得整体也是打开了创业相关的想象空间。

主持人：这一波 AI 新的变化，接下来会对 AI 相关的产品带来什么样的连锁反应，这个变化如何发生？

杨植麟：这是很好的问题，我们现在还是处于产业发展的早期。产业发展的早期有一个特点，还是技术驱动产品会更多，所以很多时候你的产品会去看当前的技术是怎么发展，然后把它最大化的价值提取出来，所以这个问题首先非常好，可能我们根据这个新的技术进展，再返过来推一下现在产品应该做什么变化。

现在的技术发展有几个点：

一个，我觉得这里面会有很多探索新的 PMF（product market fit）的机会。我觉得 PMF 指的是两个东西的平衡：一方面是由于你需要做这种系统 2 的思考，导致你的延时增加。对用户来说，延时增加是一个负向的体验，因为所有用户都希望我尽快能拿到结果；第二个点，它确实能提供更好的输出，能拿到更好的结果，甚至能完成一些跟更复杂的任务。等于说新的 PMF 产生的过程或者探索的过程，其实是要在在延时增长的用户体验下降和最后结果产生质量更高的用户价值的上升之间找到一个平衡点。所以你要让这个增量的价值是大于体验的损失，我觉得这个很重要。所以在这里面更高价值的场景，特别是生产力的场景，我觉得会率先有一些东西出来。因为如果你是一个娱乐场景，大概率你可能很难忍受这种延时上的增加。所以，我觉得这是比较重要的一点

产品形态上，我觉得也会发生一些变化。因为你引入这种思考的范式，所以现在同步及时的类似聊天的产品形态一定会发生变化。因为以后的 AI，可能它不光是现在思考个 20 秒、40 秒，它已经可能要思考或者调用各种工具，它可能执行分钟级别、小时级别甚至天级别的任务，所以你的产品形态上可能会更接近一个人，它更接近「助理」的概念，帮你完成异步的任务。这里面的产品形态设计，我觉得可能也会发生很大的变化。所以这里面，我觉得新的想象空间蛮大的。

朱军：我觉得大模型或者大规模预训练的技术代表着整个范式的变化，前面也聊到很多，不光是语言，到多模态，到具身、空间智能，中间还是想我怎么去让智能体能够有交互，能够在这个过程中来学习。从智能的角度来看，包括从 AGI 发展上，它是一个必然，因为决策、交互实际上是我们说的智能里面非常核心的能力的体现。我们每时每刻其实都在做决策，我们面对的是一个未知的开放环境，所以对于智能来说，它的发展路径上，在整个规划里面大家也是朝着这个方向走。

现在所有这些进展，包括刚刚讨论很多的 O1，包括做视频生成，或者 3D，这些东西大家最后要指向的有两个方向：

一个是给消费者看到的这些数字内容，就是说看上去很好看、很自然，能够讲故事，能够让大家参与讲故事、能够交互。这肯定是一个很重要的方向，在数字内容上。

另外一个方向，指向实体、指向物理世界。

现在可能最好的一个结合点就是和机器人来结合在一起。其实现在已经有好多例子在展示出来，我们也看到很好的一些进展，比如用了预训练的范式，如何让机器人的能力具有通用性；比如我们自己实验室做多的例子，像四足机器人，过去大家在不同场地上，你要让它跑起来都需要用很多的人工调参。但现在你在一个仿真环境里面，或者用一些 AI 的方式来生成一些合成数据，让它在里面大规模地训练，训练出来的策略可以灌到机器人上，它相当于换了一副大脑，可以让它的四肢更好地协同起来，同样一套策略可以做各种场地的适应。其实这还是一个初步的例子，现在大家也在关注更复杂的控制决策，就像空间智能、具身智能。

就像刚才讲到智能体是 AGI 的 L3，所以现在用到 L1、L2 的进展之后，后面肯定会提升到 L3，让机器人更好地做它的推理规划，然后更好更高效地和环境做交互，更好地完成我们的复杂任务。因为现在很多时候任务相对来说分散，给它定义成一个简化的。未来，我们很快可以看到它可以接受复杂的指令、完成复杂的任务，通过它内嵌的思维链或者过程的学习方式，能够完成复杂任务。所以到那个时候，智能的能力又有一个很巨大的提升。

主持人：虽然意料未来都很难，至少心里会有一个期待，比如在下一个 18 个月里，我们希望看到什么样的进展，在 AGI 的领域里？

朱军：因为现在整个是一个加速，其实很多时候我们预测通常会过于保守。如果回到你的问题，我预想未来 18 个月可能比较令人兴奋的一个进展，我希望看到 AGI 的 L3 已经基本上实现。至少在智能体，比如我们说的世界模型的创建生成、虚实融合，至少在一些特定场景下的决策能力的巨大的提升。其实它会利用我们今天讲到的推理、感知等等。

因为我前一段时间领了一个任务，就是对 L4 做专门的分析，就是到底我们缺什么？做了 L4 的。其实最后调研或者是分析下来，你会发现如果我们要做科学发现或者做创新，它需要的那些能力，可能目前是散落在各个角落里面，当然现在可能还缺一个系统怎么把这些东西集成在一起，给它做 work。所以我觉得如果更激进一点，我甚至觉得未来 18 个月可能在 L4 上也会有显著的进展。当然这里面我讲的是严肃的科学发现，其实 L4 还有一些创意的表达上，目前我们在某种意义上已经达到了，比如说艺术创造、图生视频，一定程度上它已经帮大家放大你的想象，或者让你的想象可以具象化。所以，我对整个于是还是比较乐观的，我觉得至少 L3 或者未来 L4 有一些苗子了。

到今年年底，希望将我们本来做的视频模型能够以更加高效、更可控的方式提供给大家。

我解释一下高效和可控。可控，比如你想表达一个故事，不是简单地将一段话或者一个图片给它动起来，我们是希望你可以连续地讲，而且它不光是人的一致性，还包括物体等各种主题的一致性，还包括交互性；高效，它一方面解决对算力成本的考量，因为你如果想要服务很多人，让大家用的话，首先你成本要降下来，不然这个本身就是烧钱，一直赔钱。另外一个更重要的，还是从体验上。就使用者来说，因为他想表达自己的创意，他可能需要多次和系统来交互，一方面是验证，另外一方面是启发，所以这个过程也需要你的模型系统能够比较高效，比如说终极目标达到实时，能够让大家快速尝试。等到这个阶段，我相信大家的用户体验，包括用户量都会有一个巨大的提升，这是我们今年想重点突破的。当然长远的话，可能明年 18 个月会走向实体的虚实融合的场景了。

杨植鳞：我觉得接下来最重要的，可能是开放性的强化学习，比如说你在产品上跟用户交互，在一个真实的环境里面完成任务，然后自己去进化。当然，我觉得 O1 一定程度上说明这个方向有比之前更强的确定性，我觉得这个会是一个重要的里程碑，也是 AGI 路上现在仅甚唯一的一个重要问题了。所以，我觉得这个会很关键。

张鹏：对，18 个月已经是很长了，如果看看看过去 18 个月走的路。你未来 3 个月，有什么可以透露的吗？

杨植鳞：我们还是希望能够在产品和技术上持续地创新，至少可能在一两个重要领域能够做到世界最好，但是有新的进展会尽快跟大家分享。

姜大昕：第一，我也很期待强化学习能够进一步泛化。另外一个方向其实我也很期待，应该说期待了很久就是在视觉领域的理解和生成一体化的事情。因为在文字领域，GPT 已经做到了理解生成一体化，但遗憾的是在视觉领域，这个问题当然不是遗憾，它非常难。所以在目前为止，我们看到的视觉的理解和生成，这两个模型是分开的。即使像刚才说的多模融合，如果大家仔细看 GPT4，它其他模态都解决了，它唯独不能生成视频，所以这是一个悬而未决的事情。

它为什么很重要呢？如果我们解决了视频理解生成一体化，我们就可以彻底建立一个多模的世界模型，有一个多模的世界模型以后，可以帮助我们真正产生非常长的视频，也就是说解决 Sora（音译）目前的技术缺陷。还有一个，它可以和具身智能相结合，它可以作为机器人的大脑去帮助智能体更好地探索物理世界，所以我也是非常期待的。

张鹏：你未来年底之前，有什么我们值得期待的你的进展？

姜大昕：我也是期待一方面模型和技术的进步，另外一方面产品能带给用户更多更好的体验，其实阶跃有一款产品叫「跃问」，在上面，用户可以体验我们最新的万亿参数的模型，它不光是理科很强，而且它的文学创作能力也很强，经常给大家带来一些惊喜。同时，跃问上还有一个新的功能叫「拍照问」，我们看到用户经常拍张照片去问食物的卡路里，去问宠物的心情，问一个文物的前世今生，包括 Meta 眼镜的发布，还有 Apple Intelligence，它今年都突出了视觉交互的功能。所以我们在跃问上也有体现，而且我们会努力一步步把这个功能做得越来越好。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30