虽然马斯克本人一脸疲态,但他亲自坐镇,给 Grok 4 的噱头拉到顶配。
「宇宙最强模型」「它比所有领域的人类博士都聪明,无一例外」「Grok 4 还没发明新科学或新物理定律只是时间问题」「Grok 4 解决代码问题,比 Cursor 更好用」……
以上宣言,是马斯克为旗下 AI 公司 xAI 最新旗舰大模型 Grok 4 的定调。
Grok 4 也确实争气,在 「人类最后的考试」(Humanity's Last Exam) 中,拿到了 38.6% 的准确率,超过了谷歌 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3 的 21%。多智能体版本 Grok 4 Heavy 拿到了 44.4%,如果进一步使用工具辅助,则能达到 50.7%。
这背后,是 「暴力计算美学」,xAI 耗时 6 个月搭建起来的 10 万块 H100 GPU 超级算力中心正在给出回报,Grok 4 的训练量是 Grok 3 的 10 倍,是 Grok 2 的 100 倍。
回归商业世界的马斯克火力全开,接下来还计划 8 月推出代码模型,9 月上线多模态智能代理,10 月发布视频生成模型。
据悉,Grok 已经被配置在了特斯拉最新固件里,未来也将通过人形机器人与现实世界交互。
AI 大模型、自动驾驶、人形机器人、商业航天,马斯克的 AI 帝国正在越来越宏大,节奏也更甚从前。
Grok 4 有多能打?
在多个高难度基准测试中,Grok 4 表现出色。
马斯克在直播中强调,Grok 4 在人文、数学、物理、工程等学科均达到博士以上水平,「比几乎所有学科的研究生更聪明」。
推理能力刷新纪录。Grok 4 拿到历史高分的 「人类最后的考试」,是一份被称为 「AI 世界终极试炼」 的测试合集,这份专门针对 AI 的考卷,覆盖了数学、化学、语言学、自然科学等一百多个学科,大模型在这份测试中无法依赖网络搜索,只能凭自己的理解和推理能力作答。
能应对这份考卷的 Grok 4,推理能力有大幅提升,可以减少对现有知识框架的依赖。
除 HLE 测试领先外,Grok 4 在 GPQA(研究生级问答) 中拿到了 88.9%,在美国数学邀请赛 (AIME25) 中拿下满分,ARC-AGI-2 测试中以 16.2% 得分登顶 (超第二名 Claude Opus 4 近一倍)。
商业场景的落地验证方面,在名为 Vending-Bench 的商业模拟任务中,Grok 4 也表现突出,经营自动售货机时平均净资产达到 4684.15 美元,是第二名的两倍,证明了长期规划和多步骤推理能力。
值得注意的是,Grok 4 的创新点在于 「工具原生融合」 架构。与多数模型后期接入工具不同,Grok 4 在训练阶段嵌入了搜索、代码执行等工具,使其能灵活调用资源解决复杂问题。例如直播演示中,它通过检索学术论文、调用模拟工具,生成了黑洞碰撞的可视化动态模型。
不过,业内人士认为,Grok 4 的强项主要集中在推理和复杂知识整合方面,而在代码、多模态、图像和视频生成等方面还有进步空间。
「最贵」 模型的想象空间
xAI 同步推出了行业最贵订阅计划:Super Grok Heavy 月费高达 300 美元,较 OpenAI 顶级订阅贵 50%。API 定价同样激进,每百万 token 输入 3 美元、输出 15 美元。
高定价背后其实是训练成本的陡增。Grok 4 百倍于前代的训练量,依托 10 万块 H100 GPU 集群完成,xAI 并未披露单次训练耗资,但马斯克提到的 「我们快没有合适问题考验 AI 了」,侧面印证了模型能力已逼近当前测试极限。
Grok 4 的终极目标是与现实世界交互。马斯克透露,今年 Grok 4 还将融合有限元分析、流体动力学等工具,构建高精度物理模拟器 (如黑洞模拟)。在他的规划中,Grok 4 将通过 Optimus(马斯克旗下的擎天柱) 人形机器人连接现实,「让 AI 接受物理定律的最终检验」。另有消息显示,目前特斯拉最新固件已预埋 Grok,未来或将作为车载语音助手及自动驾驶的 「大脑」。
「我们正站在智能大爆炸的开端。」 马斯克表示,对 AI 的最终测试是现实世界,未来 AI 技术将会放到改进汽车或火箭等领域验证有效性。
「睡在算力中心」 的掌舵人归来
从特斯拉 Robotaxi(无人驾驶出租车) 秀肌肉,到 Grok 4 的暴力美学,近 10 天,马斯克已经称霸舆论场两回,他正以标志性的激进节奏推进业务。
马斯克所布局的自动驾驶、AI 大模型、人形机器人、商业航天,逐渐形成闭环。Grok 大模型作为 「大脑」,驱动特斯拉自动驾驶、Optimus 机器人行动决策;特斯拉车辆与机器人反馈的真实场景数据,反哺模型迭代;其旗下 SpaceX 星链提供全球低延迟通信,支撑实时 AI 交互。
OpenAI 的 ChatGPT-5 还在酝酿中,目前 AI 军备竞赛进入 「马斯克节奏」。马斯克的算力碾压、多场景捆绑,确实具有更宽广的应用想象力。
但在 AI 大模型快速迭代的当下,有多少用户愿意为了 300 美元月费的 Grok 4 买单,还是未知数。
高调背后也暗藏风险。Grok 近期因发表反犹言论遭土耳其封禁、波兰政府投诉,迫使 xAI 紧急删除不当内容并调整审核策略。在 「AI 寻求真理」 的路上,如何在开放性与安全性间平衡,不只是 OpenAI 塞姆·奥特曼的难题,也是马斯克的。
马斯克在今天的直播中说:「安全是最重要的事,我们需要确保 AI 是一个好 AI。你可以把 AI 看作是超级天才的孩子,它最终会比你聪明,但我们仍然要灌输正确的价值观。」
(21 世纪经济报道)
文章转载自 东方财富