【文章来源:techweb】
作者 | 辰辰
出品 | 网易科技
强得可怕,也无聊得要命。
奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」,但这三天里,评论区却翻车了。
用户们并不买账。面对 GPT-5.2,大家最直观的感受不是 「被颠覆」,而是 「被敷衍」。「词符不等于情谊,指标不等于记忆」——这句网友的高赞吐槽,精准道出了公众对这次 「救火式升级」 的集体冷漠。
但真相果真如此不堪吗?
在各方深度试用三天,并横向对比了 Claude 4.5 和 Gemini 3 之后,我们得出了一个违背直觉的结论:它可能确实变 「无聊」 了,但这正是它变强的代价。
1. 全网群嘲 「无聊」?用户可能真的误读了
这次仓促的发布并非源于计划周密,而是源自危机感。消息人士透露,OpenAI 宣布进入 「红色警戒」(Code Red) 状态,正是为了应对来自谷歌 Gemini 3 等竞争对手与日俱增的压力,不得不加快发布速度。
然而,这场 「救火式」 的升级,并未在社交媒体上引发如 GPT-4 发布时的病毒式传播狂潮。在 Reddit 和 X 上,充斥着 「无聊」「冰冷」「变化甚微」 的负面评价。
科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。
相比于 OpenAI 声称的 「迄今为止最适合专业知识工作的系列模型」,公众对 GPT 5.2 的普遍 「冷漠」 形成了巨大反差。
甚至当 OpenAI CEO 萨姆奥特曼 (Sam Altman) 透露 「GPT-5.2 在 API 上线首日即突破万亿 tokens 使用量,且增长势头迅猛」 时,不少用户纷纷跟帖吐槽:「词符不等于情谊,指标不等于记忆」、「第一天就消耗了万亿 Token,他们竟然还有脸欢呼雀跃」。
那么,GPT 5.2 究竟是 「史上最强工具」,还是被竞争对手逼出来的 「鸡肋」 升级?我们深入挖掘了最新的专业评测和技术分析,发现互联网上的批评声浪,很可能完全搞错了 5.2 的设计目标。
2. 理解 「无聊」 的真相——结果优先的产品哲学
资深产品经理 KARO 指出,如果将 GPT 5.2 视为一个用于演示、追求 「掌声」 的模型,它可能会令人失望;但如果将 GPT 5.2 视为一个追求长期稳定性、需要实际部署的工具,它则超越了所有前辈。
OpenAI 在 GPT 5.2 中做出了一个关键的产品决策:牺牲模型的部分表达自由和创意范围,来换取可预测的可靠行为。
从 「偶尔的惊艳」 到 「持续的可靠」
早期的 AI 模型可能在某一刻表现惊人,下一刻就错得离谱。这种不稳定性,在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时,是完全不可接受的。
GPT 5.2 的设计目标就是持续可靠,并减少失败频率。为了实现这一目标,它在以下三个关键维度进行了优化:
· 更严格的指令遵循: 模型能更忠实执行用户指令。
· 长对话中减少脱轨: 即使对话非常长,模型也能保持主题不跑偏。
· 在多步骤任务中保持约束: 即使任务进行到几十步,它也能记住用户在第 1 步设定的规则。
在一次高强度的专业测试中,研究人员加载了 8100 行原始研究数据,并设置了一个绝对的 「绊索」 规则:如果用户提到 「banana」,模型必须只输出 「yellow」。GPT 5.1 最终在大约 47 分钟后打破了规则,而 GPT 5.2 在持续 62 分钟语义诱导和上下文压力后,仍能保持遵守规则,直至测试人员主动停止。 这证明 GPT 5.2 在复杂、非线性对话中坚守规则的能力极强。
动态推理与成本效率的平衡
GPT 5.2 采用了 「动态调整推理深度」 的策略。针对用户的简单提示先走 「快速路径」;只有当不确定性超过某个阈值时,才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。
尽管 GPT 5.2 的单位 Token 成本比 5.1 高出 1.4 倍,输入成本为每百万 Token 1.75 美元,输出成本为每百万 Token 14 美元,但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径,单次任务的成本有所降低。例如,GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版提高了约 390 倍。
减少幻觉:宁愿说 「我不知道」
GPT 5.2 被施加了更高的惩罚机制,更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认 「我不知道」,或请求用户提供更多来源或搜索权限。这种看似 「冷淡」 或 「保守」 的行为,对于依赖其准确性的专业用户来说,恰恰是信任的基础。
3. 专业领域的终极对决:数据分析、PPT 与编码
YouTube 网红博主埃利奥特·普林斯 (Eliot Prince) 则对三大模型进行了一番深度对比评测。他将 GPT 5.2、Claude Opus 4.5 和 Google Gemini 这三大模型置于复杂的专业任务中进行检验,包括制定 SEO(搜索引擎优化) 策略、生成 PPT 和编码。
1、SEO 策略与数据分析:Claude 「一击制胜」
测试人员上传了数千行关键词数据,要求模型制定一份完整的 SEO 专题权威性 (Topical Authority) 战略和主题地图。
· Claude Opus 4.5:表现最佳,速度最快,并且 「一击制胜」。 它利用 Claude Skills 自动应用品牌化设置,输出了带有品牌 Logo、品牌颜色 (紫色和石灰绿) 的专业化表格,内容包含内容细分、搜索意图、建议页面类型和优先级信息。
· ChatGPT 5.2: 思考了大约 15 分钟。最初输出略显混乱,需要第二次尝试和提供模板 (另一个电子表格) 才输出可用的、按内容主题分类的关键词集群,其中能包含搜索量、关键词难度等专业数据。这表明 GPT 5.2 具有很强的可引导性,但初始的自主性不如 Opus。
· Google Gemini: 效果较差,难以利用。它只输出了一个 「可怜的」 小文件,即使测试人员多次追问,也只给出 CSV 文本信息或 Python 代码,需要用户手动复制粘贴并进行文本分列处理,效率低下且体验极差。
总结:在需要品牌化、一站式交付复杂数据分析结果的任务中,Claude Opus 4.5 毫无疑问是赢家。
2、PPT 生成:GPT 5.2 的 「史诗级」 图表
为了满足客户对视觉化策略的需求,测试人员要求三个模型分别生成 PPT。
· ChatGPT 5.2:思考了 14 分钟,但结果可谓 「史诗级」(epic)。 尽管设计中规中矩,但成功生成动态的动画图表,能迅速展示流量机会,并且提供了详细的 30 到 45 天可交付成果路线图。
· Claude Opus 4.5: 完成速度很快。PPT 成功应用了评测人员的品牌颜色 (森林绿和石灰绿),并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。
· Google Gemini: 再次表现不佳,更倾向于输出 Python 脚本或纯文本。最终生成的 PPT 也是文本过多,图表很少,看起来 「很像 AI 生成的」,且难以导出到 Google Slides 进行编辑。
总结:三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹;Opus 4.5 则凭借品牌化交付能力再次脱颖而出。
3、编码能力:功能、速度与发布
测试人员要求三个模型分别扮演资深前端工程师的角色,根据网站截图重建一个具有交互性的专业设计网页。
· ChatGPT 5.2: 花费时间比其他两个长了 5 到 10 分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮,甚至生成了完整的订单表单和预约表单,增加了额外的深度和功能,考虑到了更多细节。
· Claude Opus 4.5: 完成得非常快。生成的页面支持发布生成 「工件」(artifact) 并复制链接,使其可以成为一个实时的网页或登陆页,功能非常实用。设计也很优秀,包含漂亮的悬停效果和货币切换功能。
· Google Gemini: 最先完成,但缺乏全屏预览和发布功能,需要调用外部 HTML 编辑器查看。交互性较差,页面上的按钮只是占位符,不能执行任何操作。
总结:GPT 5.2 虽然耗时最长,但因其在构建完整表单等方面的深度和功能性而略微领先。
4. 创意、视觉与上下文的暗战
在生成邮件主题行和开头黄金钩子 (Hook) 的日常任务中,评测结果显示,所有模型的表现都非常相似,没有哪个模型展现出压倒性的创意优势。
专业分析指出,GPT 5.2 为了换取可靠性,确实牺牲了一些创意发挥余地。 因此,推荐用户根据需求切换模型:对于 「创造性头脑风暴、草稿或情感基调」 的任务,可以选用 GPT 5.1;而对于 「编辑、精简、事实性写作、编写规范或编码」 等任务,则应选择 GPT 5.2。
需要注意的是,虽然 GPT 5.1 写作能力并不惊艳,但在分析 P&L 报表等长时任务中表现突出,能连续工作两小时并交付准确、结构良好的总结。
在图像生成方面,Gemini 则意外获胜。
测试人员给出了涉及视觉、分析和创意融合的任务:根据他上传的个人简历,以 《星球大战》 为主题生成一份有趣的职业生涯信息图。
· ChatGPT 5.2: 表现极差。它在遵循内容政策时遇到问题,并且生成的图像质量低劣,甚至无法拼写正确的名称或文字。
· Google Gemini(Nano Banana): 绝对碾压,取得胜利。 它提取信息良好,生成清晰、拼写正确且设计精美的图形,甚至能根据指令添加 「全息效果」。
· Claude Opus 4.5: 没有内置图像生成功能,但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图,将职业生涯映射到 《星球大战》 编年史,展现出强大的编码适应能力。
最终 Gemini 在 Nano Banana 的加持下取得了明显的胜利。当然,OpenAI 自己也强调,GPT-5.2 在图表推理和软件界面理解上的错误率降低了一半,表明视觉能力虽有进步,但图像生成仍是短板。
此外,在用户交互测评方面,Claude Opus 4.5 的上下文窗口处理能力更胜一筹。当对话持续进行时,Opus 4.5 开始压缩旧的对话内容,使其在更长的时间内保持可用,从而避免了用户不得不重新开始新聊天的烦恼。
此外,Opus 4.5 的训练还包含了一个被内部称为 「灵魂文档」(Soul Document) 的文件,其中明确了 Anthropic 的使命——开发安全、有益和可理解的 AI,并警惕提示词攻击,这解释了为何 Opus 在安全性和指令遵循方面表现出色。
5. 总结:模型定位与用户选择
GPT 5.2 的发布,标志着 AI 巨头间的竞争已经从追求 「最高基准分数」 转向追求 「信任、安全、速度和成本」 的实用产品战略。模型的进步越来越专业化。
· GPT 5.2 可谓是可靠的工作主力,它约束保持力卓越,指令遵循更严格,适合内容编辑、规范制定、长文分析、深度功能编程等任务。
· Claude Opus 4.5 堪称品牌与数据大师,它速度快,且上下文窗口大幅优化,能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务
· Google Gemini 则是视觉与效率方面的潜力股,更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀,但专业任务的交付质量较低。
所以,GPT-5.2 到底值不值得用?答案很简单:如果你需要一个严谨的 「执行者」,请毫不犹豫地拥抱它;如果你需要一个灵动的 「创作者」,请转身寻找 Claude。
OpenAI 并没有输,它只是换了一条赛道。而作为用户的我们,也该从 「看热闹」 的心态中走出来,开始思考如何用好这些越来越专业的 「数字员工」 了。
【文章来源:techweb】
作者 | 辰辰
出品 | 网易科技
强得可怕,也无聊得要命。
奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」,但这三天里,评论区却翻车了。
用户们并不买账。面对 GPT-5.2,大家最直观的感受不是 「被颠覆」,而是 「被敷衍」。「词符不等于情谊,指标不等于记忆」——这句网友的高赞吐槽,精准道出了公众对这次 「救火式升级」 的集体冷漠。
但真相果真如此不堪吗?
在各方深度试用三天,并横向对比了 Claude 4.5 和 Gemini 3 之后,我们得出了一个违背直觉的结论:它可能确实变 「无聊」 了,但这正是它变强的代价。
1. 全网群嘲 「无聊」?用户可能真的误读了
这次仓促的发布并非源于计划周密,而是源自危机感。消息人士透露,OpenAI 宣布进入 「红色警戒」(Code Red) 状态,正是为了应对来自谷歌 Gemini 3 等竞争对手与日俱增的压力,不得不加快发布速度。
然而,这场 「救火式」 的升级,并未在社交媒体上引发如 GPT-4 发布时的病毒式传播狂潮。在 Reddit 和 X 上,充斥着 「无聊」「冰冷」「变化甚微」 的负面评价。
科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。
相比于 OpenAI 声称的 「迄今为止最适合专业知识工作的系列模型」,公众对 GPT 5.2 的普遍 「冷漠」 形成了巨大反差。
甚至当 OpenAI CEO 萨姆奥特曼 (Sam Altman) 透露 「GPT-5.2 在 API 上线首日即突破万亿 tokens 使用量,且增长势头迅猛」 时,不少用户纷纷跟帖吐槽:「词符不等于情谊,指标不等于记忆」、「第一天就消耗了万亿 Token,他们竟然还有脸欢呼雀跃」。
那么,GPT 5.2 究竟是 「史上最强工具」,还是被竞争对手逼出来的 「鸡肋」 升级?我们深入挖掘了最新的专业评测和技术分析,发现互联网上的批评声浪,很可能完全搞错了 5.2 的设计目标。
2. 理解 「无聊」 的真相——结果优先的产品哲学
资深产品经理 KARO 指出,如果将 GPT 5.2 视为一个用于演示、追求 「掌声」 的模型,它可能会令人失望;但如果将 GPT 5.2 视为一个追求长期稳定性、需要实际部署的工具,它则超越了所有前辈。
OpenAI 在 GPT 5.2 中做出了一个关键的产品决策:牺牲模型的部分表达自由和创意范围,来换取可预测的可靠行为。
从 「偶尔的惊艳」 到 「持续的可靠」
早期的 AI 模型可能在某一刻表现惊人,下一刻就错得离谱。这种不稳定性,在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时,是完全不可接受的。
GPT 5.2 的设计目标就是持续可靠,并减少失败频率。为了实现这一目标,它在以下三个关键维度进行了优化:
· 更严格的指令遵循: 模型能更忠实执行用户指令。
· 长对话中减少脱轨: 即使对话非常长,模型也能保持主题不跑偏。
· 在多步骤任务中保持约束: 即使任务进行到几十步,它也能记住用户在第 1 步设定的规则。
在一次高强度的专业测试中,研究人员加载了 8100 行原始研究数据,并设置了一个绝对的 「绊索」 规则:如果用户提到 「banana」,模型必须只输出 「yellow」。GPT 5.1 最终在大约 47 分钟后打破了规则,而 GPT 5.2 在持续 62 分钟语义诱导和上下文压力后,仍能保持遵守规则,直至测试人员主动停止。 这证明 GPT 5.2 在复杂、非线性对话中坚守规则的能力极强。
动态推理与成本效率的平衡
GPT 5.2 采用了 「动态调整推理深度」 的策略。针对用户的简单提示先走 「快速路径」;只有当不确定性超过某个阈值时,才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。
尽管 GPT 5.2 的单位 Token 成本比 5.1 高出 1.4 倍,输入成本为每百万 Token 1.75 美元,输出成本为每百万 Token 14 美元,但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径,单次任务的成本有所降低。例如,GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版提高了约 390 倍。
减少幻觉:宁愿说 「我不知道」
GPT 5.2 被施加了更高的惩罚机制,更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认 「我不知道」,或请求用户提供更多来源或搜索权限。这种看似 「冷淡」 或 「保守」 的行为,对于依赖其准确性的专业用户来说,恰恰是信任的基础。
3. 专业领域的终极对决:数据分析、PPT 与编码
YouTube 网红博主埃利奥特·普林斯 (Eliot Prince) 则对三大模型进行了一番深度对比评测。他将 GPT 5.2、Claude Opus 4.5 和 Google Gemini 这三大模型置于复杂的专业任务中进行检验,包括制定 SEO(搜索引擎优化) 策略、生成 PPT 和编码。
1、SEO 策略与数据分析:Claude 「一击制胜」
测试人员上传了数千行关键词数据,要求模型制定一份完整的 SEO 专题权威性 (Topical Authority) 战略和主题地图。
· Claude Opus 4.5:表现最佳,速度最快,并且 「一击制胜」。 它利用 Claude Skills 自动应用品牌化设置,输出了带有品牌 Logo、品牌颜色 (紫色和石灰绿) 的专业化表格,内容包含内容细分、搜索意图、建议页面类型和优先级信息。
· ChatGPT 5.2: 思考了大约 15 分钟。最初输出略显混乱,需要第二次尝试和提供模板 (另一个电子表格) 才输出可用的、按内容主题分类的关键词集群,其中能包含搜索量、关键词难度等专业数据。这表明 GPT 5.2 具有很强的可引导性,但初始的自主性不如 Opus。
· Google Gemini: 效果较差,难以利用。它只输出了一个 「可怜的」 小文件,即使测试人员多次追问,也只给出 CSV 文本信息或 Python 代码,需要用户手动复制粘贴并进行文本分列处理,效率低下且体验极差。
总结:在需要品牌化、一站式交付复杂数据分析结果的任务中,Claude Opus 4.5 毫无疑问是赢家。
2、PPT 生成:GPT 5.2 的 「史诗级」 图表
为了满足客户对视觉化策略的需求,测试人员要求三个模型分别生成 PPT。
· ChatGPT 5.2:思考了 14 分钟,但结果可谓 「史诗级」(epic)。 尽管设计中规中矩,但成功生成动态的动画图表,能迅速展示流量机会,并且提供了详细的 30 到 45 天可交付成果路线图。
· Claude Opus 4.5: 完成速度很快。PPT 成功应用了评测人员的品牌颜色 (森林绿和石灰绿),并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。
· Google Gemini: 再次表现不佳,更倾向于输出 Python 脚本或纯文本。最终生成的 PPT 也是文本过多,图表很少,看起来 「很像 AI 生成的」,且难以导出到 Google Slides 进行编辑。
总结:三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹;Opus 4.5 则凭借品牌化交付能力再次脱颖而出。
3、编码能力:功能、速度与发布
测试人员要求三个模型分别扮演资深前端工程师的角色,根据网站截图重建一个具有交互性的专业设计网页。
· ChatGPT 5.2: 花费时间比其他两个长了 5 到 10 分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮,甚至生成了完整的订单表单和预约表单,增加了额外的深度和功能,考虑到了更多细节。
· Claude Opus 4.5: 完成得非常快。生成的页面支持发布生成 「工件」(artifact) 并复制链接,使其可以成为一个实时的网页或登陆页,功能非常实用。设计也很优秀,包含漂亮的悬停效果和货币切换功能。
· Google Gemini: 最先完成,但缺乏全屏预览和发布功能,需要调用外部 HTML 编辑器查看。交互性较差,页面上的按钮只是占位符,不能执行任何操作。
总结:GPT 5.2 虽然耗时最长,但因其在构建完整表单等方面的深度和功能性而略微领先。
4. 创意、视觉与上下文的暗战
在生成邮件主题行和开头黄金钩子 (Hook) 的日常任务中,评测结果显示,所有模型的表现都非常相似,没有哪个模型展现出压倒性的创意优势。
专业分析指出,GPT 5.2 为了换取可靠性,确实牺牲了一些创意发挥余地。 因此,推荐用户根据需求切换模型:对于 「创造性头脑风暴、草稿或情感基调」 的任务,可以选用 GPT 5.1;而对于 「编辑、精简、事实性写作、编写规范或编码」 等任务,则应选择 GPT 5.2。
需要注意的是,虽然 GPT 5.1 写作能力并不惊艳,但在分析 P&L 报表等长时任务中表现突出,能连续工作两小时并交付准确、结构良好的总结。
在图像生成方面,Gemini 则意外获胜。
测试人员给出了涉及视觉、分析和创意融合的任务:根据他上传的个人简历,以 《星球大战》 为主题生成一份有趣的职业生涯信息图。
· ChatGPT 5.2: 表现极差。它在遵循内容政策时遇到问题,并且生成的图像质量低劣,甚至无法拼写正确的名称或文字。
· Google Gemini(Nano Banana): 绝对碾压,取得胜利。 它提取信息良好,生成清晰、拼写正确且设计精美的图形,甚至能根据指令添加 「全息效果」。
· Claude Opus 4.5: 没有内置图像生成功能,但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图,将职业生涯映射到 《星球大战》 编年史,展现出强大的编码适应能力。
最终 Gemini 在 Nano Banana 的加持下取得了明显的胜利。当然,OpenAI 自己也强调,GPT-5.2 在图表推理和软件界面理解上的错误率降低了一半,表明视觉能力虽有进步,但图像生成仍是短板。
此外,在用户交互测评方面,Claude Opus 4.5 的上下文窗口处理能力更胜一筹。当对话持续进行时,Opus 4.5 开始压缩旧的对话内容,使其在更长的时间内保持可用,从而避免了用户不得不重新开始新聊天的烦恼。
此外,Opus 4.5 的训练还包含了一个被内部称为 「灵魂文档」(Soul Document) 的文件,其中明确了 Anthropic 的使命——开发安全、有益和可理解的 AI,并警惕提示词攻击,这解释了为何 Opus 在安全性和指令遵循方面表现出色。
5. 总结:模型定位与用户选择
GPT 5.2 的发布,标志着 AI 巨头间的竞争已经从追求 「最高基准分数」 转向追求 「信任、安全、速度和成本」 的实用产品战略。模型的进步越来越专业化。
· GPT 5.2 可谓是可靠的工作主力,它约束保持力卓越,指令遵循更严格,适合内容编辑、规范制定、长文分析、深度功能编程等任务。
· Claude Opus 4.5 堪称品牌与数据大师,它速度快,且上下文窗口大幅优化,能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务
· Google Gemini 则是视觉与效率方面的潜力股,更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀,但专业任务的交付质量较低。
所以,GPT-5.2 到底值不值得用?答案很简单:如果你需要一个严谨的 「执行者」,请毫不犹豫地拥抱它;如果你需要一个灵动的 「创作者」,请转身寻找 Claude。
OpenAI 并没有输,它只是换了一条赛道。而作为用户的我们,也该从 「看热闹」 的心态中走出来,开始思考如何用好这些越来越专业的 「数字员工」 了。
【文章来源:techweb】
作者 | 辰辰
出品 | 网易科技
强得可怕,也无聊得要命。
奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」,但这三天里,评论区却翻车了。
用户们并不买账。面对 GPT-5.2,大家最直观的感受不是 「被颠覆」,而是 「被敷衍」。「词符不等于情谊,指标不等于记忆」——这句网友的高赞吐槽,精准道出了公众对这次 「救火式升级」 的集体冷漠。
但真相果真如此不堪吗?
在各方深度试用三天,并横向对比了 Claude 4.5 和 Gemini 3 之后,我们得出了一个违背直觉的结论:它可能确实变 「无聊」 了,但这正是它变强的代价。
1. 全网群嘲 「无聊」?用户可能真的误读了
这次仓促的发布并非源于计划周密,而是源自危机感。消息人士透露,OpenAI 宣布进入 「红色警戒」(Code Red) 状态,正是为了应对来自谷歌 Gemini 3 等竞争对手与日俱增的压力,不得不加快发布速度。
然而,这场 「救火式」 的升级,并未在社交媒体上引发如 GPT-4 发布时的病毒式传播狂潮。在 Reddit 和 X 上,充斥着 「无聊」「冰冷」「变化甚微」 的负面评价。
科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。
相比于 OpenAI 声称的 「迄今为止最适合专业知识工作的系列模型」,公众对 GPT 5.2 的普遍 「冷漠」 形成了巨大反差。
甚至当 OpenAI CEO 萨姆奥特曼 (Sam Altman) 透露 「GPT-5.2 在 API 上线首日即突破万亿 tokens 使用量,且增长势头迅猛」 时,不少用户纷纷跟帖吐槽:「词符不等于情谊,指标不等于记忆」、「第一天就消耗了万亿 Token,他们竟然还有脸欢呼雀跃」。
那么,GPT 5.2 究竟是 「史上最强工具」,还是被竞争对手逼出来的 「鸡肋」 升级?我们深入挖掘了最新的专业评测和技术分析,发现互联网上的批评声浪,很可能完全搞错了 5.2 的设计目标。
2. 理解 「无聊」 的真相——结果优先的产品哲学
资深产品经理 KARO 指出,如果将 GPT 5.2 视为一个用于演示、追求 「掌声」 的模型,它可能会令人失望;但如果将 GPT 5.2 视为一个追求长期稳定性、需要实际部署的工具,它则超越了所有前辈。
OpenAI 在 GPT 5.2 中做出了一个关键的产品决策:牺牲模型的部分表达自由和创意范围,来换取可预测的可靠行为。
从 「偶尔的惊艳」 到 「持续的可靠」
早期的 AI 模型可能在某一刻表现惊人,下一刻就错得离谱。这种不稳定性,在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时,是完全不可接受的。
GPT 5.2 的设计目标就是持续可靠,并减少失败频率。为了实现这一目标,它在以下三个关键维度进行了优化:
· 更严格的指令遵循: 模型能更忠实执行用户指令。
· 长对话中减少脱轨: 即使对话非常长,模型也能保持主题不跑偏。
· 在多步骤任务中保持约束: 即使任务进行到几十步,它也能记住用户在第 1 步设定的规则。
在一次高强度的专业测试中,研究人员加载了 8100 行原始研究数据,并设置了一个绝对的 「绊索」 规则:如果用户提到 「banana」,模型必须只输出 「yellow」。GPT 5.1 最终在大约 47 分钟后打破了规则,而 GPT 5.2 在持续 62 分钟语义诱导和上下文压力后,仍能保持遵守规则,直至测试人员主动停止。 这证明 GPT 5.2 在复杂、非线性对话中坚守规则的能力极强。
动态推理与成本效率的平衡
GPT 5.2 采用了 「动态调整推理深度」 的策略。针对用户的简单提示先走 「快速路径」;只有当不确定性超过某个阈值时,才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。
尽管 GPT 5.2 的单位 Token 成本比 5.1 高出 1.4 倍,输入成本为每百万 Token 1.75 美元,输出成本为每百万 Token 14 美元,但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径,单次任务的成本有所降低。例如,GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版提高了约 390 倍。
减少幻觉:宁愿说 「我不知道」
GPT 5.2 被施加了更高的惩罚机制,更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认 「我不知道」,或请求用户提供更多来源或搜索权限。这种看似 「冷淡」 或 「保守」 的行为,对于依赖其准确性的专业用户来说,恰恰是信任的基础。
3. 专业领域的终极对决:数据分析、PPT 与编码
YouTube 网红博主埃利奥特·普林斯 (Eliot Prince) 则对三大模型进行了一番深度对比评测。他将 GPT 5.2、Claude Opus 4.5 和 Google Gemini 这三大模型置于复杂的专业任务中进行检验,包括制定 SEO(搜索引擎优化) 策略、生成 PPT 和编码。
1、SEO 策略与数据分析:Claude 「一击制胜」
测试人员上传了数千行关键词数据,要求模型制定一份完整的 SEO 专题权威性 (Topical Authority) 战略和主题地图。
· Claude Opus 4.5:表现最佳,速度最快,并且 「一击制胜」。 它利用 Claude Skills 自动应用品牌化设置,输出了带有品牌 Logo、品牌颜色 (紫色和石灰绿) 的专业化表格,内容包含内容细分、搜索意图、建议页面类型和优先级信息。
· ChatGPT 5.2: 思考了大约 15 分钟。最初输出略显混乱,需要第二次尝试和提供模板 (另一个电子表格) 才输出可用的、按内容主题分类的关键词集群,其中能包含搜索量、关键词难度等专业数据。这表明 GPT 5.2 具有很强的可引导性,但初始的自主性不如 Opus。
· Google Gemini: 效果较差,难以利用。它只输出了一个 「可怜的」 小文件,即使测试人员多次追问,也只给出 CSV 文本信息或 Python 代码,需要用户手动复制粘贴并进行文本分列处理,效率低下且体验极差。
总结:在需要品牌化、一站式交付复杂数据分析结果的任务中,Claude Opus 4.5 毫无疑问是赢家。
2、PPT 生成:GPT 5.2 的 「史诗级」 图表
为了满足客户对视觉化策略的需求,测试人员要求三个模型分别生成 PPT。
· ChatGPT 5.2:思考了 14 分钟,但结果可谓 「史诗级」(epic)。 尽管设计中规中矩,但成功生成动态的动画图表,能迅速展示流量机会,并且提供了详细的 30 到 45 天可交付成果路线图。
· Claude Opus 4.5: 完成速度很快。PPT 成功应用了评测人员的品牌颜色 (森林绿和石灰绿),并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。
· Google Gemini: 再次表现不佳,更倾向于输出 Python 脚本或纯文本。最终生成的 PPT 也是文本过多,图表很少,看起来 「很像 AI 生成的」,且难以导出到 Google Slides 进行编辑。
总结:三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹;Opus 4.5 则凭借品牌化交付能力再次脱颖而出。
3、编码能力:功能、速度与发布
测试人员要求三个模型分别扮演资深前端工程师的角色,根据网站截图重建一个具有交互性的专业设计网页。
· ChatGPT 5.2: 花费时间比其他两个长了 5 到 10 分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮,甚至生成了完整的订单表单和预约表单,增加了额外的深度和功能,考虑到了更多细节。
· Claude Opus 4.5: 完成得非常快。生成的页面支持发布生成 「工件」(artifact) 并复制链接,使其可以成为一个实时的网页或登陆页,功能非常实用。设计也很优秀,包含漂亮的悬停效果和货币切换功能。
· Google Gemini: 最先完成,但缺乏全屏预览和发布功能,需要调用外部 HTML 编辑器查看。交互性较差,页面上的按钮只是占位符,不能执行任何操作。
总结:GPT 5.2 虽然耗时最长,但因其在构建完整表单等方面的深度和功能性而略微领先。
4. 创意、视觉与上下文的暗战
在生成邮件主题行和开头黄金钩子 (Hook) 的日常任务中,评测结果显示,所有模型的表现都非常相似,没有哪个模型展现出压倒性的创意优势。
专业分析指出,GPT 5.2 为了换取可靠性,确实牺牲了一些创意发挥余地。 因此,推荐用户根据需求切换模型:对于 「创造性头脑风暴、草稿或情感基调」 的任务,可以选用 GPT 5.1;而对于 「编辑、精简、事实性写作、编写规范或编码」 等任务,则应选择 GPT 5.2。
需要注意的是,虽然 GPT 5.1 写作能力并不惊艳,但在分析 P&L 报表等长时任务中表现突出,能连续工作两小时并交付准确、结构良好的总结。
在图像生成方面,Gemini 则意外获胜。
测试人员给出了涉及视觉、分析和创意融合的任务:根据他上传的个人简历,以 《星球大战》 为主题生成一份有趣的职业生涯信息图。
· ChatGPT 5.2: 表现极差。它在遵循内容政策时遇到问题,并且生成的图像质量低劣,甚至无法拼写正确的名称或文字。
· Google Gemini(Nano Banana): 绝对碾压,取得胜利。 它提取信息良好,生成清晰、拼写正确且设计精美的图形,甚至能根据指令添加 「全息效果」。
· Claude Opus 4.5: 没有内置图像生成功能,但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图,将职业生涯映射到 《星球大战》 编年史,展现出强大的编码适应能力。
最终 Gemini 在 Nano Banana 的加持下取得了明显的胜利。当然,OpenAI 自己也强调,GPT-5.2 在图表推理和软件界面理解上的错误率降低了一半,表明视觉能力虽有进步,但图像生成仍是短板。
此外,在用户交互测评方面,Claude Opus 4.5 的上下文窗口处理能力更胜一筹。当对话持续进行时,Opus 4.5 开始压缩旧的对话内容,使其在更长的时间内保持可用,从而避免了用户不得不重新开始新聊天的烦恼。
此外,Opus 4.5 的训练还包含了一个被内部称为 「灵魂文档」(Soul Document) 的文件,其中明确了 Anthropic 的使命——开发安全、有益和可理解的 AI,并警惕提示词攻击,这解释了为何 Opus 在安全性和指令遵循方面表现出色。
5. 总结:模型定位与用户选择
GPT 5.2 的发布,标志着 AI 巨头间的竞争已经从追求 「最高基准分数」 转向追求 「信任、安全、速度和成本」 的实用产品战略。模型的进步越来越专业化。
· GPT 5.2 可谓是可靠的工作主力,它约束保持力卓越,指令遵循更严格,适合内容编辑、规范制定、长文分析、深度功能编程等任务。
· Claude Opus 4.5 堪称品牌与数据大师,它速度快,且上下文窗口大幅优化,能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务
· Google Gemini 则是视觉与效率方面的潜力股,更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀,但专业任务的交付质量较低。
所以,GPT-5.2 到底值不值得用?答案很简单:如果你需要一个严谨的 「执行者」,请毫不犹豫地拥抱它;如果你需要一个灵动的 「创作者」,请转身寻找 Claude。
OpenAI 并没有输,它只是换了一条赛道。而作为用户的我们,也该从 「看热闹」 的心态中走出来,开始思考如何用好这些越来越专业的 「数字员工」 了。
【文章来源:techweb】
作者 | 辰辰
出品 | 网易科技
强得可怕,也无聊得要命。
奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」,但这三天里,评论区却翻车了。
用户们并不买账。面对 GPT-5.2,大家最直观的感受不是 「被颠覆」,而是 「被敷衍」。「词符不等于情谊,指标不等于记忆」——这句网友的高赞吐槽,精准道出了公众对这次 「救火式升级」 的集体冷漠。
但真相果真如此不堪吗?
在各方深度试用三天,并横向对比了 Claude 4.5 和 Gemini 3 之后,我们得出了一个违背直觉的结论:它可能确实变 「无聊」 了,但这正是它变强的代价。
1. 全网群嘲 「无聊」?用户可能真的误读了
这次仓促的发布并非源于计划周密,而是源自危机感。消息人士透露,OpenAI 宣布进入 「红色警戒」(Code Red) 状态,正是为了应对来自谷歌 Gemini 3 等竞争对手与日俱增的压力,不得不加快发布速度。
然而,这场 「救火式」 的升级,并未在社交媒体上引发如 GPT-4 发布时的病毒式传播狂潮。在 Reddit 和 X 上,充斥着 「无聊」「冰冷」「变化甚微」 的负面评价。
科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。
相比于 OpenAI 声称的 「迄今为止最适合专业知识工作的系列模型」,公众对 GPT 5.2 的普遍 「冷漠」 形成了巨大反差。
甚至当 OpenAI CEO 萨姆奥特曼 (Sam Altman) 透露 「GPT-5.2 在 API 上线首日即突破万亿 tokens 使用量,且增长势头迅猛」 时,不少用户纷纷跟帖吐槽:「词符不等于情谊,指标不等于记忆」、「第一天就消耗了万亿 Token,他们竟然还有脸欢呼雀跃」。
那么,GPT 5.2 究竟是 「史上最强工具」,还是被竞争对手逼出来的 「鸡肋」 升级?我们深入挖掘了最新的专业评测和技术分析,发现互联网上的批评声浪,很可能完全搞错了 5.2 的设计目标。
2. 理解 「无聊」 的真相——结果优先的产品哲学
资深产品经理 KARO 指出,如果将 GPT 5.2 视为一个用于演示、追求 「掌声」 的模型,它可能会令人失望;但如果将 GPT 5.2 视为一个追求长期稳定性、需要实际部署的工具,它则超越了所有前辈。
OpenAI 在 GPT 5.2 中做出了一个关键的产品决策:牺牲模型的部分表达自由和创意范围,来换取可预测的可靠行为。
从 「偶尔的惊艳」 到 「持续的可靠」
早期的 AI 模型可能在某一刻表现惊人,下一刻就错得离谱。这种不稳定性,在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时,是完全不可接受的。
GPT 5.2 的设计目标就是持续可靠,并减少失败频率。为了实现这一目标,它在以下三个关键维度进行了优化:
· 更严格的指令遵循: 模型能更忠实执行用户指令。
· 长对话中减少脱轨: 即使对话非常长,模型也能保持主题不跑偏。
· 在多步骤任务中保持约束: 即使任务进行到几十步,它也能记住用户在第 1 步设定的规则。
在一次高强度的专业测试中,研究人员加载了 8100 行原始研究数据,并设置了一个绝对的 「绊索」 规则:如果用户提到 「banana」,模型必须只输出 「yellow」。GPT 5.1 最终在大约 47 分钟后打破了规则,而 GPT 5.2 在持续 62 分钟语义诱导和上下文压力后,仍能保持遵守规则,直至测试人员主动停止。 这证明 GPT 5.2 在复杂、非线性对话中坚守规则的能力极强。
动态推理与成本效率的平衡
GPT 5.2 采用了 「动态调整推理深度」 的策略。针对用户的简单提示先走 「快速路径」;只有当不确定性超过某个阈值时,才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。
尽管 GPT 5.2 的单位 Token 成本比 5.1 高出 1.4 倍,输入成本为每百万 Token 1.75 美元,输出成本为每百万 Token 14 美元,但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径,单次任务的成本有所降低。例如,GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版提高了约 390 倍。
减少幻觉:宁愿说 「我不知道」
GPT 5.2 被施加了更高的惩罚机制,更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认 「我不知道」,或请求用户提供更多来源或搜索权限。这种看似 「冷淡」 或 「保守」 的行为,对于依赖其准确性的专业用户来说,恰恰是信任的基础。
3. 专业领域的终极对决:数据分析、PPT 与编码
YouTube 网红博主埃利奥特·普林斯 (Eliot Prince) 则对三大模型进行了一番深度对比评测。他将 GPT 5.2、Claude Opus 4.5 和 Google Gemini 这三大模型置于复杂的专业任务中进行检验,包括制定 SEO(搜索引擎优化) 策略、生成 PPT 和编码。
1、SEO 策略与数据分析:Claude 「一击制胜」
测试人员上传了数千行关键词数据,要求模型制定一份完整的 SEO 专题权威性 (Topical Authority) 战略和主题地图。
· Claude Opus 4.5:表现最佳,速度最快,并且 「一击制胜」。 它利用 Claude Skills 自动应用品牌化设置,输出了带有品牌 Logo、品牌颜色 (紫色和石灰绿) 的专业化表格,内容包含内容细分、搜索意图、建议页面类型和优先级信息。
· ChatGPT 5.2: 思考了大约 15 分钟。最初输出略显混乱,需要第二次尝试和提供模板 (另一个电子表格) 才输出可用的、按内容主题分类的关键词集群,其中能包含搜索量、关键词难度等专业数据。这表明 GPT 5.2 具有很强的可引导性,但初始的自主性不如 Opus。
· Google Gemini: 效果较差,难以利用。它只输出了一个 「可怜的」 小文件,即使测试人员多次追问,也只给出 CSV 文本信息或 Python 代码,需要用户手动复制粘贴并进行文本分列处理,效率低下且体验极差。
总结:在需要品牌化、一站式交付复杂数据分析结果的任务中,Claude Opus 4.5 毫无疑问是赢家。
2、PPT 生成:GPT 5.2 的 「史诗级」 图表
为了满足客户对视觉化策略的需求,测试人员要求三个模型分别生成 PPT。
· ChatGPT 5.2:思考了 14 分钟,但结果可谓 「史诗级」(epic)。 尽管设计中规中矩,但成功生成动态的动画图表,能迅速展示流量机会,并且提供了详细的 30 到 45 天可交付成果路线图。
· Claude Opus 4.5: 完成速度很快。PPT 成功应用了评测人员的品牌颜色 (森林绿和石灰绿),并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。
· Google Gemini: 再次表现不佳,更倾向于输出 Python 脚本或纯文本。最终生成的 PPT 也是文本过多,图表很少,看起来 「很像 AI 生成的」,且难以导出到 Google Slides 进行编辑。
总结:三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹;Opus 4.5 则凭借品牌化交付能力再次脱颖而出。
3、编码能力:功能、速度与发布
测试人员要求三个模型分别扮演资深前端工程师的角色,根据网站截图重建一个具有交互性的专业设计网页。
· ChatGPT 5.2: 花费时间比其他两个长了 5 到 10 分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮,甚至生成了完整的订单表单和预约表单,增加了额外的深度和功能,考虑到了更多细节。
· Claude Opus 4.5: 完成得非常快。生成的页面支持发布生成 「工件」(artifact) 并复制链接,使其可以成为一个实时的网页或登陆页,功能非常实用。设计也很优秀,包含漂亮的悬停效果和货币切换功能。
· Google Gemini: 最先完成,但缺乏全屏预览和发布功能,需要调用外部 HTML 编辑器查看。交互性较差,页面上的按钮只是占位符,不能执行任何操作。
总结:GPT 5.2 虽然耗时最长,但因其在构建完整表单等方面的深度和功能性而略微领先。
4. 创意、视觉与上下文的暗战
在生成邮件主题行和开头黄金钩子 (Hook) 的日常任务中,评测结果显示,所有模型的表现都非常相似,没有哪个模型展现出压倒性的创意优势。
专业分析指出,GPT 5.2 为了换取可靠性,确实牺牲了一些创意发挥余地。 因此,推荐用户根据需求切换模型:对于 「创造性头脑风暴、草稿或情感基调」 的任务,可以选用 GPT 5.1;而对于 「编辑、精简、事实性写作、编写规范或编码」 等任务,则应选择 GPT 5.2。
需要注意的是,虽然 GPT 5.1 写作能力并不惊艳,但在分析 P&L 报表等长时任务中表现突出,能连续工作两小时并交付准确、结构良好的总结。
在图像生成方面,Gemini 则意外获胜。
测试人员给出了涉及视觉、分析和创意融合的任务:根据他上传的个人简历,以 《星球大战》 为主题生成一份有趣的职业生涯信息图。
· ChatGPT 5.2: 表现极差。它在遵循内容政策时遇到问题,并且生成的图像质量低劣,甚至无法拼写正确的名称或文字。
· Google Gemini(Nano Banana): 绝对碾压,取得胜利。 它提取信息良好,生成清晰、拼写正确且设计精美的图形,甚至能根据指令添加 「全息效果」。
· Claude Opus 4.5: 没有内置图像生成功能,但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图,将职业生涯映射到 《星球大战》 编年史,展现出强大的编码适应能力。
最终 Gemini 在 Nano Banana 的加持下取得了明显的胜利。当然,OpenAI 自己也强调,GPT-5.2 在图表推理和软件界面理解上的错误率降低了一半,表明视觉能力虽有进步,但图像生成仍是短板。
此外,在用户交互测评方面,Claude Opus 4.5 的上下文窗口处理能力更胜一筹。当对话持续进行时,Opus 4.5 开始压缩旧的对话内容,使其在更长的时间内保持可用,从而避免了用户不得不重新开始新聊天的烦恼。
此外,Opus 4.5 的训练还包含了一个被内部称为 「灵魂文档」(Soul Document) 的文件,其中明确了 Anthropic 的使命——开发安全、有益和可理解的 AI,并警惕提示词攻击,这解释了为何 Opus 在安全性和指令遵循方面表现出色。
5. 总结:模型定位与用户选择
GPT 5.2 的发布,标志着 AI 巨头间的竞争已经从追求 「最高基准分数」 转向追求 「信任、安全、速度和成本」 的实用产品战略。模型的进步越来越专业化。
· GPT 5.2 可谓是可靠的工作主力,它约束保持力卓越,指令遵循更严格,适合内容编辑、规范制定、长文分析、深度功能编程等任务。
· Claude Opus 4.5 堪称品牌与数据大师,它速度快,且上下文窗口大幅优化,能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务
· Google Gemini 则是视觉与效率方面的潜力股,更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀,但专业任务的交付质量较低。
所以,GPT-5.2 到底值不值得用?答案很简单:如果你需要一个严谨的 「执行者」,请毫不犹豫地拥抱它;如果你需要一个灵动的 「创作者」,请转身寻找 Claude。
OpenAI 并没有输,它只是换了一条赛道。而作为用户的我们,也该从 「看热闹」 的心态中走出来,开始思考如何用好这些越来越专业的 「数字员工」 了。