GPT-5.2 翻车？错！网友实测：它强得可怕，也无聊得要命

【文章来源：techweb】

作者 | 辰辰

出品 | 网易科技

强得可怕，也无聊得要命。

奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」，但这三天里，评论区却翻车了。

用户们并不买账。面对 GPT-5.2，大家最直观的感受不是「被颠覆」，而是「被敷衍」。「词符不等于情谊，指标不等于记忆」——这句网友的高赞吐槽，精准道出了公众对这次「救火式升级」的集体冷漠。

但真相果真如此不堪吗？

在各方深度试用三天，并横向对比了 Claude 4.5 和 Gemini 3 之后，我们得出了一个违背直觉的结论：它可能确实变「无聊」了，但这正是它变强的代价。

1. 全网群嘲「无聊」？用户可能真的误读了

这次仓促的发布并非源于计划周密，而是源自危机感。消息人士透露，OpenAI 宣布进入「红色警戒」（Code Red）状态，正是为了应对来自谷歌 Gemini 3 等竞争对手与日俱增的压力，不得不加快发布速度。

然而，这场「救火式」的升级，并未在社交媒体上引发如 GPT-4 发布时的病毒式传播狂潮。在 Reddit 和 X 上，充斥着「无聊」「冰冷」「变化甚微」的负面评价。

科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。

相比于 OpenAI 声称的「迄今为止最适合专业知识工作的系列模型」，公众对 GPT 5.2 的普遍「冷漠」形成了巨大反差。

甚至当 OpenAI CEO 萨姆奥特曼（Sam Altman）透露「GPT-5.2 在 API 上线首日即突破万亿 tokens 使用量，且增长势头迅猛」时，不少用户纷纷跟帖吐槽：「词符不等于情谊，指标不等于记忆」、「第一天就消耗了万亿 Token，他们竟然还有脸欢呼雀跃」。

那么，GPT 5.2 究竟是「史上最强工具」，还是被竞争对手逼出来的「鸡肋」升级？我们深入挖掘了最新的专业评测和技术分析，发现互联网上的批评声浪，很可能完全搞错了 5.2 的设计目标。

2. 理解「无聊」的真相——结果优先的产品哲学

资深产品经理 KARO 指出，如果将 GPT 5.2 视为一个用于演示、追求「掌声」的模型，它可能会令人失望；但如果将 GPT 5.2 视为一个追求长期稳定性、需要实际部署的工具，它则超越了所有前辈。

OpenAI 在 GPT 5.2 中做出了一个关键的产品决策：牺牲模型的部分表达自由和创意范围，来换取可预测的可靠行为。

从「偶尔的惊艳」到「持续的可靠」

早期的 AI 模型可能在某一刻表现惊人，下一刻就错得离谱。这种不稳定性，在处理起草政策、规范文件或进行严肃研究摘要等具有真实下游成本的任务时，是完全不可接受的。

GPT 5.2 的设计目标就是持续可靠，并减少失败频率。为了实现这一目标，它在以下三个关键维度进行了优化：

· 更严格的指令遵循：模型能更忠实执行用户指令。

· 长对话中减少脱轨：即使对话非常长，模型也能保持主题不跑偏。

· 在多步骤任务中保持约束：即使任务进行到几十步，它也能记住用户在第 1 步设定的规则。

在一次高强度的专业测试中，研究人员加载了 8100 行原始研究数据，并设置了一个绝对的「绊索」规则：如果用户提到「banana」，模型必须只输出「yellow」。GPT 5.1 最终在大约 47 分钟后打破了规则，而 GPT 5.2 在持续 62 分钟语义诱导和上下文压力后，仍能保持遵守规则，直至测试人员主动停止。这证明 GPT 5.2 在复杂、非线性对话中坚守规则的能力极强。

动态推理与成本效率的平衡

GPT 5.2 采用了「动态调整推理深度」的策略。针对用户的简单提示先走「快速路径」；只有当不确定性超过某个阈值时，才会启动更慢更深入的推理。这种方法能以最快、最便宜的方式回答问题。

尽管 GPT 5.2 的单位 Token 成本比 5.1 高出 1.4 倍，输入成本为每百万 Token 1.75 美元，输出成本为每百万 Token 14 美元，但得益于从前沿模型中提取优秀习惯进行蒸馏学习、缓存常用文本片段和采用效率优先的推理路径，单次任务的成本有所降低。例如，GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版提高了约 390 倍。

减少幻觉：宁愿说「我不知道」

GPT 5.2 被施加了更高的惩罚机制，更大限度避免捏造引用、谎称使用工具或编造未知事实的行为。这意味着新模型更倾向于承认「我不知道」，或请求用户提供更多来源或搜索权限。这种看似「冷淡」或「保守」的行为，对于依赖其准确性的专业用户来说，恰恰是信任的基础。

3. 专业领域的终极对决：数据分析、PPT 与编码

YouTube 网红博主埃利奥特·普林斯（Eliot Prince）则对三大模型进行了一番深度对比评测。他将 GPT 5.2、Claude Opus 4.5 和 Google Gemini 这三大模型置于复杂的专业任务中进行检验，包括制定 SEO（搜索引擎优化）策略、生成 PPT 和编码。

1、SEO 策略与数据分析：Claude 「一击制胜」

测试人员上传了数千行关键词数据，要求模型制定一份完整的 SEO 专题权威性（Topical Authority）战略和主题地图。

· Claude Opus 4.5：表现最佳，速度最快，并且「一击制胜」。它利用 Claude Skills 自动应用品牌化设置，输出了带有品牌 Logo、品牌颜色（紫色和石灰绿）的专业化表格，内容包含内容细分、搜索意图、建议页面类型和优先级信息。

· ChatGPT 5.2：思考了大约 15 分钟。最初输出略显混乱，需要第二次尝试和提供模板（另一个电子表格）才输出可用的、按内容主题分类的关键词集群，其中能包含搜索量、关键词难度等专业数据。这表明 GPT 5.2 具有很强的可引导性，但初始的自主性不如 Opus。

· Google Gemini：效果较差，难以利用。它只输出了一个「可怜的」小文件，即使测试人员多次追问，也只给出 CSV 文本信息或 Python 代码，需要用户手动复制粘贴并进行文本分列处理，效率低下且体验极差。

总结：在需要品牌化、一站式交付复杂数据分析结果的任务中，Claude Opus 4.5 毫无疑问是赢家。

2、PPT 生成：GPT 5.2 的「史诗级」图表

为了满足客户对视觉化策略的需求，测试人员要求三个模型分别生成 PPT。

· ChatGPT 5.2：思考了 14 分钟，但结果可谓「史诗级」（epic）。尽管设计中规中矩，但成功生成动态的动画图表，能迅速展示流量机会，并且提供了详细的 30 到 45 天可交付成果路线图。

· Claude Opus 4.5：完成速度很快。PPT 成功应用了评测人员的品牌颜色（森林绿和石灰绿），并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。

· Google Gemini：再次表现不佳，更倾向于输出 Python 脚本或纯文本。最终生成的 PPT 也是文本过多，图表很少，看起来「很像 AI 生成的」，且难以导出到 Google Slides 进行编辑。

总结：三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹；Opus 4.5 则凭借品牌化交付能力再次脱颖而出。

3、编码能力：功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色，根据网站截图重建一个具有交互性的专业设计网页。

· ChatGPT 5.2：花费时间比其他两个长了 5 到 10 分钟。但最终功能性略胜一筹。它不仅实现了测试人员要求的分享、定价等全部按钮，甚至生成了完整的订单表单和预约表单，增加了额外的深度和功能，考虑到了更多细节。

· Claude Opus 4.5：完成得非常快。生成的页面支持发布生成「工件」（artifact）并复制链接，使其可以成为一个实时的网页或登陆页，功能非常实用。设计也很优秀，包含漂亮的悬停效果和货币切换功能。

· Google Gemini：最先完成，但缺乏全屏预览和发布功能，需要调用外部 HTML 编辑器查看。交互性较差，页面上的按钮只是占位符，不能执行任何操作。

总结：GPT 5.2 虽然耗时最长，但因其在构建完整表单等方面的深度和功能性而略微领先。

4. 创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子（Hook）的日常任务中，评测结果显示，所有模型的表现都非常相似，没有哪个模型展现出压倒性的创意优势。

专业分析指出，GPT 5.2 为了换取可靠性，确实牺牲了一些创意发挥余地。因此，推荐用户根据需求切换模型：对于「创造性头脑风暴、草稿或情感基调」的任务，可以选用 GPT 5.1；而对于「编辑、精简、事实性写作、编写规范或编码」等任务，则应选择 GPT 5.2。

需要注意的是，虽然 GPT 5.1 写作能力并不惊艳，但在分析 P&L 报表等长时任务中表现突出，能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面，Gemini 则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务：根据他上传的个人简历，以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2：表现极差。它在遵循内容政策时遇到问题，并且生成的图像质量低劣，甚至无法拼写正确的名称或文字。

· Google Gemini（Nano Banana）：绝对碾压，取得胜利。它提取信息良好，生成清晰、拼写正确且设计精美的图形，甚至能根据指令添加「全息效果」。

· Claude Opus 4.5：没有内置图像生成功能，但它尝试通过编写代码来解决问题。最终成功生成了一个可发布、可交互的网页信息图，将职业生涯映射到《星球大战》编年史，展现出强大的编码适应能力。

最终 Gemini 在 Nano Banana 的加持下取得了明显的胜利。当然，OpenAI 自己也强调，GPT-5.2 在图表推理和软件界面理解上的错误率降低了一半，表明视觉能力虽有进步，但图像生成仍是短板。

此外，在用户交互测评方面，Claude Opus 4.5 的上下文窗口处理能力更胜一筹。当对话持续进行时，Opus 4.5 开始压缩旧的对话内容，使其在更长的时间内保持可用，从而避免了用户不得不重新开始新聊天的烦恼。

此外，Opus 4.5 的训练还包含了一个被内部称为「灵魂文档」（Soul Document）的文件，其中明确了 Anthropic 的使命——开发安全、有益和可理解的 AI，并警惕提示词攻击，这解释了为何 Opus 在安全性和指令遵循方面表现出色。

5. 总结：模型定位与用户选择

GPT 5.2 的发布，标志着 AI 巨头间的竞争已经从追求「最高基准分数」转向追求「信任、安全、速度和成本」的实用产品战略。模型的进步越来越专业化。

· GPT 5.2 可谓是可靠的工作主力，它约束保持力卓越，指令遵循更严格，适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师，它速度快，且上下文窗口大幅优化，能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股，更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀，但专业任务的交付质量较低。

所以，GPT-5.2 到底值不值得用？答案很简单：如果你需要一个严谨的「执行者」，请毫不犹豫地拥抱它；如果你需要一个灵动的「创作者」，请转身寻找 Claude。

OpenAI 并没有输，它只是换了一条赛道。而作为用户的我们，也该从「看热闹」的心态中走出来，开始思考如何用好这些越来越专业的「数字员工」了。

【文章来源：techweb】

作者 | 辰辰

出品 | 网易科技

强得可怕，也无聊得要命。

奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」，但这三天里，评论区却翻车了。

但真相果真如此不堪吗？

在各方深度试用三天，并横向对比了 Claude 4.5 和 Gemini 3 之后，我们得出了一个违背直觉的结论：它可能确实变「无聊」了，但这正是它变强的代价。

1. 全网群嘲「无聊」？用户可能真的误读了

科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。

相比于 OpenAI 声称的「迄今为止最适合专业知识工作的系列模型」，公众对 GPT 5.2 的普遍「冷漠」形成了巨大反差。

2. 理解「无聊」的真相——结果优先的产品哲学

OpenAI 在 GPT 5.2 中做出了一个关键的产品决策：牺牲模型的部分表达自由和创意范围，来换取可预测的可靠行为。

从「偶尔的惊艳」到「持续的可靠」

GPT 5.2 的设计目标就是持续可靠，并减少失败频率。为了实现这一目标，它在以下三个关键维度进行了优化：

· 更严格的指令遵循：模型能更忠实执行用户指令。

· 长对话中减少脱轨：即使对话非常长，模型也能保持主题不跑偏。

· 在多步骤任务中保持约束：即使任务进行到几十步，它也能记住用户在第 1 步设定的规则。

动态推理与成本效率的平衡

减少幻觉：宁愿说「我不知道」

3. 专业领域的终极对决：数据分析、PPT 与编码

1、SEO 策略与数据分析：Claude 「一击制胜」

测试人员上传了数千行关键词数据，要求模型制定一份完整的 SEO 专题权威性（Topical Authority）战略和主题地图。

总结：在需要品牌化、一站式交付复杂数据分析结果的任务中，Claude Opus 4.5 毫无疑问是赢家。

2、PPT 生成：GPT 5.2 的「史诗级」图表

为了满足客户对视觉化策略的需求，测试人员要求三个模型分别生成 PPT。

· Claude Opus 4.5：完成速度很快。PPT 成功应用了评测人员的品牌颜色（森林绿和石灰绿），并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。

总结：三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹；Opus 4.5 则凭借品牌化交付能力再次脱颖而出。

3、编码能力：功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色，根据网站截图重建一个具有交互性的专业设计网页。

· Google Gemini：最先完成，但缺乏全屏预览和发布功能，需要调用外部 HTML 编辑器查看。交互性较差，页面上的按钮只是占位符，不能执行任何操作。

总结：GPT 5.2 虽然耗时最长，但因其在构建完整表单等方面的深度和功能性而略微领先。

4. 创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子（Hook）的日常任务中，评测结果显示，所有模型的表现都非常相似，没有哪个模型展现出压倒性的创意优势。

需要注意的是，虽然 GPT 5.1 写作能力并不惊艳，但在分析 P&L 报表等长时任务中表现突出，能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面，Gemini 则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务：根据他上传的个人简历，以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2：表现极差。它在遵循内容政策时遇到问题，并且生成的图像质量低劣，甚至无法拼写正确的名称或文字。

· Google Gemini（Nano Banana）：绝对碾压，取得胜利。它提取信息良好，生成清晰、拼写正确且设计精美的图形，甚至能根据指令添加「全息效果」。

5. 总结：模型定位与用户选择

· GPT 5.2 可谓是可靠的工作主力，它约束保持力卓越，指令遵循更严格，适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师，它速度快，且上下文窗口大幅优化，能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股，更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀，但专业任务的交付质量较低。

OpenAI 并没有输，它只是换了一条赛道。而作为用户的我们，也该从「看热闹」的心态中走出来，开始思考如何用好这些越来越专业的「数字员工」了。

为了增加用户停留时间，我让 Logo 先跳了一下

阿里千问：「春节大免单」今起再加三天，每人可领 10 张 25 元超级免单卡

【文章来源：techweb】

作者 | 辰辰

出品 | 网易科技

强得可怕，也无聊得要命。

奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」，但这三天里，评论区却翻车了。

但真相果真如此不堪吗？

在各方深度试用三天，并横向对比了 Claude 4.5 和 Gemini 3 之后，我们得出了一个违背直觉的结论：它可能确实变「无聊」了，但这正是它变强的代价。

1. 全网群嘲「无聊」？用户可能真的误读了

科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。

相比于 OpenAI 声称的「迄今为止最适合专业知识工作的系列模型」，公众对 GPT 5.2 的普遍「冷漠」形成了巨大反差。

2. 理解「无聊」的真相——结果优先的产品哲学

OpenAI 在 GPT 5.2 中做出了一个关键的产品决策：牺牲模型的部分表达自由和创意范围，来换取可预测的可靠行为。

从「偶尔的惊艳」到「持续的可靠」

GPT 5.2 的设计目标就是持续可靠，并减少失败频率。为了实现这一目标，它在以下三个关键维度进行了优化：

· 更严格的指令遵循：模型能更忠实执行用户指令。

· 长对话中减少脱轨：即使对话非常长，模型也能保持主题不跑偏。

· 在多步骤任务中保持约束：即使任务进行到几十步，它也能记住用户在第 1 步设定的规则。

动态推理与成本效率的平衡

减少幻觉：宁愿说「我不知道」

3. 专业领域的终极对决：数据分析、PPT 与编码

1、SEO 策略与数据分析：Claude 「一击制胜」

测试人员上传了数千行关键词数据，要求模型制定一份完整的 SEO 专题权威性（Topical Authority）战略和主题地图。

总结：在需要品牌化、一站式交付复杂数据分析结果的任务中，Claude Opus 4.5 毫无疑问是赢家。

2、PPT 生成：GPT 5.2 的「史诗级」图表

为了满足客户对视觉化策略的需求，测试人员要求三个模型分别生成 PPT。

· Claude Opus 4.5：完成速度很快。PPT 成功应用了评测人员的品牌颜色（森林绿和石灰绿），并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。

总结：三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹；Opus 4.5 则凭借品牌化交付能力再次脱颖而出。

3、编码能力：功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色，根据网站截图重建一个具有交互性的专业设计网页。

· Google Gemini：最先完成，但缺乏全屏预览和发布功能，需要调用外部 HTML 编辑器查看。交互性较差，页面上的按钮只是占位符，不能执行任何操作。

总结：GPT 5.2 虽然耗时最长，但因其在构建完整表单等方面的深度和功能性而略微领先。

4. 创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子（Hook）的日常任务中，评测结果显示，所有模型的表现都非常相似，没有哪个模型展现出压倒性的创意优势。

需要注意的是，虽然 GPT 5.1 写作能力并不惊艳，但在分析 P&L 报表等长时任务中表现突出，能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面，Gemini 则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务：根据他上传的个人简历，以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2：表现极差。它在遵循内容政策时遇到问题，并且生成的图像质量低劣，甚至无法拼写正确的名称或文字。

· Google Gemini（Nano Banana）：绝对碾压，取得胜利。它提取信息良好，生成清晰、拼写正确且设计精美的图形，甚至能根据指令添加「全息效果」。

5. 总结：模型定位与用户选择

· GPT 5.2 可谓是可靠的工作主力，它约束保持力卓越，指令遵循更严格，适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师，它速度快，且上下文窗口大幅优化，能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股，更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀，但专业任务的交付质量较低。

OpenAI 并没有输，它只是换了一条赛道。而作为用户的我们，也该从「看热闹」的心态中走出来，开始思考如何用好这些越来越专业的「数字员工」了。

【文章来源：techweb】

作者 | 辰辰

出品 | 网易科技

强得可怕，也无聊得要命。

奥特曼在推特上庆祝 GPT-5.2 「首日消耗万亿 Token」，但这三天里，评论区却翻车了。

但真相果真如此不堪吗？

在各方深度试用三天，并横向对比了 Claude 4.5 和 Gemini 3 之后，我们得出了一个违背直觉的结论：它可能确实变「无聊」了，但这正是它变强的代价。

1. 全网群嘲「无聊」？用户可能真的误读了

科技博主 @melvynxdev 甚至断言 GPT 5.2 的发布简直是一场灾难。

相比于 OpenAI 声称的「迄今为止最适合专业知识工作的系列模型」，公众对 GPT 5.2 的普遍「冷漠」形成了巨大反差。

2. 理解「无聊」的真相——结果优先的产品哲学

OpenAI 在 GPT 5.2 中做出了一个关键的产品决策：牺牲模型的部分表达自由和创意范围，来换取可预测的可靠行为。

从「偶尔的惊艳」到「持续的可靠」

GPT 5.2 的设计目标就是持续可靠，并减少失败频率。为了实现这一目标，它在以下三个关键维度进行了优化：

· 更严格的指令遵循：模型能更忠实执行用户指令。

· 长对话中减少脱轨：即使对话非常长，模型也能保持主题不跑偏。

· 在多步骤任务中保持约束：即使任务进行到几十步，它也能记住用户在第 1 步设定的规则。

动态推理与成本效率的平衡

减少幻觉：宁愿说「我不知道」

3. 专业领域的终极对决：数据分析、PPT 与编码

1、SEO 策略与数据分析：Claude 「一击制胜」

测试人员上传了数千行关键词数据，要求模型制定一份完整的 SEO 专题权威性（Topical Authority）战略和主题地图。

总结：在需要品牌化、一站式交付复杂数据分析结果的任务中，Claude Opus 4.5 毫无疑问是赢家。

2、PPT 生成：GPT 5.2 的「史诗级」图表

为了满足客户对视觉化策略的需求，测试人员要求三个模型分别生成 PPT。

· Claude Opus 4.5：完成速度很快。PPT 成功应用了评测人员的品牌颜色（森林绿和石灰绿），并且布局精美。但其下一步行动的细节不如 GPT 5.2 详尽。

总结：三大模型在制作 PPT 方面相对胶着。GPT 5.2 以图表深度和功能性略胜一筹；Opus 4.5 则凭借品牌化交付能力再次脱颖而出。

3、编码能力：功能、速度与发布

测试人员要求三个模型分别扮演资深前端工程师的角色，根据网站截图重建一个具有交互性的专业设计网页。

· Google Gemini：最先完成，但缺乏全屏预览和发布功能，需要调用外部 HTML 编辑器查看。交互性较差，页面上的按钮只是占位符，不能执行任何操作。

总结：GPT 5.2 虽然耗时最长，但因其在构建完整表单等方面的深度和功能性而略微领先。

4. 创意、视觉与上下文的暗战

在生成邮件主题行和开头黄金钩子（Hook）的日常任务中，评测结果显示，所有模型的表现都非常相似，没有哪个模型展现出压倒性的创意优势。

需要注意的是，虽然 GPT 5.1 写作能力并不惊艳，但在分析 P&L 报表等长时任务中表现突出，能连续工作两小时并交付准确、结构良好的总结。

在图像生成方面，Gemini 则意外获胜。

测试人员给出了涉及视觉、分析和创意融合的任务：根据他上传的个人简历，以《星球大战》为主题生成一份有趣的职业生涯信息图。

· ChatGPT 5.2：表现极差。它在遵循内容政策时遇到问题，并且生成的图像质量低劣，甚至无法拼写正确的名称或文字。

· Google Gemini（Nano Banana）：绝对碾压，取得胜利。它提取信息良好，生成清晰、拼写正确且设计精美的图形，甚至能根据指令添加「全息效果」。

5. 总结：模型定位与用户选择

· GPT 5.2 可谓是可靠的工作主力，它约束保持力卓越，指令遵循更严格，适合内容编辑、规范制定、长文分析、深度功能编程等任务。

· Claude Opus 4.5 堪称品牌与数据大师，它速度快，且上下文窗口大幅优化，能一击制胜。更适合复杂数据分析、创意草案、需要品牌化输出的任务

· Google Gemini 则是视觉与效率方面的潜力股，更擅长图像和信息图生成、PDF 数据提取等任务。视觉能力优秀，但专业任务的交付质量较低。

OpenAI 并没有输，它只是换了一条赛道。而作为用户的我们，也该从「看热闹」的心态中走出来，开始思考如何用好这些越来越专业的「数字员工」了。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28