OpenAI 最新模型打不动了？GPT-5.2 因「降智」陷「差评潮」

来源：
界面新闻

　　OpenAI 推出不到一周的最新旗舰模型没能等来「好评如潮」。

　　近日，OpenAI 在十周年之际发布了 GPT-5.2 系列模型，官方数据显示其在 GDPval 等专业基准测试中超越人类专家，是迄今为止在「专业知识工作方面」表现最好的模型。

　　据 OpenAI 官方披露，GPT-5.2 在多领域实现技术突破：GDPval 测试中覆盖 44 个职业的任务表现 70.9% 优于顶尖专家，SWE-bench Pro 编程测试获 55.6% 的 SOTA 成绩，还将幻觉率较 GPT-5.1 降低 38%。该公司 CEO 山姆·奥特曼称其为「许久以来最大的升级」，并透露计划 2026 年 1 月解除应对谷歌竞争的「红色警报」。

　　但该模型上线后遭到大量用户吐槽，认为其从常识问答到情感交互，「智商不稳定」。

　　SimpleBench 常识推理测试显示，GPT-5.2 得分低于 Anthropic 发布的 Claude Sonnet 3.7，甚至在「garlic 有几个 r」的基础问题上反复出错——有用户三次测试仅一次答对，而谷歌的 Gemini 3.0 等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单，但对机器而言充满挑战的逻辑推理任务的能力。前 AWS 总经理 Bindu Reddy 直言，「不值得从 GPT-5.1 升级」。

网友晒出 GPT-5.2 在 SimpleBench 上的成绩单。

　　一些编程爱好者则发现，GPT-5.2 生成的交通灯模拟代码画面仅达「黑白火柴人级别」，蒙娜丽莎ASCII 艺术创作效果远逊于 GPT-4o。情感交互中有用户倾诉「恐慌发作」，竟收到「很高兴听到这个消息」的回复，安慰失宠孩童时则机械强调「生物都会停止运作」，缺乏此前版本的亲和力和自然表达。

　　此外，该版本在处理连续对话时不稳定，甚至在明确选择「高级思考模式」时也会返回低质量的自动响应，令用户不得不重新调整使用方式。

　　还有用户表示，GPT-5.2 的安全策略实施过于严格，在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

　　有观察人士指出，这轮差评潮背后存在几重因素。一方面，OpenAI 推广时着重强调 GPT-5.2 的专业能力和基准测试成绩，但普通用户更关注日常对话、流畅性和创造性体验，两者的期望存在错位；另一方面，由于竞争加剧和内部发布节奏加快，有观点认为该版本可能发布过早，尚未充分优化在关键使用场景中的稳定性与一致性，因此用户的实际感受出现明显落差。

　　截至发稿，OpenAI 尚未就这轮用户反馈作出公开回应，但公司在官方资料中表示，会持续改善用户体验、优化安全策略，并根据用户反馈推进后续版本的迭代。

　　当前，OpenAI 仍面临来自谷歌的巨大竞争压力。谷歌此前推出的 Gemini 3 在编程、多模态理解等关键企业应用场景上实现了对 ChatGPT 的性能超越。11 月，谷歌宣布 Gemini 月活跃用户已突破 6.5 亿，较 7 月报告的 4.5 亿实现大幅增长，而 OpenAI 披露的周活跃用户数接近 8 亿。

　　为此，奥特曼曾发布「红色代码」警报，决定暂时搁置包括 Sora 视频生成器在内的长期研发项目，转而在短期内全力通过提升用户活跃度来巩固 ChatGPT 的大众市场地位。但急转直下的口碑或在很大程度上影响 ChatGPT 的使用率，OpenAI 能否拿出更强有力的「武器」反击谷歌仍存在不确定性。

（界面新闻）

文章转载自东方财富

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28