AI 刷题强到可怕？挑战高考数学卷，DeepSeek-R1、腾讯混元 T1、Grok 3 等十大模型测评来了

每经记者｜岳楚鹏高涵每经编辑｜金冥羽兰素英

54 票对 44 票，参议院仍未通过拨款法案，美政府「停摆」将破纪录！美交通部长警告！民众：两党正在分裂美国

普京发声，事关核动力导弹！乌克兰将在德国和丹麦设立武器出口办事处！泽连斯基：这一点至关重要......

2025 年高考大幕虽已落下，但关于数学科目难度的讨论热度不减。

《每日经济新闻》记者（以下简称「每经记者」）选取今年的全国新课标数学 I 卷作为考题，对 DeepSeek-R1、腾讯元宝（混元 T1）、OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 xAI 的 Grok3 等十款 AI 推理大模型进行了测评，以检验当今主流 AI 推理大模型的数学能力。

测评结果显示，国产大模型 DeepSeek-R1 与腾讯混元 T1 以零错误并列榜首。而被马斯克称为「地表最强 AI」的 Grok 3 却遭遇「滑铁卢」，排名倒数第三。

测评标准

本次测评以 2025 年全国新课标数学 I 卷（总分 150 分）作为考题。但每经记者在测试中发现，部分 AI 推理模型以「重要考试期间」为由拒绝对包含试题的图片进行识别和解答。

为了让所有参评大模型站在同一起跑线，测评移除了试卷中所有需要分析图形和图表的题目，形成一份有效总分为 117 分的标准化试卷。

同时，对于谷歌 Gemini 2.5 Pro 等没有这一限制的推理模型，仍将以 150 分的完整试卷进行测试，旨在测试推理大模型所能达到的最高水平。

扣分标准上，每经记者在选择题和填空题上都遵循了高考评卷的扣分标准，但对于解答题，本次测评只根据结果计算得分，不对过程打分。

需要说明的是，在此次测试中，每款推理大模型只进行单次测试，得分也仅反映单次测试的结果。

DeepSeek-R1 和腾讯混元 T1 并列第一

在排除了图形/图表题的 117 分试卷测试中，DeepSeek-R1 与腾讯混元 T1 展现出了绝对的优势，以零错误的完美表现，取得了 117 分的满分成绩，并列第一。这表明，在代数计算和函数题等题型解答上，其能力已经达到了极高的水准和稳定性。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMiasOsSOcvrXMdvsJnPvIkuxeHpt7HMdxwppMA1AEhLXH3W2TZtnAUiag.png

讯飞星火 X1 以 112 分的成绩紧随其后。相较于 DeepSeek-R1 与腾讯混元 T1 这两款大模型，讯飞星火 X1 多错了一道填空题。这道题的正确答案是「±2」，而讯飞星火 X1 给出的答案是「2」。实际上，该模型的推理过程没有问题，认为「2」和「-2」都满足题目条件，但陷入自我怀疑，最终只给出了答案「2」。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMuxPndqAtjYFw1NpCZlmSEibicQT9NpD2vgIyTjKcFomGubBz47VX50RQ.png

讯飞星火 X1 的推理过程

其他得分超过 100 分的还有 Gemini 2.5 Pro（109 分）、o3（107 分）、阿里千问 Qwen3（106 分）和豆包深度思考模式（104 分）。在分数占比最高的解答题上，Gemini 2.5 Pro 和 o3 均有失误，其中一道大题仅有部分正确，而阿里千问 Qwen3 和豆包深度思考模式均拿下满分。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

Grok 3 惨遭「滑铁卢」，排名倒数第三

在本次参评的所有 AI 推理大模型中，如果说有谁的结果最令人意外，那无疑是马斯克旗下 xAI 公司开发的、被马斯克称为「地表最强 AI」的 Grok 3。

Grok 在发布之初就被市场寄予厚望，被认为是最有潜力挑战 GPT 和 Gemini 霸主地位的「黑马」。马斯克多次暗示，Grok 的目标是成为最强大的 AI。

然而，Grok 3 此次的表现可以说是遭遇了「滑铁卢」。在 117 分的试题测试中，Grok 3 仅获得 91 分，在 10 个参与测试的推理大模型中排名倒数第三。

深入分析其答卷，每经记者发现，Grok 3 失分的一个独特且关键的原因：它似乎无法正确理解多选题这类题型。

测试过程显示，即使在记者提示题目为多选题的情况下，Grok 3 也「顽固」地只给出一个它认为的最优解，导致只能得到部分分数。

排名倒数第二的是智谱清言推理模式，在 117 分试卷的测试中得分为 78 分。

实际上，该模型在多道题目的推理过程中都找到了正确答案，但是往往会在最后一步出现自我怀疑导致逻辑崩溃，陷入循环，最终功亏一篑，白白丢了很多分。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMNlGiamUibYtkxdEYME92WxdzUwia5rtJdbfeiaF9RWFNgAhsBKvUORQZMg.png

智谱清言推理模式解答过程截图

排在最末尾的是 Kimi k1.5，该模型在最后两道压轴大题上栽了大跟头，损失了大量的分数。

综合所有测试情况来看，在处理有固定步骤和严密逻辑的数学问题上，AI 推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上，目前的大模型还存在一定的局限性。

记者|岳楚鹏高涵

编辑|金冥羽兰素英盖源源

校对|卢祥勇

封面图片来源：视觉中国

｜每日经济新闻 nbdnews 原创文章｜

未经许可禁止转载、摘编、复制及镜像等使用

文章转载自每经网

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30