• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
AI刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元T1、Grok 3等十大模型测评来了

AI 刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元 T1、Grok 3 等十大模型测评来了

2025 年 6 月 11 日
世界黄金协会要搞「新物种」?一图看懂数字黄金是什么|财眼

世界黄金协会要搞 「新物种」?一图看懂数字黄金是什么|财眼

2025 年 9 月 10 日
伪造「橡胶指纹」帮同事代打卡,被公司发现后双双辞退!2人均起诉索赔,法院判了

伪造 「橡胶指纹」 帮同事代打卡,被公司发现后双双辞退!2 人均起诉索赔,法院判了

2025 年 9 月 10 日

中金:光伏行业 「反内卷」 进入关键观察节点

2025 年 9 月 10 日
广告
TechWeb微晚报:iPhone Air国行仅支持联通eSIM?六部门整治汽车行业乱象

TechWeb 微晚报:iPhone Air 国行仅支持联通 eSIM?六部门整治汽车行业乱象

2025 年 9 月 10 日
中国电信回应eSIM手机业务:已全面准备就绪 将很快向用户开放

中国电信回应 eSIM 手机业务:已全面准备就绪 将很快向用户开放

2025 年 9 月 10 日
特朗普称愿意对印度和中国大幅加征关税 外交部回应

特朗普称愿意对印度和中国大幅加征关税 外交部回应

2025 年 9 月 10 日
日本央行突抛重磅消息:9月按兵不动,年内随机突袭?

日本央行突抛重磅消息:9 月按兵不动,年内随机突袭?

2025 年 9 月 10 日
【新华500】新华500指数(989001)10日涨0.23%

【新华 500】 新华 500 指数 (989001)10 日涨 0.23%

2025 年 9 月 10 日
消息称三星显示明年开始为苹果生产更大尺寸OLED屏 用于MacBook Pro

消息称三星显示明年开始为苹果生产更大尺寸 OLED 屏 用于 MacBook Pro

2025 年 9 月 10 日
Claude Code 从入门到精通:最全配置指南和工具推荐

Claude Code 从入门到精通:最全配置指南和工具推荐

2025 年 9 月 10 日
美联储降息预期叠加日本制造业信心回升,欧元兑日元维持高位震荡

美联储降息预期叠加日本制造业信心回升,欧元兑日元维持高位震荡

2025 年 9 月 10 日
创业板指上涨1.14% 采掘行业、通信服务涨幅居前

创业板指上涨 1.14% 采掘行业、通信服务涨幅居前

2025 年 9 月 10 日
金桂财经
广告
2025 年 9 月 10 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

AI 刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元 T1、Grok 3 等十大模型测评来了

来自 每日经济新闻
2025 年 6 月 11 日
在 股票
0

每经记者|岳楚鹏  高涵    每经编辑|金冥羽 兰素英    

YOU MAY ALSO LIKE

伪造 「橡胶指纹」 帮同事代打卡,被公司发现后双双辞退!2 人均起诉索赔,法院判了

突发!网红 「柴怼怼」 等人被温州警方带走,已立案侦查

2025 年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 

《每日经济新闻》 记者 (以下简称 「每经记者」) 选取今年的全国新课标数学 I 卷作为考题,对 DeepSeek-R1、腾讯元宝 (混元 T1)、OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 xAI 的 Grok3 等十款 AI 推理大模型进行了测评,以检验当今主流 AI 推理大模型的数学能力。

测评结果显示,国产大模型 DeepSeek-R1 与腾讯混元 T1 以零错误并列榜首。而被马斯克称为 「地表最强 AI」 的 Grok 3 却遭遇 「滑铁卢」,排名倒数第三。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

测评标准

本次测评以 2025 年全国新课标数学 I 卷 (总分 150 分) 作为考题。但每经记者在测试中发现,部分 AI 推理模型以 「重要考试期间」 为由拒绝对包含试题的图片进行识别和解答。

为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为 117 分的标准化试卷。

同时,对于谷歌 Gemini 2.5 Pro 等没有这一限制的推理模型,仍将以 150 分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。

扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算得分,不对过程打分。

需要说明的是,在此次测试中,每款推理大模型只进行单次测试,得分也仅反映单次测试的结果。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

DeepSeek-R1 和腾讯混元 T1 并列第一

在排除了图形/图表题的 117 分试卷测试中,DeepSeek-R1 与腾讯混元 T1 展现出了绝对的优势,以零错误的完美表现,取得了 117 分的满分成绩,并列第一。这表明,在代数计算和函数题等题型解答上,其能力已经达到了极高的水准和稳定性。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMiasOsSOcvrXMdvsJnPvIkuxeHpt7HMdxwppMA1AEhLXH3W2TZtnAUiag.png

讯飞星火 X1 以 112 分的成绩紧随其后。相较于 DeepSeek-R1 与腾讯混元 T1 这两款大模型,讯飞星火 X1 多错了一道填空题。这道题的正确答案是 「±2」,而讯飞星火 X1 给出的答案是 「2」。实际上,该模型的推理过程没有问题,认为 「2」 和 「-2」 都满足题目条件,但陷入自我怀疑,最终只给出了答案 「2」。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMuxPndqAtjYFw1NpCZlmSEibicQT9NpD2vgIyTjKcFomGubBz47VX50RQ.png

讯飞星火 X1 的推理过程 

其他得分超过 100 分的还有 Gemini 2.5 Pro(109 分)、o3(107 分)、阿里千问 Qwen3(106 分) 和豆包深度思考模式 (104 分)。在分数占比最高的解答题上,Gemini 2.5 Pro 和 o3 均有失误,其中一道大题仅有部分正确,而阿里千问 Qwen3 和豆包深度思考模式均拿下满分。 

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

Grok 3 惨遭 「滑铁卢」,排名倒数第三

在本次参评的所有 AI 推理大模型中,如果说有谁的结果最令人意外,那无疑是马斯克旗下 xAI 公司开发的、被马斯克称为 「地表最强 AI」 的 Grok 3。 

Grok 在发布之初就被市场寄予厚望,被认为是最有潜力挑战 GPT 和 Gemini 霸主地位的 「黑马」。马斯克多次暗示,Grok 的目标是成为最强大的 AI。 

然而,Grok 3 此次的表现可以说是遭遇了 「滑铁卢」。在 117 分的试题测试中,Grok 3 仅获得 91 分,在 10 个参与测试的推理大模型中排名倒数第三。

深入分析其答卷,每经记者发现,Grok 3 失分的一个独特且关键的原因:它似乎无法正确理解多选题这类题型。

测试过程显示,即使在记者提示题目为多选题的情况下,Grok 3 也 「顽固」 地只给出一个它认为的最优解,导致只能得到部分分数。 

排名倒数第二的是智谱清言推理模式,在 117 分试卷的测试中得分为 78 分。

实际上,该模型在多道题目的推理过程中都找到了正确答案,但是往往会在最后一步出现自我怀疑导致逻辑崩溃,陷入循环,最终功亏一篑,白白丢了很多分。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMNlGiamUibYtkxdEYME92WxdzUwia5rtJdbfeiaF9RWFNgAhsBKvUORQZMg.png

智谱清言推理模式解答过程截图

排在最末尾的是 Kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。 

综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,AI 推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。

记者|岳楚鹏  高涵

编辑|金冥羽 兰素英 盖源源

校对|卢祥勇

封面图片来源:视觉中国

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

|每日经济新闻  nbdnews  原创文章|

未经许可禁止转载、摘编、复制及镜像等使用

文章转载自 每经网

Search

没有结果
查看所有结果

一周热门

世界黄金协会要搞「新物种」?一图看懂数字黄金是什么|财眼

世界黄金协会要搞 「新物种」?一图看懂数字黄金是什么|财眼

2025 年 9 月 10 日
伪造「橡胶指纹」帮同事代打卡,被公司发现后双双辞退!2人均起诉索赔,法院判了

伪造 「橡胶指纹」 帮同事代打卡,被公司发现后双双辞退!2 人均起诉索赔,法院判了

2025 年 9 月 10 日

中金:光伏行业 「反内卷」 进入关键观察节点

2025 年 9 月 10 日
TechWeb微晚报:iPhone Air国行仅支持联通eSIM?六部门整治汽车行业乱象

TechWeb 微晚报:iPhone Air 国行仅支持联通 eSIM?六部门整治汽车行业乱象

2025 年 9 月 10 日
中国电信回应eSIM手机业务:已全面准备就绪 将很快向用户开放

中国电信回应 eSIM 手机业务:已全面准备就绪 将很快向用户开放

2025 年 9 月 10 日
特朗普称愿意对印度和中国大幅加征关税 外交部回应

特朗普称愿意对印度和中国大幅加征关税 外交部回应

2025 年 9 月 10 日
日本央行突抛重磅消息:9月按兵不动,年内随机突袭?

日本央行突抛重磅消息:9 月按兵不动,年内随机突袭?

2025 年 9 月 10 日
【新华500】新华500指数(989001)10日涨0.23%

【新华 500】 新华 500 指数 (989001)10 日涨 0.23%

2025 年 9 月 10 日
消息称三星显示明年开始为苹果生产更大尺寸OLED屏 用于MacBook Pro

消息称三星显示明年开始为苹果生产更大尺寸 OLED 屏 用于 MacBook Pro

2025 年 9 月 10 日
Claude Code 从入门到精通:最全配置指南和工具推荐

Claude Code 从入门到精通:最全配置指南和工具推荐

2025 年 9 月 10 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 世界黄金协会要搞 「新物种」?一图看懂数字黄金是什么|财眼
  • 伪造 「橡胶指纹」 帮同事代打卡,被公司发现后双双辞退!2 人均起诉索赔,法院判了
  • 中金:光伏行业 「反内卷」 进入关键观察节点
  • TechWeb 微晚报:iPhone Air 国行仅支持联通 eSIM?六部门整治汽车行业乱象
  • 中国电信回应 eSIM 手机业务:已全面准备就绪 将很快向用户开放
  • 特朗普称愿意对印度和中国大幅加征关税 外交部回应
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }