• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
AI刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元T1、Grok 3等十大模型测评来了

AI 刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元 T1、Grok 3 等十大模型测评来了

2025 年 6 月 11 日

黄金主题基金总规模较年初增长近 112%

2025 年 9 月 10 日

结构性机会与风险并存

2025 年 9 月 10 日
「市市通高铁」又来了 辽宁、贵州加入 全国将达12省

「市市通高铁」 又来了 辽宁、贵州加入 全国将达 12 省

2025 年 9 月 10 日
广告

宇树值不值 500 亿?

2025 年 9 月 10 日
胶版印刷纸主力合约首日上市低开

胶版印刷纸主力合约首日上市低开

2025 年 9 月 10 日
「史上最丑」与「丑上最薄」:iPhone 17系列背后的新战事

「史上最丑」 与 「丑上最薄」:iPhone 17 系列背后的新战事

2025 年 9 月 10 日
美国「默许」?以色列公然袭击卡塔尔,目标直指哈马斯高层!

美国 「默许」?以色列公然袭击卡塔尔,目标直指哈马斯高层!

2025 年 9 月 10 日
周末重磅!财政部出资5000亿元,四大银行融资方案公布

上海电力终止 17.7 亿美元收购巴基斯坦 KE 公司部分股权;居然智家:公司实际控制人由汪林朋变更为杨芳|公告精选

2025 年 9 月 10 日

四大证券报精华摘要:9 月 10 日

2025 年 9 月 10 日
阿里推高德团购对标美团?多只零售、地图股逆市大涨

阿里推高德团购对标美团?多只零售、地图股逆市大涨

2025 年 9 月 10 日

胶版印刷纸期货及期权,燃料油、石油沥青和纸浆期权在上期所挂牌交易

2025 年 9 月 10 日

胶版印刷纸期货及期权,燃料油、石油沥青和纸浆期权在上期所挂牌交易

2025 年 9 月 10 日
金桂财经
广告
2025 年 9 月 10 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

AI 刷题强到可怕?挑战高考数学卷,DeepSeek-R1、腾讯混元 T1、Grok 3 等十大模型测评来了

来自 每日经济新闻
2025 年 6 月 11 日
在 股票
0

每经记者|岳楚鹏  高涵    每经编辑|金冥羽 兰素英    

YOU MAY ALSO LIKE

上海电力终止 17.7 亿美元收购巴基斯坦 KE 公司部分股权;居然智家:公司实际控制人由汪林朋变更为杨芳|公告精选

全球首款儿童软骨发育不全治疗药物在国内申报上市:上半年涨了 7 倍的舒泰神,股价一周下跌 23% | 掘金创新药

2025 年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 

《每日经济新闻》 记者 (以下简称 「每经记者」) 选取今年的全国新课标数学 I 卷作为考题,对 DeepSeek-R1、腾讯元宝 (混元 T1)、OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 xAI 的 Grok3 等十款 AI 推理大模型进行了测评,以检验当今主流 AI 推理大模型的数学能力。

测评结果显示,国产大模型 DeepSeek-R1 与腾讯混元 T1 以零错误并列榜首。而被马斯克称为 「地表最强 AI」 的 Grok 3 却遭遇 「滑铁卢」,排名倒数第三。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

测评标准

本次测评以 2025 年全国新课标数学 I 卷 (总分 150 分) 作为考题。但每经记者在测试中发现,部分 AI 推理模型以 「重要考试期间」 为由拒绝对包含试题的图片进行识别和解答。

为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为 117 分的标准化试卷。

同时,对于谷歌 Gemini 2.5 Pro 等没有这一限制的推理模型,仍将以 150 分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。

扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算得分,不对过程打分。

需要说明的是,在此次测试中,每款推理大模型只进行单次测试,得分也仅反映单次测试的结果。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

DeepSeek-R1 和腾讯混元 T1 并列第一

在排除了图形/图表题的 117 分试卷测试中,DeepSeek-R1 与腾讯混元 T1 展现出了绝对的优势,以零错误的完美表现,取得了 117 分的满分成绩,并列第一。这表明,在代数计算和函数题等题型解答上,其能力已经达到了极高的水准和稳定性。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMiasOsSOcvrXMdvsJnPvIkuxeHpt7HMdxwppMA1AEhLXH3W2TZtnAUiag.png

讯飞星火 X1 以 112 分的成绩紧随其后。相较于 DeepSeek-R1 与腾讯混元 T1 这两款大模型,讯飞星火 X1 多错了一道填空题。这道题的正确答案是 「±2」,而讯飞星火 X1 给出的答案是 「2」。实际上,该模型的推理过程没有问题,认为 「2」 和 「-2」 都满足题目条件,但陷入自我怀疑,最终只给出了答案 「2」。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMuxPndqAtjYFw1NpCZlmSEibicQT9NpD2vgIyTjKcFomGubBz47VX50RQ.png

讯飞星火 X1 的推理过程 

其他得分超过 100 分的还有 Gemini 2.5 Pro(109 分)、o3(107 分)、阿里千问 Qwen3(106 分) 和豆包深度思考模式 (104 分)。在分数占比最高的解答题上,Gemini 2.5 Pro 和 o3 均有失误,其中一道大题仅有部分正确,而阿里千问 Qwen3 和豆包深度思考模式均拿下满分。 

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

Grok 3 惨遭 「滑铁卢」,排名倒数第三

在本次参评的所有 AI 推理大模型中,如果说有谁的结果最令人意外,那无疑是马斯克旗下 xAI 公司开发的、被马斯克称为 「地表最强 AI」 的 Grok 3。 

Grok 在发布之初就被市场寄予厚望,被认为是最有潜力挑战 GPT 和 Gemini 霸主地位的 「黑马」。马斯克多次暗示,Grok 的目标是成为最强大的 AI。 

然而,Grok 3 此次的表现可以说是遭遇了 「滑铁卢」。在 117 分的试题测试中,Grok 3 仅获得 91 分,在 10 个参与测试的推理大模型中排名倒数第三。

深入分析其答卷,每经记者发现,Grok 3 失分的一个独特且关键的原因:它似乎无法正确理解多选题这类题型。

测试过程显示,即使在记者提示题目为多选题的情况下,Grok 3 也 「顽固」 地只给出一个它认为的最优解,导致只能得到部分分数。 

排名倒数第二的是智谱清言推理模式,在 117 分试卷的测试中得分为 78 分。

实际上,该模型在多道题目的推理过程中都找到了正确答案,但是往往会在最后一步出现自我怀疑导致逻辑崩溃,陷入循环,最终功亏一篑,白白丢了很多分。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMNlGiamUibYtkxdEYME92WxdzUwia5rtJdbfeiaF9RWFNgAhsBKvUORQZMg.png

智谱清言推理模式解答过程截图

排在最末尾的是 Kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。 

综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,AI 推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。

记者|岳楚鹏  高涵

编辑|金冥羽 兰素英 盖源源

校对|卢祥勇

封面图片来源:视觉中国

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

|每日经济新闻  nbdnews  原创文章|

未经许可禁止转载、摘编、复制及镜像等使用

文章转载自 每经网

Search

没有结果
查看所有结果

一周热门

黄金主题基金总规模较年初增长近 112%

2025 年 9 月 10 日

结构性机会与风险并存

2025 年 9 月 10 日
「市市通高铁」又来了 辽宁、贵州加入 全国将达12省

「市市通高铁」 又来了 辽宁、贵州加入 全国将达 12 省

2025 年 9 月 10 日

宇树值不值 500 亿?

2025 年 9 月 10 日
胶版印刷纸主力合约首日上市低开

胶版印刷纸主力合约首日上市低开

2025 年 9 月 10 日
「史上最丑」与「丑上最薄」:iPhone 17系列背后的新战事

「史上最丑」 与 「丑上最薄」:iPhone 17 系列背后的新战事

2025 年 9 月 10 日
美国「默许」?以色列公然袭击卡塔尔,目标直指哈马斯高层!

美国 「默许」?以色列公然袭击卡塔尔,目标直指哈马斯高层!

2025 年 9 月 10 日
周末重磅!财政部出资5000亿元,四大银行融资方案公布

上海电力终止 17.7 亿美元收购巴基斯坦 KE 公司部分股权;居然智家:公司实际控制人由汪林朋变更为杨芳|公告精选

2025 年 9 月 10 日

四大证券报精华摘要:9 月 10 日

2025 年 9 月 10 日
阿里推高德团购对标美团?多只零售、地图股逆市大涨

阿里推高德团购对标美团?多只零售、地图股逆市大涨

2025 年 9 月 10 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 黄金主题基金总规模较年初增长近 112%
  • 结构性机会与风险并存
  • 「市市通高铁」 又来了 辽宁、贵州加入 全国将达 12 省
  • 宇树值不值 500 亿?
  • 胶版印刷纸主力合约首日上市低开
  • 「史上最丑」 与 「丑上最薄」:iPhone 17 系列背后的新战事
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }