• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

2025 年 4 月 23 日
震惊AI圈!OpenClaw之父加入OpenAI!

震惊 AI 圈!OpenClaw 之父加入 OpenAI!

2026 年 2 月 17 日

新春走基层丨灯火亮了,年就近了

2026 年 2 月 17 日
港股加密货币彻底沸腾  板块集体狂飙!

港股加密货币彻底沸腾 板块集体狂飙!

2026 年 2 月 17 日
广告
黄金、白银、铂金走势预测:中国春节假期开启,金价回落

黄金、白银、铂金走势预测:中国春节假期开启,金价回落

2026 年 2 月 17 日

新春走基层丨海岛春来早 实干筑新程——海南自贸港封关后重大项目建设一线走访

2026 年 2 月 17 日
累计涨幅超400%!MiniMax今年以来涨幅、股价双第一

累计涨幅超 400%!MiniMax 今年以来涨幅、股价双第一

2026 年 2 月 17 日

2 月 16 日晚间央视新闻联播要闻集锦

2026 年 2 月 17 日
韩寒、张艺谋再次同台对垒!「最长春节档」拉开帷幕,超1.5亿观影人次会去哪儿?短剧靠头部内容与集卡红包抢流量

韩寒、张艺谋再次同台对垒!「最长春节档」 拉开帷幕,超 1.5 亿观影人次会去哪儿?短剧靠头部内容与集卡红包抢流量

2026 年 2 月 17 日

春晚人形机器人大秀拳脚,机器人 ETF 易方达 (159530) 助力把握板块投资机会

2026 年 2 月 17 日
生猪价格跌至年内新低 行业面临不同程度亏损

破 6 亿元!「最长电影春节档」 谁能胜出?

2026 年 2 月 17 日
比特币一度直线跳水,加密货币全网24小时超11万人爆仓,约23亿元灰飞烟灭!美联储降息,又生变数?

比特币一度直线跳水,加密货币全网 24 小时超 11 万人爆仓,约 23 亿元灰飞烟灭!美联储降息,又生变数?

2026 年 2 月 17 日
总台马年春晚节目单来了!

总台马年春晚节目单来了!

2026 年 2 月 16 日
金桂财经
广告
2026 年 2 月 17 日 星期二
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

来自 金桂财经
2025 年 4 月 23 日
在 外汇
0

YOU MAY ALSO LIKE

人民币汇率持续走强 美元存款还香吗?有投资者一年亏 2000 元

加密货币集体大涨!美国财长突发重磅信号!

  北京时间 4 月 17 日凌晨,OpenAI 的多模态推理大模型 o3 与 o4-mini 重磅上线,这一大模型号称是 OpenAI 迄今最强、最智能的模型。

  然而,研究机构很快发现,o3 人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

  OpenAI 测试作弊了?

  去年 12 月,OpenAI 在预发布 o3 时,就强调了该模型在解决困难问题上的能力大幅提升。当时 OpenAI 声称,该模型可以回答 FrontierMath(一组具有挑战性的数学问题) 中超过 25% 的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约 2% 的 FrontierMath 问题。

  OpenAI 首席研究官 Mark Chen 当时在直播中表示:

  「今天,所有大模型产品 (能解决的 FrontierMath 问题的数量) 的比例都不到 2%…我们 (在内部) 看到,在积极的测试时间计算设置中,我们能够获得超过 25% 的解题率。」

  但第三方测试证明,这个 25% 的数字很可能并不准确。

  美东时间上周五 (4 月 18 日),开发 「FrontierMath」 的研究机构 「Epoch AI」 公布了 「o3」 的独立基准测试结果。Epoch 发现,o3 的得分约为 10%,远低于 OpenAI 声称的最高得分 25%。

image

  当然,这并不意味着 OpenAI 一定在撒谎。该公司去年 12 月发布的基准测试结果显示,其得分的下限与 Epoch AI 观察到的得分相当。Epoch AI 还指出,他们的测试设置可能与 OpenAI 不同,即他们使用了 FrontierMath 的更新版本进行评估。

  Epoch AI 写道:「我们的结果与 OpenAI 之间的差异可能是由于 OpenAI 使用更强大的内部框架进行评估,使用更多的测试时间 (计算),或者因为这些结果运行在 FrontierMath 的不同子集上 (FrontierMath -2024-11-26 中的 180 个问题 vs FrontierMath -2025-02-28-private 中的 290 个问题)。」

  根据 ARC Prize Foundation(一个测试过 o3 预发布版本的组织) 在 X 上的一篇文章,公开发布的 o3 模型和预发布版本 「是一个不同的模型……针对聊天/产品使用进行了调优」,这证实了 Epoch AI 的报告。

  「所有正式发布的 o3 计算层都比我们 (之前基准测试) 的版本小,」ARC Prize 写道,一般来说,计算层越大,获得的基准测试分数也会越高。

  基准测试争议已成广泛问题

  随着 AI 模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试 「争议」 正在成为一种常见现象,

  比如最近,埃隆·马斯克的 xAI 被指控,其最新人工智能模型 Grok 3 的基准测试图表具有误导性。

  本月早些时候,Meta 的新一代开源大模型 Llama 4 也遭遇了作弊质疑,而 Meta 公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

(财联社)

文章转载自 东方财富

Search

没有结果
查看所有结果

一周热门

震惊AI圈!OpenClaw之父加入OpenAI!

震惊 AI 圈!OpenClaw 之父加入 OpenAI!

2026 年 2 月 17 日

新春走基层丨灯火亮了,年就近了

2026 年 2 月 17 日
港股加密货币彻底沸腾  板块集体狂飙!

港股加密货币彻底沸腾 板块集体狂飙!

2026 年 2 月 17 日
黄金、白银、铂金走势预测:中国春节假期开启,金价回落

黄金、白银、铂金走势预测:中国春节假期开启,金价回落

2026 年 2 月 17 日

新春走基层丨海岛春来早 实干筑新程——海南自贸港封关后重大项目建设一线走访

2026 年 2 月 17 日
累计涨幅超400%!MiniMax今年以来涨幅、股价双第一

累计涨幅超 400%!MiniMax 今年以来涨幅、股价双第一

2026 年 2 月 17 日

2 月 16 日晚间央视新闻联播要闻集锦

2026 年 2 月 17 日
韩寒、张艺谋再次同台对垒!「最长春节档」拉开帷幕,超1.5亿观影人次会去哪儿?短剧靠头部内容与集卡红包抢流量

韩寒、张艺谋再次同台对垒!「最长春节档」 拉开帷幕,超 1.5 亿观影人次会去哪儿?短剧靠头部内容与集卡红包抢流量

2026 年 2 月 17 日

春晚人形机器人大秀拳脚,机器人 ETF 易方达 (159530) 助力把握板块投资机会

2026 年 2 月 17 日
生猪价格跌至年内新低 行业面临不同程度亏损

破 6 亿元!「最长电影春节档」 谁能胜出?

2026 年 2 月 17 日
金桂财经

2026 年 2 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
232425262728  
« 1 月    

近期动态

  • 震惊 AI 圈!OpenClaw 之父加入 OpenAI!
  • 新春走基层丨灯火亮了,年就近了
  • 港股加密货币彻底沸腾 板块集体狂飙!
  • 黄金、白银、铂金走势预测:中国春节假期开启,金价回落
  • 新春走基层丨海岛春来早 实干筑新程——海南自贸港封关后重大项目建设一线走访
  • 累计涨幅超 400%!MiniMax 今年以来涨幅、股价双第一
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }