• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

2025 年 4 月 23 日

中信建投:强新品周期+金九银十 整车和机器人进入布局阶段

2025 年 9 月 10 日
一张图:2025年9月10日黄金原油外汇股指「枢纽点+多空持仓信号」一览

一张图:2025 年 9 月 10 日黄金原油外汇股指 「枢纽点+多空持仓信号」 一览

2025 年 9 月 10 日
国家补贴到账!低位+低估值+高股息优质股曝光

国家补贴到账!低位+低估值+高股息优质股曝光

2025 年 9 月 10 日
广告
夫妻住合租房生娃,被要求「3个工作日搬离」,平台:合同规定入住不超2人,年龄18~40岁!最新回应

夫妻住合租房生娃,被要求 「3 个工作日搬离」,平台:合同规定入住不超 2 人,年龄 18~40 岁!最新回应

2025 年 9 月 10 日

中证 A500ETF(159338) 盘中净流入超 2000 万份,关注同类中更多人选择的中证 A500ETF,机构:人民币汇率有望推动 A 股价值重估

2025 年 9 月 10 日

中金:光伏行业 「反内卷」 进入关键观察节点

2025 年 9 月 10 日
小红书电商的第三次「变奏」

小红书电商的第三次 「变奏」

2025 年 9 月 10 日
中东突发!哈马斯证实 5名成员在以军空袭中死亡

中东突发!哈马斯证实 5 名成员在以军空袭中死亡

2025 年 9 月 10 日
央行弃美债买黄金?真相恐怕没有那么戏剧性

央行弃美债买黄金?真相恐怕没有那么戏剧性

2025 年 9 月 10 日
最高加价2500元 黄牛抢跑iPhone17「预售」

最高加价 2500 元 黄牛抢跑 iPhone17「预售」

2025 年 9 月 10 日

南向资金大幅流入港股市场 后市建议关注三大方向

2025 年 9 月 10 日
以色列「突袭」卡塔尔 整件事有多严重

以色列 「突袭」 卡塔尔 整件事有多严重

2025 年 9 月 10 日
金桂财经
广告
2025 年 9 月 10 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

来自 金桂财经
2025 年 4 月 23 日
在 外汇
0

YOU MAY ALSO LIKE

特朗普:印美正继续谈判以解决两国间贸易壁垒

全球市场:美股三大指数集体收涨 纳指与标普创收盘新高 苹果跌超 1%

  北京时间 4 月 17 日凌晨,OpenAI 的多模态推理大模型 o3 与 o4-mini 重磅上线,这一大模型号称是 OpenAI 迄今最强、最智能的模型。

  然而,研究机构很快发现,o3 人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

  OpenAI 测试作弊了?

  去年 12 月,OpenAI 在预发布 o3 时,就强调了该模型在解决困难问题上的能力大幅提升。当时 OpenAI 声称,该模型可以回答 FrontierMath(一组具有挑战性的数学问题) 中超过 25% 的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约 2% 的 FrontierMath 问题。

  OpenAI 首席研究官 Mark Chen 当时在直播中表示:

  「今天,所有大模型产品 (能解决的 FrontierMath 问题的数量) 的比例都不到 2%…我们 (在内部) 看到,在积极的测试时间计算设置中,我们能够获得超过 25% 的解题率。」

  但第三方测试证明,这个 25% 的数字很可能并不准确。

  美东时间上周五 (4 月 18 日),开发 「FrontierMath」 的研究机构 「Epoch AI」 公布了 「o3」 的独立基准测试结果。Epoch 发现,o3 的得分约为 10%,远低于 OpenAI 声称的最高得分 25%。

image

  当然,这并不意味着 OpenAI 一定在撒谎。该公司去年 12 月发布的基准测试结果显示,其得分的下限与 Epoch AI 观察到的得分相当。Epoch AI 还指出,他们的测试设置可能与 OpenAI 不同,即他们使用了 FrontierMath 的更新版本进行评估。

  Epoch AI 写道:「我们的结果与 OpenAI 之间的差异可能是由于 OpenAI 使用更强大的内部框架进行评估,使用更多的测试时间 (计算),或者因为这些结果运行在 FrontierMath 的不同子集上 (FrontierMath -2024-11-26 中的 180 个问题 vs FrontierMath -2025-02-28-private 中的 290 个问题)。」

  根据 ARC Prize Foundation(一个测试过 o3 预发布版本的组织) 在 X 上的一篇文章,公开发布的 o3 模型和预发布版本 「是一个不同的模型……针对聊天/产品使用进行了调优」,这证实了 Epoch AI 的报告。

  「所有正式发布的 o3 计算层都比我们 (之前基准测试) 的版本小,」ARC Prize 写道,一般来说,计算层越大,获得的基准测试分数也会越高。

  基准测试争议已成广泛问题

  随着 AI 模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试 「争议」 正在成为一种常见现象,

  比如最近,埃隆·马斯克的 xAI 被指控,其最新人工智能模型 Grok 3 的基准测试图表具有误导性。

  本月早些时候,Meta 的新一代开源大模型 Llama 4 也遭遇了作弊质疑,而 Meta 公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

(财联社)

文章转载自 东方财富

Search

没有结果
查看所有结果

一周热门

中信建投:强新品周期+金九银十 整车和机器人进入布局阶段

2025 年 9 月 10 日
一张图:2025年9月10日黄金原油外汇股指「枢纽点+多空持仓信号」一览

一张图:2025 年 9 月 10 日黄金原油外汇股指 「枢纽点+多空持仓信号」 一览

2025 年 9 月 10 日
国家补贴到账!低位+低估值+高股息优质股曝光

国家补贴到账!低位+低估值+高股息优质股曝光

2025 年 9 月 10 日
夫妻住合租房生娃,被要求「3个工作日搬离」,平台:合同规定入住不超2人,年龄18~40岁!最新回应

夫妻住合租房生娃,被要求 「3 个工作日搬离」,平台:合同规定入住不超 2 人,年龄 18~40 岁!最新回应

2025 年 9 月 10 日

中证 A500ETF(159338) 盘中净流入超 2000 万份,关注同类中更多人选择的中证 A500ETF,机构:人民币汇率有望推动 A 股价值重估

2025 年 9 月 10 日

中金:光伏行业 「反内卷」 进入关键观察节点

2025 年 9 月 10 日
小红书电商的第三次「变奏」

小红书电商的第三次 「变奏」

2025 年 9 月 10 日
中东突发!哈马斯证实 5名成员在以军空袭中死亡

中东突发!哈马斯证实 5 名成员在以军空袭中死亡

2025 年 9 月 10 日
央行弃美债买黄金?真相恐怕没有那么戏剧性

央行弃美债买黄金?真相恐怕没有那么戏剧性

2025 年 9 月 10 日
最高加价2500元 黄牛抢跑iPhone17「预售」

最高加价 2500 元 黄牛抢跑 iPhone17「预售」

2025 年 9 月 10 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 中信建投:强新品周期+金九银十 整车和机器人进入布局阶段
  • 一张图:2025 年 9 月 10 日黄金原油外汇股指 「枢纽点+多空持仓信号」 一览
  • 国家补贴到账!低位+低估值+高股息优质股曝光
  • 夫妻住合租房生娃,被要求 「3 个工作日搬离」,平台:合同规定入住不超 2 人,年龄 18~40 岁!最新回应
  • 中证 A500ETF(159338) 盘中净流入超 2000 万份,关注同类中更多人选择的中证 A500ETF,机构:人民币汇率有望推动 A 股价值重估
  • 中金:光伏行业 「反内卷」 进入关键观察节点
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }