• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

2025 年 4 月 23 日

加息窗口锁定 4 月?前日本央行委员 「放风」

2026 年 2 月 17 日
热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

2026 年 2 月 17 日
热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

2026 年 2 月 17 日
广告
2026年春晚AI公司成主角,阿里30亿元投入,腾讯推红包计划,千问冠名四大卫视……当红包散尽、晚会落幕,你的手机里会剩下哪个AI?

2026 年春晚 AI 公司成主角,阿里 30 亿元投入,腾讯推红包计划,千问冠名四大卫视……当红包散尽、晚会落幕,你的手机里会剩下哪个 AI?

2026 年 2 月 17 日
最新!近几个月来规模最大 美军向中东增派F-35战斗机!伊朗在霍尔木兹海峡举行演习

最新!近几个月来规模最大 美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习

2026 年 2 月 17 日
2月17日财经早餐:市场流动性收紧,金价承压下行,伊朗在霍尔木兹海峡实兵演习助力油价多头

2 月 17 日财经早餐:市场流动性收紧,金价承压下行,伊朗在霍尔木兹海峡实兵演习助力油价多头

2026 年 2 月 17 日
曾反对自主武器 如今亲自下场?马斯克的公司被曝参与军方项目竞标

曾反对自主武器 如今亲自下场?马斯克的公司被曝参与军方项目竞标

2026 年 2 月 17 日

机器人 「扎堆」 上春晚,背后概念股抢先看!谁是下一个 「宇树」?

2026 年 2 月 17 日

威慑+备战!美军中东大规模增兵,为美伊核谈失败留后手

2026 年 2 月 17 日

威慑+备战!美军中东大规模增兵,为美伊核谈失败留后手

2026 年 2 月 17 日
苹果突然官宣线下体验会:三城3月4日同步举行

苹果突然官宣线下体验会:三城 3 月 4 日同步举行

2026 年 2 月 17 日
苹果突然官宣线下体验会:三城3月4日同步举行

苹果突然官宣线下体验会:三城 3 月 4 日同步举行

2026 年 2 月 17 日
金桂财经
广告
2026 年 2 月 17 日 星期二
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

来自 金桂财经
2025 年 4 月 23 日
在 外汇
0

YOU MAY ALSO LIKE

人民币汇率持续走强 美元存款还香吗?有投资者一年亏 2000 元

加密货币集体大涨!美国财长突发重磅信号!

  北京时间 4 月 17 日凌晨,OpenAI 的多模态推理大模型 o3 与 o4-mini 重磅上线,这一大模型号称是 OpenAI 迄今最强、最智能的模型。

  然而,研究机构很快发现,o3 人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

  OpenAI 测试作弊了?

  去年 12 月,OpenAI 在预发布 o3 时,就强调了该模型在解决困难问题上的能力大幅提升。当时 OpenAI 声称,该模型可以回答 FrontierMath(一组具有挑战性的数学问题) 中超过 25% 的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约 2% 的 FrontierMath 问题。

  OpenAI 首席研究官 Mark Chen 当时在直播中表示:

  「今天,所有大模型产品 (能解决的 FrontierMath 问题的数量) 的比例都不到 2%…我们 (在内部) 看到,在积极的测试时间计算设置中,我们能够获得超过 25% 的解题率。」

  但第三方测试证明,这个 25% 的数字很可能并不准确。

  美东时间上周五 (4 月 18 日),开发 「FrontierMath」 的研究机构 「Epoch AI」 公布了 「o3」 的独立基准测试结果。Epoch 发现,o3 的得分约为 10%,远低于 OpenAI 声称的最高得分 25%。

image

  当然,这并不意味着 OpenAI 一定在撒谎。该公司去年 12 月发布的基准测试结果显示,其得分的下限与 Epoch AI 观察到的得分相当。Epoch AI 还指出,他们的测试设置可能与 OpenAI 不同,即他们使用了 FrontierMath 的更新版本进行评估。

  Epoch AI 写道:「我们的结果与 OpenAI 之间的差异可能是由于 OpenAI 使用更强大的内部框架进行评估,使用更多的测试时间 (计算),或者因为这些结果运行在 FrontierMath 的不同子集上 (FrontierMath -2024-11-26 中的 180 个问题 vs FrontierMath -2025-02-28-private 中的 290 个问题)。」

  根据 ARC Prize Foundation(一个测试过 o3 预发布版本的组织) 在 X 上的一篇文章,公开发布的 o3 模型和预发布版本 「是一个不同的模型……针对聊天/产品使用进行了调优」,这证实了 Epoch AI 的报告。

  「所有正式发布的 o3 计算层都比我们 (之前基准测试) 的版本小,」ARC Prize 写道,一般来说,计算层越大,获得的基准测试分数也会越高。

  基准测试争议已成广泛问题

  随着 AI 模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试 「争议」 正在成为一种常见现象,

  比如最近,埃隆·马斯克的 xAI 被指控,其最新人工智能模型 Grok 3 的基准测试图表具有误导性。

  本月早些时候,Meta 的新一代开源大模型 Llama 4 也遭遇了作弊质疑,而 Meta 公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

(财联社)

文章转载自 东方财富

Search

没有结果
查看所有结果

一周热门

加息窗口锁定 4 月?前日本央行委员 「放风」

2026 年 2 月 17 日
热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

2026 年 2 月 17 日
热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声

2026 年 2 月 17 日
2026年春晚AI公司成主角,阿里30亿元投入,腾讯推红包计划,千问冠名四大卫视……当红包散尽、晚会落幕,你的手机里会剩下哪个AI?

2026 年春晚 AI 公司成主角,阿里 30 亿元投入,腾讯推红包计划,千问冠名四大卫视……当红包散尽、晚会落幕,你的手机里会剩下哪个 AI?

2026 年 2 月 17 日
最新!近几个月来规模最大 美军向中东增派F-35战斗机!伊朗在霍尔木兹海峡举行演习

最新!近几个月来规模最大 美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习

2026 年 2 月 17 日
2月17日财经早餐:市场流动性收紧,金价承压下行,伊朗在霍尔木兹海峡实兵演习助力油价多头

2 月 17 日财经早餐:市场流动性收紧,金价承压下行,伊朗在霍尔木兹海峡实兵演习助力油价多头

2026 年 2 月 17 日
曾反对自主武器 如今亲自下场?马斯克的公司被曝参与军方项目竞标

曾反对自主武器 如今亲自下场?马斯克的公司被曝参与军方项目竞标

2026 年 2 月 17 日

机器人 「扎堆」 上春晚,背后概念股抢先看!谁是下一个 「宇树」?

2026 年 2 月 17 日

威慑+备战!美军中东大规模增兵,为美伊核谈失败留后手

2026 年 2 月 17 日

威慑+备战!美军中东大规模增兵,为美伊核谈失败留后手

2026 年 2 月 17 日
金桂财经

2026 年 2 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
232425262728  
« 1 月    

近期动态

  • 加息窗口锁定 4 月?前日本央行委员 「放风」
  • 热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声
  • 热搜爆了!春晚霸屏!机器人全面开花 宇树中国功夫夯爆了 王兴兴发声
  • 2026 年春晚 AI 公司成主角,阿里 30 亿元投入,腾讯推红包计划,千问冠名四大卫视……当红包散尽、晚会落幕,你的手机里会剩下哪个 AI?
  • 最新!近几个月来规模最大 美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习
  • 2 月 17 日财经早餐:市场流动性收紧,金价承压下行,伊朗在霍尔木兹海峡实兵演习助力油价多头
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }