• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

2025 年 4 月 23 日
成立13年无药上市 华芢生物冲刺IPO:投资人的钱还能烧多久?对赌协议压力下背水一战

成立 13 年无药上市 华芢生物冲刺 IPO:投资人的钱还能烧多久?对赌协议压力下背水一战

2025 年 9 月 10 日
国家统计局:8月CPI同比下降0.4% PPI同比下降2.9%

国家统计局:8 月 CPI 同比下降 0.4% PPI 同比下降 2.9%

2025 年 9 月 10 日

四维透视化工产业 「金九银十」 成色

2025 年 9 月 10 日
广告

行业反内卷深化促长期重构,石化 ETF(159731) 短期调整迎低位布局机会

2025 年 9 月 10 日

以军突袭哈马斯多哈据点引发地区震荡,特朗普罕见公开批评内塔尼亚胡

2025 年 9 月 10 日

市场监管总局已约谈主要外卖平台,抵制恶性补贴

2025 年 9 月 10 日
锂电「反内卷」显成效?六氟磷酸锂涨价潮袭来 业内:厂商前期主动降负荷

锂电 「反内卷」 显成效?六氟磷酸锂涨价潮袭来 业内:厂商前期主动降负荷

2025 年 9 月 10 日
黄金交易提醒:金价历史新高后上演「过山车」,这是见顶了吗?关注美国通胀数据

黄金交易提醒:金价历史新高后上演 「过山车」,这是见顶了吗?关注美国通胀数据

2025 年 9 月 10 日

史上最贵 iPhone 诞生!苹果 iPhone 17 系列正式发布 :Pro Max 顶配 2TB 版本售价高达 17999 元

2025 年 9 月 10 日
凌晨!苹果重大发布!iPhone 17搭载A19芯片 史上最薄款国行版起售价7999元!

凌晨!苹果重大发布!iPhone 17 搭载 A19 芯片 史上最薄款国行版起售价 7999 元!

2025 年 9 月 10 日
券商调研与评级同步发力 偏好红利、科技 白酒股难入法眼

券商调研与评级同步发力 偏好红利、科技 白酒股难入法眼

2025 年 9 月 10 日

宁德时代设定枧下窝复产目标!能否如期复产,尚未有定论

2025 年 9 月 10 日
金桂财经
广告
2025 年 9 月 10 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

来自 金桂财经
2025 年 4 月 23 日
在 外汇
0

YOU MAY ALSO LIKE

特朗普:印美正继续谈判以解决两国间贸易壁垒

全球市场:美股三大指数集体收涨 纳指与标普创收盘新高 苹果跌超 1%

  北京时间 4 月 17 日凌晨,OpenAI 的多模态推理大模型 o3 与 o4-mini 重磅上线,这一大模型号称是 OpenAI 迄今最强、最智能的模型。

  然而,研究机构很快发现,o3 人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

  OpenAI 测试作弊了?

  去年 12 月,OpenAI 在预发布 o3 时,就强调了该模型在解决困难问题上的能力大幅提升。当时 OpenAI 声称,该模型可以回答 FrontierMath(一组具有挑战性的数学问题) 中超过 25% 的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约 2% 的 FrontierMath 问题。

  OpenAI 首席研究官 Mark Chen 当时在直播中表示:

  「今天,所有大模型产品 (能解决的 FrontierMath 问题的数量) 的比例都不到 2%…我们 (在内部) 看到,在积极的测试时间计算设置中,我们能够获得超过 25% 的解题率。」

  但第三方测试证明,这个 25% 的数字很可能并不准确。

  美东时间上周五 (4 月 18 日),开发 「FrontierMath」 的研究机构 「Epoch AI」 公布了 「o3」 的独立基准测试结果。Epoch 发现,o3 的得分约为 10%,远低于 OpenAI 声称的最高得分 25%。

image

  当然,这并不意味着 OpenAI 一定在撒谎。该公司去年 12 月发布的基准测试结果显示,其得分的下限与 Epoch AI 观察到的得分相当。Epoch AI 还指出,他们的测试设置可能与 OpenAI 不同,即他们使用了 FrontierMath 的更新版本进行评估。

  Epoch AI 写道:「我们的结果与 OpenAI 之间的差异可能是由于 OpenAI 使用更强大的内部框架进行评估,使用更多的测试时间 (计算),或者因为这些结果运行在 FrontierMath 的不同子集上 (FrontierMath -2024-11-26 中的 180 个问题 vs FrontierMath -2025-02-28-private 中的 290 个问题)。」

  根据 ARC Prize Foundation(一个测试过 o3 预发布版本的组织) 在 X 上的一篇文章,公开发布的 o3 模型和预发布版本 「是一个不同的模型……针对聊天/产品使用进行了调优」,这证实了 Epoch AI 的报告。

  「所有正式发布的 o3 计算层都比我们 (之前基准测试) 的版本小,」ARC Prize 写道,一般来说,计算层越大,获得的基准测试分数也会越高。

  基准测试争议已成广泛问题

  随着 AI 模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试 「争议」 正在成为一种常见现象,

  比如最近,埃隆·马斯克的 xAI 被指控,其最新人工智能模型 Grok 3 的基准测试图表具有误导性。

  本月早些时候,Meta 的新一代开源大模型 Llama 4 也遭遇了作弊质疑,而 Meta 公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

(财联社)

文章转载自 东方财富

Search

没有结果
查看所有结果

一周热门

成立13年无药上市 华芢生物冲刺IPO:投资人的钱还能烧多久?对赌协议压力下背水一战

成立 13 年无药上市 华芢生物冲刺 IPO:投资人的钱还能烧多久?对赌协议压力下背水一战

2025 年 9 月 10 日
国家统计局:8月CPI同比下降0.4% PPI同比下降2.9%

国家统计局:8 月 CPI 同比下降 0.4% PPI 同比下降 2.9%

2025 年 9 月 10 日

四维透视化工产业 「金九银十」 成色

2025 年 9 月 10 日

行业反内卷深化促长期重构,石化 ETF(159731) 短期调整迎低位布局机会

2025 年 9 月 10 日

以军突袭哈马斯多哈据点引发地区震荡,特朗普罕见公开批评内塔尼亚胡

2025 年 9 月 10 日

市场监管总局已约谈主要外卖平台,抵制恶性补贴

2025 年 9 月 10 日
锂电「反内卷」显成效?六氟磷酸锂涨价潮袭来 业内:厂商前期主动降负荷

锂电 「反内卷」 显成效?六氟磷酸锂涨价潮袭来 业内:厂商前期主动降负荷

2025 年 9 月 10 日
黄金交易提醒:金价历史新高后上演「过山车」,这是见顶了吗?关注美国通胀数据

黄金交易提醒:金价历史新高后上演 「过山车」,这是见顶了吗?关注美国通胀数据

2025 年 9 月 10 日

史上最贵 iPhone 诞生!苹果 iPhone 17 系列正式发布 :Pro Max 顶配 2TB 版本售价高达 17999 元

2025 年 9 月 10 日
凌晨!苹果重大发布!iPhone 17搭载A19芯片 史上最薄款国行版起售价7999元!

凌晨!苹果重大发布!iPhone 17 搭载 A19 芯片 史上最薄款国行版起售价 7999 元!

2025 年 9 月 10 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 成立 13 年无药上市 华芢生物冲刺 IPO:投资人的钱还能烧多久?对赌协议压力下背水一战
  • 国家统计局:8 月 CPI 同比下降 0.4% PPI 同比下降 2.9%
  • 四维透视化工产业 「金九银十」 成色
  • 行业反内卷深化促长期重构,石化 ETF(159731) 短期调整迎低位布局机会
  • 以军突袭哈马斯多哈据点引发地区震荡,特朗普罕见公开批评内塔尼亚胡
  • 市场监管总局已约谈主要外卖平台,抵制恶性补贴
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }