• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家

OpenAI 最新测试:GPT-5 与 Claude 在部分工作中可媲美人类专家

2025 年 9 月 26 日
时隔两年 融资保证金比例回归100% 历次调整A股走势如何?

时隔两年 融资保证金比例回归 100% 历次调整 A 股走势如何?

2026 年 1 月 15 日

共和党要员爆料:身陷 「伪证」 风波,鲍威尔恐缺席 2 月国会听证会

2026 年 1 月 15 日

「近弱远强」 格局下 鸡蛋交易逻辑出现分歧

2026 年 1 月 15 日
广告
钱大妈冲刺港股IPO:菜市场猪肉铺起家,喊出「不卖隔夜肉」口号,如今门店近3000家,年收入超百亿元

钱大妈冲刺港股 IPO:菜市场猪肉铺起家,喊出 「不卖隔夜肉」 口号,如今门店近 3000 家,年收入超百亿元

2026 年 1 月 15 日

港股科技 ETF(513020) 收涨超 1.3%,AI 科技突破引市场关注

2026 年 1 月 15 日
1月14日东方财富财经晚报(附新闻联播)

1 月 14 日东方财富财经晚报 (附新闻联播)

2026 年 1 月 15 日
黄金价格稳步上涨,白银突破90美元大关

黄金价格稳步上涨,白银突破 90 美元大关

2026 年 1 月 15 日

工业和信息化部:加快突破全固态电池等技术

2026 年 1 月 15 日
天普股份:收到上交所问询函 涉及公司主营业务及高管任职资格等问题

天普股份:收到上交所问询函 涉及公司主营业务及高管任职资格等问题

2026 年 1 月 15 日
养老星球丨多只养老目标基金限大额申购;又有养老目标基金变更基金经理

养老星球丨多只养老目标基金限大额申购;又有养老目标基金变更基金经理

2026 年 1 月 15 日
AI芯片公司Cerebras据传拟以220亿美元估值融资 短短4个月翻近3倍

AI 芯片公司 Cerebras 据传拟以 220 亿美元估值融资 短短 4 个月翻近 3 倍

2026 年 1 月 15 日

美联储保尔森重申:若通胀继续降温 年内仍可能进一步降息

2026 年 1 月 15 日
金桂财经
广告
2026 年 1 月 15 日 星期四
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

OpenAI 最新测试:GPT-5 与 Claude 在部分工作中可媲美人类专家

来自 金桂财经
2025 年 9 月 26 日
在 全球
0

YOU MAY ALSO LIKE

AI 芯片公司 Cerebras 据传拟以 220 亿美元估值融资 短短 4 个月翻近 3 倍

芝加哥联储主席力挺鲍威尔:没有央行独立性 物价会失控

  当地时间周四 (9 月 25 日),人工智能(AI) 研究公司 OpenAI 发布了一项新的基准测试,用于比较其 AI 模型与各行业专业人士的工作表现。

  这项测试名为 GDPval,是一次初步尝试,旨在评估 OpenAI 的系统距离在经济价值工作上超越人类有多近。而经济价值工作是 OpenAI 开发通用人工智能(AGI) 的关键环节。

  OpenAI 周四表示,其 GPT-5 模型以及竞争对手 Anthropic 公司的 Claude Opus 4.1「已经接近行业专家的工作质量」。

  这并不意味着 OpenAI 的模型会立刻取代人类工作。尽管一些 CEO 预测 AI 在几年内就会取代人类,但 OpenAI 承认 GDPval 目前只涵盖人们实际工作中有限的一部分任务。不过,这是该公司用来衡量 AI 向这一里程碑迈进的最新方式之一。

  GDPval 基于美国 GDP 贡献最大的九个行业,包括医疗、金融、制造业和政府等领域。测试覆盖了 44 种职业,从软件工程师到护士再到记者。

  在首个版本 GDPval-v0 中,OpenAI 邀请资深专业人士对比 AI 生成的报告与其他专业人士的成果,并挑选出更优者。

  例如,某项任务要求投行人员为 「最后一公里配送行业」 制作竞争格局分析,并与 AI 生成的报告进行对比。OpenAI 随后将 AI 模型在全部 44 个职业中对抗人类报告的 「胜率」 进行平均计算。

  结果显示,GPT-5-high(高算力版本 GPT-5) 在 40.6% 的情况下被评为优于或与行业专家持平。

  而 Anthropic 的 Claude Opus 4.1 模型则在 49% 的任务中被评为不输于行业专家,这一表现超过了 OpenAI 的模型。

  OpenAI 对此解释称,之所以 Claude 得分更高,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。

  需要说明的是,大多数职业的工作远不止提交研究报告,而这却是 GDPval-v0 所测试的全部内容。OpenAI 承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。

  尽管如此,OpenAI 仍认为 GDPval 的进展具有重要意义。

  OpenAI 首席经济学家 Aaron Chatterji 在接受采访时表示,GDPval 的测试结果表明,这些岗位上的人们可以利用 AI 模型节省时间,从而专注于更有意义的工作。

  「因为模型在某些事情上已经变得很擅长,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情,」Chatterji 说。

  OpenAI 评估负责人 Tejal Patwardhan 表示,她对 GDPval 的进步速度感到鼓舞。

  Patwardhan 指出,约 15 个月前发布的 GPT-4o 模型得分仅为 13.7%(胜出或持平人类),而 GPT-5 的成绩几乎提高了三倍。她预计这一趋势还会继续。

(财联社)

文章转载自 东方财富

Search

没有结果
查看所有结果

一周热门

时隔两年 融资保证金比例回归100% 历次调整A股走势如何?

时隔两年 融资保证金比例回归 100% 历次调整 A 股走势如何?

2026 年 1 月 15 日

共和党要员爆料:身陷 「伪证」 风波,鲍威尔恐缺席 2 月国会听证会

2026 年 1 月 15 日

「近弱远强」 格局下 鸡蛋交易逻辑出现分歧

2026 年 1 月 15 日
钱大妈冲刺港股IPO:菜市场猪肉铺起家,喊出「不卖隔夜肉」口号,如今门店近3000家,年收入超百亿元

钱大妈冲刺港股 IPO:菜市场猪肉铺起家,喊出 「不卖隔夜肉」 口号,如今门店近 3000 家,年收入超百亿元

2026 年 1 月 15 日

港股科技 ETF(513020) 收涨超 1.3%,AI 科技突破引市场关注

2026 年 1 月 15 日
1月14日东方财富财经晚报(附新闻联播)

1 月 14 日东方财富财经晚报 (附新闻联播)

2026 年 1 月 15 日
黄金价格稳步上涨,白银突破90美元大关

黄金价格稳步上涨,白银突破 90 美元大关

2026 年 1 月 15 日

工业和信息化部:加快突破全固态电池等技术

2026 年 1 月 15 日
天普股份:收到上交所问询函 涉及公司主营业务及高管任职资格等问题

天普股份:收到上交所问询函 涉及公司主营业务及高管任职资格等问题

2026 年 1 月 15 日
养老星球丨多只养老目标基金限大额申购;又有养老目标基金变更基金经理

养老星球丨多只养老目标基金限大额申购;又有养老目标基金变更基金经理

2026 年 1 月 15 日
金桂财经

2026 年 1 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 12 月    

近期动态

  • 时隔两年 融资保证金比例回归 100% 历次调整 A 股走势如何?
  • 共和党要员爆料:身陷 「伪证」 风波,鲍威尔恐缺席 2 月国会听证会
  • 「近弱远强」 格局下 鸡蛋交易逻辑出现分歧
  • 钱大妈冲刺港股 IPO:菜市场猪肉铺起家,喊出 「不卖隔夜肉」 口号,如今门店近 3000 家,年收入超百亿元
  • 港股科技 ETF(513020) 收涨超 1.3%,AI 科技突破引市场关注
  • 1 月 14 日东方财富财经晚报 (附新闻联播)
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }