OpenAI 最新测试：GPT-5 与 Claude 在部分工作中可媲美人类专家

军费狂潮催生防务「超级 IPO」：欧洲弹药巨头 CSG 准备登上资本舞台

美联储褐皮书：近期美国经济活动温和扩张但通胀压力仍存

　　当地时间周四（9 月 25 日），人工智能（AI）研究公司 OpenAI 发布了一项新的基准测试，用于比较其 AI 模型与各行业专业人士的工作表现。

　　这项测试名为 GDPval，是一次初步尝试，旨在评估 OpenAI 的系统距离在经济价值工作上超越人类有多近。而经济价值工作是 OpenAI 开发通用人工智能（AGI）的关键环节。

　　OpenAI 周四表示，其 GPT-5 模型以及竞争对手 Anthropic 公司的 Claude Opus 4.1「已经接近行业专家的工作质量」。

　　这并不意味着 OpenAI 的模型会立刻取代人类工作。尽管一些 CEO 预测 AI 在几年内就会取代人类，但 OpenAI 承认 GDPval 目前只涵盖人们实际工作中有限的一部分任务。不过，这是该公司用来衡量 AI 向这一里程碑迈进的最新方式之一。

　　GDPval 基于美国 GDP 贡献最大的九个行业，包括医疗、金融、制造业和政府等领域。测试覆盖了 44 种职业，从软件工程师到护士再到记者。

　　在首个版本 GDPval-v0 中，OpenAI 邀请资深专业人士对比 AI 生成的报告与其他专业人士的成果，并挑选出更优者。

　　例如，某项任务要求投行人员为「最后一公里配送行业」制作竞争格局分析，并与 AI 生成的报告进行对比。OpenAI 随后将 AI 模型在全部 44 个职业中对抗人类报告的「胜率」进行平均计算。

　　结果显示，GPT-5-high（高算力版本 GPT-5）在 40.6% 的情况下被评为优于或与行业专家持平。

　　而 Anthropic 的 Claude Opus 4.1 模型则在 49% 的任务中被评为不输于行业专家，这一表现超过了 OpenAI 的模型。

　　OpenAI 对此解释称，之所以 Claude 得分更高，部分原因是其倾向于生成更美观的图表，而非纯粹性能更优。

　　需要说明的是，大多数职业的工作远不止提交研究报告，而这却是 GDPval-v0 所测试的全部内容。OpenAI 承认这一点，并计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程。

　　尽管如此，OpenAI 仍认为 GDPval 的进展具有重要意义。

　　OpenAI 首席经济学家 Aaron Chatterji 在接受采访时表示，GDPval 的测试结果表明，这些岗位上的人们可以利用 AI 模型节省时间，从而专注于更有意义的工作。

　　「因为模型在某些事情上已经变得很擅长，随着能力的提升，人们可以越来越多地把部分工作交给模型，去做潜在更有价值的事情，」Chatterji 说。

　　OpenAI 评估负责人 Tejal Patwardhan 表示，她对 GDPval 的进步速度感到鼓舞。

　　Patwardhan 指出，约 15 个月前发布的 GPT-4o 模型得分仅为 13.7%（胜出或持平人类），而 GPT-5 的成绩几乎提高了三倍。她预计这一趋势还会继续。

（财联社）

文章转载自东方财富

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31