李飞飞团队 456 页报告：中美 AI 模型性能近乎持平系统推理成本降至 280 分之一

来源：
每日经济新闻

　　4 月 8 日，由李飞飞联合领导的斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2025 年人工智能指数报告》（Artificial Intelligence Index Report 2025）。这份长达 456 页的报告，深入剖析了 2024 年全球人工智能行业的发展态势，揭示了 12 大关键趋势。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuJyQIfZqLibhibIicPQ2O4YiaR5P372yfOsNBlxqaCjw1mSMwTaN2j8yvTg.png

图片来源：斯坦福大学以人为本人工智能研究所官网

　　报告认为，AI 正变得更高效、更普惠。随着小模型性能飙升，达到 GPT-3.5 水平的系统推理成本在过去两年间下降到了原来的 280 分之一。

　　报告还指出，中国高性能 AI 模型的数量和质量不断提升，中美 AI 模型性能近乎持平。与此同时，中国在 AI 领域论文数量和专利数量上保持领先地位。

　　AI 性能飙升，表现逐渐接近人类

　　2023 年，研究人员推出了 MMMU、GPQA 和 SWE-bench 等颇具挑战性的新基准测试，用于测试 AI 系统的极限。

　　测试发现，仅仅一年后，AI 系统的性能便实现大幅跃升——在 MMMU 测试中得分提升 18.8 个百分点；在 GPQA 测试中提高 48.9 个百分点；SWE-bench 测试里更是提升了 67.3 个百分点。

　　从整体趋势来看，AI 在各大领域的表现逐渐接近人类，甚至在某些情形下，AI 智能体能在限时编程任务中超越人类。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuDnjWlmF4HxkIibrUvNcW5U2NvzSrOqdrn3E3HAjyic5Y24EibkUoGPujQ.png

在部分评测指标上，AI 技术性能表现与人类水平的对比图片来源：《2025 年人工智能指数报告》

　　然而，复杂的推理对于 AI 模型而言，仍然是一个挑战。

　　在处理类似国际数学奥林匹克竞赛题目这类任务时，AI 模型表现出色。但面对诸如 PlanBench 等复杂推理基准测试时，却仍显得吃力。即使面对那些已知存在正解的逻辑任务，AI 也经常无法可靠地解决逻辑任务，这极大限制了 AI 在对精度要求极高的高风险行业中的应用。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTu83W711jRLvbuKGh5bYnhgsllIClDALrZMiaxfVx3SSXN1aScqUz1mTA.png

各大模型在 PlanBench 基准测试上的正确率图片来源：《2025 年人工智能指数报告》

　　全球 AI 投资飙升

　　2024 年，生成式 AI 在全球范围内吸引了 339 亿美元的私人投资，与 2023 年相比，增长幅度达到 18.7%。

　　与此同时，企业对 AI 的采用率显著提升，从 2023 年的 55% 上升至 2024 年的 78%。越来越多的研究结果表明，AI 不仅能够有效提升生产力，在多数情况下，还能缩小劳动力的技能差距。

　　值得关注的是，将生成式 AI 应用于至少一项业务职能的企业数量出现了激增。2023 年，这一比例仅为 33%，而到了 2024 年，该比例跃升至 71%，增幅超过一倍。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuRN92iagqoRF88QZGA82iaVv5UOgc6icAtBLbia9RicUYGMkt0GevcITFgjw.png

2017 年至 2024 年，将 AI 应用于至少一项业务职能企业的比例不断上升图片来源：《2025 年人工智能指数报告》

　　中美模型性能近乎持平

　　数据显示，美国在 AI 模型的数量上处于领先地位。2024 年，总部位于美国的机构拥有 40 个知名 AI 模型，超过中国（15 个）和法国（3 个）。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTucVy6U9cqNIZRt46DnQicNbUJbUPC1jxCrB1KiaiaTRGPU496ka2sibvfJg.png

图片来源：《2025 年人工智能指数报告》

　　不过，报告强调，中美模型之间的性能差距正在迅速缩小。以 MMLU 和 HumanEval 等主流基准测试结果来看，2023 年，中美顶尖模型之间的性能差距还在两位数，然而到了 2024 年，这一差距已大幅缩小，几乎处于同一水平。

　　与此同时，中国在 AI 领域论文数量和专利数量上依旧保持领先地位。

　　小模型性能飙升，推理成本降至 280 分之一

　　报告指出，AI 正变得更加高效、经济实惠和易于获取。

　　随着小模型性能提升，达到 GPT-3.5 水平的系统推理成本在过去两年间下降至 280 分之一。在硬件层面，成本每年下降 30%，而能源效率每年提高 40%。

　　2022 年，在 MMLU 基准测试中，得分超 60% 的最小模型是 PaLM，参数量为 5400 亿。到了 2024 年，微软Phi-3-mini 仅用 38 亿参数，就取得了同样的实力。这代表，两年多的时间里模型参数减少了 142 倍。

　　此外，开源模型正在迎头赶上，与闭源模型的差距逐渐缩小。2023 年，开源模型明显落后于闭源模型。而到 2024 年，这一差距几乎消失。2024 年 1 月初，顶尖闭源模型在大模型竞技场排行榜上以 8.0% 的成绩超过了顶尖开源模型。而到 2025 年 2 月，这一差距已缩小至 1.7%。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuxjufQpjqtp8Bd1IMiaictIYic2YeyO7qRHjBPHorGOdib937IbK2e9FzHA.png

2022 年至 2024 年，在 MMLU 上得分高于 60% 的小模型图片来源：《2025 年人工智能指数报告》

　　中国对 AI 的态度最乐观

　　在对 AI 的态度方面，中国是全球主要国家和地区中最乐观的。

　　报告显示，2024 年中国有 83% 的人认为 AI 产品和服务利大于弊，排在后面的是印度尼西亚（80%）和泰国（77%）。相比之下，美国（39%）、加拿大（40%）等的乐观情绪远低于中国。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuYyt6yV7ibKoM2CnMAP8cdncPGqURa5zrbeh1DBgibQL9QrcEsWoL5zdw.png

2022 年至 2024 年，各国认为「使用 AI 产品和服务利大于弊」的比例图片来源：《2025 年人工智能指数报告》

　　不过，从整体趋势而言，各国对于 AI 的乐观情绪正逐渐升温，特别是在一些曾对 AI 最持怀疑态度的国家。数据显示，自 2022 年起，美国认为「使用 AI 产品和服务利大于弊」的比例提升了 4%，加拿大增长了 8%，法国增长了 10%。

三分之二受访者称 AI 将在未来 3 至 5 年对日常生活产生显著影响

　　从医疗保健到交通运输，AI 正迅速从实验室走向日常生活。

　　2023 年，美国食品药品监督管理局（FDA）批准了 223 款 AI 医疗设备，而 2015 年仅有 6 款。

CFF20LXzkOyN00ZI2y8fDJNkp68HnqTuW5I80fjWndEcdyE8MqejuZtWicr8IOvuWD7ZIeWKBFezGL0sknNVUIg.png

1995 年至 2023 年 FDA 批准的 AI 医疗设备数量图片来源：《2025 年人工智能指数报告》

　　道路交通同样因 AI 技术发生着日新月异的变化。自动驾驶汽车不再只是实验，而是逐步驶入现实生活。

　　美国最大的运营商之一 Waymo 每周提供超过 15 万次自动驾驶服务，而百度旗下的「萝卜快跑」（Apollo Go）无人驾驶出租车队已在中国多个城市正式投入运营。

　　此外，人们对 AI 融入日常生活的期待与认可度正在上升。据统计，全球范围内，有多达三分之二的受访者认为，在未来三到五年内，AI 产品及服务将对日常生活产生显著影响。

（每日经济新闻）

文章转载自东方财富