当地时间 4 月 5 日,Meta 宣布推出新一代开源大模型 Llama 4,称其在基准测试中领先同行,但开发者实测发现其效果不佳,甚至问题百出,质疑其作弊 「刷榜」。Meta 深陷舆论漩涡。对此,Meta 紧急辟谣,称相关说法毫无事实依据。
每经记者 宋欣悦 每经编辑 兰素英
当地时间 4 月 5 日,美国科技巨头 Meta 宣布推出其新一代开源大模型 Llama 4。Llama 4 目前有两个混合专家 (MoE) 架构的版本,分别为 Scout 和 Maverick。更为强大的 Llama 4 Behemoth 仍在训练中。
Meta 官方称,Llama 4 在一系列广泛接受的基准测试中均实现了领先同行的水平,尤其是 Llama 4 Behemoth,在多个基准测试中的表现要优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等一众行业顶尖封闭模型。
然而,就在模型发布后不久,铺天盖地的质疑声涌来。开发者实测 Llama 4 后发现,其真实效果并不如宣传中那么惊艳,甚至问题百出。
与此同时,有开发者质疑 Meta 作弊 「刷榜」,根据相关评测基准对模型进行 「量身定制」 训练。
知名科技媒体 TechCrunch 也发文,直指 Meta 新 AI 模型的性能测试 「具有一定误导性」。
Meta 深陷舆论漩涡之中。对于外界的质疑,当地时间 4 月 7 日,Meta 生成式 AI 副总裁艾哈迈德·阿尔·达赫勒 (Ahmad Al-Dahle) 在社交平台 X 上公开回应,明确指出相关说法毫无事实依据。
图片来源:Meta 官网
Meta「刷榜」?开发者实测 Llama 4:编程等任务表现不佳,「远排不上第一或第二」
据 Meta 介绍,Llama 4 模型家族使用了混合专家 (MoE) 架构,原生支持多模态,实力超强,堪称 「全能选手」。
其中,Llama 4 Scout 拥有 170 亿活跃参数以及 16 个专家模块,提供长达 1000 万 tokens 上下文窗口。在多项基准测试中,Scout 的表现优于 Gemma 3 和 Gemini 2.0 Flash-Lite 等模型。
Llama 4 Maverick 同样拥有 170 亿活跃参数,专家模块数量提升至 128 个。在多项主流基准测试中,其成绩超越了 GPT-4o 和 Gemini 2.0 Flash。Meta 还特意点名 DeepSeek,强调在推理和编码方面,Llama 4 Maverick 可以比肩 DeepSeek 新开源的 V3 模型,而其活跃参数还不到 DeepSeek 新版 V3 的一半。
被 Meta 称为 「世界上最聪明的模型之一」 的 Llama 4 Behemoth 则拥有 2880 亿活跃参数和 16 个专家模块。在多项主流基准测试中,其性能表优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro 等行业顶尖模型。
图片来源:Meta 官网
而在大模型竞技场上,Llama 4 Maverick 表现夺目,总排名位居第二,成为第四个突破 1400 分的大模型。在开源模型中,Llama 4 Maverick 排名第一,超越了 DeepSeek。
在困难提示词、编程、数学、创意写作等任务的比拼中,Llama 4 Maverick 均斩获第一名。相较于自家前代产品 Llama 3(405B) 获得的 1268 分,Llama 4 Maverick 的得分实现大幅跃升,达到了 1417 分。
图片来源:大模型竞技场
这本应是开源社区的又一狂欢。但开发者们实测发现,Llama 4 的效果并不像官方宣称的那样惊艳,甚至可以说是问题百出。
Menlo Ventures 风险投资人迪迪·达斯 (Deedy Das) 直言,「Llama 4 实际上是一个糟糕的编程模型。」
达斯指出,在专注于编程任务 (如代码生成和代码补全) 的 KCORES 基准测试中,Llama 4 Scout 和 Llama 4 Maverick 表现欠佳,落后于 GPT-4o、Grok 3、DeepSeek-V3 等模型。
图片来源:KCORES LLM Arena
这与此前 Llama 4 在大模型竞技场的表现形成鲜明反差。
有网友直接曝出,Llama 4 在大模型竞技场上存在过拟合现象,有极大的作弊 「刷榜」 嫌疑。
在一些实测中,Llama 4 在上下文任务的实际表现远低于预期。Llama 4 Maverick 在 aider 多语言编码基准测试中的实测得分仅为 16%。
Abacus.AI 首席执行官宾杜・雷迪 (Bindu Reddy) 评论道:「人类的评估已经毫无意义了……根据现实世界的表现,Llama 4 Maverick 应该远远排不上第一或第二。」
大模型竞技场官方也下场 「补刀」,指出 Meta 在大模型竞技场使用的并非 HuggingFace 上供开发者使用的 Llama 4 版本,而是 「针对人类偏好进行优化的定制模型 Llama-4-Maverick-03-26-Experimental」。
大模型竞技场官方要求 Meta 对此事作出澄清,并强调其排行榜结果准确可靠,后续将对 Llama 4 重新进行评测。
图片来源:X
知名科技媒体 TechCrunch 也发文,标题直言 Meta 新 AI 模型的性能测试 「具有一定误导性」。
文章指出,针对基准测试优化特定版本去打榜,却给开发者提供 「基础版」 的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。
《每日经济新闻》 记者发现,在 Llama 官网提供的性能对比测试图的最下面,写着其在大模型竞技场上使用的是专门针对对话场景优化的 Llama 4 Maverick 版本。不过,这一信息的字体极小,很难被注意到。
图片来源:X
Llama 4 训练作弊?Meta 紧急辟谣,大佬杨立昆也 「站台」
就在 Llama 4 被集体质疑之时,内部员工的一则爆料帖子,让 Meta 陷入了更深的舆论漩涡之中。
4 月 7 日,在海外留学求职交流论坛 「一亩三分地」 上,一位自称参与了 Llama 4 训练的内部员工爆料称,Llama 4 模型训练测试集作弊,并表示自己已因此辞职。
图片来源:一亩三分地
该员工透露,尽管团队反复努力训练,Llama 4 的内部模型性能始终无法达到开源 SOTA(State-of-the-Art,顶尖水平) 基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中,以此在各项指标上达成目标,交出一份 「好看」 的成绩单。
这位内部员工表示,自己无法接受公司这种做法,甚至辞职信中明确要求不要在 Llama 4 技术报告中挂名。
就在 Llama 4 发布前几天,Meta AI 研究主管乔尔·皮诺 (Joelle Pineau) 在工作 8 年之后突然宣布离职。
不过,由于发帖人并未实名,该帖子的真实性暂无法核实。在帖子下方评论区,已有数名 Meta 员工实名进行辟谣。
Meta 研究科学家主管 Licheng Yu 称,团队绝不存在针对测试集过拟合训练的情况。
图片来源:一亩三分地
另一位 Meta 高级 AI 研究科学家 Di Jin 也反驳道:「我参与了微调和强化学习的数据混合工作,并没有这种 (将基准测试的测试集数据混入训练或微调数据) 情况。」
并且,Di Jin 还指出,近期离职的 AI 研究主管乔尔・皮诺,实则并非 Meta GenAI 团队成员,没有参与 GenAI 的任何模型训练工作。
图片来源:一亩三分地
根据 Meta 的组织架构体系,乔尔・皮诺是 FAIR 的副总裁,而 FAIR 实际上是 Meta 内部与 GenAI 完全独立的组织,GenAI 才是负责 Llama 项目的组织。
针对外界对 Llama 4 模型的诸多质疑,当地时间 4 月 7 日,Meta 生成式 AI 副总裁艾哈迈德·阿尔·达赫勒 (Ahmad Al-Dahle) 在社交平台 X 上公开回应,明确指出相关说法毫无事实依据。
同时,达赫勒指出,部分用户通过不同云服务商使用 Llama 4 模型时,遭遇了质量不稳定问题。他对此解释道:「由于我们在模型准备好后就迅速发布,因此预计需要几天的时间来调整所有公开版本。后续,Meta 将持续进行错误修复工作,并与合作伙伴保持沟通。」
图片来源:X
此外,Meta 首席 AI 科学家、图灵奖得主 Yann LeCun 也转发了该帖子,为 Llama 4 声援 「站台」。
图片来源:X
文章转载自 每经网