DeepSeek-Math-V2 数学模型开源，成绩碾压 OpenAI 和谷歌同类模型

【文章来源：techweb】

【TechWeb】12 月 1 日消息，近日， DeepSeek 在 Hugging Face 平台正式开源了 DeepSeek-Math-V2 模型，这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于 DeepSeek-V3.2-Exp-Base 开发。

DeepSeek-Math-V2 模型在国际数学奥林匹克 IMO 2025 模拟赛中解出 5 道题（共 6 题），在中国数学奥林匹克 CMO 2024 中获得金牌级评价，更在被誉为「地狱难度」的普特南 (Putnam) 数学竞赛 2024 中取得了 118/120 的接近满分成绩，远超人类最高分 90 分。

「鲸鱼回来了！」这是 AI 开源社区在 DeepSeek 发布新模型后的热烈反应。

两大创新，成绩碾压 GPT-5-Thinking-High 和 Gemini 2.5-Pro

根据 DeepSeek 团队发布的论文，DeepSeekMath-V2 的核心突破在于成功实现了「自我验证」的数学推理机制。

传统的 AI 数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek 研究人员在论文中明确指出：「正确答案并不保证推理过程正确」。

这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为「自信的骗子」。

DeepSeekMath-V2 彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会 AI 如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

另一个大核心创新则是 DeepSeekMath-V2 构建了一个多层次自我验证系统。

该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

「做题家」（证明生成器）负责解题和撰写证明过程。与以往不同，它被训练成不仅要写答案，还要进行「自我评价」，诚实指出自己可能出错的地方。

「铁面判官」（证明验证器）是专门训练的评分模型，它不看答案对错，而是专门盯着证明过程挑刺。它将证明分为三个等级：1 分（完全正确）、0.5 分（有小瑕疵）、0 分（有致命错误）。

「判官的审计员」（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

通过这种精巧的架构，DeepSeekMath-V2 实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

根据论文公开的数据，DeepSeekMath-V2 在多项数学基准测试中展现出统治级的实力。

在 IMO-ProofBench 基准测试中，DeepSeekMath-V2 在 Basic 子集上获得了接近 99% 的惊人高分，显著高于 Gemini Deep Think 的 89%。

在更高级的 Advanced 子集上，DeepSeekMath-V2 得分为 61.9%，略低于 Gemini Deep Think 的 65.7%，但仍展现出强大的竞争力。

在与顶级模型的直接对比中，DeepSeekMath-V2 在所有 CNML 级别问题类别上，包括代数、几何、数论、组合学和不等式均持续优于 GPT-5-Thinking-High 和 Gemini 2.5-Pro。

在代数领域，DeepSeekMath-V2 远超 GPT-5-Thinking-High 和 Gemini 2.5-Pro；在几何领域，其得分几乎是 Gemini 2.5-Pro 的三倍。

更令人印象深刻的是，当允许模型进行「自我验证」，即生成答案后，自己挑毛病，然后带着问题重新生成，证明的质量分数从初始的 0.15（迭代 1 次）飙升到了 0.27（迭代 8 次）。

开源社区沸腾

DeepSeekMath-V2 的开源发布，在 AI 社区引发了强烈反响。

海外社区有评论称「鲸鱼终于回来了」，并指出 DeepSeek 以约 10 个百分点优势超越谷歌同类模型，超出预期。

在技术社区，用户用更通俗的语言解读这一突破：「DeepSeek 换了个教法，死磕过程。结果对了，也必须看解题步骤，过程中只要有一步没整明白，也不给糖吃。这就逼着 AI 必须要真懂，不能当混子。」

还有用户指出这一发布的时间点堪称完美：「就在昨天，AI 教父 Ilya 在访谈中提到，现在的 AI 就是个只会死记硬背的做题机器。仅仅不到 24 小时，DeepSeek 就把新模型开源了。」

这一巧合被形容为「一次穿越时空的击掌」，是 DeepSeek 对 AI 发展路径的实质性回应。

不过，也有用户提出了理性的担忧：「自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。」

无论如何，大家都认为 DeepSeekMath-V2 的开源具有重要的行业意义。

DeepSeekMath-V2 采用 Apache 2.0 许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛，特别是在当前谷歌和 OpenAI 都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2 的开源发布标志着 AI 数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face 联合创始人兼 Clement Delangue 表示：这一发布是迈向 AI 真正民主化的一步。

用户现在可以免费使用「世界上最好的数学家之一的大脑」，而不必担心公司或政府将其收回。

【文章来源：techweb】

「鲸鱼回来了！」这是 AI 开源社区在 DeepSeek 发布新模型后的热烈反应。

两大创新，成绩碾压 GPT-5-Thinking-High 和 Gemini 2.5-Pro

根据 DeepSeek 团队发布的论文，DeepSeekMath-V2 的核心突破在于成功实现了「自我验证」的数学推理机制。

传统的 AI 数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek 研究人员在论文中明确指出：「正确答案并不保证推理过程正确」。

这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为「自信的骗子」。

DeepSeekMath-V2 彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会 AI 如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

另一个大核心创新则是 DeepSeekMath-V2 构建了一个多层次自我验证系统。

该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

「判官的审计员」（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

通过这种精巧的架构，DeepSeekMath-V2 实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

根据论文公开的数据，DeepSeekMath-V2 在多项数学基准测试中展现出统治级的实力。

在 IMO-ProofBench 基准测试中，DeepSeekMath-V2 在 Basic 子集上获得了接近 99% 的惊人高分，显著高于 Gemini Deep Think 的 89%。

在更高级的 Advanced 子集上，DeepSeekMath-V2 得分为 61.9%，略低于 Gemini Deep Think 的 65.7%，但仍展现出强大的竞争力。

在代数领域，DeepSeekMath-V2 远超 GPT-5-Thinking-High 和 Gemini 2.5-Pro；在几何领域，其得分几乎是 Gemini 2.5-Pro 的三倍。

开源社区沸腾

DeepSeekMath-V2 的开源发布，在 AI 社区引发了强烈反响。

海外社区有评论称「鲸鱼终于回来了」，并指出 DeepSeek 以约 10 个百分点优势超越谷歌同类模型，超出预期。

这一巧合被形容为「一次穿越时空的击掌」，是 DeepSeek 对 AI 发展路径的实质性回应。

不过，也有用户提出了理性的担忧：「自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。」

无论如何，大家都认为 DeepSeekMath-V2 的开源具有重要的行业意义。

DeepSeekMath-V2 采用 Apache 2.0 许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛，特别是在当前谷歌和 OpenAI 都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2 的开源发布标志着 AI 数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face 联合创始人兼 Clement Delangue 表示：这一发布是迈向 AI 真正民主化的一步。

用户现在可以免费使用「世界上最好的数学家之一的大脑」，而不必担心公司或政府将其收回。

为了增加用户停留时间，我让 Logo 先跳了一下

阿里千问：「春节大免单」今起再加三天，每人可领 10 张 25 元超级免单卡

【文章来源：techweb】

「鲸鱼回来了！」这是 AI 开源社区在 DeepSeek 发布新模型后的热烈反应。

两大创新，成绩碾压 GPT-5-Thinking-High 和 Gemini 2.5-Pro

根据 DeepSeek 团队发布的论文，DeepSeekMath-V2 的核心突破在于成功实现了「自我验证」的数学推理机制。

传统的 AI 数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek 研究人员在论文中明确指出：「正确答案并不保证推理过程正确」。

这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为「自信的骗子」。

DeepSeekMath-V2 彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会 AI 如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

另一个大核心创新则是 DeepSeekMath-V2 构建了一个多层次自我验证系统。

该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

「判官的审计员」（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

通过这种精巧的架构，DeepSeekMath-V2 实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

根据论文公开的数据，DeepSeekMath-V2 在多项数学基准测试中展现出统治级的实力。

在 IMO-ProofBench 基准测试中，DeepSeekMath-V2 在 Basic 子集上获得了接近 99% 的惊人高分，显著高于 Gemini Deep Think 的 89%。

在更高级的 Advanced 子集上，DeepSeekMath-V2 得分为 61.9%，略低于 Gemini Deep Think 的 65.7%，但仍展现出强大的竞争力。

在代数领域，DeepSeekMath-V2 远超 GPT-5-Thinking-High 和 Gemini 2.5-Pro；在几何领域，其得分几乎是 Gemini 2.5-Pro 的三倍。

开源社区沸腾

DeepSeekMath-V2 的开源发布，在 AI 社区引发了强烈反响。

海外社区有评论称「鲸鱼终于回来了」，并指出 DeepSeek 以约 10 个百分点优势超越谷歌同类模型，超出预期。

这一巧合被形容为「一次穿越时空的击掌」，是 DeepSeek 对 AI 发展路径的实质性回应。

不过，也有用户提出了理性的担忧：「自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。」

无论如何，大家都认为 DeepSeekMath-V2 的开源具有重要的行业意义。

DeepSeekMath-V2 采用 Apache 2.0 许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛，特别是在当前谷歌和 OpenAI 都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2 的开源发布标志着 AI 数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face 联合创始人兼 Clement Delangue 表示：这一发布是迈向 AI 真正民主化的一步。

用户现在可以免费使用「世界上最好的数学家之一的大脑」，而不必担心公司或政府将其收回。

【文章来源：techweb】

「鲸鱼回来了！」这是 AI 开源社区在 DeepSeek 发布新模型后的热烈反应。

两大创新，成绩碾压 GPT-5-Thinking-High 和 Gemini 2.5-Pro

根据 DeepSeek 团队发布的论文，DeepSeekMath-V2 的核心突破在于成功实现了「自我验证」的数学推理机制。

传统的 AI 数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek 研究人员在论文中明确指出：「正确答案并不保证推理过程正确」。

这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为「自信的骗子」。

DeepSeekMath-V2 彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会 AI 如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

另一个大核心创新则是 DeepSeekMath-V2 构建了一个多层次自我验证系统。

该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

「判官的审计员」（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

通过这种精巧的架构，DeepSeekMath-V2 实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

根据论文公开的数据，DeepSeekMath-V2 在多项数学基准测试中展现出统治级的实力。

在 IMO-ProofBench 基准测试中，DeepSeekMath-V2 在 Basic 子集上获得了接近 99% 的惊人高分，显著高于 Gemini Deep Think 的 89%。

在更高级的 Advanced 子集上，DeepSeekMath-V2 得分为 61.9%，略低于 Gemini Deep Think 的 65.7%，但仍展现出强大的竞争力。

在代数领域，DeepSeekMath-V2 远超 GPT-5-Thinking-High 和 Gemini 2.5-Pro；在几何领域，其得分几乎是 Gemini 2.5-Pro 的三倍。

开源社区沸腾

DeepSeekMath-V2 的开源发布，在 AI 社区引发了强烈反响。

海外社区有评论称「鲸鱼终于回来了」，并指出 DeepSeek 以约 10 个百分点优势超越谷歌同类模型，超出预期。

这一巧合被形容为「一次穿越时空的击掌」，是 DeepSeek 对 AI 发展路径的实质性回应。

不过，也有用户提出了理性的担忧：「自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。」

无论如何，大家都认为 DeepSeekMath-V2 的开源具有重要的行业意义。

DeepSeekMath-V2 采用 Apache 2.0 许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛，特别是在当前谷歌和 OpenAI 都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2 的开源发布标志着 AI 数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face 联合创始人兼 Clement Delangue 表示：这一发布是迈向 AI 真正民主化的一步。

用户现在可以免费使用「世界上最好的数学家之一的大脑」，而不必担心公司或政府将其收回。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28