国产开源模型强势追击！DeepSeek 与 OpenAI 最新模型实测对决

来源：
科创板日报

　　DeepSeek 昨晚通过微信交流群通知，其 DeepSeek R1 模型完成小版本升级，并在今日凌晨开源了最新版本模型 DeepSeek-R1-0528。

　　代码测试平台 Live CodeBench 中显示，DeepSeek-R1-0528 性能可以媲美 OpenAI 最新的 o3（High）模型。

　　小 K 今日以一名普通用户的身份，参考 AI 基准测试 xbench 的例题，在 DeepSeek 和 OpenAI 官网分别对它们最新的 R1 模型和 o3 模型进行了对比测试。

　　第 1 题小 K 请 DeepSeek 和 OpenAI 模型分别写了一个可以在网页上运行的「三国杀」游戏。测试维度包括代码生成、可运行性、模块化能力和交互设计。

　　DeepSeek 的回答直接输出了完整的网页游戏源码，并且点击能直接运行。前端界面美观，具备基础美术元素，能完成简单对战逻辑。

　　相比之下，OpenAI 给出的解决方案则将前端、脚本和逻辑分别输出在 3 个独立代码块中，用户需自行保存为多个文件，运行时还伴有报错，需要手动调试，不能完成对战。而且界面粗糙、无 UI 美化。

　　这道题 DeepSeek 胜出。DeepSeek 模型在「代码工程化」能力上已有显著优势，表现出对前端框架的更好理解。

　　第 2 题是一道典型的函数构造与嵌套函数推导题：已知 f(f(x))=x^2-11x+36f(f(x))=x^2-11x+36，求 f(5)。测试维度包括函数反演、代数推理能力和数学逻辑清晰度。

　　DeepSeek 耗时 351 秒推导出解法，思考过程非常长，进行了反复演算和验算，过程详细且逻辑缜密，从代入法到固定点分析再到反设求解，最后合理排除矛盾值，最终得出 f(5)=6 的唯一解答。

　　OpenAI 则用时仅 41 秒，给出了同样正确的答案，而且逻辑清晰、推理精炼。推出固定点、构造反函数思路合理，无冗余步骤。

　　这一题尽管 DeepSeek 和 OpenAI 最终均给出了正确答案，但 DeepSeek 推理时间长，在数学题场景仍待优化。

　　第 3 题是：黑龙江、吉林、辽宁，共有多少个地市级行政单位与外国接壤？测试维度包括地理常识、事实检索和数据整合能力。

　　这道题的正确答案是 12 个。而 DeepSeek 仅回答了 5 个。

　　DeepSeek 推理过程中错误理解了「地市级单位」是否一定拥有边境口岸。例如将黑龙江部分地市（如伊春、鹤岗）忽略，导致其推理思路存在漏算。

　　反观 OpenAI 正确地点名了 12 个地市。

　　第 4 题是：有一个被剪做鞋样的历史文物，对研究唐代均田制起到了重要的作用，这个文物中记载的年份，有一位唐朝的一代名相去世，请问这位名相有几个儿子？测试维度包括历史考据、细节辨析能力和文献准确性。

　　DeepSeek 在此题中出现了幻觉，造成误判，DeepSeek 错将有「一个被剪做鞋样的历史文物」关联至"唐代田界砖"，虽最后回答出「有 4 子」，但纯属偶合。

　　OpenAI 正确识别文物「赵怀满夏田契」署于贞观十七年（643 年），对应去世人物为魏徵，并指出魏徵有四子：魏叔玉、魏叔琬、魏叔璘、魏叔瑜。识别精准，逻辑链条完整无误。引用旧唐书、新唐书等文献，考证准确。

　　第 5 题是：《乐队的夏天》各季 top5 乐队中一共有多少名女性成员？测试维度包括多维信息提取、成员归属辨析、数据整合能力。

　　DeepSeek 依次列举了三季节目中的 Top5 乐队，并从中筛选女性成员（如新裤子的赵梦、刺猬的石璐、安达组合的其其格玛等），统计结果为 5 位女性成员，并对女性在乐队中所扮演的角色进行了总结（主唱、贝斯手、鼓手等）。用时不到 1 分钟即完成高质量统计+表格整理，效率高。

　　OpenAI 也给出了相同的数量，考证细致，但花费近 6 分钟，在交互场景中显得拖沓。

　　通过以上实测可以看出，DeepSeek R1 的表现非常接近甚至在部分任务上超过了 OpenAI 最新 O3 模型。在代码生成、复杂函数推理、统计等方面，DeepSeek 展现出全面且稳定的进步，正快速缩小与顶级闭源模型的差距。

（科创板日报）

文章转载自东方财富

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28