• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
国产开源模型强势追击!DeepSeek与OpenAI最新模型实测对决

国产开源模型强势追击!DeepSeek 与 OpenAI 最新模型实测对决

2025 年 5 月 30 日
欧盟最新报告,事关乌克兰入盟!俄乌激烈争夺,佩斯科夫称目前未向美方提供最新战场局势图,红军城战事为何持续胶着?

欧盟最新报告,事关乌克兰入盟!俄乌激烈争夺,佩斯科夫称目前未向美方提供最新战场局势图,红军城战事为何持续胶着?

2025 年 11 月 6 日

从展品到商品 寻找全球大宗贸易的 「守护者」

2025 年 11 月 6 日
新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施

新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施

2025 年 11 月 6 日
广告
美联储明晨大概率重启降息 年内将降息几次?

11 月 5 日晚间沪深上市公司重大事项公告最新快递

2025 年 11 月 6 日
美元走强抑制上行空间,黄金维持区间震荡

美元走强抑制上行空间,黄金维持区间震荡

2025 年 11 月 6 日

美国政府 「重开」 曙光初现?两党议员对结束停摆表示乐观

2025 年 11 月 6 日
安吉尔38年重构全屋净饮水市场  以长期主义引领技术、产品、渠道全面升维

安吉尔 38 年重构全屋净饮水市场 以长期主义引领技术、产品、渠道全面升维

2025 年 11 月 6 日

上市公司含 「科」 量进一步提高,关注 A500ETF 易方达 (159361)、科创板 50ETF(588080) 投资机会

2025 年 11 月 6 日

芝商所亚太区董事总经理拉塞尔·贝蒂:中国期货市场应加强与国际的互联互通

2025 年 11 月 6 日
何小鹏:明年目标规模量产高阶人形机器人!Robotaxi也要来了!

何小鹏:明年目标规模量产高阶人形机器人!Robotaxi 也要来了!

2025 年 11 月 6 日
苹果被爆大动作,售价或远低于1000美元!

苹果被爆大动作,售价或远低于 1000 美元!

2025 年 11 月 6 日

面对通胀担忧声浪 美联储米兰仍呼吁 「继续降息之路」

2025 年 11 月 6 日
金桂财经
广告
2025 年 11 月 6 日 星期四
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

国产开源模型强势追击!DeepSeek 与 OpenAI 最新模型实测对决

来自 金桂财经
2025 年 5 月 30 日
在 24 小时
0

来源:
科创板日报

  DeepSeek 昨晚通过微信交流群通知,其 DeepSeek R1 模型完成小版本升级,并在今日凌晨开源了最新版本模型 DeepSeek-R1-0528。

  代码测试平台 Live CodeBench 中显示,DeepSeek-R1-0528 性能可以媲美 OpenAI 最新的 o3(High) 模型。

  小 K 今日以一名普通用户的身份,参考 AI 基准测试 xbench 的例题,在 DeepSeek 和 OpenAI 官网分别对它们最新的 R1 模型和 o3 模型进行了对比测试。

  第 1 题小 K 请 DeepSeek 和 OpenAI 模型分别写了一个可以在网页上运行的 「三国杀」 游戏。测试维度包括代码生成、可运行性、模块化能力和交互设计。

  DeepSeek 的回答直接输出了完整的网页游戏源码,并且点击能直接运行。前端界面美观,具备基础美术元素,能完成简单对战逻辑。

image

  相比之下,OpenAI 给出的解决方案则将前端、脚本和逻辑分别输出在 3 个独立代码块中,用户需自行保存为多个文件,运行时还伴有报错,需要手动调试,不能完成对战。而且界面粗糙、无 UI 美化。

image
image

  这道题 DeepSeek 胜出。DeepSeek 模型在 「代码工程化」 能力上已有显著优势,表现出对前端框架的更好理解。

  第 2 题是一道典型的函数构造与嵌套函数推导题:已知 f(f(x))=x^2-11x+36f(f(x))=x^2-11x+36,求 f(5)。测试维度包括函数反演、代数推理能力和数学逻辑清晰度。

  DeepSeek 耗时 351 秒推导出解法,思考过程非常长,进行了反复演算和验算,过程详细且逻辑缜密,从代入法到固定点分析再到反设求解,最后合理排除矛盾值,最终得出 f(5)=6 的唯一解答。

image

  OpenAI 则用时仅 41 秒,给出了同样正确的答案,而且逻辑清晰、推理精炼。推出固定点、构造反函数思路合理,无冗余步骤。

image

  这一题尽管 DeepSeek 和 OpenAI 最终均给出了正确答案,但 DeepSeek 推理时间长,在数学题场景仍待优化。

  第 3 题是:黑龙江、吉林、辽宁,共有多少个地市级行政单位与外国接壤?测试维度包括地理常识、事实检索和数据整合能力。

  这道题的正确答案是 12 个。而 DeepSeek 仅回答了 5 个。

image

  DeepSeek 推理过程中错误理解了 「地市级单位」 是否一定拥有边境口岸。例如将黑龙江部分地市 (如伊春、鹤岗) 忽略,导致其推理思路存在漏算。

  反观 OpenAI 正确地点名了 12 个地市。

image

  第 4 题是:有一个被剪做鞋样的历史文物,对研究唐代均田制起到了重要的作用,这个文物中记载的年份,有一位唐朝的一代名相去世,请问这位名相有几个儿子?测试维度包括历史考据、细节辨析能力和文献准确性。

  DeepSeek 在此题中出现了幻觉,造成误判,DeepSeek 错将有 「一个被剪做鞋样的历史文物」 关联至"唐代田界砖",虽最后回答出 「有 4 子」,但纯属偶合。

image

  OpenAI 正确识别文物 「赵怀满夏田契」 署于贞观十七年 (643 年),对应去世人物为魏徵,并指出魏徵有四子:魏叔玉、魏叔琬、魏叔璘、魏叔瑜。识别精准,逻辑链条完整无误。引用旧唐书、新唐书等文献,考证准确。

image

  第 5 题是:《乐队的夏天》 各季 top5 乐队中一共有多少名女性成员?测试维度包括多维信息提取、成员归属辨析、数据整合能力。

  DeepSeek 依次列举了三季节目中的 Top5 乐队,并从中筛选女性成员 (如新裤子的赵梦、刺猬的石璐、安达组合的其其格玛等),统计结果为 5 位女性成员,并对女性在乐队中所扮演的角色进行了总结 (主唱、贝斯手、鼓手等)。用时不到 1 分钟即完成高质量统计+表格整理,效率高。

image

  OpenAI 也给出了相同的数量,考证细致,但花费近 6 分钟,在交互场景中显得拖沓。

image

  通过以上实测可以看出,DeepSeek R1 的表现非常接近甚至在部分任务上超过了 OpenAI 最新 O3 模型。在代码生成、复杂函数推理、统计等方面,DeepSeek 展现出全面且稳定的进步,正快速缩小与顶级闭源模型的差距。

(科创板日报)

文章转载自东方财富

YOU MAY ALSO LIKE

从展品到商品 寻找全球大宗贸易的 「守护者」

新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施

Search

没有结果
查看所有结果

一周热门

欧盟最新报告,事关乌克兰入盟!俄乌激烈争夺,佩斯科夫称目前未向美方提供最新战场局势图,红军城战事为何持续胶着?

欧盟最新报告,事关乌克兰入盟!俄乌激烈争夺,佩斯科夫称目前未向美方提供最新战场局势图,红军城战事为何持续胶着?

2025 年 11 月 6 日

从展品到商品 寻找全球大宗贸易的 「守护者」

2025 年 11 月 6 日
新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施

新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施

2025 年 11 月 6 日
美联储明晨大概率重启降息 年内将降息几次?

11 月 5 日晚间沪深上市公司重大事项公告最新快递

2025 年 11 月 6 日
美元走强抑制上行空间,黄金维持区间震荡

美元走强抑制上行空间,黄金维持区间震荡

2025 年 11 月 6 日

美国政府 「重开」 曙光初现?两党议员对结束停摆表示乐观

2025 年 11 月 6 日
安吉尔38年重构全屋净饮水市场  以长期主义引领技术、产品、渠道全面升维

安吉尔 38 年重构全屋净饮水市场 以长期主义引领技术、产品、渠道全面升维

2025 年 11 月 6 日

上市公司含 「科」 量进一步提高,关注 A500ETF 易方达 (159361)、科创板 50ETF(588080) 投资机会

2025 年 11 月 6 日

芝商所亚太区董事总经理拉塞尔·贝蒂:中国期货市场应加强与国际的互联互通

2025 年 11 月 6 日
何小鹏:明年目标规模量产高阶人形机器人!Robotaxi也要来了!

何小鹏:明年目标规模量产高阶人形机器人!Robotaxi 也要来了!

2025 年 11 月 6 日
金桂财经

2025 年 11 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
« 10 月    

近期动态

  • 欧盟最新报告,事关乌克兰入盟!俄乌激烈争夺,佩斯科夫称目前未向美方提供最新战场局势图,红军城战事为何持续胶着?
  • 从展品到商品 寻找全球大宗贸易的 「守护者」
  • 新华财经晚报:国务院关税税则委员会停止实施对原产于美国的部分进口商品加征关税措施
  • 11 月 5 日晚间沪深上市公司重大事项公告最新快递
  • 美元走强抑制上行空间,黄金维持区间震荡
  • 美国政府 「重开」 曙光初现?两党议员对结束停摆表示乐观
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }