• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
「9.11和9.9谁大」难倒了国外三大旗舰模型,国内模型表现如何?

「9.11 和 9.9 谁大」 难倒了国外三大旗舰模型,国内模型表现如何?

2024 年 7 月 17 日

全市场唯一煤炭 ETF(515220) 近 5 日吸金超 2.6 亿元,资金积极布局煤炭机会

2025 年 9 月 10 日

美能源部长质疑 2050 年净零排放计划:不切实际 注定要失败

2025 年 9 月 10 日

我国新能源汽车产销量连续 10 年保持全球第一

2025 年 9 月 10 日
广告
9月9日美市更新支撑阻力:18品种支撑阻力(金银铂钯原油天然气铜及十大货币对)

9 月 9 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)

2025 年 9 月 10 日
商品日报(9月9日):铁矿石逆势上涨超2% 多晶硅午后跳水超5%

商品日报 (9 月 9 日):铁矿石逆势上涨超 2% 多晶硅午后跳水超 5%

2025 年 9 月 10 日

9 月 9 日国内四大证券报纸、重要财经媒体头版头条内容精华摘要

2025 年 9 月 10 日
降息倒计时,摩根大通警告:美股当心「利好出尽」,应增持黄金

降息倒计时,摩根大通警告:美股当心 「利好出尽」,应增持黄金

2025 年 9 月 9 日
韩国确认:将对中国团体游客试行免签

韩国确认:将对中国团体游客试行免签

2025 年 9 月 9 日
北交所对拟IPO企业进行多轮递进式问询 严查业绩「含金量」及募投可行性

北交所对拟 IPO 企业进行多轮递进式问询 严查业绩 「含金量」 及募投可行性

2025 年 9 月 9 日

8 月物价数据前瞻:CPI 或受食品价格拖累 PPI 或进入回升周期

2025 年 9 月 9 日

化工龙头 ETF(516220) 连续 5 日迎净流入,机构:反内卷有望重估中国化工行业

2025 年 9 月 9 日
人民币对美元即期汇率盘中创10个月新高 为何走强?后续如何走?

人民币对美元即期汇率盘中创 10 个月新高 为何走强?后续如何走?

2025 年 9 月 9 日
金桂财经
广告
2025 年 9 月 10 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

「9.11 和 9.9 谁大」 难倒了国外三大旗舰模型,国内模型表现如何?

来自 金桂财经
2024 年 7 月 17 日
在 外汇
0


【TechWeb】7 月 17 日消息,一句 「9.11and9.9—which is bigger?」,问倒了国外三大旗舰大模型,同样问题问一遍国产旗舰大模型们,它们反应又如何呢?

YOU MAY ALSO LIKE

人民币对美元即期汇率盘中创 10 个月新高 为何走强?后续如何走?

「黑天鹅」 突袭!印尼遭遇 「股债汇三杀」 外资正加速逃离

近日,海外社交平台 X 上有人曝出了自己在 ChatGPT 4o 上询问 「9.11and9.9—which is bigger?」(9.11 和 9.9 哪个大?) 时,ChatGPT 4o 笃定的回答 「9.11 is bigger than 9.9.」(9.11 比 9.9 大)。能作文、能翻译、能读图……这么厉害的 GPT-4o 大模型居然被绊倒在这么简单的 「比大小」 问题上,这一下把大伙儿给整不会了。

于是,X 上大伙儿都开始各种测试,发现不仅 ChatGPT 4o 不行,谷歌 Gemini Advanced、Claude 3.5 Sonnet 这些 SOTA 模型王者在这题上都翻车了!

这一波风也吹到了国内,网友们就好奇,用国内大模型来解这题,结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的 Kimi,好未来九章大模型 9 款大模型全拉来答题。

这一波问下了,发现大厂的大模型 C 端产品腾讯元宝、阿里通义、字节豆包、百度文心一言,还有好未来的数学大模型九章都答对了。

但是,几款创业公司的大模型 C 端产品百小应、智谱清言、Kimi、万知都认为 「9.11 大于 9.9」。

在 「9.11 和 9.9 谁大」 这题上 ,国内大厂模型完胜创业公司模型了,也完胜国外三大旗舰模型。

具体看看各家表现:

Kimi 回答翻车

智谱清言回答错误,给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了 「9.11 大于 9.9」 的离谱答案。

九章大模型回答正确,也给出正确的分析过程:

以下,文心一言、通义、元宝、豆包都答对了,并且分析过程正确:



Search

没有结果
查看所有结果

一周热门

全市场唯一煤炭 ETF(515220) 近 5 日吸金超 2.6 亿元,资金积极布局煤炭机会

2025 年 9 月 10 日

美能源部长质疑 2050 年净零排放计划:不切实际 注定要失败

2025 年 9 月 10 日

我国新能源汽车产销量连续 10 年保持全球第一

2025 年 9 月 10 日
9月9日美市更新支撑阻力:18品种支撑阻力(金银铂钯原油天然气铜及十大货币对)

9 月 9 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)

2025 年 9 月 10 日
商品日报(9月9日):铁矿石逆势上涨超2% 多晶硅午后跳水超5%

商品日报 (9 月 9 日):铁矿石逆势上涨超 2% 多晶硅午后跳水超 5%

2025 年 9 月 10 日

9 月 9 日国内四大证券报纸、重要财经媒体头版头条内容精华摘要

2025 年 9 月 10 日
降息倒计时,摩根大通警告:美股当心「利好出尽」,应增持黄金

降息倒计时,摩根大通警告:美股当心 「利好出尽」,应增持黄金

2025 年 9 月 9 日
韩国确认:将对中国团体游客试行免签

韩国确认:将对中国团体游客试行免签

2025 年 9 月 9 日
北交所对拟IPO企业进行多轮递进式问询 严查业绩「含金量」及募投可行性

北交所对拟 IPO 企业进行多轮递进式问询 严查业绩 「含金量」 及募投可行性

2025 年 9 月 9 日

8 月物价数据前瞻:CPI 或受食品价格拖累 PPI 或进入回升周期

2025 年 9 月 9 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 全市场唯一煤炭 ETF(515220) 近 5 日吸金超 2.6 亿元,资金积极布局煤炭机会
  • 美能源部长质疑 2050 年净零排放计划:不切实际 注定要失败
  • 我国新能源汽车产销量连续 10 年保持全球第一
  • 9 月 9 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)
  • 商品日报 (9 月 9 日):铁矿石逆势上涨超 2% 多晶硅午后跳水超 5%
  • 9 月 9 日国内四大证券报纸、重要财经媒体头版头条内容精华摘要
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }