• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
「9.11和9.9谁大」难倒了国外三大旗舰模型,国内模型表现如何?

「9.11 和 9.9 谁大」 难倒了国外三大旗舰模型,国内模型表现如何?

2024 年 7 月 17 日

「大空头」 伯里已出手:11 亿空单瞄准两大 AI 巨头!

2025 年 11 月 5 日
钍基熔盐龙头三连板 近10家A股上市公司回应相关业务情况

钍基熔盐龙头三连板 近 10 家 A 股上市公司回应相关业务情况

2025 年 11 月 5 日

市场缩量调整,关注 A500ETF 易方达 (159361)、沪深 300ETF 易方达 (510310) 等产品后续走势

2025 年 11 月 5 日
广告
11月5日美市更新支撑阻力:18品种支撑阻力(金银铂钯原油天然气铜及十大货币对)

11 月 5 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)

2025 年 11 月 5 日
京东第一辆车下线,最快53秒生产一辆车!此前,001号车拍出7819万元「天价」

京东第一辆车下线,最快 53 秒生产一辆车!此前,001 号车拍出 7819 万元 「天价」

2025 年 11 月 5 日

收评:主要股指低开高走 电网设备和海南板块涨幅靠前

2025 年 11 月 5 日

IAC 称谷歌 AI 概览成广告收入 「杀手」,股价大跌

2025 年 11 月 5 日

瑞银财富管理:税收新规或加速中国黄金交易集中化 继续看好金价后市表现

2025 年 11 月 5 日
于东来最新发文:胖东来没有规模发展规划、更没有上市规划,不会专注于与同行对手竞争!曾称开设收费学习交流活动

于东来最新发文:胖东来没有规模发展规划、更没有上市规划,不会专注于与同行对手竞争!曾称开设收费学习交流活动

2025 年 11 月 5 日
10策前瞻 11月大类资产配置如何抢占先机?

10 策前瞻 11 月大类资产配置如何抢占先机?

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

近 4 万亿 「国家队」 持仓曝光:重仓金融 不忘加码科技

2025 年 11 月 5 日

科技回调或迎布局机会,科创板 50ETF(588080) 连续 4 个交易日获资金净流入

2025 年 11 月 5 日
金桂财经
广告
2025 年 11 月 5 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

「9.11 和 9.9 谁大」 难倒了国外三大旗舰模型,国内模型表现如何?

来自 金桂财经
2024 年 7 月 17 日
在 外汇
0


【TechWeb】7 月 17 日消息,一句 「9.11and9.9—which is bigger?」,问倒了国外三大旗舰大模型,同样问题问一遍国产旗舰大模型们,它们反应又如何呢?

YOU MAY ALSO LIKE

拨款法案再次 「闯关」 失败 美政府即将刷新 「停摆」 纪录

美国参议院未通过拨款法案 联邦政府 「停摆」 将破纪录

近日,海外社交平台 X 上有人曝出了自己在 ChatGPT 4o 上询问 「9.11and9.9—which is bigger?」(9.11 和 9.9 哪个大?) 时,ChatGPT 4o 笃定的回答 「9.11 is bigger than 9.9.」(9.11 比 9.9 大)。能作文、能翻译、能读图……这么厉害的 GPT-4o 大模型居然被绊倒在这么简单的 「比大小」 问题上,这一下把大伙儿给整不会了。

于是,X 上大伙儿都开始各种测试,发现不仅 ChatGPT 4o 不行,谷歌 Gemini Advanced、Claude 3.5 Sonnet 这些 SOTA 模型王者在这题上都翻车了!

这一波风也吹到了国内,网友们就好奇,用国内大模型来解这题,结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的 Kimi,好未来九章大模型 9 款大模型全拉来答题。

这一波问下了,发现大厂的大模型 C 端产品腾讯元宝、阿里通义、字节豆包、百度文心一言,还有好未来的数学大模型九章都答对了。

但是,几款创业公司的大模型 C 端产品百小应、智谱清言、Kimi、万知都认为 「9.11 大于 9.9」。

在 「9.11 和 9.9 谁大」 这题上 ,国内大厂模型完胜创业公司模型了,也完胜国外三大旗舰模型。

具体看看各家表现:

Kimi 回答翻车

智谱清言回答错误,给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了 「9.11 大于 9.9」 的离谱答案。

九章大模型回答正确,也给出正确的分析过程:

以下,文心一言、通义、元宝、豆包都答对了,并且分析过程正确:



Search

没有结果
查看所有结果

一周热门

「大空头」 伯里已出手:11 亿空单瞄准两大 AI 巨头!

2025 年 11 月 5 日
钍基熔盐龙头三连板 近10家A股上市公司回应相关业务情况

钍基熔盐龙头三连板 近 10 家 A 股上市公司回应相关业务情况

2025 年 11 月 5 日

市场缩量调整,关注 A500ETF 易方达 (159361)、沪深 300ETF 易方达 (510310) 等产品后续走势

2025 年 11 月 5 日
11月5日美市更新支撑阻力:18品种支撑阻力(金银铂钯原油天然气铜及十大货币对)

11 月 5 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)

2025 年 11 月 5 日
京东第一辆车下线,最快53秒生产一辆车!此前,001号车拍出7819万元「天价」

京东第一辆车下线,最快 53 秒生产一辆车!此前,001 号车拍出 7819 万元 「天价」

2025 年 11 月 5 日

收评:主要股指低开高走 电网设备和海南板块涨幅靠前

2025 年 11 月 5 日

IAC 称谷歌 AI 概览成广告收入 「杀手」,股价大跌

2025 年 11 月 5 日

瑞银财富管理:税收新规或加速中国黄金交易集中化 继续看好金价后市表现

2025 年 11 月 5 日
于东来最新发文:胖东来没有规模发展规划、更没有上市规划,不会专注于与同行对手竞争!曾称开设收费学习交流活动

于东来最新发文:胖东来没有规模发展规划、更没有上市规划,不会专注于与同行对手竞争!曾称开设收费学习交流活动

2025 年 11 月 5 日
10策前瞻 11月大类资产配置如何抢占先机?

10 策前瞻 11 月大类资产配置如何抢占先机?

2025 年 11 月 5 日
金桂财经

2025 年 11 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
« 10 月    

近期动态

  • 「大空头」 伯里已出手:11 亿空单瞄准两大 AI 巨头!
  • 钍基熔盐龙头三连板 近 10 家 A 股上市公司回应相关业务情况
  • 市场缩量调整,关注 A500ETF 易方达 (159361)、沪深 300ETF 易方达 (510310) 等产品后续走势
  • 11 月 5 日美市更新支撑阻力:18 品种支撑阻力 (金银铂钯原油天然气铜及十大货币对)
  • 京东第一辆车下线,最快 53 秒生产一辆车!此前,001 号车拍出 7819 万元 「天价」
  • 收评:主要股指低开高走 电网设备和海南板块涨幅靠前
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }