• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
在9.11和9.8谁更大上 OpenAI最新的大模型OpenAI o1也翻车了

在 9.11 和 9.8 谁更大上 OpenAI 最新的大模型 OpenAI o1 也翻车了

2024 年 9 月 13 日
10策前瞻 11月大类资产配置如何抢占先机?

10 策前瞻 11 月大类资产配置如何抢占先机?

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

近 4 万亿 「国家队」 持仓曝光:重仓金融 不忘加码科技

2025 年 11 月 5 日

科技回调或迎布局机会,科创板 50ETF(588080) 连续 4 个交易日获资金净流入

2025 年 11 月 5 日
广告
11月在产蛋鸡存栏量或小幅增加 供应充裕蛋价仍将受压

11 月在产蛋鸡存栏量或小幅增加 供应充裕蛋价仍将受压

2025 年 11 月 5 日

华尔街顶尖 CEO 集体警告:美股估值偏高,恐出现 10% 以上的回调!

2025 年 11 月 5 日
【新华500】新华500指数(989001)5日涨0.2%

【新华 500】 新华 500 指数 (989001)5 日涨 0.2%

2025 年 11 月 5 日
36天,美国联邦政府「停摆」创纪录!航空濒临关闭,军饷发放困难,债务增超6000亿美元......

36 天,美国联邦政府 「停摆」 创纪录!航空濒临关闭,军饷发放困难,债务增超 6000 亿美元......

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

公募新规新动态!两类 「基准库」 出炉 「投资之锚」 每半年动态调整

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

国际金融机构热议中国投资机遇:中国股市规模庞大 「不容忽视」

2025 年 11 月 5 日
供大于求格局延续 尿素价格短期继续弱稳承压运行

供大于求格局延续 尿素价格短期继续弱稳承压运行

2025 年 11 月 5 日

十倍股*ST 亚振大起底:「先知先觉」 资金提前一年大量扫货,控制权变更、收购矿产刺激股价暴涨!

2025 年 11 月 5 日
税收新政鼓励场内交易 黄金ETF又要「火」了?

税收新政鼓励场内交易 黄金 ETF 又要 「火」 了?

2025 年 11 月 5 日
金桂财经
广告
2025 年 11 月 5 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

在 9.11 和 9.8 谁更大上 OpenAI 最新的大模型 OpenAI o1 也翻车了

来自 金桂财经
2024 年 9 月 13 日
在 外汇
0


【金桂财经】9 月 13 日消息,据外媒报道,在今年 7 月份,也就是在 OpenAI 推出新一代旗舰大模型 GPT-4o 之后约两个月,国外有用户在社交媒体上爆料称自己在 ChatGPT 4o 上询问 9.11 和 9.9 哪一个大 (9.11and9.9—which is bigger?) 时, ChatGPT 4o 笃定的回答 9.11 比 9.9 大 (9.11 is bigger than 9.9),OpenAI 当时最强模型 GPT-4o 加持下的 ChatGPT 4o,在这一问题上给出如此离奇的回答也让外界震惊不已。 

YOU MAY ALSO LIKE

拨款法案再次 「闯关」 失败 美政府即将刷新 「停摆」 纪录

美国参议院未通过拨款法案 联邦政府 「停摆」 将破纪录

而随后有用户的测试发现,不只是 GPT-4o 加持下的 ChatGPT 4o,谷歌 Gemini Advanced、Claude 3.5 Sonnet 这两款国外知名的大模型在这一问题上也相继翻车,国内也有多家厂商的大模型未能幸免。

除了 9.11 和 9.9,也有相关媒体对其他的数字进行测试,比如 9.11 和 9.8,结果显示也有多家厂商的大模型翻车。

在 OpenAI 当地时间周四推出较以往的模型更注重推理,在奥数、编程竞赛中的表现都远强于 GPT-4o 的 OpenAI o1 系列大模型之后,也有好奇的用户再次对这一问题进行了测试。

但让人意外的是,号称有更强推理能力、数学和编程方面表现出色的 OpenAI o1,也未能避免翻车。

有测试显示,在询问 9.11 和 9.8 谁更大这一问题时,OpenAI o1 预览版在经过 14 秒的思考后,还是给出了 9.11 更大的结果,而给出的原因竟是因为 9.11 比 9.8 大。

就显示的内容来看,OpenAI o1 预览版在比较 9.11 和 9.8 谁更大时,进行了比较数值大小、对比数值大小、对比大小、比较两个数值这 4 个方面的思考,但除了对比数值大小、对比大小是 9.8 大于 9.11,另外两个方面都是 9.11 大于 9.8。不过在对比数值大小这一项中,显示的是 「蒙特认为 9.8 大于 9.11,9.8 显示出数学上的优越性。」(海蓝)



Search

没有结果
查看所有结果

一周热门

10策前瞻 11月大类资产配置如何抢占先机?

10 策前瞻 11 月大类资产配置如何抢占先机?

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

近 4 万亿 「国家队」 持仓曝光:重仓金融 不忘加码科技

2025 年 11 月 5 日

科技回调或迎布局机会,科创板 50ETF(588080) 连续 4 个交易日获资金净流入

2025 年 11 月 5 日
11月在产蛋鸡存栏量或小幅增加 供应充裕蛋价仍将受压

11 月在产蛋鸡存栏量或小幅增加 供应充裕蛋价仍将受压

2025 年 11 月 5 日

华尔街顶尖 CEO 集体警告:美股估值偏高,恐出现 10% 以上的回调!

2025 年 11 月 5 日
【新华500】新华500指数(989001)5日涨0.2%

【新华 500】 新华 500 指数 (989001)5 日涨 0.2%

2025 年 11 月 5 日
36天,美国联邦政府「停摆」创纪录!航空濒临关闭,军饷发放困难,债务增超6000亿美元......

36 天,美国联邦政府 「停摆」 创纪录!航空濒临关闭,军饷发放困难,债务增超 6000 亿美元......

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

公募新规新动态!两类 「基准库」 出炉 「投资之锚」 每半年动态调整

2025 年 11 月 5 日
美联储明晨大概率重启降息 年内将降息几次?

国际金融机构热议中国投资机遇:中国股市规模庞大 「不容忽视」

2025 年 11 月 5 日
供大于求格局延续 尿素价格短期继续弱稳承压运行

供大于求格局延续 尿素价格短期继续弱稳承压运行

2025 年 11 月 5 日
金桂财经

2025 年 11 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
« 10 月    

近期动态

  • 10 策前瞻 11 月大类资产配置如何抢占先机?
  • 近 4 万亿 「国家队」 持仓曝光:重仓金融 不忘加码科技
  • 科技回调或迎布局机会,科创板 50ETF(588080) 连续 4 个交易日获资金净流入
  • 11 月在产蛋鸡存栏量或小幅增加 供应充裕蛋价仍将受压
  • 华尔街顶尖 CEO 集体警告:美股估值偏高,恐出现 10% 以上的回调!
  • 【新华 500】 新华 500 指数 (989001)5 日涨 0.2%
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }