• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
生猪价格跌至年内新低 行业面临不同程度亏损

Anthropic 半月两发新模型 「史上最强 Sonnet」 剑指智能体 定价仅为旗舰五分之一

2026 年 2 月 18 日
2026年春节档电影总票房破20亿

2026 年春节档电影总票房破 20 亿

2026 年 2 月 18 日

联博基金市场策略负责人李长风:握紧 「基本面」 缰绳 迎向火马奔腾之年

2026 年 2 月 18 日
美国向中东增派18架F-35,伊朗海峡实兵演习;机器人「扎堆」上春晚;阿里正式发布新一代大模型;马斯克:星链很快将在地球之外运行丨每经早参

美国向中东增派 18 架 F-35,伊朗海峡实兵演习;机器人 「扎堆」 上春晚;阿里正式发布新一代大模型;马斯克:星链很快将在地球之外运行丨每经早参

2026 年 2 月 18 日
广告
最新!近几个月来规模最大,美军向中东增派F-35战斗机!伊朗在霍尔木兹海峡举行演习

最新!近几个月来规模最大,美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习

2026 年 2 月 18 日
苹果据称全面提速AI穿戴战:眼镜、吊坠、耳机三路并进

苹果据称全面提速 AI 穿戴战:眼镜、吊坠、耳机三路并进

2026 年 2 月 18 日
生猪价格跌至年内新低 行业面临不同程度亏损

智能门锁鹿客科技递表港交所:小米 ODM 代工收入占比超 60% 现金流由正转负

2026 年 2 月 18 日

抖音副总裁否认字节是恒科指数最大空头

2026 年 2 月 18 日

拉加德任期未届满便要走人?欧洲央行回应

2026 年 2 月 18 日
利空突袭!芯片巨头大跳水!「大牛股」闪迪遭减持

利空突袭!芯片巨头大跳水!「大牛股」 闪迪遭减持

2026 年 2 月 18 日
黄金的旧逻辑已死?下一个引爆点在哪

黄金的旧逻辑已死?下一个引爆点在哪

2026 年 2 月 18 日

苹果春季发布会前瞻:新 iPhone 三千块,新 MacBook 也是三千块?

2026 年 2 月 18 日
苹果,突然官宣!

苹果,突然官宣!

2026 年 2 月 18 日
金桂财经
广告
2026 年 2 月 18 日 星期三
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

Anthropic 半月两发新模型 「史上最强 Sonnet」 剑指智能体 定价仅为旗舰五分之一

来自 金桂财经
2026 年 2 月 18 日
在 24 小时
0

来源:
财联社

  北京时间 2 月 18 日凌晨,Anthropic 悄然发布了其新一代中型模型 Claude Sonnet 4.6。这款被官方称为 「史上最强 Sonnet」 的模型,在多项基准测试中接近 Opus 水平,但价格仅为后者的五分之一。

  此时距离 Anthropic 的旗舰模型 Claude Opus 4.6 发布不到半个月,Claude Opus 4.6 于 2026 年 2 月 5 日正式发布。

  Claude Sonnet 4.6 可以被视为智能体 (Agent) 的理想基础模型。它的设计目标和核心能力升级,正是为了支撑复杂的智能体任务。据介绍,其在计算机使用能力和智能体规划方面表现尤为突出,可以执行需要多个步骤的计算机操作,例如填写网页表单,然后跨多个浏览器标签页协调信息。Anthropic 称:「在操作计算机方面,该模型当然仍落后于最熟练的人类。但尽管如此,其进步速度依然惊人。」 不过,该模型在抵御提示词注入攻击 (Prompt Injection Attacks) 等安全威胁方面表现更好,这类攻击是指通过恶意指令操控 AI 模型。

  Anthropic 预计,到 2029 年将向亚马逊、谷歌和微软支付至少 800 亿美元,以在其云服务器上运行 Claude AI。

  性能跃升逼近 「旗舰级」

  Sonnet 4.6 在编程、计算机操作、长上下文推理、智能体规划等任务处理上有了跨越式提升。Anthropic 公布的基准测试显示,该模型在多项关键指标上已接近甚至超越其 2 月 6 日刚发布的旗舰模型 Opus 4.6。

  在 Agent 金融分析和办公任务 (GDPVal-AA) 两项测评中,Sonnet 4.6 的得分分别达到 63.3% 和 1633 Elo,双双超过 Opus 4.6 的 60.1% 和 1606 Elo。在评估真实世界软件工程能力的 SWE-bench 测试中,其表现同样逼近 Opus 水平。

  模型保留了 100 万 token 的超大上下文窗口 (测试版),这意味着它可以一次性处理整部 《三体》trilogy 级别的代码库或数百页的研究论文。更重要的是,Anthropic 强调 Sonnet 4.6 能够 「有效地在整个上下文中进行推理」,这对于需要长期规划的复杂任务至关重要。

  在计算机使用能力方面,Sonnet 4.6 在 OSWorld 基准测试中取得了 72.5 分,较一年前的 28.0 分实现质的飞跃。早期用户反馈显示,它在处理复杂电子表格、填写多步骤网页表单以及跨浏览器标签协同操作等任务时,已展现出接近人类水平的能力。

  应用场景:从代码重构到企业办公

  Sonnet 4.6 的升级直接转化为广泛的应用场景落地。在编程领域,一位开发者在社交平台 X 上分享了他的惊艳体验:Sonnet 4.6 仅用一次 API 调用就重构了整个代码库——执行了 25 次工具调用,新增 3000 多行代码,创建了 12 个全新文件,将单体应用成功模块化。

  在企业级应用中,Box 公司首席技术官 Ben Kus 证实:「Sonnet 4.6 在深度推理和复杂 Agent 任务上表现出了显著进步,在重度推理 Q&A 任务上比 Sonnet 4.5 提升了 15 个百分点。」 金融科技公司 Hebbia 也报告称,其内部基准测试的答案匹配率出现大幅跃升。

  值得注意的是,Sonnet 4.6 展现出了一种近乎 「战略思考」 的能力。在 Vending-Bench Arena 模拟商业运营的评测中,该模型发展出了一套独特策略:前期重金投资能力建设,最后阶段迅速转向盈利,最终收益远超竞争对手。

  Anthropic 的 「性价比之作」

  Claude Sonnet 4.6 延续了 Sonnet 系列的经济定价策略:每百万 token 输入 3 美元、输出 15 美元,与 Sonnet 4.5 持平。由于性能直接逼近 Opus 级别,对于免费和 Pro 订阅用户,它已成为 claude.ai 和 Claude Cowork 的默认模型。

  AWS 已第一时间宣布 Sonnet 4.6 在 Amazon Bedrock 上架,称其为 「Anthropic 的最强计算机使用模型」。

  市场担忧,Anthropic 这种以低成本提供高性能模型的做法,正在加速 AI 融入真实工作流,并可能重构企业软件的定价模式,这种情绪在短时间内转为焦虑与担忧:AI 是否会颠覆或是直接取代 SaaS 乃至软件行业。

  在与 Opus 4.5 的对比测试里,用户有 59% 的时间更偏好 Sonnet 4.6。开发者普遍认为,Sonnet 4.6 在修改代码前能更有效地读取上下文,整合共享逻辑而非简单复制,并且 「过度工程化更少、幻觉更少、多步骤任务执行更稳」。一位开发者直言:「Claude Sonnet 4.6 以更低的成本实现了接近 Opus 的智能水平,这对预算有限的团队意义非凡。」

  不过,也有部分用户认为 Sonnet 4.6 未达到预期,指出其在编程方面并未全面超越 Opus 4.5,更像是 「Cowork 功能的升级」。

  关于 Anthropic

  Anthropic 由前 OpenAI 研究副总裁达里奥·阿莫迪兄妹于 2021 年创立,核心团队曾参与 GPT-2 和 GPT-3 的早期研发。因对 OpenAI 的发展方向存在分歧,他们离职创办了这家致力于 AI 安全与研究的公司。

  凭借创始人团队的光鲜背景,该公司融资步伐迅猛,自成立以来累计融资额已超 300 亿美元。2026 年 2 月,公司刚完成 300 亿美元 G 轮融资,投后估值飙升至 3800 亿美元,使其成为全球估值第二高的 AI 独角兽,仅次于 OpenAI。本轮融资参与方包括光速创投(Lightspeed Venture Partners)、门洛风险投资 (Menlo Ventures)、摩根士丹利投资 (Morgan Stanley Investment)、NX1 资本 (NX1 Capital) 及卡塔尔投资局 (Qatar Investment Authority)。

  Anthropic 最核心的产品是 Claude 系列大语言模型,按照能力梯队划分为三个层级:

  Claude Opus 系列:旗舰级模型,代表当前最高智能水平。

  Claude Sonnet 系列:性能与成本的平衡之选,也是大众用户接触最多的模型。

  Claude Haiku 系列:轻量级模型,主打快速响应和低成本,适用于实时交互场景。

  基于上述模型,Anthropic 开发了 AI 编程助手 Claude Code 和办公场景智能体 Claude Cowork。Anthropic 的年化营收在 2025 年年底超过 90 亿美元,其中,Claude Code 的年化收入已达 25 亿美元。

(财联社)

文章转载自东方财富

YOU MAY ALSO LIKE

2026 年春节档电影总票房破 20 亿

智能门锁鹿客科技递表港交所:小米 ODM 代工收入占比超 60% 现金流由正转负

Search

没有结果
查看所有结果

一周热门

2026年春节档电影总票房破20亿

2026 年春节档电影总票房破 20 亿

2026 年 2 月 18 日

联博基金市场策略负责人李长风:握紧 「基本面」 缰绳 迎向火马奔腾之年

2026 年 2 月 18 日
美国向中东增派18架F-35,伊朗海峡实兵演习;机器人「扎堆」上春晚;阿里正式发布新一代大模型;马斯克:星链很快将在地球之外运行丨每经早参

美国向中东增派 18 架 F-35,伊朗海峡实兵演习;机器人 「扎堆」 上春晚;阿里正式发布新一代大模型;马斯克:星链很快将在地球之外运行丨每经早参

2026 年 2 月 18 日
最新!近几个月来规模最大,美军向中东增派F-35战斗机!伊朗在霍尔木兹海峡举行演习

最新!近几个月来规模最大,美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习

2026 年 2 月 18 日
苹果据称全面提速AI穿戴战:眼镜、吊坠、耳机三路并进

苹果据称全面提速 AI 穿戴战:眼镜、吊坠、耳机三路并进

2026 年 2 月 18 日
生猪价格跌至年内新低 行业面临不同程度亏损

智能门锁鹿客科技递表港交所:小米 ODM 代工收入占比超 60% 现金流由正转负

2026 年 2 月 18 日

抖音副总裁否认字节是恒科指数最大空头

2026 年 2 月 18 日

拉加德任期未届满便要走人?欧洲央行回应

2026 年 2 月 18 日
利空突袭!芯片巨头大跳水!「大牛股」闪迪遭减持

利空突袭!芯片巨头大跳水!「大牛股」 闪迪遭减持

2026 年 2 月 18 日
黄金的旧逻辑已死?下一个引爆点在哪

黄金的旧逻辑已死?下一个引爆点在哪

2026 年 2 月 18 日
金桂财经

2026 年 2 月
一 二 三 四 五 六 日
 1
2345678
9101112131415
16171819202122
232425262728  
« 1 月    

近期动态

  • 2026 年春节档电影总票房破 20 亿
  • 联博基金市场策略负责人李长风:握紧 「基本面」 缰绳 迎向火马奔腾之年
  • 美国向中东增派 18 架 F-35,伊朗海峡实兵演习;机器人 「扎堆」 上春晚;阿里正式发布新一代大模型;马斯克:星链很快将在地球之外运行丨每经早参
  • 最新!近几个月来规模最大,美军向中东增派 F-35 战斗机!伊朗在霍尔木兹海峡举行演习
  • 苹果据称全面提速 AI 穿戴战:眼镜、吊坠、耳机三路并进
  • 智能门锁鹿客科技递表港交所:小米 ODM 代工收入占比超 60% 现金流由正转负
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }