来源:
财联社
北京时间 2 月 18 日凌晨,Anthropic 悄然发布了其新一代中型模型 Claude Sonnet 4.6。这款被官方称为 「史上最强 Sonnet」 的模型,在多项基准测试中接近 Opus 水平,但价格仅为后者的五分之一。
此时距离 Anthropic 的旗舰模型 Claude Opus 4.6 发布不到半个月,Claude Opus 4.6 于 2026 年 2 月 5 日正式发布。
Claude Sonnet 4.6 可以被视为智能体 (Agent) 的理想基础模型。它的设计目标和核心能力升级,正是为了支撑复杂的智能体任务。据介绍,其在计算机使用能力和智能体规划方面表现尤为突出,可以执行需要多个步骤的计算机操作,例如填写网页表单,然后跨多个浏览器标签页协调信息。Anthropic 称:「在操作计算机方面,该模型当然仍落后于最熟练的人类。但尽管如此,其进步速度依然惊人。」 不过,该模型在抵御提示词注入攻击 (Prompt Injection Attacks) 等安全威胁方面表现更好,这类攻击是指通过恶意指令操控 AI 模型。
Anthropic 预计,到 2029 年将向亚马逊、谷歌和微软支付至少 800 亿美元,以在其云服务器上运行 Claude AI。

性能跃升逼近 「旗舰级」
Sonnet 4.6 在编程、计算机操作、长上下文推理、智能体规划等任务处理上有了跨越式提升。Anthropic 公布的基准测试显示,该模型在多项关键指标上已接近甚至超越其 2 月 6 日刚发布的旗舰模型 Opus 4.6。
在 Agent 金融分析和办公任务 (GDPVal-AA) 两项测评中,Sonnet 4.6 的得分分别达到 63.3% 和 1633 Elo,双双超过 Opus 4.6 的 60.1% 和 1606 Elo。在评估真实世界软件工程能力的 SWE-bench 测试中,其表现同样逼近 Opus 水平。
模型保留了 100 万 token 的超大上下文窗口 (测试版),这意味着它可以一次性处理整部 《三体》trilogy 级别的代码库或数百页的研究论文。更重要的是,Anthropic 强调 Sonnet 4.6 能够 「有效地在整个上下文中进行推理」,这对于需要长期规划的复杂任务至关重要。
在计算机使用能力方面,Sonnet 4.6 在 OSWorld 基准测试中取得了 72.5 分,较一年前的 28.0 分实现质的飞跃。早期用户反馈显示,它在处理复杂电子表格、填写多步骤网页表单以及跨浏览器标签协同操作等任务时,已展现出接近人类水平的能力。
应用场景:从代码重构到企业办公
Sonnet 4.6 的升级直接转化为广泛的应用场景落地。在编程领域,一位开发者在社交平台 X 上分享了他的惊艳体验:Sonnet 4.6 仅用一次 API 调用就重构了整个代码库——执行了 25 次工具调用,新增 3000 多行代码,创建了 12 个全新文件,将单体应用成功模块化。
在企业级应用中,Box 公司首席技术官 Ben Kus 证实:「Sonnet 4.6 在深度推理和复杂 Agent 任务上表现出了显著进步,在重度推理 Q&A 任务上比 Sonnet 4.5 提升了 15 个百分点。」 金融科技公司 Hebbia 也报告称,其内部基准测试的答案匹配率出现大幅跃升。
值得注意的是,Sonnet 4.6 展现出了一种近乎 「战略思考」 的能力。在 Vending-Bench Arena 模拟商业运营的评测中,该模型发展出了一套独特策略:前期重金投资能力建设,最后阶段迅速转向盈利,最终收益远超竞争对手。
Anthropic 的 「性价比之作」
Claude Sonnet 4.6 延续了 Sonnet 系列的经济定价策略:每百万 token 输入 3 美元、输出 15 美元,与 Sonnet 4.5 持平。由于性能直接逼近 Opus 级别,对于免费和 Pro 订阅用户,它已成为 claude.ai 和 Claude Cowork 的默认模型。
AWS 已第一时间宣布 Sonnet 4.6 在 Amazon Bedrock 上架,称其为 「Anthropic 的最强计算机使用模型」。
市场担忧,Anthropic 这种以低成本提供高性能模型的做法,正在加速 AI 融入真实工作流,并可能重构企业软件的定价模式,这种情绪在短时间内转为焦虑与担忧:AI 是否会颠覆或是直接取代 SaaS 乃至软件行业。
在与 Opus 4.5 的对比测试里,用户有 59% 的时间更偏好 Sonnet 4.6。开发者普遍认为,Sonnet 4.6 在修改代码前能更有效地读取上下文,整合共享逻辑而非简单复制,并且 「过度工程化更少、幻觉更少、多步骤任务执行更稳」。一位开发者直言:「Claude Sonnet 4.6 以更低的成本实现了接近 Opus 的智能水平,这对预算有限的团队意义非凡。」
不过,也有部分用户认为 Sonnet 4.6 未达到预期,指出其在编程方面并未全面超越 Opus 4.5,更像是 「Cowork 功能的升级」。
关于 Anthropic
Anthropic 由前 OpenAI 研究副总裁达里奥·阿莫迪兄妹于 2021 年创立,核心团队曾参与 GPT-2 和 GPT-3 的早期研发。因对 OpenAI 的发展方向存在分歧,他们离职创办了这家致力于 AI 安全与研究的公司。
凭借创始人团队的光鲜背景,该公司融资步伐迅猛,自成立以来累计融资额已超 300 亿美元。2026 年 2 月,公司刚完成 300 亿美元 G 轮融资,投后估值飙升至 3800 亿美元,使其成为全球估值第二高的 AI 独角兽,仅次于 OpenAI。本轮融资参与方包括光速创投(Lightspeed Venture Partners)、门洛风险投资 (Menlo Ventures)、摩根士丹利投资 (Morgan Stanley Investment)、NX1 资本 (NX1 Capital) 及卡塔尔投资局 (Qatar Investment Authority)。
Anthropic 最核心的产品是 Claude 系列大语言模型,按照能力梯队划分为三个层级:
Claude Opus 系列:旗舰级模型,代表当前最高智能水平。
Claude Sonnet 系列:性能与成本的平衡之选,也是大众用户接触最多的模型。
Claude Haiku 系列:轻量级模型,主打快速响应和低成本,适用于实时交互场景。
基于上述模型,Anthropic 开发了 AI 编程助手 Claude Code 和办公场景智能体 Claude Cowork。Anthropic 的年化营收在 2025 年年底超过 90 亿美元,其中,Claude Code 的年化收入已达 25 亿美元。
(财联社)
文章转载自东方财富



