Anthropic 半月两发新模型「史上最强 Sonnet」剑指智能体定价仅为旗舰五分之一

来源：
财联社

　　北京时间 2 月 18 日凌晨，Anthropic 悄然发布了其新一代中型模型 Claude Sonnet 4.6。这款被官方称为「史上最强 Sonnet」的模型，在多项基准测试中接近 Opus 水平，但价格仅为后者的五分之一。

　　此时距离 Anthropic 的旗舰模型 Claude Opus 4.6 发布不到半个月，Claude Opus 4.6 于 2026 年 2 月 5 日正式发布。

　　Claude Sonnet 4.6 可以被视为智能体（Agent）的理想基础模型。它的设计目标和核心能力升级，正是为了支撑复杂的智能体任务。据介绍，其在计算机使用能力和智能体规划方面表现尤为突出，可以执行需要多个步骤的计算机操作，例如填写网页表单，然后跨多个浏览器标签页协调信息。Anthropic 称：「在操作计算机方面，该模型当然仍落后于最熟练的人类。但尽管如此，其进步速度依然惊人。」不过，该模型在抵御提示词注入攻击（Prompt Injection Attacks）等安全威胁方面表现更好，这类攻击是指通过恶意指令操控 AI 模型。

　　Anthropic 预计，到 2029 年将向亚马逊、谷歌和微软支付至少 800 亿美元，以在其云服务器上运行 Claude AI。

　　性能跃升逼近「旗舰级」

　　Sonnet 4.6 在编程、计算机操作、长上下文推理、智能体规划等任务处理上有了跨越式提升。Anthropic 公布的基准测试显示，该模型在多项关键指标上已接近甚至超越其 2 月 6 日刚发布的旗舰模型 Opus 4.6。

　　在 Agent 金融分析和办公任务（GDPVal-AA）两项测评中，Sonnet 4.6 的得分分别达到 63.3% 和 1633 Elo，双双超过 Opus 4.6 的 60.1% 和 1606 Elo。在评估真实世界软件工程能力的 SWE-bench 测试中，其表现同样逼近 Opus 水平。

　　模型保留了 100 万 token 的超大上下文窗口（测试版），这意味着它可以一次性处理整部《三体》trilogy 级别的代码库或数百页的研究论文。更重要的是，Anthropic 强调 Sonnet 4.6 能够「有效地在整个上下文中进行推理」，这对于需要长期规划的复杂任务至关重要。

　　在计算机使用能力方面，Sonnet 4.6 在 OSWorld 基准测试中取得了 72.5 分，较一年前的 28.0 分实现质的飞跃。早期用户反馈显示，它在处理复杂电子表格、填写多步骤网页表单以及跨浏览器标签协同操作等任务时，已展现出接近人类水平的能力。

　　应用场景：从代码重构到企业办公

　　Sonnet 4.6 的升级直接转化为广泛的应用场景落地。在编程领域，一位开发者在社交平台 X 上分享了他的惊艳体验：Sonnet 4.6 仅用一次 API 调用就重构了整个代码库——执行了 25 次工具调用，新增 3000 多行代码，创建了 12 个全新文件，将单体应用成功模块化。

　　在企业级应用中，Box 公司首席技术官 Ben Kus 证实：「Sonnet 4.6 在深度推理和复杂 Agent 任务上表现出了显著进步，在重度推理 Q&A 任务上比 Sonnet 4.5 提升了 15 个百分点。」金融科技公司 Hebbia 也报告称，其内部基准测试的答案匹配率出现大幅跃升。

　　值得注意的是，Sonnet 4.6 展现出了一种近乎「战略思考」的能力。在 Vending-Bench Arena 模拟商业运营的评测中，该模型发展出了一套独特策略：前期重金投资能力建设，最后阶段迅速转向盈利，最终收益远超竞争对手。

　　Anthropic 的「性价比之作」

　　Claude Sonnet 4.6 延续了 Sonnet 系列的经济定价策略：每百万 token 输入 3 美元、输出 15 美元，与 Sonnet 4.5 持平。由于性能直接逼近 Opus 级别，对于免费和 Pro 订阅用户，它已成为 claude.ai 和 Claude Cowork 的默认模型。

　　AWS 已第一时间宣布 Sonnet 4.6 在 Amazon Bedrock 上架，称其为「Anthropic 的最强计算机使用模型」。

　　市场担忧，Anthropic 这种以低成本提供高性能模型的做法，正在加速 AI 融入真实工作流，并可能重构企业软件的定价模式，这种情绪在短时间内转为焦虑与担忧：AI 是否会颠覆或是直接取代 SaaS 乃至软件行业。

　　在与 Opus 4.5 的对比测试里，用户有 59% 的时间更偏好 Sonnet 4.6。开发者普遍认为，Sonnet 4.6 在修改代码前能更有效地读取上下文，整合共享逻辑而非简单复制，并且「过度工程化更少、幻觉更少、多步骤任务执行更稳」。一位开发者直言：「Claude Sonnet 4.6 以更低的成本实现了接近 Opus 的智能水平，这对预算有限的团队意义非凡。」

　　不过，也有部分用户认为 Sonnet 4.6 未达到预期，指出其在编程方面并未全面超越 Opus 4.5，更像是「Cowork 功能的升级」。

　　关于 Anthropic

　　Anthropic 由前 OpenAI 研究副总裁达里奥·阿莫迪兄妹于 2021 年创立，核心团队曾参与 GPT-2 和 GPT-3 的早期研发。因对 OpenAI 的发展方向存在分歧，他们离职创办了这家致力于 AI 安全与研究的公司。

　　凭借创始人团队的光鲜背景，该公司融资步伐迅猛，自成立以来累计融资额已超 300 亿美元。2026 年 2 月，公司刚完成 300 亿美元 G 轮融资，投后估值飙升至 3800 亿美元，使其成为全球估值第二高的 AI 独角兽，仅次于 OpenAI。本轮融资参与方包括光速创投（Lightspeed Venture Partners）、门洛风险投资（Menlo Ventures）、摩根士丹利投资（Morgan Stanley Investment）、NX1 资本（NX1 Capital）及卡塔尔投资局（Qatar Investment Authority）。

　　Anthropic 最核心的产品是 Claude 系列大语言模型，按照能力梯队划分为三个层级：

　　Claude Opus 系列：旗舰级模型，代表当前最高智能水平。

　　Claude Sonnet 系列：性能与成本的平衡之选，也是大众用户接触最多的模型。

　　Claude Haiku 系列：轻量级模型，主打快速响应和低成本，适用于实时交互场景。

　　基于上述模型，Anthropic 开发了 AI 编程助手 Claude Code 和办公场景智能体 Claude Cowork。Anthropic 的年化营收在 2025 年年底超过 90 亿美元，其中，Claude Code 的年化收入已达 25 亿美元。

（财联社）

文章转载自东方财富