北京时间 2 月 26 日,美国 AI 头部公司 Anthropic 宣布收购视觉驱动计算机自动化 AI 初创公司 Vercept,补全 Computer Use 功能的视觉短板。这是继 2025 年 12 月收购全栈工具链初创公司 Bun 后,Anthropic 第二笔收购案。
Computer Use 是 Anthropic 为旗下大模型 Claude 打造的 AI 直接操控电脑的核心能力,让 Claude 可以像人一样 「看屏幕、动鼠标、敲键盘、操作软件」,完成多步骤、跨应用的复杂任务,于 2024 年 10 月随 Claude 3.5 Sonnet 一同发布。
但由于模型早期在视觉理解精度、复杂界面识别、动态场景处理方面存在瓶颈,导致 Computer Use 操作成功率低、任务易失败。而 Vercept 在高精度 UI 识别、空间推理、动态界面跟踪、低延迟视觉处理等方面的积累,正好可以补齐上述短板。
据 Anthropic 官方披露,开发者正使用 Claude 来处理越来越复杂的工作,包括编写和运行整个仓库的代码,综合数十个来源的研究,管理跨多个工具和团队的工作流程等。Computer Use 能让 Claude 像人坐在电脑前一样,在各种软件里实时操作,完成很多只靠代码搞不定的多步骤任务。此次收购 Vercept 能够帮助公司进一步提升这些能力。
Vercept 总部位于美国西雅图,由艾伦人工智能研究所 (Allen Institute for AI,AI2) 校友创立,定位视觉优先 (Vision first) 的 AI Agent,主打 「像人一样看屏幕、操控电脑」 的无 API 自动化。核心团队成员分别负责机器人与具身智能、AI Agent 与强化学习等方向。
基于技术积累与创始团队背景,Vercept 在 2025 年 1 月完成 1600 万美元的种子轮融资,估值约 6700 万美元,投资人名单包括前谷歌 CEO 埃里克·施密特、谷歌 DeepMind 首席科学家杰夫·迪恩、Cruise 创始人凯尔·沃格特等人。后续 Vercept 筹集资金总额约 5000 万美元。
Anthropic 认为 Vercept 在感知与交互方面的专业知识,可直接适用于 Anthropic 正在处理的一些棘手问题。Vercept 桌面应用 Vy 将在 30 天内关闭,作为过渡的一部分,Vercept 鼓励用户在服务结束期间尝试 Anthropic 的 Claude 工具作为替代方案。
谈及此项收购考量,Vercept 联合创始人卢卡·韦斯 (Luca Weihs) 表示,未来,Claude 完成知识型工作任务的能力将与它今天编写代码的水平相当,这意味着人们与计算机的交互方式可能会发生根本性改变,以确保这种交互体验与底层模型一样重要。
该项收购案反映出在打造能够操控电脑和其他设备、为用户完成任务的 AI Agent 赛道竞争日益激烈。除了 Anthropic,OpenAI 也在积极布局。2 月中旬,OpenClaw 创始人彼得·斯坦伯格 (Peter Steinberger) 宣布全职加入 OpenAI,负责下一代个人 AI Agent 开发。OpenClaw 项目并未被 OpenAI 收购、不并入公司,而是转入独立开源基金会,继续保持 MIT 开源协议与社区自治。OpenAI 为其提供资金、技术与模型资源赞助,但不拥有,也不控制项目决策。通过 「人才引入」 的方式,补齐 OpenAI 在个人端 AI Agent 方面的落地能力,对冲 Anthropic 在企业级 Agent 上的领先优势。
虽然操作方式有差异,但本质上是两家公司对 AI Agent 赛道的下注。Anthropic 创始人达里奥·阿莫迪 (Dario Amodei) 近期在一档访谈中表示,AI 演进的终极形态不是文本生成器,而是拥有计算机通用控制权 (Computer Use) 的闭环执行系统。它能像人类一样通过观察屏幕、查阅历史、理解上下文并跨平台协作,完成视频编辑、软件工程等复杂生产任务。
而目前行业的主要障碍在他看来不是智力,而是交互可靠性——即模型能力已足够强,但稳定、准确、不出错地完成一项任务,仍有不足。未来一至三年,AI 将通过长上下文管理与计算机视觉控制的结合,解决大部分需要 「在职学习」(On-the-job Learning) 的岗位需求。
(第一财经)
文章转载自 东方财富