号称「AI 打工人」的 OpenClaw 值得用吗？每经深度实测：找不到文件、搜索报错、发邮件卡死！专家：远非生产力工具

《每日经济新闻》记者联合科技人员对 AI 工具 OpenClaw 展开实测，接入六款大模型测试其完成任务能力。结果显示，GPT-5-mini、MiniMax-M2.5、智谱 GLM-4.7 表现相对更好，但也存在操控浏览器困难等问题。业内认为，OpenClaw 能力上限取决于大模型，且存在高门槛、高成本和高风险问题，目前难以走向普通用户。

每经记者｜岳楚鹏每经科技骆方平每经编辑｜王嘉琦兰素英

埃斯顿通过港交所聆讯；建滔集团预计 2025 年录得纯利同比增长超 165% 丨港交所早参

深度解析｜这个春节，成都消费「火」进全国第二背后…...

号称能「接管电脑、解放双手」的 AI Agent（AI 智能体）工具 OpenClaw 最近在技术圈火得一塌糊涂。

它被吹捧为「AI 打工人」，似乎只要下个指令，它就能替你写文章、发邮件甚至买咖啡。但事实真的如此吗？它是生产力神器，还是仅供技术极客尝鲜的「玩具」？

近日，《每日经济新闻》记者（以下简称每经记者）联合每经科技开发人员，展开了一场深度实测。我们将 OpenClaw 分别接入千问 Qwen3-Max、月之暗面 Kimi-K2.5、MiniMax-M2.1、MiniMax-M2.5 和智谱 GLM-4.7 五款国产大模型，以及 OpenAI 的 GPT-5-mini，要求它们完成本地文件检索、网络资料搜索、稿件撰写、发送邮件等步骤，试图揭开这位「指挥官」的真实战力。

实测结果显示，部分模型表现不佳，尤其是在需要操控浏览器的环节，如网络搜索和发送邮件，大多失败。有专家直言，当前的 OpenClaw 不仅难用、费钱，更是一场安全的「噩梦」。

实测对比：GPT-5、MiniMax、智谱完成任务，另两款大模型「行动力」不足

OpenClaw 本身并非大模型，它更像一个「指挥官」，负责接收用户指令、调用工具和组织流程，并将指令理解与具体工作交由其接入的外部大模型来完成。

因此，接入的大模型的能力、稳定性与表达方式，决定了任务的最终成败。

目前 OpenClaw 支持的大模型（图片来源：OpenClaw 配置界面）

为了更贴近记者的真实工作场景，测试人员设定了一项综合性测试任务：

让接入不同大模型的 OpenClaw，在电脑中找到对「电车教父」Andy Palmer 的采访速记稿，要求它总结文稿内容，并结合搜索到的网络资料，撰写一篇专访新闻稿，最后将新闻稿通过邮件发送到指定邮箱。

这一任务涵盖了指令理解、操控电脑进行本地文件检索、操控浏览器进行网络信息搜索、信息整合和文章写作以及应用操控等多个维度。

在首次测试中，各模型的表现分化显著。

● OpenClaw+千问 Qwen3-Max

首先测试的是千问 Qwen3-Max 模型。该模型在本地文件检索环节便陷入困境。即便测试人员明确提示文件在电脑中的所在位置，Qwen3-Max 在经过约 5 分钟检索后，仍无法准确定位。

在后续单独测试其发送邮件任务时，Qwen3-Max 也未能成功执行，只是不断重复指令，但无实际动作。

● OpenClaw+月之暗面 Kimi-K2.5

Kimi-K2.5 的表现稍好，它在 5 分钟内成功检索到了文件，并完成内容总结。但在执行网络搜索并补充行业最新热点资讯时，因触发了「429 错误」（通常指请求过于频繁），导致未能完成信息搜索工作。

在邮件发送环节，Kimi-K2.5 无法成功操控浏览器向指定邮箱发送邮件。

● OpenClaw+MiniMax-M2.1

MiniMax-M2.1 在文件检索、网络搜索资料和写作方面没有遇到明显阻碍。邮件发送环节，MiniMax-M2.1 在浏览器操控上遇到了困难，但并未就此卡住，而是主动给出了一个可行的解决方案。

测试人员根据其提示手动操作后，成功解决了问题，使其最终能够发送邮件。

不过，MiniMax-M2.1 发送的邮件只包含了稿件的「关键引语」，未附上完整的稿件正文。

● OpenClaw+MiniMax-M2.5

虽然都是 MiniMax 旗下模型，2 月 12 日发布的 MiniMax-M2.5，表现比 MiniMax-M2.1 更好，不仅顺利完成文件检索、网络搜索资料和写作，在发送邮件环节也无需人工介入。

● OpenClaw+智谱 GLM-4.7

由于 OpenClaw 暂未接入智谱于 2 月 12 日发布的最新模型 GLM-5，所以，本次测试选择了智谱 GLM-4.7。

结果显示，在发送邮件环节，智谱 GLM-4.7 会在浏览器中输入错误的邮箱网址，导致网页访问失败，需要人工提醒更正。

除此之外，智谱 GLM-4.7 在其他环节处理速度较快。

● OpenClaw+GPT-5-mini

GPT-5-mini 的表现较为稳定和流畅。从文件检索、内容总结、网络搜索、资料补充到邮件发送，全流程几乎无需人工干预和额外提示，仅在个别时候出现了网络连接不稳定的情况。

为了保证测试的严谨性，测试人员对整个流程进行了两次复测。

第二轮测试结果：

● Kimi-K2.5：成功检索并读取本地文件，补充网络搜索资料，但在邮件发送环节依旧失败。其报告的错误显示，在读取邮箱网络代码、获取输入框节点时出现问题。

● 千问 Qwen3-max：成功读取文件并补充网络资料，但在邮件发送环节出现明显卡顿，未能成功；

● MiniMax-M2.1/2.5：完成任务全部流程。

● 智谱 GLM-4.7: 完成任务全部流程。

● GPT-5-mini：完成任务全部流程。

第三轮测试结果：

● Kimi-K2.5：成功检索并读取本地文件，在网络搜索资料环节出现问题（出现读取网页内容错误，错误的网站访问路径，理解不了浏览器控制台指令等），在邮件发送环节依旧失败。

● 千问 Qwen3-max：成功读取文件，但无法操控浏览器搜索网络资料，在邮件发送环节依旧失败。

● MiniMax-M2.1/2.5：完成任务全部流程。

● 智谱 GLM-4.7: 完成任务全部流程。

● GPT-5-mini：完成任务全部流程。

业内视角：OpenClaw 能力上限取决于大模型，尚未成为合格生产力工具

上述测试结论也得到业内普遍印证。

一名使用 OpenClaw 来辅助运营网店，设计海报、优惠券等宣传物料的程序员告诉每经记者，自己平时都是接入 OpenAI 的 Codex-5.3 和 Gemini 3 Pro 模型，效果比国产大模型好很多。

多位业内人士和资深用户指出，OpenClaw 更像一个「任务框架」，其最终表现非常依赖所接入大模型的能力。就像一个指令清晰但能力有限的指挥官，手下士兵（即大模型）的强弱，直接决定了战役的胜败。

非凡产研研究负责人宦家臣向每经记者表示，「模型对 OpenClaw 的影响其实取决于任务的复杂程度。国际头部大模型上限更高，但是如果都是普通任务，国内的智谱 GLM-4.7、Kimi-K2.5 都很不错，毕竟 Claude 太贵了，钱包受不了。」

尽管部分大模型在测试中展现了执行复杂任务的潜力，但 OpenClaw 离成为一款合格的生产力工具似乎还有不小的距离。

「我感觉，目前版本的 OpenClaw 并不是一个合格的生产力工具。」前小米 OS AI 产品专家、现出海 AI 应用公司 ExcelMaster.ai 创始人张和在接受每经记者采访时直言，OpenClaw 在一定程度上是此前爆火的程序员工具、Anthropic 旗下 Claude Code 的「套壳」，虽然通过聊天界面和内置技能（Skill）做了更好的封装，降低了交互门槛，但在核心能力上并未超越。「我没找到太多 OpenClaw 能做，而 Claude Code 做不了的事情。并且，它查询资料的水准，也没有 Claude Code 好。」

「等大模型能力再跃升一点，OpenClaw 就会越来越好，就会越来越普及。哪怕它什么都不做，就等着更新的大模型出来……OpenClaw 的门槛就会降低。」张和强调，OpenClaw 的进步与普及，本质上是在等待底层大模型技术的突破。

Akamai 云和 AI 产品经理张璐博士也表达了相似的观点。在他看来，OpenClaw 若要真正用于生产，还必须经过二次开发和微调，因为目前版本还「有点不成熟，很多时候会卡顿」。

高门槛、高成本和高风险劝退普通用户

除了对大模型能力的依赖，技术门槛、使用成本和安全风险，让 OpenClaw 目前难以走向普通用户。

首先是较高的部署和使用门槛。OpenClaw 目前并未提供类似「一键安装」的简化部署方案，用户需要在电脑上通过命令行操作，完成本地配置、依赖管理以及权限设置。每经科技开发人员表示，整个过程对使用者的技术背景有一定要求，至少需要具备基本的开发经验，这无疑劝退了绝大多数非技术人员。虽然诸如阿里云、腾讯云和亚马逊云等云厂商都提供了 OpenClaw 云端部署服务并声称可以在他们配置好的服务器上便捷部署 OpenClaw，但在云端部署的 OpenClaw 并不能提供操控用户本地电脑的能力。

高昂的使用成本是另一个现实问题。由于 OpenClaw 在执行任务时需要频繁调用大模型，token 消耗量巨大，堪称「token 燃烧器」。有用户向每经记者表示，自己使用智谱 GLM-4.7 模型，仅仅交互了 20 多次，就花费了 200 元。

张璐博士也提到，自己在使用 DeepSeek 模型时，一天就「烧掉」几十元。如果换成能力更强的模型，账单将更惊人，「一天几百块就出去了」。

高成本使得许多用户只能选择接入免费或更便宜的模型，但这又会影响 OpenClaw 的实际表现。有用户就向每经记者反映，自己因成本问题选择了 Qwen-8B 模型，但 OpenClaw 总是只会回答问题，不会执行操作。

比高门槛和高成本更令人担忧的，是其内在的安全风险。OpenClaw 的定位是「做事」而非「聊天」，这意味着它必须获得很高的系统权限，才能操控本地文件和应用。

思科 AI 威胁研究与安全团队主管 Amy Chang 直言，从安全角度来看，OpenClaw「是一场噩梦」，它可以在用户的计算机上任意运行 shell 命令、读写文件和执行脚本。这种高级权限一旦被错误配置或被恶意指令利用，后果不堪设想。

网络安全公司 Dvuln 的创始人 Jamieson O'Reilly 也证明了这种风险，他发现 OpenClaw 存在漏洞，攻击者可借此获取用户数月内的私人消息、账户凭证、API 密钥等敏感信息。更可怕的是，用户为了方便 AI 执行任务而存储的银行账户、加密货币钱包 API 等信息，都可能以明文形式保存在本地文件中，一旦被黑客入侵，「一秒就可以搬空他们」。

OpenClaw 的开发者 Peter Steinberger 也坦言，这只是一个免费的开源业余项目，需要用户进行仔细的配置才能确保安全。他明确表示：「它并不适合非技术用户。」

免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

封面图片来源：OpenClaw 网站截图

文章转载自每经网

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28