AI 手机路线大分野：当豆包试图「接管屏幕」苹果和谷歌为何选择「慢半拍」？

来源：
每日经济新闻

　　AI 手机的技术路线已形成鲜明分野。

　　12 月 19 日，字节跳动在联合中兴努比亚推出「豆包手机」nubia M153 后再传扩围动作——正与 vivo、联想、传音等厂商推进 AI 手机合作。

　　以「豆包手机」为代表的阵营，凭借读屏、模拟点击等 GUI（图形用户界面）技术，试图让 AI 助手突破应用壁垒完成复杂任务，却引发主流 App 集体「自卫」。

　　反观海外，苹果、谷歌主导的阵营，则坚持 API（应用程序接口）标准化路线，虽稳健却进展迟缓。

　　两种技术路线的博弈，是移动互联网十余年商业逻辑与利益格局的剧烈碰撞。流量入口迁移的序幕已然拉开，手机厂商、应用开发者与用户的关系正被深度改写。

　　GUI 接管屏幕：豆包撕开系统级权限口子，智谱开源补位

　　这场路线之争的导火索，是 12 月初字节跳动联合中兴努比亚发布的「豆包手机」nubia M153。这款手机凭借跨应用 AI 操作能力搅动行业：用户只需发出语音指令，AI 便能完成订外卖、发微信、比价购物等一系列跨 App 任务，其技术核心是 GUI（图形用户界面）多模态大模型与系统级权限的深度绑定。

豆包手机图片来源：中兴商城

　　前小米 OS AI 产品专家、现出海 AI 应用公司 ExcelMaster.ai 创始人张和告诉《每日经济新闻》记者（以下称每经记者），通过与手机厂商（如中兴）达成操作系统层面的深度合作，让 AI 助手获得凌驾于所有 App 之上的系统级操作权限。其技术逻辑是模拟人类的点击、滑动等操作，贯通全手机应用，实现跨 App 的任务执行。

　　但 AI 助手直接「接管」屏幕，很快引发主流 App 的「自卫反击」：微信提示环境异常甚至封号，淘宝频繁弹出人机验证，各大银行App 则直接拒绝在录屏状态下运行。

　　12 月 9 日，智谱 AI宣布开源自主任务模型 AutoGLM，为 GUI 路线提供了另一种可能性。

　　AutoGLM 同样基于 GUI 范式，通过视觉大模型实现手机自动化操作，但此前因未获厂商系统级权限支持，只能依赖安卓无障碍模式运行。

　　张和指出，无障碍模式存在明显短板：「AI 操作时会完全占据前台窗口，比如操作淘宝一分钟内，用户无法刷微博、聊天。」但他强调，豆包与智谱 AutoGLM 本质同源，都是大模型厂商视角的探索，仅开源与否的差异。「只要手机厂商配合，智谱 AutoGLM 也能实现后台静默操作，核心症结始终是系统权限。」

　　获得中兴努比亚手机的系统级权限，是豆包率先做出 AI 手机的核心原因之一。

　　但张和指出，这类合作的主动权掌握在手机厂商手里——并非厂商不具备同等技术研发能力，而是「要不要做（AI 手机）」的战略考量。

　　厂商的顾虑主要有两点：首先是用户对隐私泄露的普遍担忧，贸然开放权限可能严重影响手机品牌的用户口碑和形象；其次，手机厂商希望将系统级 AI 入口牢牢掌握在自己手中，而非沦为 AI 公司的技术通道。

　　「这也解释了为何豆包的首个合作伙伴是中兴努比亚，而非头部厂商。」张和补充道。

　　苹果、谷歌「慢半拍」：API 路线的保守布局

　　豆包手机的出现，也引发了全球范围内关于 AI 手机两条技术路线——GUI 范式与 API（应用程序接口）范式——的对比和讨论。

　　豆包和智谱的 GUI，如同一个「AI 保姆」，它像人一样看着手机屏幕，帮用户操作手机。苹果和谷歌的 API 路线，则像给 App 们发了一套「手册」，让它们自己把功能开放出来给系统调用。

　　两者的优劣对比十分鲜明：GUI 不依赖 App 开发者配合，通过视觉大模型「读取」屏幕、模拟人类点击实现操作，优点是通用性强，理论上人能使用的 App 它都能驾驭；但缺点同样突出，一是隐私保护压力大，二是效率较低，需逐步骤操作且易出错。

　　以苹果 Apple Intelligence 为代表的 API 范式，不是通过模拟，而是构建底层框架与标准化接口，让 AI 通过规范「调用能力」完成任务。这种模式的优点是稳定、保障隐私且效率高，缺点则是需要 App 开发者主动配合，生态构建周期更长。

iPhone 17 搭载 Apple Intelligence 图片来源：苹果官网

　　张和评价苹果是「最保守的大玩家」。

　　2022 年，苹果推出 Apps Intent 框架，鼓励开发者向系统声明功能供 Siri 调用，但坚决不开放读屏绕开应用的能力；即便未落地的「屏幕感知」功能，也选择通过 API 向 Siri 提供屏幕内容，而非直接操控界面。

　　当前，苹果 Apple Intelligence 集成了 OpenAI 的 ChatGPT。而据媒体报道，苹果正计划采用谷歌的 Gemini 模型，为 Siri 语音助手升级提供技术支撑。苹果希望将该技术作为临时解决方案，直到自家模型足够强大。

　　谷歌则走端云协同路线，且优先布局电脑端。旗下 Gemini 大模型具备强大端云协同能力，但手机端未采用 GUI 多模态操作；推出的 AppFunctions API，旨在解决生态内的碎片化问题，实现系统对应用能力的统一发现与索引。

　　谷歌和苹果均倾向于推动应用开发者主动接入标准化接口，实现 AI 助手跨应用协作。

　　张和透露，目前两家公司尚未在手机上推出 GUI 多模态操作相关功能，仍处于技术储备阶段。「谷歌一方面需要协调安卓生态的手机厂商，另一方面也在观望市场反馈和技术成熟度。」

　　AI 生态洗牌：手机厂商、超级 App 与长尾应用的利益重构

　　市场调查机构 Canalys 报告显示，得益于芯片技术的快速发展和消费者对 AI 功能日益增长的需求，全球 AI 手机出货占比将从 2024 年的 16% 升至 2028 年的 54%。该机构预计，2023 年至 2028 年的年复合增长率将达到 63%，三星和苹果等主要玩家将推动这一增长。

　　技术路线的抉择，最终将指向移动互联网利益格局的深度重构。

　　「靠 AI 助手去购物，相当于直接介入交易，互联网大厂自然担心商业模式受影响。」张和点出了超级 App 集体「自卫」的核心焦虑。

　　API 类似手机厂商向各家互联网大厂商议，让后者开发接入手机智能助手的 API 接口，在限定范围内向 AI 开放部分功能。这一模式下，主动权掌握在互联网大厂手中，是否开放 API 接口、对谁开放、开放多少功能，都是未来提供议价权的筹码。

　　而 GUI Agent 可以通过「看屏幕、点按钮」的方式来操作 App，相当于绕过了 App 对 AI 许可授权的过程。

　　更关键的是，GUI Agent 将用户操作截留在了手机系统层面：用户无需打开 App，就能使用其核心功能。这意味着，App 上的广告投放将失去核心价值——而广告收入正是互联网行业的重要营收来源。

　　张和认为，未来 AI 手机的生态将呈现「分层治理」格局，不同体量玩家命运迥异。

　　对于微信、淘宝等超级 App 而言，短期可以通过技术手段抵制外部 AI 读屏，保护商业数据与用户隐私。长期最优解是自研 AI Agent，形成 Agent to Agent（A2A）协作模式：系统级 AI 将用户意图传递给应用 Agent，后者在权限内完成操作。这种模式既保护超级 App「领地」，又能融入 AI 手机生态。

　　对于数以百万计的中长尾 App 来说，处境则将完全不同。

　　张和认为，长尾 App 因缺乏自研 Agent 的技术与商业话语权，大概率将「被系统级 AI 直接控制」。对它们而言，与其投入资源拉新获客，不如接受系统级 AI 操作，换取新生态的流量分发。手机厂商或会制定标准化利益分配条款，让长尾应用「搭上生态红利」。

　　「这就像自动驾驶，是不可逆转的历史趋势。」张和总结道。以用户需求为核心的变革，将推动生态从「流量争夺」走向「价值共创」，最终形成手机厂商主导，超级 App、长尾应用和大模型厂商各司其职的全新格局。

（每日经济新闻）

文章转载自东方财富

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31