日前举行的三星年度旗舰手机发布会上,三星联手谷歌首次公开展示三星 Galaxy S26 新品上的 Gemini 手机智能体。这一新品或成为 Apple Intelligence(苹果智能,苹果公司发布的个人智能系统) 后续升级的一次预演,因而受到产业关注。
财联社记者观察到,这场发布会以手机智能体为重点,这也正是当下 AI 手机领域的重要发展趋势。更为值得关注的是技术路线,此前部分厂商的手机智能体 GUI 能力仍存在争议,AI 手机入口之争形成,此次谷歌 Gemini 智能体则采取了更为稳妥的双技术路线。
「谷歌的手机智能体技术方案有机会成为一种标准方案,它可以实现 AI 的自动操作,又能大幅降低 App 的抵触心态。在二者之间找到一个平衡,从而缓解入口之争的冲突。」 艾媒咨询 CEO 张毅在接受财联社记者采访时表示。
手机智能体加速普及
据悉,三星 S26 系列三款机型均搭载 Gemini 智能体,同时保留 Perplexity 网络查询引擎及三星自研大模型驱动的设备端助理 Bixby。Gemini 智能体可自主完成点外卖、叫车等跨应用操作。
此次 Gemini 手机智能体对三星 Galaxy S26 的加持,事实上亦是接下来 Apple Intelligence 升级的一次预演。
今年初,苹果、谷歌宣布达成多年期深度合作协议,苹果下一代基础模型 (Apple Foundation Models) 将基于谷歌的 Gemini 模型及云技术构建,为 Apple Intelligence 功能及今年推出的个性化 Siri 提供核心技术支持。
与此同时,谷歌安卓生态系统总裁 Sameer Samat 表示,此类自动化功能将作为安卓 17 系统升级重点于今年晚些时候推送,当前仅适配优步、Grubhub 和 DoorDash 等少数应用,原生支持依赖开发者接入 MCP 协议或安卓应用功能框架。
近两年,华为、荣耀、OPPO、vivo 等厂商纷纷在旗舰机型里注入 AI 能力,做出 AI 手机智能体的尝试,去年底发布的豆包手机助手也一度火爆。可以预见,手机智能体将保持加速普及。
具体到技术层面,承担着帮助 Android 操作系统和 Apple Intelligence 在 AI 时代实现能力飞跃重任的谷歌,采取了何种方案?
财联社记者查阅安卓官网相关开发者文档了解到,Gemini 要在手机端实现 「自动跨应用操作」,主要有 Android AppFunctions、UI automation(读屏自动化) 两条路径。

开发者文档显示,Android AppFunctions「模仿 MCP 云服务器声明后端功能的方式,为 Android 应用提供了设备上的解决方案。与 WebMCP 非常相似,它在设备上本地执行这些功能,而不是在服务器上。」
同时,针对 UI automation,安卓方面表示 「我们也在开发一套 UI 自动化框架,以便智能体能够智能地在应用程序上执行通用任务。Gemini 使用应用程序中已有的上下文来帮助完成任务,不需要任何开发人员的工作。」 据悉,UI automation 内置了用户透明度和控制权机制。对于任何自动化操作,用户可监控任务进度,并在任何时候切换到手动控制进行接管。
有 App 开发者向财联社记者分析,Gemini 手机智能体的技术方案采用了系统底层/应用层 API、AI 读屏并行的方式,且两种方式需要用户和 App 双重授权。在逻辑上,API 方式优先,不直接采用读屏方式。
其认为,谷歌蹚出了 GUI 路线需要遵循的基本原则,如亮明执行主体、限定执行环境和执行范围等。
张毅告诉财联社记者,「我理解这是 API 优先、读屏兜底的技术路线。对 App 开发者来说,愿意开放接口就走安全的 API,部分不愿意适配的就用读屏方式。这更合规、更安全,对于 App 的主权来讲,也是更尊重的一种体现。」
生态冲突有望缓解?
财联社记者此前报道,虽然 AI 技术为用户带来诸多便利,但从此前国内的产业发展情况看,不少厂商将 「AI Agent 高权限能力」 作为技术卖点,手机厂商、AI 解决方案提供方与 App 开发者之间已经形成了入口之争。
去年 12 月初,淘宝、微信、农业银行、建设银行等多款 App 就先后出现了针对 AI 手机屏幕共享监测以及风控的措施。上述措施曾被网友解读为 App 对 AI 手机助手凭借底层权限、实现跨应用操作所引发隐私担忧的侧面回应。
值得关注的是,Sameer Samat 还在三星发布会上谈到了获得 App 生态支持的重要性:「对于把安卓从手机操作系统转变为智能系统,最大的障碍依然是 App 开发者。目前,这项任务自动化功能仅限于优步、外卖平台 Grubhub 和 DoorDash 等少数 App。希望今年晚些时候能有更多的 App 支持智能体操作。」
上述开发者文档也强调了跟 App 生态合作的重要性:「我们目前正与一小部分 App 开发者合作,致力于打造高质量的用户体验,并随着生态系统的发展不断优化。」
为何最大的障碍来自开发者?张毅分析,「因为没有统一的标准、没有明确的收益,那开发者如何为 AI 开放 API 呢?这显然是没有道理的。」
「前述冲突,本质上是入口控制权和数据安全以及利益分配之间的平衡之争。它根本不是技术问题,而是生态主导权的问题。长期来看,如何去平衡入口控制权、数据安全、利益分配,这就成为一门互相博弈的艺术。」 张毅表示。
值得注意的是,豆包 27 日发布的一则声明显示:「屏幕视觉理解与自动化操作能力,是当前全球 AI 终端领域的前沿技术创新方向,谷歌近期发布的新款手机也搭载了与豆包手机助手同类技术驱动的自动操作功能。」
不过有媒体报道称,Gemini 手机智能体与豆包手机助手的 GUI 方案并不完全相同。
此前,一位国产手机厂商 AI 技术研发人士对财联社记者表示,豆包手机助手的发布对于整个手机行业、生态发展带来了积极促进作用,但可能并非是 AI 手机最终形态。「从技术方案来说,GUI 是中间形态,最终厂商还是要共建生态为用户提供服务,大概率还是会通过 agent to agent(A2A,智能体互联) 的形式。」
张毅认为,如果能够实现 API 标准化,并且能够分级进行授权,最终实现整个生态的共赢,应该是一个重要方向。
(财联社)
文章转载自 东方财富


