登顶苹果应用榜！谷歌火遍全网的「纳米香蕉」凭啥击败 ChatGPT？

来源：
证券时报

　　谷歌市值冲上 3 万亿美元的同时，旗下的「杀手级」AI 应用也超越 ChatGPT，成功登顶苹果应用榜第一名。

　　最新数据显示，在美区 AppStore 中，谷歌旗下大模型应用 Gemini 的下载量已超过 OpenAI 的 ChatGPT，成为免费榜排名第一的应用。此外，在加拿大、印度、摩洛哥等国家，Gemini 同样实现了登顶，打破了 ChatGPT 自发布以来长期的垄断地位。

　　这一超越背后，离不开谷歌推出的爆款图像编辑产品 Nano Banana（纳米香蕉）。今年 8 月 26 日，谷歌 DeepMind 发布新一代 AI 图像生成与编辑模型 Gemini 2.5 Flash Image。这一模型的代号为「Nano Banana」，在图像质量、编辑控制和应用场景上有大幅改进，一推出就受到了用户的热烈追捧。9 月 4 日，谷歌实验室副总裁 Josh Woodward 透露，自该功能上线以来，已累计完成超 2 亿次图像编辑，带动超 1000 万新用户尝试 Gemini 应用。

　　浙商证券研报分析称，和此前的多模态模型相比，Nano Banana 在以下技术层面有所提升。1）自然语言驱动图像编辑：Nano Banana 允许用户通过一句简单的自然语言指令实现精准编辑，无需传统图层或遮罩操作。2）角色一致性与场景融合：模型在连续编辑中能够保持人物面貌与特征一致，确保角色在不同场景和动作中保持统一识别度。这一特性在品牌角色创作、情景剧本生成等应用中尤为关键。3）多图融合与世界知识注入：支持将多个图片在同一画面中融合，自然过渡；同时，基于 Gemini 的世界知识，模型能理解复杂场景并执行符合现实逻辑的编辑任务。4）降低 3D 建模门槛：传统 3D 建模需专业技能，而 Nano Banana 生成的 2D 设计图已包含结构、光影、材质等关键信息，建模师可快速将其转化为 3D 文件。

　　记者搜索发现，Nano Banana 自上线以来，各大网络社区平台的用户均分享了许多由其制作的图片，效果十分惊艳。例如上传一张图片，并提示「把我的宠物变成包装旁边的塑料玩偶」，即可生成一张高清的 3D 宠物手办图片。

　　再比如，输入提示词「将我手中的物体变成 3D 透明线条艺术全息图」，Nano Banana 也能准确地理解提示词的含义。

　　Nano Banana 的火爆出圈，与数月前 GPT-4o 推出图像生成功能并引发「吉卜力」风格 AI 图片创作风潮十分相似。吉卜力风格是指日本吉卜力工作室创作的动画艺术风格，该工作室由宫崎骏与高畑勋于 1985 年创立，代表作包括《千与千寻》《龙猫》等。由于过于火爆，OpenAI 首席执行官山姆·奥特曼当时也火速换上了这一风格的头像。奥特曼还发贴称，ChatGPT 一小时就新增了百万用户，其活跃用户、App 下载和订阅收入都在吉卜力效应当周创下了历史纪录。

　　业内人士分析称，谷歌 Nano Banana 能够在全球走红，源于其在 AI 生图领域重构了用户的体验范式，实现了从「复杂工具栏」到「一句自然语言」、从「渲染缓慢」到「秒级出图」、从「效果不稳定」到「跨图一致性」等一系列突破，大幅降低了使用门槛和成本。

　　值得注意的是，受益于反垄断裁决结果好于市场预期以及 Nano Banana 的良好市场表现，谷歌股价近期持续上涨。周一（9 月 15 日）早些时候，花旗集团分析师 Ron Josey 将谷歌母公司 Alphabet 目标价从 225 美元上调至 280 美元，理由是「随着 Gemini 在广告与云业务中的采用加速，正出现更快的产品开发周期」。

　　此外，Nano Banana 的爆火，无疑再一次点燃了图像生成视频赛道的战火。记者注意到，最近一段时间以来，国内大模型厂商也纷纷对标 Nano Banana，推出了相应的图像生成模型。

　　例如，9 月 9 日，字节跳动 Seed 团队宣布推出豆包图像创作模型 Seedream 4.0。据介绍，Seedream 4.0 可灵活支持文本、图像的组合输入，抽取不同图片元素进行创作，还可一次生成角色连贯、风格统一的组图，实现表情包、连环画等各类创意玩法。同日，AI 创业公司生数科技正式推出 Vidu Q1 参考生图功能，正面对标 Nano Banana，支持单次输入最多 7 张图像作为参考，可自由组合人物、背景与道具，生成细节精准、风格统一的高质量图像。

　　华泰证券认为，原生多模态模型架构得到业界认可，OpenAI 和谷歌的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言，多模态为主的产品商业化快于文本产品，从大模型到多模态已是商业化的必由之路，多模态大模型和应用发展的奇点将至。

　　就投资层面来看，多模态有望在算力和应用两方面带来相关投资机会。算力侧，供给端原生多模态模型需要比非原生模型更多的算力，需求端视频的推理算力需求远大于文字，视频 Agent 的落地进一步催生推理算力需求。应用侧，供给端国内的视频生成模型领先，需求端广告、零售、创作、教育等领域均有 AI 化需求。

（证券时报）

文章转载自东方财富

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28