来源:
证券时报
谷歌市值冲上 3 万亿美元的同时,旗下的 「杀手级」AI 应用也超越 ChatGPT,成功登顶苹果应用榜第一名。
最新数据显示,在美区 AppStore 中,谷歌旗下大模型应用 Gemini 的下载量已超过 OpenAI 的 ChatGPT,成为免费榜排名第一的应用。此外,在加拿大、印度、摩洛哥等国家,Gemini 同样实现了登顶,打破了 ChatGPT 自发布以来长期的垄断地位。

这一超越背后,离不开谷歌推出的爆款图像编辑产品 Nano Banana(纳米香蕉)。今年 8 月 26 日,谷歌 DeepMind 发布新一代 AI 图像生成与编辑模型 Gemini 2.5 Flash Image。这一模型的代号为 「Nano Banana」,在图像质量、编辑控制和应用场景上有大幅改进,一推出就受到了用户的热烈追捧。9 月 4 日,谷歌实验室副总裁 Josh Woodward 透露,自该功能上线以来,已累计完成超 2 亿次图像编辑,带动超 1000 万新用户尝试 Gemini 应用。
浙商证券研报分析称,和此前的多模态模型相比,Nano Banana 在以下技术层面有所提升。1) 自然语言驱动图像编辑:Nano Banana 允许用户通过一句简单的自然语言指令实现精准编辑,无需传统图层或遮罩操作。2) 角色一致性与场景融合:模型在连续编辑中能够保持人物面貌与特征一致,确保角色在不同场景和动作中保持统一识别度。这一特性在品牌角色创作、情景剧本生成等应用中尤为关键。3) 多图融合与世界知识注入:支持将多个图片在同一画面中融合,自然过渡;同时,基于 Gemini 的世界知识,模型能理解复杂场景并执行符合现实逻辑的编辑任务。4) 降低 3D 建模门槛:传统 3D 建模需专业技能,而 Nano Banana 生成的 2D 设计图已包含结构、光影、材质等关键信息,建模师可快速将其转化为 3D 文件。
记者搜索发现,Nano Banana 自上线以来,各大网络社区平台的用户均分享了许多由其制作的图片,效果十分惊艳。例如上传一张图片,并提示 「把我的宠物变成包装旁边的塑料玩偶」,即可生成一张高清的 3D 宠物手办图片。

再比如,输入提示词 「将我手中的物体变成 3D 透明线条艺术全息图」,Nano Banana 也能准确地理解提示词的含义。

Nano Banana 的火爆出圈,与数月前 GPT-4o 推出图像生成功能并引发 「吉卜力」 风格 AI 图片创作风潮十分相似。吉卜力风格是指日本吉卜力工作室创作的动画艺术风格,该工作室由宫崎骏与高畑勋于 1985 年创立,代表作包括 《千与千寻》《龙猫》 等。由于过于火爆,OpenAI 首席执行官山姆·奥特曼当时也火速换上了这一风格的头像。奥特曼还发贴称,ChatGPT 一小时就新增了百万用户,其活跃用户、App 下载和订阅收入都在吉卜力效应当周创下了历史纪录。
业内人士分析称,谷歌 Nano Banana 能够在全球走红,源于其在 AI 生图领域重构了用户的体验范式,实现了从 「复杂工具栏」 到 「一句自然语言」、从 「渲染缓慢」 到 「秒级出图」、从 「效果不稳定」 到 「跨图一致性」 等一系列突破,大幅降低了使用门槛和成本。
值得注意的是,受益于反垄断裁决结果好于市场预期以及 Nano Banana 的良好市场表现,谷歌股价近期持续上涨。周一 (9 月 15 日) 早些时候,花旗集团分析师 Ron Josey 将谷歌母公司 Alphabet 目标价从 225 美元上调至 280 美元,理由是 「随着 Gemini 在广告与云业务中的采用加速,正出现更快的产品开发周期」。
此外,Nano Banana 的爆火,无疑再一次点燃了图像生成视频赛道的战火。记者注意到,最近一段时间以来,国内大模型厂商也纷纷对标 Nano Banana,推出了相应的图像生成模型。
例如,9 月 9 日,字节跳动 Seed 团队宣布推出豆包图像创作模型 Seedream 4.0。据介绍,Seedream 4.0 可灵活支持文本、图像的组合输入,抽取不同图片元素进行创作,还可一次生成角色连贯、风格统一的组图,实现表情包、连环画等各类创意玩法。同日,AI 创业公司生数科技正式推出 Vidu Q1 参考生图功能,正面对标 Nano Banana,支持单次输入最多 7 张图像作为参考,可自由组合人物、背景与道具,生成细节精准、风格统一的高质量图像。
华泰证券认为,原生多模态模型架构得到业界认可,OpenAI 和谷歌的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言,多模态为主的产品商业化快于文本产品,从大模型到多模态已是商业化的必由之路,多模态大模型和应用发展的奇点将至。
就投资层面来看,多模态有望在算力和应用两方面带来相关投资机会。算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频 Agent 的落地进一步催生推理算力需求。应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领域均有 AI 化需求。
(证券时报)
文章转载自东方财富