每经记者|叶晓丹 每经编辑|金冥羽 董兴生
记者|叶晓丹
编辑|金冥羽 董兴生 杜波 校对|许绍航
中美 AI 竞速,角逐正酣。
2 月 10 日,阿里和字节同一天发布了新图像生成模型,两家大厂均对标谷歌 Nano Banana Pro。
其中,阿里 Qwen-Image-2.0 聚焦语义理解与实用编辑,统一生成与编辑架构,强化中文汉字渲染能力,可更好地理解超长、复杂的实用化指令;字节 Seedream5.0 Preview 则主打检索生图与精细调控,显著提升提示词理解准确率,支持更精细的纹理生成与可控调整,深度适配内容创作全流程。
2 月 11 日,有算力运营商向 《每日经济新闻》 记者 (以下简称每经记者) 透露,目前 AI 在电商场景中有不少应用,一类是数字人对 token(最小文本单元) 的消耗量比较明显,另一类是电商 AI 生图的消耗。千问大模型高级解决方案架构师熊撼天在接受每经记者采访时表示,此次更新的 Qwen-Image-2.0 模型,也基于电商场景在商品生产细节和文字可控度、二次编辑等方面进行优化。
值得注意的是,当前 AI 生图已经不局限于视觉创作,更进一步走向企业级、规模化应用的赛道中。2025 年图像生成技术逐步渗透到电商场景、漫剧市场中,随着 AI 生图技术进步,2026 年能迎来规模化应用市场吗?
对标 Nano Banana Pro
国产 AI 生图模型再进化
2 月 10 日,阿里和字节都发布了图像生成模型。阿里千问发布新一代图像生成及编辑模型 Qwen-Image-2.0,字节跳动旗下剪映、字节 AI 创作平台小云雀等平台上线图像生成模型 Seedream5.0 Preview,两款模型都对标谷歌 Nano Banana Pro。
据阿里千问方面介绍,Qwen-Image-2.0 支持 1K token 的超长文字输入和 2K 高分辨率,可准确渲染复杂指令,轻松生成专业的 PPT 及信息图。同时,Qwen-Image-2.0 在 Qwen-Image 和 Qwen-Image-Edit 两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中,以更轻量的模型架构,实现了生图和改图性能的大幅提升。
而字节方面则表示,Seedream 5.0 Preview 的图像支持 2K 和 4K 分辨率输出,目前用户可以在即梦平台免费体验 2K 输出效果。
有上市公司资深研发高管向每经记者表示,此前也经常用 AI 生图技术制作 PPT 和企业产品图,但文字细节和图片的一致性等问题,仍存在一些瑕疵。
千问 Qwen 视觉生成负责人吴晨飞表示,AI 生图文字细节崩溃主要是两方面原因。其一,当前图像生成模型普遍采用 VAE(变分自动编码器) 技术,而 VAE 的重构过程对图像中文字的处理影响显著,特别是小尺寸文字。这是由于 VAE 本质上是一种压缩机制,当图像中文字内容较多时,生成难度将显著提升,且受限于 VAE 的处理能力上限。其二,受限于图像生成模型的建模能力。VAE 决定了模型的能力上限,而生成模型的建模能力则直接影响图像生成的真实度与细节还原质量。
AI 生图离企业级应用还有多远?
目前,随着 AI 生图模型迭代,其在电商和漫剧市场的应用备受关注,资本市场上 AI 漫剧概念持续升温。
2 月 11 日,艾媒咨询 CEO 兼首席分析师张毅在接受每经记者采访时表示,目前 AI 漫剧制作,主流途径是 AI 生成图片,由图片视频化,再搭配 AI 配音、字幕,来完成出片,这是目前行业比较标准的形态。
东吴证券就在研报中指出,AI 可以使漫剧制作成本降低 90%。中文在线 AI 动漫部总经理周立强此前曾表示,AI 把传统漫剧的 11 个繁复制作流程,精简为剧本创作、图片生成、图转视频、后期加工 4 个步骤,大大提高生产速度。
而问题的症结之一是 AI 漫剧极为依赖抽卡生成模式。这一模式最大的问题在于,最终的生成效果几乎完全取决于 AI 自身的理解、推理能力,抽卡师唯一能做的只有打磨提示词。
iMedia Research(艾媒咨询) 数据显示,多数用户肯定 AI 技术在降低制作成本 (51.2%) 与加快 IP 转化 (47.7%) 方面的价值。同时,近半数用户亦指出其在画面风格统一性 (47.1%) 与配音情感表现 (46.7%) 上存在明显不足。
张毅认为,当前 AI 漫剧市场迎来爆发式增长。AI 技术对漫剧行业的影响兼具机遇与挑战,既通过降低制作成本、加快 IP 转化等推动行业生产效率与内容形态升级,也因画风统一度、配音质感及角色塑造等质量问题,倒逼行业在追求规模化的同时强化内容创意与品质把控。
AI 漫剧之外,AI 生图正在悄然改变的另一大市场是电商场景。
电商购物场景中存在大量图片使用需求。2 月 11 日,有算力运营商向记者透露,AI 生图是当前除数字人外,电商客户消耗 token 比较大的一个需求。
熊撼天向每经记者表示,电商场景是千问 Qwen-Image 模型落地的主流场景之一,此次更新的 Qwen-Image-2.0 也基于电商场景应用,在此前模型基础上进行了升级和优化,有望推动企业级应用落地。
以电商场景为例,熊撼天表示,商品详情页描述图、模特穿搭效果,可以更好地结合新的图像生成模型完成。相较于上一代图像生成模型需要通过二次编辑等完成可控的商品出图,新模型迭代将图片编辑和生成任务融合在一个模型中实现,从而实现电商卖家的效率提升。
封面图片来源:视觉中国
|每日经济新闻 nbdnews 原创文章|
未经许可禁止转载、摘编、复制及镜像等使用
文章转载自 每经网