Chat GPT 文生图不用 DALL·E 模型了？

人民币汇率持续走强美元存款还香吗？有投资者一年亏 2000 元

加密货币集体大涨！美国财长突发重磅信号！

文 | 王智远

昨晚，Open AI 更新了 ChatGPT 文生图能力。

准确来说，这次升级是一次小革命。以前，它借助 DALL—E 来生成图像，现在功能直接融入到 ChatGPT 里面了。

新能力能让 ChatGPT 生成的图片更准确。什么叫准确？按照官方意思，能贴合你的要求。要让它生成一个戴眼镜的猫咪，它会先思考一下，然后画出来一个更详细的戴眼镜的猫咪。

最后一项是修改图像。哪些细节不满意，直接告诉它就能修改。

官方直播活动中，也演示了几个例子。有两名研究人员和奥特曼拍了一张合影，然后他们让 ChatGPT 把这张普通的照片变成动画风格的画。结果，ChatGPT 轻松地就完成了这个任务。

另一个是，团队要求 ChatGPT 在生成的图像上加一些文字，比如在图片上写上「Feel The AGI」。ChatGPT 也顺利地做到了。

看不少介绍的文章后，感觉有些吹捧，于是上午见完朋友，下午回来赶紧试了试。问题是，怎么区分不同模型之间的能力差异呢？

我让 Qwen 帮我写了个提示词：

想象一个赛博朋克风格的场景，霓虹灯一闪一闪的，到处都是高楼大厦，楼上有大广告屏，街上跑着悬浮车，天上飞着无人机，还有一轮紫色的月亮挂在天上，地上的行人穿着高科技的衣服。从高处往下看整个城市，画面要高清，细节越多越好。

写完后，把提示词分别给了 GPT 和即梦 AI。不到 20 秒，GPT 出图了，它和即梦 AI 的图对比来说，每个模型对提示词的理解不同，两张图都有赛博朋克的感觉，但细节上各有特点。

要评价的话，两张图片都比较模糊。但即梦 AI 操作起来比较方便，直接点击细节修复、超清功能，就能有效提升清晰度，效果明显。

GPT 在这方面稍显不足，我让它生成高清一点的图，结果它又生成了一张图，遗憾的是，依然没有达到我的预期。

图释：左，Chat GPT；右，即梦 AI

因此，从图像清晰度控制的可控性来看，GPT 可能稍弱一些。不过它也有自己的优势；比如：在调整尺寸上，我提出要 1:1 尺寸的图片时，它会给到两个不同的解决方案，并问我，你觉得哪个更高？更倾向哪个？

重复试了好几个提示词，结果依然这样。

我又试了一下它的新能力：世界知识的功能。官方说，这功能让 AI 在生成图片时，能更好地理解，并用上现实世界里的知识，做出的图更贴合用户的要求，也更符合实际逻辑。

说白了，AI 在作图时，会考虑现实里的细节，像地理位置、文化背景、还有物理规矩啥的。比如，画个雪山就不会冒出热带植物，画个古代场景不会突然冒出手机。

于是，我让 Qwen 帮我又写了一个提示词：

生成一张图，用两个站在滑板上的人推对方的动作来解释牛顿第三定律。要求画面直观，能清楚展示作用力和反作用力的关系。

给到它后，怎么评价呢？像那么回事。它能展示两个人在滑板上互相推开的关系，而且还增加了一些箭头和英文解释；但是，我为什么觉得这个能力像一个图像 PPT 功能呢。

紧接着，我又测试几轮，分别生成一个人的头部骨骼、身体骨骼。如果满分是 10 分，我最多给 6 分，因为大部分能力字节、腾讯的文生图模型都能做到。

图释：左，Chat GPT；右，即梦 AI

Sam Altman 对这款产品评价很高，表示难以相信这是 AI 生成的，认为大家会喜欢，并期待用户用它创作出更多创意内容。

他的目标是尽量避免生成冒犯性内容，认为将创作自由和控制权交给用户是正确的，但也会关注实际使用情况并听取社会意见。

Altman 希望大家理解，他们在努力平衡自由和责任的关系，确保 AI 的发展符合大家的期望和道德标准。这些都是老生常谈的话。

我觉得，比起它目前的生成能力，更应该关注它为什么要替代 DALL·E 模型。要知道，DALL·E 模型是 OpenAI 在 2021 年 1 月发布的模型。作为老模型，难道不应该持续迭代，让它更强大吗？

实际上，关键在于 DALL-E 模型核心架构是自回归模型。

什么是自回归模型呢？

它利用自身历史的数据来预测未来的数据。工作方式是把图像拆解为一系列 token（类似于文字中的单词），然后像写作文一样，一个 token 一个 token 地生成图像。

举个例子：

你要画一只猫，你先画了猫的头，然后根据头的样子再画眼睛，再根据眼睛和头的关系画鼻子，一步步来，不能跳过任何一个步骤。这就是自回归模型的工作方法。

优点是能保证细节，缺点很明显，一，速度跟不上、二，前面要是画错了，后面很难调整；因此，OpenAI 选择用新的模型来替代它。

那么，替代后的模型什么样呢？答案是非自回归模型（Non-autoregressive models），它改变了核心架构。

这个架构会先理解整个图的结构和细节，更像学生先听完老师讲完题目，把整张画的轮廓搞出来，再一点点填细节。比如：画只猫，先勾勒出猫的外形，再去细化毛发、眼睛。

这种模型采用一种特殊的编码、解码架构来实现目标。简单来说，编码器负责「读题」，理解你输入的文字；解码器负责「作答」，根据文字生成图片。

优势在于，一，不再像老方法那样一步步、逐像素地生成图像，效率更高，二，整体表现更强，特别是在复杂场景里，能更好地处理多个物体之间的关系，生成的图片更逼真。

好比画一个桌子上有杯子、书本和台灯的场景，非自回归模型能更自然地处理东西的位置和光影效果，不会显得乱七八糟。而且，它对复杂的文字指令理解得更好，生成的图片和描述基本能做到符合逻辑。

还有一个特点：这种模型灵活性强，能融合到多模态里，比如，把它塞进 ChatGPT 4.0 里，它不仅能看图，还能结合音频或已有的图像，进而生成更多样化的内容。

因此，Open AI 这一步本质做了一次小小的自我革命。

春节时，DeepSeek 发布一款文生图模型 Janus-Pro，关注过的人应该知道，它采用了非自回归的框架。Janus 系列中的 Janus-Pro-7B 模型，在 GenEval 的准确率上达到了 80%，甚至超过 DALL-E 3 的 61%。

我查了一下，这种非自回归模型最早在 2018 年的 ICLR 会议上提出，最初应用于神经机器翻译（Neural Machine Translation, NMT）领域，目的是加速推理速度。

从论文综述来看，微软在 2022 年 5 月 13 日进行了进一步研究。而国内 2023 年左右，阿里巴巴、科大讯飞、昆仑万维、云从科技等一系列企业已经引入这一技术。

所以，OpenAI 是看到了国内对这一模型应用的成熟，开始反思自己了吗？

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28