• 最新
  • 热门
  • 所有
  • 外汇
  • 24 小时
  • 期货
  • 基金
  • 贵金属
  • 股票
Chat GPT文生图不用DALL·E模型了?

Chat GPT 文生图不用 DALL·E 模型了?

2025 年 3 月 26 日
新华财经晚报:今年前8个月进出口总值超29万亿元

新华财经晚报:今年前 8 个月进出口总值超 29 万亿元

2025 年 9 月 8 日

证券 ETF(512880) 跌近 1%,10 日净流入超 80 亿元

2025 年 9 月 8 日
商务部答每经:将聚焦先进制造、数字科技等重点产业,推动东盟与中日韩产业链供应链合作走深走实

商务部答每经:将聚焦先进制造、数字科技等重点产业,推动东盟与中日韩产业链供应链合作走深走实

2025 年 9 月 8 日
广告
A股重磅!又有两家公司筹划重大资产重组!

A 股重磅!又有两家公司筹划重大资产重组!

2025 年 9 月 8 日

有色新能源周度观察 20250907

2025 年 9 月 8 日

【MPOB 8 月月报前瞻】 马棕油 8 月库存或将连续第六个月攀升!

2025 年 9 月 8 日
DeepSeek一句话,国产芯片算力大爆发,寒武纪市值突破5000亿

DeepSeek 一句话,国产芯片算力大爆发,寒武纪市值突破 5000 亿

2025 年 9 月 8 日

证券时报:基金极致抱团科技赛道 流动性风险须提前预防

2025 年 9 月 8 日
台风「塔巴」将于8日在广东登陆 停课、停运!广东、海南紧急通知

台风 「塔巴」 将于 8 日在广东登陆 停课、停运!广东、海南紧急通知

2025 年 9 月 8 日
美元信用「动荡」时代 黄金成全球配置「压舱石」

美元信用 「动荡」 时代 黄金成全球配置 「压舱石」

2025 年 9 月 8 日
商品日报(9月8日):乐观预期升温玻璃涨超3% 欧佩克+增产幅度缩小SC原油涨近2%

商品日报 (9 月 8 日):乐观预期升温玻璃涨超 3% 欧佩克+增产幅度缩小 SC 原油涨近 2%

2025 年 9 月 8 日

新能源车 ETF(159806) 涨超 2%,机构:固态电池技术突破或成行业催化

2025 年 9 月 8 日
金桂财经
广告
2025 年 9 月 8 日 星期一
联系我们
合作建议
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
  • 登录& 注册
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 全球金融
  • 股市风云
  • 基金动态
  • 金财眼
  • 期货新闻
  • 期货研报
  • 外汇市场
  • 贵金属
  • 未来科技
没有结果
查看所有结果
金桂财经
没有结果
查看所有结果

Chat GPT 文生图不用 DALL·E 模型了?

来自 金桂财经
2025 年 3 月 26 日
在 外汇
0

YOU MAY ALSO LIKE

华尔街再掀 「调整预期」 潮 渣打银行:料美联储下周降息 50 基点

美银大胆预言美联储 YCC!一文读懂:市场正重演 「尼克松时代」?


文 | 王智远

昨晚,Open AI 更新了 ChatGPT 文生图能力。

准确来说,这次升级是一次小革命。以前,它借助 DALL—E 来生成图像,现在功能直接融入到 ChatGPT 里面了。

新能力能让 ChatGPT 生成的图片更准确。什么叫准确?按照官方意思,能贴合你的要求。要让它生成一个戴眼镜的猫咪,它会先思考一下,然后画出来一个更详细的戴眼镜的猫咪。

最后一项是修改图像。哪些细节不满意,直接告诉它就能修改。

官方直播活动中,也演示了几个例子。有两名研究人员和奥特曼拍了一张合影,然后他们让 ChatGPT 把这张普通的照片变成动画风格的画。结果,ChatGPT 轻松地就完成了这个任务。

另一个是,团队要求 ChatGPT 在生成的图像上加一些文字,比如在图片上写上 「Feel The AGI」。ChatGPT 也顺利地做到了。

看不少介绍的文章后,感觉有些吹捧,于是上午见完朋友,下午回来赶紧试了试。问题是,怎么区分不同模型之间的能力差异呢?

我让 Qwen 帮我写了个提示词:

想象一个赛博朋克风格的场景,霓虹灯一闪一闪的,到处都是高楼大厦,楼上有大广告屏,街上跑着悬浮车,天上飞着无人机,还有一轮紫色的月亮挂在天上,地上的行人穿着高科技的衣服。从高处往下看整个城市,画面要高清,细节越多越好。

写完后,把提示词分别给了 GPT 和即梦 AI。不到 20 秒,GPT 出图了,它和即梦 AI 的图对比来说,每个模型对提示词的理解不同,两张图都有赛博朋克的感觉,但细节上各有特点。

要评价的话,两张图片都比较模糊。但即梦 AI 操作起来比较方便,直接点击细节修复、超清功能,就能有效提升清晰度,效果明显。

GPT 在这方面稍显不足,我让它生成高清一点的图,结果它又生成了一张图,遗憾的是,依然没有达到我的预期。

图释:左,Chat GPT;右,即梦 AI 

因此,从图像清晰度控制的可控性来看,GPT 可能稍弱一些。不过它也有自己的优势;比如:在调整尺寸上,我提出要 1:1 尺寸的图片时,它会给到两个不同的解决方案,并问我,你觉得哪个更高?更倾向哪个?

重复试了好几个提示词,结果依然这样。

我又试了一下它的新能力:世界知识的功能。官方说,这功能让 AI 在生成图片时,能更好地理解,并用上现实世界里的知识,做出的图更贴合用户的要求,也更符合实际逻辑。

说白了,AI 在作图时,会考虑现实里的细节,像地理位置、文化背景、还有物理规矩啥的。比如,画个雪山就不会冒出热带植物,画个古代场景不会突然冒出手机。

于是,我让 Qwen 帮我又写了一个提示词:

生成一张图,用两个站在滑板上的人推对方的动作来解释牛顿第三定律。要求画面直观,能清楚展示作用力和反作用力的关系。

给到它后,怎么评价呢?像那么回事。它能展示两个人在滑板上互相推开的关系,而且还增加了一些箭头和英文解释;但是,我为什么觉得这个能力像一个图像 PPT 功能呢。

紧接着,我又测试几轮,分别生成一个人的头部骨骼、身体骨骼。如果满分是 10 分,我最多给 6 分,因为大部分能力字节、腾讯的文生图模型都能做到。

图释:左,Chat GPT;右,即梦 AI 

Sam Altman 对这款产品评价很高,表示难以相信这是 AI 生成的,认为大家会喜欢,并期待用户用它创作出更多创意内容。

他的目标是尽量避免生成冒犯性内容,认为将创作自由和控制权交给用户是正确的,但也会关注实际使用情况并听取社会意见。

Altman 希望大家理解,他们在努力平衡自由和责任的关系,确保 AI 的发展符合大家的期望和道德标准。这些都是老生常谈的话。

我觉得,比起它目前的生成能力,更应该关注它为什么要替代 DALL·E 模型。要知道,DALL·E 模型是 OpenAI 在 2021 年 1 月发布的模型。作为老模型,难道不应该持续迭代,让它更强大吗?

实际上,关键在于 DALL-E 模型核心架构是自回归模型。

什么是自回归模型呢?

它利用自身历史的数据来预测未来的数据。工作方式是把图像拆解为一系列 token(类似于文字中的单词),然后像写作文一样,一个 token 一个 token 地生成图像。

举个例子:

你要画一只猫,你先画了猫的头,然后根据头的样子再画眼睛,再根据眼睛和头的关系画鼻子,一步步来,不能跳过任何一个步骤。这就是自回归模型的工作方法。

优点是能保证细节,缺点很明显,一,速度跟不上、二,前面要是画错了,后面很难调整;因此,OpenAI 选择用新的模型来替代它。

那么,替代后的模型什么样呢?答案是非自回归模型 (Non-autoregressive models),它改变了核心架构。

这个架构会先理解整个图的结构和细节,更像学生先听完老师讲完题目,把整张画的轮廓搞出来,再一点点填细节。比如:画只猫,先勾勒出猫的外形,再去细化毛发、眼睛。

这种模型采用一种特殊的编码、解码架构来实现目标。简单来说,编码器负责 「读题」,理解你输入的文字;解码器负责 「作答」,根据文字生成图片。

优势在于,一,不再像老方法那样一步步、逐像素地生成图像,效率更高,二,整体表现更强,特别是在复杂场景里,能更好地处理多个物体之间的关系,生成的图片更逼真。

好比画一个桌子上有杯子、书本和台灯的场景,非自回归模型能更自然地处理东西的位置和光影效果,不会显得乱七八糟。而且,它对复杂的文字指令理解得更好,生成的图片和描述基本能做到符合逻辑。

还有一个特点:这种模型灵活性强,能融合到多模态里,比如,把它塞进 ChatGPT 4.0 里,它不仅能看图,还能结合音频或已有的图像,进而生成更多样化的内容。

因此,Open AI 这一步本质做了一次小小的自我革命。

春节时,DeepSeek 发布一款文生图模型 Janus-Pro,关注过的人应该知道,它采用了非自回归的框架。Janus 系列中的 Janus-Pro-7B 模型,在 GenEval 的准确率上达到了 80%,甚至超过 DALL-E 3 的 61%。

我查了一下,这种非自回归模型最早在 2018 年的 ICLR 会议上提出,最初应用于神经机器翻译 (Neural Machine Translation, NMT) 领域,目的是加速推理速度。

从论文综述来看,微软在 2022 年 5 月 13 日进行了进一步研究。而国内 2023 年左右,阿里巴巴、科大讯飞、昆仑万维、云从科技等一系列企业已经引入这一技术。

所以,OpenAI 是看到了国内对这一模型应用的成熟,开始反思自己了吗?

Search

没有结果
查看所有结果

一周热门

新华财经晚报:今年前8个月进出口总值超29万亿元

新华财经晚报:今年前 8 个月进出口总值超 29 万亿元

2025 年 9 月 8 日

证券 ETF(512880) 跌近 1%,10 日净流入超 80 亿元

2025 年 9 月 8 日
商务部答每经:将聚焦先进制造、数字科技等重点产业,推动东盟与中日韩产业链供应链合作走深走实

商务部答每经:将聚焦先进制造、数字科技等重点产业,推动东盟与中日韩产业链供应链合作走深走实

2025 年 9 月 8 日
A股重磅!又有两家公司筹划重大资产重组!

A 股重磅!又有两家公司筹划重大资产重组!

2025 年 9 月 8 日

有色新能源周度观察 20250907

2025 年 9 月 8 日

【MPOB 8 月月报前瞻】 马棕油 8 月库存或将连续第六个月攀升!

2025 年 9 月 8 日
DeepSeek一句话,国产芯片算力大爆发,寒武纪市值突破5000亿

DeepSeek 一句话,国产芯片算力大爆发,寒武纪市值突破 5000 亿

2025 年 9 月 8 日

证券时报:基金极致抱团科技赛道 流动性风险须提前预防

2025 年 9 月 8 日
台风「塔巴」将于8日在广东登陆 停课、停运!广东、海南紧急通知

台风 「塔巴」 将于 8 日在广东登陆 停课、停运!广东、海南紧急通知

2025 年 9 月 8 日
美元信用「动荡」时代 黄金成全球配置「压舱石」

美元信用 「动荡」 时代 黄金成全球配置 「压舱石」

2025 年 9 月 8 日
金桂财经

2025 年 9 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 8 月    

近期动态

  • 新华财经晚报:今年前 8 个月进出口总值超 29 万亿元
  • 证券 ETF(512880) 跌近 1%,10 日净流入超 80 亿元
  • 商务部答每经:将聚焦先进制造、数字科技等重点产业,推动东盟与中日韩产业链供应链合作走深走实
  • A 股重磅!又有两家公司筹划重大资产重组!
  • 有色新能源周度观察 20250907
  • 【MPOB 8 月月报前瞻】 马棕油 8 月库存或将连续第六个月攀升!
广告

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 关于本站
  • 联系我们
  • 隐私政策
没有结果
查看所有结果
  • 登录& 注册

Copyright © 2025 广州金桂广告传媒有限公司. 粤 ICP 备 2025390655 号

  • 登录
  • 注册
忘记密码?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.
body::-webkit-scrollbar { width: 7px; } body::-webkit-scrollbar-track { border-radius: 10px; background: #f0f0f0; } body::-webkit-scrollbar-thumb { border-radius: 50px; background: #dfdbdb }