那张叫"胶带"的AI,正在撕掉人类设计的最后防线
几个月前,OpenAI刚把GPT-Image-1.5甩到桌上,人们还在惊叹于光影和色彩的进步。
现在,Images 2.0来了。
它有个不怎么性感的内部代号——"duct tape"(胶带)。过去几周,它化名潜伏在LM Arena AI(那个各大AI厂商用来偷跑测试的第三方平台)上,已经提前把早期用户的下巴惊掉了一地。
今天,它正式卸下面具。
不只是画图,是"视觉推理"
老实讲,以前的AI生图就像个听话但有点笨的画师:你给prompt,它出图,一次成型,不问对错。
Images 2.0彻底换了套逻辑。
当你选择"Thinking"模式,它不再直接"画",而是先研究、规划、推理。OpenAI产品负责人Adele Li在闭门发布会上演示了一个场景:上传一份复杂的内部产品策略PPT,模型没有瞎配图,而是拆解核心数据、识别正确Logo、理解排版风格,最终生成一张专业海报。
这背后是新架构gpt-image-2。研究团队负责人Boyuan Chen说,这是"从头重写"的架构,不再是传统扩散模型或自回归模型,而是一个**"图像版GPT"**——通用ist模型。
知识截止2025年12月,它能实时搜索网络确保视觉准确性。这意味着,让它画一张"阿兹特克、玛雅和印加帝国极盛时期地图",它不仅能画对疆域,还能配上完全可读的图例——这在以前几乎是AI生图的禁区。
以假乱真的三大杀器
UI截图。这是Images 2.0最阴狠的能力。它能生成逼真的网站界面、App截图,连Sam Altman本人的照片还原都达到了令人不适的精度。
多语言排版。告别鬼画符般的乱码文字。现在它能处理密集排版:科学图表、菜单、杂志封面(连条形码上的"Display until"日期都清晰可辨)。更关键的是,它支持日语、韩语、中文、印地语、孟加拉语等非拉丁文字,且不是简单翻译,而是语言自然融入设计。
八格漫画连续性。一次prompt生成最多8张图,且保持角色和物体连续性。做分镜、画漫画、做品牌Campaign的系列素材,不再需要一张张抽卡拼贴。OpenAI自己说,这是为了解决以前" cumbersome(繁琐)"的工作流。
能力越大,争议越烫
但就在发布前夕,《纽约时报》刚发了一篇报道:AI生成的虚拟角色(AI UGC)正被大量用于政治影响 campaign,比如伪造一群"真实美国人"支持特朗普的视频。
面对"这技术会不会被用于欺骗性政治广告"的尖锐提问,Adele Li的回应滴水不漏:"我们极其严肃地对待安全与选举干预。其他平台可能没有这些保障,但ChatGPT有。"
OpenAI确实在强调多层安全栈:水印溯源、内容过滤、实时监控。但问题是,当AI能生成以假乱真的UI截图和人物照片,当它能把网络搜索结果直接视觉化,防御机制真的能跑赢恶意使用者的想象力吗?
Images are a language, not decoration(图像是语言,不是装饰)。这是OpenAI的官方定调。当图像成为语言,也就成为了武器。
分层收割:谁有资格让AI"思考"?
OpenAI的商业模式这次也刀法精准:
- 免费用户:基础ImageGen 2.0,快但无脑
- Plus/Pro:解锁"Thinking"——慢,但会搜索、会推理、一次出8张连贯图
- Pro用户:额外解锁"ImageGen Pro"(具体高在哪,OpenAI还没说清)
- API开发者:gpt-image-2,支持4K(beta中),价格输入$8,输出$30(比1.5便宜了$2)
值得注意的是,Google Nano Banana 2(Gemini 3 Pro Image)今年2月刚发布,也主打密集文字 baked into 图像。但据早期测试,Images 2.0在UI还原、多图包一致性上似乎压过一头。
这不是简单的分辨率升级。OpenAI试图解决AI艺术自诞生以来的"意图鸿沟"——当你要一张"供需关系信息图",你要的不是画,而是信息的逻辑排布。从"工具"到"视觉系统",Images 2.0想接管的是具有经济价值的创意任务。
设计师的饭碗,还在吗?
说实话,看到它能根据"Japandi风格"生成整套室内设计方案——从平面图到色卡再到材料清单——我确实脊背一凉。
但有意思的是,OpenAI自己也在犹豫。Thinking和Pro的区别到底是什么?高质量、高限额还是高分辨率?官方语焉不详。也许连他们也没想好,到底该把多强的能力放出来。
可以确定的是,等待时间变长了。为了"生产级可用资产",你得等AI多"想"一会儿。但对专业用户来说,等一分钟总比干几小时强。
当AI开始像设计师一样思考布局、像研究员一样核查事实、像漫画家一样保持角色连贯,我们或许该问的不是"它画得像不像",而是——
当图像成为一种推理语言,人类还剩下哪些不可被翻译的意图?
【锐评】:从" duct tape"到视觉推理引擎,OpenAI正在把生图工具变成创意垄断平台,而安全承诺在极致 realism 面前不过是张创可贴。
参考链接:
https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly