自回归单次推理,不再是扩散模型
中日韩阿希印全覆盖
比例 1:3 ~ 3:1
GPT Image 1.5 需 8-18s
一致风格批量输出
- 文字渲染:中文、日文、韩文、阿拉伯文、希伯来文、印地文均支持,约 99% 准确率
- 分辨率:最大 3840px,支持 1:3 到 3:1 任意比例
- 速度:~3 秒生成 1024×1024(上一代 GPT Image 1.5 需 8-18 秒)
- 单次前向推理:无两阶段流程
- 批量生成:单 prompt 最多 8 张风格一致的图像
- 思考模式:集成 reasoning + web search,处理复杂 prompt
- 图像编辑:支持 inpainting(通过 mask 局部修改)
- 透明背景:PNG 格式直接导出透明背景
GPT-Image-2 文字渲染示例:多语言精准文字生成(来源:OpenAI)
| 架构类型 | 自回归模型(非扩散) |
| 推理阶段 | 单阶段(vs GPT Image 1.5 两阶段) |
| 推理能力 | 集成(类 o-series) |
| 架构重建 | 从头重建(研究科学家 Boyuan Chen 表述) |
| 与 GPT-5 关系 | 独立模型,GPT-5.x 可作为工具调用 |
gpt-5.4-image-2 组合模型(非 OpenAI 官方模型 ID),支持在 GPT-5 内调用图像生成能力[8]。
| 质量档位 | 每张成本 | 适用场景 |
|---|---|---|
| Low | $0.006 | 草稿、预览、批量测试 |
| Medium | $0.053 | 日常内容生产 |
| High | $0.211 | 商业发布、高精度设计 |
LM Arena 文生图排行榜(来源:OpenAI)
| 模型 | 文字准确率 | 速度 | 最大分辨率 | 成本/张 | Elo |
|---|---|---|---|---|---|
| GPT Image 2 | ~99% | ~3s | 3840px | $0.006-0.211 | 1512 |
| Midjourney V7 | 改进中 | 10-15s | 2048px | ~$0.01-0.04 | ~1270 |
| Flux 2 Pro | 好 | 快 | 2048px | $0.055 | 1265 |
| Ideogram 3.0 | 90-95% | 中等 | 2048px | ~$0.04 | ~1250 |
| Google Imagen 4 | 好 | 2.7s | 2048px | $0.02-0.06 | ~1240 |
- C2PA 元数据:所有生成图像嵌入 Coalition for Content Provenance and Authenticity 标准元数据
- 不可见水印:通过水印可追溯 AI 生成来源
- moderation 参数:API 支持
auto/low两档过滤强度 - 思考模式越狱率:仅 6.7%(通用越狱率的显著改进)[4]
- 版权诉讼:51+ 起版权诉讼悬而未决,平台层面尚未解决
单 prompt 生成多张一致风格图片(来源:OpenAI)
精准控制能力:排版、布局、UI 设计(来源:OpenAI)
- Latent Space:"不只是更好看,而是更可用——UI、mockup、文档、生产力视觉场景都能用了"[8]
- TechCrunch:"文字生成出人意料地好,在海报和演示文稿设计中表现突出"[6]
- The New Stack:"API 定价和批处理折扣让企业级集成成为可行选项"[9]
- 复杂物理建模(如液体、烟雾动态)仍有明显问题
- 复杂 prompt 在思考模式下最长等待约 2 分钟
- 多轮迭代编辑中存在质量递减现象
- Organization Verification 门槛限制了小团队快速接入
入口:chat.openai.com → 直接描述你想要的图片
端点:
POST api.openai.com/v1/images/generations文档:developers.openai.com/api/docs/guides/image-generation
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="一只戴贝雷帽的猫在巴黎画埃菲尔铁塔",
size="1024x1024",
quality="high"
)
image_generation 内置工具,支持 previous_response_id 实现多轮迭代编辑。GPT-5 及更新模型可直接调用。适合"生成→修改→再修改"的工作流
1. 范式转换,不是迭代升级。图像生成从"扩散去噪"转向"自回归推理",意味着未来的改进路径与 LLM 高度重叠——更大的模型、更多的计算、更好的推理能力。这是对整个图像生成行业的重新定义[1]。
2. 99% 文字准确率是商业关键。对于海报、PPT、UI mockup 等商业设计场景,之前 AI 图像生成的最大障碍不是画质,而是文字错误。这一障碍的消除意味着商业设计师第一次可以把 AI 作为可信赖的生产工具,而非"只能做灵感参考"的玩具。
3. DALL-E 关停是信号。OpenAI 主动关停自己的两款成熟产品,表明扩散模型作为主流图像生成范式可能正在退场——至少在 OpenAI 内部的技术路线判断中如此。
4. 242 分 Elo 差距是压倒性的,但竞争格局未必终结。Midjourney 在美学风格控制、Flux 在真实感摄影风格上仍有受众。Arena 排名衡量的是综合偏好,专业垂直场景可能呈现不同结论。
5. 关键问题尚待观察:当图像生成也进入"推理时代",训练成本和推理成本会怎样变化?自回归图像模型的 scaling law 是否与 LLM 一致?高成本的 High 质量档($0.211/张)能否被创作者接受?这些问题的答案,将决定 GPT-Image-2 是否真如 Sam Altman 所说,代表了一个时代级别的跃迁[1]。