通义千问:Qwen-Image-2.0-Pro 正式上线
阿里通义团队发布 Qwen-Image-2.0-Pro,提升图像质量、多语言文本渲染和指令跟随能力,跨风格表现更稳定,在 LMArena 文生图榜单全球排名第 9。
查看原文核心要点
2026年4月25日,阿里巴巴通义千问团队正式发布图像生成模型 Qwen-Image-2.0-Pro。该版本在图像真实感、多语言文本渲染、复杂指令跟随三个维度实现显著提升,尤其在跨风格迁移场景下表现更为稳定。在 LMArena 文生图(Text-to-Image)基准测试中攀升至全球第9位,标志着阿里在图像生成领域的竞争力进一步向头部玩家逼近。
原文 + 中文翻译
原文: "Qwen-Image-2.0-Pro is here! 🚀 Major improvements in image quality, multilingual text rendering, and instruction following. More stable across styles. Ranked #9 globally on LMArena for text-to-image. Try it now: [link]"
翻译: "Qwen-Image-2.0-Pro 来了!🚀 在图像质量、多语言文本渲染和指令跟随方面实现重大提升。跨风格表现更加稳定。在 LMArena 文生图榜单全球排名第9。现在就试试:[链接]"
深度解读
从 VLM 到图像生成:通义产品线的战略扩展
阿里通义团队此前在视觉语言模型(VLM)领域已有深厚积累,Qwen-VL 系列在多模态理解任务上表现亮眼。Qwen-Image-2.0-Pro 的推出意味着通义正式将能力边界从「图像理解」延伸至「图像生成」,形成「理解+生成」的双轮驱动格局。这与 OpenAI 的 DALL-E + GPT-4V、Anthropic 的 Claude + Image Generation 路径相似,但阿里选择了更快速的迭代策略。
多语言文本渲染:差异化竞争的关键点
在文生图领域,中文文字渲染一直是开源模型的痛点——Stable Diffusion、X上来均在此环节表现欠佳。Qwen-Image-2.0-Pro 将「多语言文本渲染」作为核心卖点,意味着模型在训练时引入了大量包含中、日、韩、阿等多语种文字的图文对数据进行对齐。这不仅对国内用户具有直接价值,也为阿里云的国际化 API 服务提供了差异化卖点。从商业角度看,中文场景的高质量文本渲染能力是目前 Midjourney、DALL-E 3 均未完全解决的问题,这是阿里的可进攻窗口。
LMArena 排名第9的含义与局限性
LMArena(原 LMSYS Chatbot Arena)虽已扩展至文生图评估,但其榜单存在一定局限性:测试题目偏向特定风格、评分者以英语用户为主、无法完全反映中文场景的实际体验。因此排名第9的成绩需要辩证看待——它证明了 Qwen-Image-2.0-Pro 在英文标准测试集上达到了与 FLUX.1、Stable Diffusion 3 等顶尖模型比肩的水准,但国内用户在真实使用中的口碑还需等待更广泛的用户反馈与横向对比。 信源行:值得关注
原文链接:@Alibaba_Qwen(X/Twitter)
背景报道:TechCrunch — Alibaba Qwen 系列更新报道;雷峰网 — 通义千问产品线深度追踪