阿里开源Qwen-Image-Bench:首个覆盖五维度的T2I评测基准,GPT Image 2夺冠
阿里巴巴Qwen团队近日宣布开源全新的绘图评测基准Qwen-Image-Bench,专门用于评估大语言模型从文本生成图像(Text-to-Image,简称T2I)的能力。这套评测体系不仅包含1000个中英双语分层提示词,还配套推出了基于Qwen3.6-27B深度训练的统一视觉裁判模型Q-Judger,旨在提供与专业人类评审高度一致的精细化评估。
五维度23子能力:重新定义AI绘画评测标准
Qwen-Image-Bench模拟专业艺术创作工作流,构建了涵盖画质、美学、文字与画面对齐、真实世界保真度以及创意生成五大维度的评测体系,下设23个子能力与56个细分指标。每条提示词平均同时考核4个以上维度,评测粒度之细在业内尚属首次。
为确保裁判模型的专业性,Q-Judger在来自艺术院校的80名专业评审监督下完成盲审与三审标注,训练数据集涵盖超13万个双语专家标注对。最终模型输出56个维度的结构化得分,与人类专家打分吻合度高达92%,实现了近乎专家级的评判能力。
首批评测结果:GPT Image 2五项全能夺魁
首批评测覆盖18个主流图像生成模型,主要排名如下:
| 模型 | 综合得分 |
|---|---|
| GPT Image 2 | 64.69 |
| Nano Banana 2.0 | 59.82 |
| GPT Image 1.5 | 59.65 |
| Nano Banana Pro | 59.45 |
| Qwen Image 2.0 Pro(阿里自研) | 57.84 |
| GLM Image | 48.19 |
值得注意的是,GPT Image 2不仅以显著优势夺冠,更在全部五大维度上均位列第一,展现出全面领先的生成能力。而真实世界保真度与创意生成两项指标成为拉开模型梯队差距的关键维度。
行业瓶颈浮现:物理规律与细节处理成共同短板
评测结果同时揭示了当前行业面临的技术瓶颈。在手部骨骼结构、重力和光影等物理规律表现、以及物体间穿模处理等细节维度上,主流AI绘画模型普遍存在明显不足——即便顶尖模型,这些维度的得分也均低于44分。这为后续模型的优化指明了明确方向。
Qwen-Image-Bench现已开源,相关技术报告已同步发布于arXiv平台。