MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Ideogram 4.0 开源:9.3B 参数图像模型首创结构化 JSON 提示词

AI 图像生成平台 Ideogram 推出首个开放权重基础模型 Ideogram 4.0,采用单流 DiT 架构与 Qwen3-VL-8B 文本编码器,并以原生结构化 JSON 提示词和原生 2K 多语言排版能力在多项基准上领先 FLUX.2 [dev] 与 Nano Banana 2。

References

Ideogram 4.0 开源:9.3B 参数图像模型首创结构化 JSON 提示词

AI 图像生成平台 Ideogram 正式发布其首个开放权重(open-weight)图像基础大模型 Ideogram 4.0,这也是该公司首次将自有图像基础模型以权重形式对外开放。

模型架构与训练

Ideogram 4.0 拥有 93 亿(9.3B)参数,采用单流 Diffusion Transformer(DiT)架构。值得注意的是,该模型创新性地选用 Qwen3-VL-8B-Instruct 作为文本编码器,并从该模型中提取 13 个中间层的隐藏状态作为文本条件信号,从而获得更强的文本理解与空间对齐能力。

在训练阶段,Ideogram 4.0 完全使用 JSON 结构对数据进行标注,这也是后续「结构化 JSON 提示词」能力得以实现的基础。

开放权重与许可

Ideogram 4.0 同时开源两个推理版本:

  • nf4 版本:支持 CUDA 与 Diffusers,可在单张 24GB 显存 GPU 上运行;
  • fp8 版本:支持全硬件部署。

推理代码采用 Apache 2.0 许可;模型权重在非商业用途和学术研究下免费开放,商业部署则需要向官方申请「与业务规模相匹配」的商用许可——企业可下载权重、微调并在自有硬件上运行。

核心亮点:结构化 JSON 提示词

Ideogram 4.0 的最大创新在于首次引入了结构化 JSON 提示词接口(Structured JSON Prompting)。用户可以传入一个结构化的 JSON 字符串,对图像生成进行精细化控制:

  • 空间布局:通过 bounding box 明确物体与文字的绝对位置;
  • 画面风格:定义色值(hex 列表)、艺术风格、光照与镜头参数;
  • 成分解构:清晰区分背景与前景的各个元素。

这一能力使模型在海报、版面设计、电商物料等需要精确排版的场景中具备明显优势。

其他能力还包括原生 2K 分辨率图像生成多语言文字渲染,以及内置的权重级安全过滤器

基准测试与人类评估

在多项权威基准测试中,Ideogram 4.0 表现领先:

基准 指标 得分
7Bench(布局控制) mIoU 0.69
X-Omni(英文 OCR / 文字渲染) 准确率 0.97
设计偏好 ELO 盲测 开源模型排名 第一

在综合表现上,Ideogram 4.0 声称领先于 FLUX.2 [dev]Nano Banana 2 等同类开源/开放权重模型。

此外,根据其人类评估合作伙伴 ContraLabs 的盲测结果:

  • 在排版生成任务中 win rate 达 47.9%
  • 在「设计师是否会用于实际客户项目」的实用性评分中名列首位

小结

Ideogram 4.0 的发布意味着开源社区首次获得一款以「结构化、可控、专业排版」为核心定位的基础图像模型。借助 Qwen3-VL 作为文本编码器、原生 JSON 训练以及 nf4/fp8 双格式发布,它在本地化部署和企业级应用上的可玩性都明显高于此前的开源图像模型。对于海报设计、品牌物料、多语言排版等工作流,Ideogram 4.0 值得作为首选工具之一进行试用。


信源:Ideogram 官方 X 公告、Show HN 上的 Ideogram 4.0 提交页,以及中文科技聚合对结构化 JSON 提示词能力的介绍。