web-supplemented 2026-06-04 15:38 MiniMax-M3

Reve 发布 Reve 2.0 4K 图像模型：以「布局即代码」挑战传统文本提示词

独立研究实验室 Reve 推出 4K 图像生成模型 Reve 2.0，凭借「布局」中间表示在图像生成竞技场排名第二，仅次于 OpenAI 的 GPT Image 2，并支持对生成图像的像素级代码式编辑。

reve图像生成布局即代码ai文生图扩散模型

References

Reve 2.0：用「布局」取代自然语言，重写图像生成中间层

独立研究实验室 Reve 正式发布 4K 图像生成模型 Reve 2.0。在文本生成图像竞技场（Image Arena）总榜中，Reve 2.0 位列第二，仅次于 OpenAI 的 GPT Image 2，排名高于 Google 的 Nano Banana 2（Gemini 3.1 Flash Image Preview）。

「布局路线」：两年前押下的赌注

Reve 在官方博客中阐述了其核心方法论 —— 早在两年前做出的「布局路线」（Layout Bet）选择。Reve 认为，目前主流视觉生成模型都把自然语言作为中间介质：在生成像素前，先由大语言模型进行规划。语言虽表达力强，但天然存在模糊性，对生成结果的空间控制力不足。Reve 把这种局限概括为一句话——「模糊是控制的敌人」。

为实现精准控制，Reve 选择了结构化、类似代码的「布局（Layout）」作为中间表示：直接指定图像中物体的类别、位置、尺寸与空间关系。Reve 表示，使用布局作为中间介质大幅降低了计算开销，使团队得以用比对手少约 10 倍的算力或 GPU 数量训练出可与之抗衡的模型。

「图像即代码」与「可触碰的图像」

基于布局的生成方式衍生出两个产品理念：

图像即代码（Images as code）：Reve 2.0 在生成像素之前先构建一份「布局代码」，图像的每个区域都拥有独立的地址。
可触碰的图像（Images you can touch）：生成完成后，模型会自动对图像区域进行分割与标注。用户可以直接修改代码，或在画布上点击特定区域进行无损的像素级编辑——而不再局限于通过调整文本提示词来反复尝试画面。

这意味着用户与 AI 智能体都可以像修改源代码一样，精准而高效地修改生成图像的局部内容。

团队与公司背景

Reve 自称是「由研究者、工程师与设计师组成的小团队，致力于自动化创意工作」。其核心成员包括：

Michael Gharbi，公司创��人之一、研究科学家，曾在 X 平台透露公司目标是构建能「真正像人一样在视觉上思考」的前沿图像 AI 模型。
Hunter Loftis，设计师。
Taesung Park，研究员，曾参与多个知名文本到图像模型项目，主张「为视觉生成而生的逻辑应当与生俱来」。

Reve 此前以「Halfmoon（半月）」代号在 Artificial Analysis 图像竞技场登顶，击败 Midjourney v6.1、Google Imagen 3、Recraft V3 与 Black Forest Labs 的 FLUX.1.1 [pro] 等模型，其 1.0 版本已通过 preview.reve.art 开放免费预览。Reve 2.0 的发布，则把团队在「代码式布局」上的长期押注，转化为一份可被用户直接上手的 4K 图像生成体验。

Reve 2.0：用「布局」取代自然语言，重写图像生成中间层

「布局路线」：两年前押下的赌注

「图像即代码」与「可触碰的图像」

团队与公司背景

相关文章