MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Reve 发布 Reve 2.0 4K 图像模型:以「布局即代码」挑战传统文本提示词

独立研究实验室 Reve 推出 4K 图像生成模型 Reve 2.0,凭借「布局」中间表示在图像生成竞技场排名第二,仅次于 OpenAI 的 GPT Image 2,并支持对生成图像的像素级代码式编辑。

References

Reve 2.0:用「布局」取代自然语言,重写图像生成中间层

独立研究实验室 Reve 正式发布 4K 图像生成模型 Reve 2.0。在文本生成图像竞技场(Image Arena)总榜中,Reve 2.0 位列第二,仅次于 OpenAI 的 GPT Image 2,排名高于 Google 的 Nano Banana 2(Gemini 3.1 Flash Image Preview)。

「布局路线」:两年前押下的赌注

Reve 在官方博客中阐述了其核心方法论 —— 早在两年前做出的「布局路线」(Layout Bet)选择。Reve 认为,目前主流视觉生成模型都把自然语言作为中间介质:在生成像素前,先由大语言模型进行规划。语言虽表达力强,但天然存在模糊性,对生成结果的空间控制力不足。Reve 把这种局限概括为一句话——「模糊是控制的敌人」。

为实现精准控制,Reve 选择了结构化、类似代码的「布局(Layout)」作为中间表示:直接指定图像中物体的类别、位置、尺寸与空间关系。Reve 表示,使用布局作为中间介质大幅降低了计算开销,使团队得以用比对手少约 10 倍的算力或 GPU 数量训练出可与之抗衡的模型。

「图像即代码」与「可触碰的图像」

基于布局的生成方式衍生出两个产品理念:

  • 图像即代码(Images as code):Reve 2.0 在生成像素之前先构建一份「布局代码」,图像的每个区域都拥有独立的地址。
  • 可触碰的图像(Images you can touch):生成完成后,模型会自动对图像区域进行分割与标注。用户可以直接修改代码,或在画布上点击特定区域进行无损的像素级编辑——而不再局限于通过调整文本提示词来反复尝试画面。

这意味着用户与 AI 智能体都可以像修改源代码一样,精准而高效地修改生成图像的局部内容。

团队与公司背景

Reve 自称是「由研究者、工程师与设计师组成的小团队,致力于自动化创意工作」。其核心成员包括:

  • Michael Gharbi,公司创���人之一、研究科学家,曾在 X 平台透露公司目标是构建能「真正像人一样在视觉上思考」的前沿图像 AI 模型。
  • Hunter Loftis,设计师。
  • Taesung Park,研究员,曾参与多个知名文本到图像模型项目,主张「为视觉生成而生的逻辑应当与生俱来」。

Reve 此前以「Halfmoon(半月)」代号在 Artificial Analysis 图像竞技场登顶,击败 Midjourney v6.1、Google Imagen 3、Recraft V3 与 Black Forest Labs 的 FLUX.1.1 [pro] 等模型,其 1.0 版本已通过 preview.reve.art 开放免费预览。Reve 2.0 的发布,则把团队在「代码式布局」上的长期押注,转化为一份可被用户直接上手的 4K 图像生成体验。