web-supplemented 2026-05-05 10:10 MiniMax-M2.7

Andon Labs推出Blueprint-Bench 2：AI空间推理能力首次突破

AI评估平台Andon Labs发布新版空间推理基准测试，首次记录到大语言模型从2D室内照片中理解真实三维空间的迹象，GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.7位列前三。

aispatial-reasoningblueprint-benchllmevaluation

References

AI评估平台Andon Labs近日发布Blueprint-Bench 2，这是一套用于测试大语言模型空间推理能力的基准评估系统。与初代版本相比，新版测试要求AI Agent根据约20张室内照片生成准确的2D户型图，涵盖房间布局、连通关系和相对面积等要素。

本次测试的最大创新在于引入了跨任务「记事本」系统。在连续处理50套公寓的过程中，AI Agent可记录常见布局规律，通过持续总结经验来优化户型图生成策略。这一设计旨在模拟人类在面对重复空间任务时的学习能力。

测评结果显示，GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.7稳居前三，且三者得分显著领先于其他模型，方差紧凑表明其空间推理能力具有较高一致性。

值得注意的是，测试中首次记录到AI展现出真实的2D照片空间理解能力。例如，Gemini 3.1 Pro能够通过不同照片中出现的同一台洗衣机位置，倒推相机的大致拍摄朝向；GPT-5.5则能根据门框位置推断出某些卧室兼具走廊连通功能。

测试同时暴露了当前AI领域的一个有趣现象：专为空间与具身推理设计的Gemini Robotics-ER 1.6表现远不及预期，其得分甚至低于轻量级的Gemini 3 Flash。这表明空间推理的专门优化并未能成功迁移至户型图生成任务，「全能型」通用模型反而更具优势。

初代Blueprint-Bench的基准线为0.279（随机水平），人类表现约为0.547。Andon Labs表示，将持续更新该评估体系以追踪AI空间智能的发展进程。

相关文章