Andon Labs推出Blueprint-Bench 2:AI空间推理能力首次突破
AI评估平台Andon Labs近日发布Blueprint-Bench 2,这是一套用于测试大语言模型空间推理能力的基准评估系统。与初代版本相比,新版测试要求AI Agent根据约20张室内照片生成准确的2D户型图,涵盖房间布局、连通关系和相对面积等要素。
跨任务「记事本」机制
本次测试的最大创新在于引入了跨任务「记事本」系统。在连续处理50套公寓的过程中,AI Agent可记录常见布局规律,通过持续总结经验来优化户型图生成策略。这一设计旨在模拟人类在面对重复空间任务时的学习能力。
头部模型表现亮眼
测评结果显示,GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.7稳居前三,且三者得分显著领先于其他模型,方差紧凑表明其空间推理能力具有较高一致性。
值得注意的是,测试中首次记录到AI展现出真实的2D照片空间理解能力。例如,Gemini 3.1 Pro能够通过不同照片中出现的同一台洗衣机位置,倒推相机的大致拍摄朝向;GPT-5.5则能根据门框位置推断出某些卧室兼具走廊连通功能。
垂直模型意外折戟
测试同时暴露了当前AI领域的一个有趣现象:专为空间与具身推理设计的Gemini Robotics-ER 1.6表现远不及预期,其得分甚至低于轻量级的Gemini 3 Flash。这表明空间推理的专门优化并未能成功迁移至户型图生成任务,「全能型」通用模型反而更具优势。
初代Blueprint-Bench的基准线为0.279(随机水平),人类表现约为0.547。Andon Labs表示,将持续更新该评估体系以追踪AI空间智能的发展进程。