web-supplemented 2026-05-10 12:07 MiniMax-M2.7

微软开源Phi-Ground：40亿参数模型让AI精准「指哪打哪」

微软亚洲研究院开源Phi-Ground系列模型，40亿参数版本在GUI定位任务中超越OpenAI Operator和Claude Computer Use，刷新五项基准测试纪录。

人工智能微软Phi-Ground开源模型GUI交互计算机视觉

References

Phi-Ground模型示意图 — 微软亚洲研究院发布的Phi-Ground模型专门解决AI操控电脑时的屏幕定位问题 Image source

微软亚洲研究院近日开源了Phi-Ground系列模型，专注于解决AI操控电脑时「该点屏幕哪里」的核心难题——即图形界面定位（GUI Grounding）。该模型能够根据用户指令，在屏幕截图中精准输出点击坐标，堪称AI的「指哪打哪」能力。

技术突破与训练发现

研究团队基于超过4000万条数据进行大规模验证，发现此前学术论文中常用的三类训练技巧在大规模数据场景下全部失效。经过反复测试，真正有效的做法出奇简单：坐标直接作为普通数字输出（如「523, 417」），而非此前多篇论文采用的为坐标专门设计位置词汇表的方式。研究指出，这些自定义位置词汇在大规模训练时难以有效学习，反而会导致模型性能下降。

另一个关键发现是输入顺序的重要性。团队将文字指令排在图片之前输入，让大模型先读到「点击蓝色设置图标」再看图，这样处理像素时模型已经明确知道该找什么。相比之下，先看图后读指令的做法会让模型陷入盲目搜索，效果显著逊色。

强化学习在视觉任务中的意外收获

研究还发现，强化学习对纯视觉任务同样有效。团队采用DPO（Direct Preference Optimization）方法，让模型对同一张图进行多次点击预测，通过对比预测正确与错误的结果进行对比训练。实验表明，即使模型已完成充分微调，这一步仍能明显提升准确率。这一发现打破了此前强化学习主要用于推理类语言任务的认知局限。

针对4K高分屏上按钮占比极小（可能仅占屏幕面积0.07%）的难题，团队在训练时将截图按比例缩小后贴到大白底画布上，模拟高分屏下元素微小的真实场景。这一技巧在Photoshop等复杂专业软件上效果尤为突出。

基准测试表现

开源的40亿参数版本配合大模型进行指令规划后，在Showdown基准测试中点击准确率超越了OpenAI Operator和Claude Computer Use，并在ScreenSpot-Pro等五项主流基准上拿下百亿参数以下模型的全部第一，刷新了该领域的性能纪录。

Phi-Ground现已开源，研究人员可通过Hugging Face获取模型权重和技术报告。

技术突破与训练发现

强化学习在视觉任务中的意外收获

基准测试表现

相关文章