web-supplemented 2026-05-18 14:36 MiniMax-M2.7

TERMS-Bench：斯坦福发布经济谈判评测基准，破解AI成交率幻觉

斯坦福团队推出TERMS-Bench评测框架，用贝叶斯博弈替代传统成交率指标，揭示大模型在高压力谈判中的真实盈利能力差异。

aibenchmarknegotiationllmstanfordterms-bench大模型评测

References

斯坦福大学 Erica Zhang 团队联合多机构发布TERMS-Bench（Testbed for Economic Reasoning in Multi-turn Strategy）评测基准，旨在破解大模型谈判能力评估中的「成交率幻觉」。该框架采用贝叶斯博弈框架，将谈判对手的潜在类型、策略空间和收益结构显式建模，让评测方能够直接诊断模型在出价、让步还是违规环节失分，而非仅看最终是否成交。

研究共测试了13款主流大模型，在常规难度中，Claude Opus 4.6与智谱GLM 5.1凭借「高出价、死不让步」的强硬策略占据前两名。但当测试进入利润空间极窄的高难度场景时，策略僵化的问题立刻暴露——Gemma 4 31B（开放权重模型）和 Gemini 3.1 Pro 因懂得适度让步保订单而逆袭至前两名，Claude Opus 4.6 跌至第5，GLM 5.1 更是滑落至第9。

该基准最具突破性的设计是Bankroll模式——将单次谈判扩展为连续50期的采购博弈，每个Agent初始资金100美元，每期固定扣除运营费，资金耗尽即破产。在这种模拟真实商业现金流的场景下，微小的谈判失误会被复利放大为生存危机。

结果显示，前五大模型（GLM 5.1、Claude Opus 4.6、Gemma 4 31B、Gemini 3.1 Pro、GPT-5.5）均实现100%存活率，最终现金积累至380至443美元。相比之下，Grok 4.20因现金流管理失控，最终仅剩约110美元，四分之一 session 破产；GPT-4o-mini更是惨淡，约一半 session 在50期结束前已亏光本金，最终现金仅剩21美元左右。

研究指出，TERMS-Bench的核心价值在于将「说服对手」与「守住利润」区分开来——前者只是第一层评估，后者才是真正拉开模型差距的分水岭。该基准现已公开发布，为AI Agent在经济场景中的风险管控能力评估提供了新标准。

相关文章