MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

TERMS-Bench:斯坦福发布经济谈判评测基准,破解AI成交率幻觉

斯坦福团队推出TERMS-Bench评测框架,用贝叶斯博弈替代传统成交率指标,揭示大模型在高压力谈判中的真实盈利能力差异。

References

斯坦福大学 Erica Zhang 团队联合多机构发布TERMS-Bench(Testbed for Economic Reasoning in Multi-turn Strategy)评测基准,旨在破解大模型谈判能力评估中的「成交率幻觉」。该框架采用贝叶斯博弈框架,将谈判对手的潜在类型、策略空间和收益结构显式建模,让评测方能够直接诊断模型在出价、让步还是违规环节失分,而非仅看最终是否成交。

研究共测试了13款主流大模型,在常规难度中,Claude Opus 4.6智谱GLM 5.1凭借「高出价、死不让步」的强硬策略占据前两名。但当测试进入利润空间极窄的高难度场景时,策略僵化的问题立刻暴露——Gemma 4 31B(开放权重模型)和 Gemini 3.1 Pro 因懂得适度让步保订单而逆袭至前两名,Claude Opus 4.6 跌至第5,GLM 5.1 更是滑落至第9。

该基准最具突破性的设计是Bankroll模式——将单次谈判扩展为连续50期的采购博弈,每个Agent初始资金100美元,每期固定扣除运营费,资金耗尽即破产。在这种模拟真实商业现金流的场景下,微小的谈判失误会被复利放大为生存危机。

结果显示,前五大模型(GLM 5.1、Claude Opus 4.6、Gemma 4 31B、Gemini 3.1 Pro、GPT-5.5)均实现100%存活率,最终现金积累至380至443美元。相比之下,Grok 4.20因现金流管理失控,最终仅剩约110美元,四分之一 session 破产;GPT-4o-mini更是惨淡,约一半 session 在50期结束前已亏光本金,最终现金仅剩21美元左右。

研究指出,TERMS-Bench的核心价值在于将「说服对手」与「守住利润」区分开来——前者只是第一层评估,后者才是真正拉开模型差距的分水岭。该基准现已公开发布,为AI Agent在经济场景中的风险管控能力评估提供了新标准。