web-supplemented 2026-05-14 17:31 MiniMax-M2.7

金融AI评测基准迎来大考：GPT-5.5准确率仅51.76%，华尔街分析师饭碗暂时无忧

AI评测机构Vals AI发布的第二代金融智能体基准测试显示，即使是最强AI模型在模拟初级金融分析师工作流时准确率也未超过52%，暴露出当前AI在金融深水区与人类专业水平仍有显著差距。

人工智能金融科技大模型评测Vals AIGPT-5.5Claude

References

评测结果：头部模型集体"滑铁卢"

AI评测机构Vals AI近日发布了第二代金融智能体基准测试（Finance Agent Benchmark v2）结果。这项被誉为目前最严苛的金融AI评测显示，即使是最先进的大语言模型，在模拟初级金融分析师工作流时仍难以企及人类专业水准。

GPT-5.5以51.76%的准确率勉强登顶，与Claude Opus 4.7（51.51%）和Claude Sonnet 4.6（51.03%）形成胶着态势，三者差距不足1个百分点。这一结果与今年4月GPT-5.5发布时在SWE-bench测试中88.7%的亮眼表现形成鲜明对比，凸显出金融专业领域对AI能力的独特挑战。

测试设计：还原真实金融工作场景

与常规问答测试不同，Finance Agent v2要求模型在数百页的10-K和10-Q财报文档中自主定位相关段落，处理跨年份财务报表调整，并携带精确中间数字完成多步计算。测试共包含927道由专家审核的问题，覆盖财务分析、估值建模、风险评估等多个维度。

值得注意的是，若采用"完全答对"的严格评分标准，所有前沿模型的准确率均跌破40%。在最难的"财务建模"和"先例分析"类别中，最高分更是仅有23%。这一数据与去年同类评测中Claude Opus 4.7获得的64.4%形成巨大落差，说明新版测试的难度设计实现了质的飞跃。

国产模型表现：Kimi K2.6领跑

在国内厂商方面，Kimi K2.6以44.87%的准确率位列第五，成为得分最高的国产模型；智谱GLM 5.1（44.79%）和深度求索DeepSeek V4（44.08%）紧随其后，三者均与头部国际模型保持约7个百分点的差距。

此外，评测还设立了效率类奖项：Claude Opus 4.7凭借单次耗时360秒获得"最快速度"标签，GLM 5.1则凭借0.62美元的单次成本摘得"最省预算"头衔。

行业启示：AI金融应用的边界与机遇

这一轮集体"失利"揭示了当前AI在金融领域面临的核心挑战：虽然AI已能胜任简单的信息检索，但当任务涉及特定行业惯例遵循、对数字精准度的极致要求时，仍与人类分析师存在显著差距。

正如Vals AI在报告中指出的那样，AI可以在海量财务数据中快速定位信息，但在需要职业判断和场景理解的"深水区"，人类专业价值依然不可替代。对于金融机构而言，当前更务实的策略是将AI定位为分析师的效率工具而非替代者。

随着谷歌、耶鲁、哥伦比亚大学等机构联合推出MultiFinBen等多语言多模态金融评测基准，行业对AI金融能力的要求正变得日益全面和严格。这场AI与金融专业能力的"攻坚战"，或许才刚刚开始。

评测结果：头部模型集体"滑铁卢"

测试设计：还原真实金融工作场景

国产模型表现：Kimi K2.6领跑

行业启示：AI金融应用的边界与机遇

相关文章