MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

金融AI评测基准迎来大考:GPT-5.5准确率仅51.76%,华尔街分析师饭碗暂时无忧

AI评测机构Vals AI发布的第二代金融智能体基准测试显示,即使是最强AI模型在模拟初级金融分析师工作流时准确率也未超过52%,暴露出当前AI在金融深水区与人类专业水平仍有显著差距。

References

评测结果:头部模型集体"滑铁卢"

AI评测机构Vals AI近日发布了第二代金融智能体基准测试(Finance Agent Benchmark v2)结果。这项被誉为目前最严苛的金融AI评测显示,即使是最先进的大语言模型,在模拟初级金融分析师工作流时仍难以企及人类专业水准。

GPT-5.5以51.76%的准确率勉强登顶,与Claude Opus 4.7(51.51%)和Claude Sonnet 4.6(51.03%)形成胶着态势,三者差距不足1个百分点。这一结果与今年4月GPT-5.5发布时在SWE-bench测试中88.7%的亮眼表现形成鲜明对比,凸显出金融专业领域对AI能力的独特挑战。

测试设计:还原真实金融工作场景

与常规问答测试不同,Finance Agent v2要求模型在数百页的10-K和10-Q财报文档中自主定位相关段落,处理跨年份财务报表调整,并携带精确中间数字完成多步计算。测试共包含927道由专家审核的问题,覆盖财务分析、估值建模、风险评估等多个维度。

值得注意的是,若采用"完全答对"的严格评分标准,所有前沿模型的准确率均跌破40%。在最难的"财务建模"和"先例分析"类别中,最高分更是仅有23%。这一数据与去年同类评测中Claude Opus 4.7获得的64.4%形成巨大落差,说明新版测试的难度设计实现了质的飞跃。

国产模型表现:Kimi K2.6领跑

在国内厂商方面,Kimi K2.6以44.87%的准确率位列第五,成为得分最高的国产模型;智谱GLM 5.1(44.79%)和深度求索DeepSeek V4(44.08%)紧随其后,三者均与头部国际模型保持约7个百分点的差距。

此外,评测还设立了效率类奖项:Claude Opus 4.7凭借单次耗时360秒获得"最快速度"标签,GLM 5.1则凭借0.62美元的单次成本摘得"最省预算"头衔。

行业启示:AI金融应用的边界与机遇

这一轮集体"失利"揭示了当前AI在金融领域面临的核心挑战:虽然AI已能胜任简单的信息检索,但当任务涉及特定行业惯例遵循、对数字精准度的极致要求时,仍与人类分析师存在显著差距。

正如Vals AI在报告中指出的那样,AI可以在海量财务数据中快速定位信息,但在需要职业判断和场景理解的"深水区",人类专业价值依然不可替代。对于金融机构而言,当前更务实的策略是将AI定位为分析师的效率工具而非替代者。

随着谷歌、耶鲁、哥伦比亚大学等机构联合推出MultiFinBen等多语言多模态金融评测基准,行业对AI金融能力的要求正变得日益全面和严格。这场AI与金融专业能力的"攻坚战",或许才刚刚开始。