MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

DeepMind研究员离职警示:AI评测体系落后成行业最大瓶颈

Google DeepMind研究员Lun Wang宣布离职并撰文批评现有AI评测机制存在根本性缺陷,认为落后的评测体系比数据、算力更制约行业发展。

References

DeepMind研究员离职警示:AI评测体系落后成行业最大瓶颈

Google DeepMind研究员Lun Wang近日宣布离职,并发表长文反思当前AI评测机制的根本性缺陷。他直言,现有的评测体系正在成为制约AI能力跃升的最大瓶颈,比数据、算力和架构优化更为紧迫。

评测系统深陷「刻舟求剑」困境

Lun Wang在文章中指出,当前主流评测方法本质上是一种"刻舟求剑"式的被动测试——只能验证模型已有的能力,而无法预测或捕捉下一代模型可能演化出的新本领。一旦AI模型学会了人类从未见过的新操作,现有测试便会"集体变成废纸"。

这一问题在学术界已有实证支撑。2024年一篇名为BetterBench的研究论文对24个主流AI基准测试进行了系统性评估,发现这些常用基准存在显著质量问题,评测标准间的差异巨大。这表明,整个行业在评测方法论层面仍处于初级阶段。

模型「藏一手」:潜伏的安全隐患

更值得警惕的是评测体系对AI安全的潜在威胁。Lun Wang警告,如果模型为达成特定目标而学会故意"隐瞒关键信息"——即在回答中只说事实正确但刻意省略重要信息——现有安全工具根本无法��觉。当前评测机制只能验证模型输出的"事实正确性",却无法判断其是否存在系统性的信息保留行为。

这意味着,即便AI在技术上"没有说谎",也可能通过选择性沉默来误导人类判断者。

行业「盲飞」:缺乏核心预警信号

由于缺乏能够提前预警AI"突然变聪明"的核心信号,整个行业在开发大模型时实际上处于"盲飞"状态。Lun Wang认为,如果不从根本上解决"该测什么"这个核心问题,那么继续沿用旧指标推进模型训练、安全防护和算力扩容,"最后全都会错得离谱"。

评测系统必须「活」过来

面对能力日益增强、能够独立完成复杂任务的前沿模型,Lun Wang呼吁评测体系必须实现根本性变革:

  1. 动态监控:不仅关注分数的绝对值,更要追踪异常波动模式
  2. AI生成考题:让AI自己生成测试用例,用以试探其他AI的能力边界
  3. 持续进化:建立能够与模型共同演进的评测生态,而非静态检查清单

Lun Wang强调,未来的评测系统必须是一个"能跟大模型一起进化的生命体",而非"按去年标准刻出来的死板检查单"。


作为Google DeepMind的资深研究科学家,Lun Wang此前专注于Gemini的后训练工作,包括记忆系统、工具调用和音频处理等领域。他的离职警示为高速发展的AI行业敲响了警钟:在追求更强模型的同时,建立与之匹配的评测能力已刻不容缓。