MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

AI IQ平台上线:用人类智商量表给大模型「排队」

开发者Ryan Shea推出AI IQ平台,将GPT-5.5、Claude、Gemini等前沿模型的基准测试成绩换算为IQ分数,其中GPT-5.5以136分登顶,引发业界对AI能力可衡量性的讨论。

References

近日,开发者Ryan Shea上线了一个名为AI IQ的评测平台(aiiq.org),将当前主流的前沿大模型统一映射到人类IQ量表上,试图用一个直观的数字回答「这个模型到底有多聪明」。

GPT-5.5以136分领先

根据平台目前公布的排名,在重点受测的模型中:

  • GPT-5.5:136分(位居榜首)
  • Claude Opus 4.7 与 Gemini 3.1 Pro:并列132分
  • Grok 4.3:125分
  • Kimi K2.6:122分
  • DeepSeek V4 Pro 与 Muse Spark:并列117分
  • Qwen3.6:108分

OpenAI此前将GPT-5.5描述为「一种新的智能类别」,据《海峡时报》报道,该模型特别擅长「自主式」编码和计算机操作,即数字助手能在较少人工干预的情况下独立完成复杂任务。OpenAI联合创始人兼总裁Greg Brockman表示:「这个模型真正特别之处在于,它能以更少的引导完成更多的工作。」

算法逻辑:从12项基准到IQ分数

AI IQ的评分机制并非凭空创造,而是从公开排行榜中抓取12项基准测试的原始分数,通过校准后的难度曲线换算为隐含IQ。具体评分维度包括:

  • 抽象推理
  • 数学推理
  • 编程推理
  • 学术推理

最终综合得分取四个维度的均值。对于缺失数据的维度,平台采用保守填充策略,确保模型不会因未参与某项测试而显得更聪明。由于所有底层数据均来自已有基准,AI IQ本身并不进行新的测试,其核心价值在于将分散的跑分数据翻译成普通用户也能理解的尺度。

平台还提供哪些视角?

除了综合智商排名,AI IQ还提供几个交叉视图:

  • 「IQ对成本」图表:帮助用户直观筛选性价比
  • 「前沿IQ时间线」:展示各厂商模型的进化轨迹
  • EQ得分叠加:结合EQ-Bench的情商测试结果,衡量模型「会不会好好说话」

这种将复杂基准数据简化为单一指标的做法,既降低了普通用户的理解门槛,也为行业提供了一个可参考的横向比较框架,尽管其科学性和适用范围仍有待验证。