近日,开发者Ryan Shea上线了一个名为AI IQ的评测平台(aiiq.org),将当前主流的前沿大模型统一映射到人类IQ量表上,试图用一个直观的数字回答「这个模型到底有多聪明」。
GPT-5.5以136分领先
根据平台目前公布的排名,在重点受测的模型中:
- GPT-5.5:136分(位居榜首)
- Claude Opus 4.7 与 Gemini 3.1 Pro:并列132分
- Grok 4.3:125分
- Kimi K2.6:122分
- DeepSeek V4 Pro 与 Muse Spark:并列117分
- Qwen3.6:108分
OpenAI此前将GPT-5.5描述为「一种新的智能类别」,据《海峡时报》报道,该模型特别擅长「自主式」编码和计算机操作,即数字助手能在较少人工干预的情况下独立完成复杂任务。OpenAI联合创始人兼总裁Greg Brockman表示:「这个模型真正特别之处在于,它能以更少的引导完成更多的工作。」
算法逻辑:从12项基准到IQ分数
AI IQ的评分机制并非凭空创造,而是从公开排行榜中抓取12项基准测试的原始分数,通过校准后的难度曲线换算为隐含IQ。具体评分维度包括:
- 抽象推理
- 数学推理
- 编程推理
- 学术推理
最终综合得分取四个维度的均值。对于缺失数据的维度,平台采用保守填充策略,确保模型不会因未参与某项测试而显得更聪明。由于所有底层数据均来自已有基准,AI IQ本身并不进行新的测试,其核心价值在于将分散的跑分数据翻译成普通用户也能理解的尺度。
平台还提供哪些视角?
除了综合智商排名,AI IQ还提供几个交叉视图:
- 「IQ对成本」图表:帮助用户直观筛选性价比
- 「前沿IQ时间线」:展示各厂商模型的进化轨迹
- EQ得分叠加:结合EQ-Bench的情商测试结果,衡量模型「会不会好好说话」
这种将复杂基准数据简化为单一指标的做法,既降低了普通用户的理解门槛,也为行业提供了一个可参考的横向比较框架,尽管其科学性和适用范围仍有待验证。