MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Poetiq发布编程基准测试系统:Kimi准确率暴涨29.9个百分点,轻量模型逆袭旗舰

由前谷歌DeepMind研究员创立的6人初创团队Poetiq发布纯API外挂系统,在不触碰模型权重的情况下,将Kimi等主流大模型的编程能力大幅提升,其中轻量级Gemini Flash甚至超越Claude Opus。

References

Poetiq系统测试结果对比图
Poetiq元系统在不同模型上的表现对比 Image source

Poetiq发布编程基准测试系统:轻量模型借助「外挂」实现越级逆袭

由前谷歌与DeepMind研究员创立的初创公司Poetiq宣布,其Meta-System在编程基准LiveCodeBench Pro上刷新了最高成绩。这套系统的核心创新在于:完全基于API访问权限,通过递归自我改进机制自动提取任务经验,在不触碰模型权重、不进行任何微调的前提下,显著提升市面主流大模型的代码能力。

弱模型提升幅度惊人:Kimi准确率暴涨近30个百分点

测试数据显示,这种与模型解耦的外挂方案对能力较弱的模型提升尤为明显。接入Poetiq系统后,Kimi K2.6的准确率从50.0%飙升至79.9%,绝对得分提升29.9个百分点。

更引人注目的是轻量级模型的表现:Gemini 3.0 Flash接入系统后成绩提升10个百分点,不仅反超自家大杯版本Gemini 3.1 Pro,更越级击败了被Poetiq称为「更大、更贵」的Claude Opus 4.7和GPT 5.2 High。

旗舰模型同样受益:GPT与Gemini Pro越级超越最强推理版

在冲击性能上限方面,原本成绩为89.6%的GPT 5.5 High在外挂加持下达到了93.9%的新高度。基础版Gemini 3.1 Pro搭配该外挂得分为90.9%,直接超过了谷歌尚未开放API的最强推理模型Gemini 3 Deep Think(88.8%)。

6人团队背后的技术思路

Poetiq由前谷歌和DeepMind研究员Shumeet Baluja与Ian Fischer创立,团队仅6人。与传统微调将改进效果锁死在单一模型不同,Poetiq的这套无缝插拔外挂能让企业在不承担微调和部署满血版模型高昂成本的情况下,快速提升大模型的推理能力。

此前,Poetiq已在ARC-AGI-2抽象推理基准测试中取得突破,其元系统以54%的准确率刷新纪录,每任务计算成本降至31美元,仅为此前最优方法的一半,展现了「智能编排」在大模型工程化应用中的巨大潜力。