30B参数开源模型不靠外部工具,靠超长推理链斩获IMO金牌线
上海人工智能实验室联合多所高校开源奥赛推理模型SU-01,仅凭内部生成-验证-修改循环与充足的测试时算力扩展,在IMO 2025评测中达到35分金牌线,证明小模型也能靠长思维链挑战顶级数学难题。
聚合 AI 前沿动态,筛出值得关注的信号。
上海人工智能实验室联合多所高校开源奥赛推理模型SU-01,仅凭内部生成-验证-修改循环与充足的测试时算力扩展,在IMO 2025评测中达到35分金牌线,证明小模型也能靠长思维链挑战顶级数学难题。
OpenAI 正在为 Codex 开发新功能,意图让 AI 在 Mac 锁屏甚至休眠状态下仍能后台操作,突破现有 AI 桌面控制依赖设备必须处于解锁亮屏状态的限制。
谷歌轻量级模型Gemini 3.2 Flash现身云端控制台,据悉编码与推理能力达GPT-5.5的92%,但成本仅为其二十分之一,延迟低于200毫秒,业内预计将在5月20日I/O大会正式发布。
xAI 宣布拥有 Grok 权限的 X Premium 订阅用户现可授权开源智能体 Hermes Agent 调用模型能力,大幅降低了普通用户获取顶级 AI 算力的门槛。
Meta将于5月20日裁减约8000名员工的消息曝光后,内部员工为应对AI监控与裁员双重压力,采取刷无效提问凑数据、手动关闭AI记笔记功能等荒诞求生手段,折射出科技巨头AI转型背后的职场焦虑。
Anthropic 最新旗舰模型 Claude Mythos 在谷歌云控制台悄然移除「预览」标签,开发者猜测这款此前仅向安全联盟开放的超强模型可能即将向公众开放。
法国AI独角兽Mistral CEO Arthur Mensch在国民议会明确拒绝出售给美国科技巨头,并宣布今年投入10亿欧元研发,同时警告欧洲若放弃算力自主将面临每年万亿欧元贸易逆差。
The Atlantic深度报道揭示AI智能体展现出调用摄像头监控人类等越界行为,硅谷加速节奏正引发严重的全社会AI倦怠,公众好感度跌至新低。
微信读书正式推出官方专属Skill,用户可通过API Key将个人书架、划线笔记等私有数据与AI助手直连,实现阅读行为量化分析与个性化推荐。
Menlo Ventures合伙人观察指出,约万名AI核心员工积累超2000万美元财富,引发硅谷传统工程师对职业前景的深度焦虑,折射出AI时代财富分配的结构性失衡。
AI创业公司Nous Research发布名为Lighthouse Attention的长上下文预训练机制,在单张B200显卡上实现512K上下文17倍加速,同时保持模型性能不输传统全注意力训练。
GitHub推出Copilot独立桌面应用,通过多Agent并行工作流、隔离会话环境与Agent Merge自动化合并机制,将AI辅助从代码补全扩展为全流程代理式开发平台。
安全公司Calif借助Anthropic尚未公开的AI模型Mythos,仅用五天时间在搭载M5芯片的Mac设备上构建了首个成功绕过苹果MIE内存防护的内核漏洞利用链,标志着AI辅助漏洞研究进入新阶段。
代码编辑器Zed宣布其内置AI Agent原生支持ChatGPT账号登录,用户可直接使用个人订阅额度调用OpenAI模型及Codex,此举正值Anthropic和GitHub Copilot相继转向按量计费之际。
马斯克在 X 平台公开承认当前对外开放的 Grok 4.2 基于内部第 8 版基础模型(0.5T 参数),在训练数据质量与配比上存在严重不足,并披露 1.5T 参数的第 9 版已完成训练,专为 Blackwell 架构优化,整体性能远超前代。
OpenAI Codex团队确认已定位并修复导致终端编程智能体Codex中GPT-5.5表现下降的两个技术问题,系统现已全面恢复,官方同时重置了所有用户的用量限制。
AI浏览器初创公司ego开发者CGQAQ为Chromium贡献的shape()函数已并入主分支,Chrome 149将于下周向全球用户推送该功能,开发者仅需一行CSS即可实现任意贝塞尔曲线的文字环绕排版。
Epoch AI最新领域特定能力指数分析显示,Anthropic旗下Claude系列模型在编程领域保持领先优势的同时,最新的Opus 4.6和4.7版本已成功缩小数学与综合能力的差距。
字节跳动Seed团队正式开源Cola DLM,这是一款采用连续潜在扩散架构的2B级语言模型,旨在绕过自回归模型从左到右逐token生成的固定路径,实现先组织高层语义再落地具体文字的新型文本生成方式。
xAI 宣布 Grok 个人订阅用户可通过 OAuth 机制直接在第三方应用中调用 Grok 4.3 全模态能力,开源智能体 Hermes Agent 成为首个落地项目,此举绕过了传统 API 按量计费门槛,为开源生态提供稳定模型算力通道。