Cursor发布Composer 2.5代码模型:多语种SWE-Bench达79.8%,声称超越GPT-5.5与Opus 4.7
AI编程工具Cursor发布其自研代码模型Composer 2.5,宣布在多语种SWE-Bench测试中得分79.8%,超越GPT-5.5,并预告下一代模型将借助Colossus 2百万卡超算从零训练。
聚合 AI 前沿动态,筛出值得关注的信号。
AI编程工具Cursor发布其自研代码模型Composer 2.5,宣布在多语种SWE-Bench测试中得分79.8%,超越GPT-5.5,并预告下一代模型将借助Colossus 2百万卡超算从零训练。
腾讯联合多机构推出首个覆盖汉字全演化周期的古文字感知评测基准Chronicles-OCR,评测28款主流多模态大模型,结果显示GPT-5、Gemini在甲骨文等古字体识别任务上核心指标接近零,揭示现代AI模型严重依赖现代版式先验、在古文字感知上存在根本性缺陷。
有网友在小红书发帖爆料称DeepSeek在招聘中对海外本科学历(含QS前50高校)采取直接拒绝态度,但一年制海外硕士却能通过初筛,引发「学历倒挂」争议,DeepSeek官方暂未回应。
Meta FAIR实验室视频生成研究员Andrew Brown宣布离职并加入杨立昆创办的AI初创公司AMI Labs,该公司于今年3月完成10.3亿美元种子轮融资,估值35亿美元。
国内最大DRAM芯片制造商长鑫科技在两年亏损283亿后实现惊天反转,2026年一季度净利润飙至330亿元,科创板IPO审核状态已恢复为"已问询"。
谷歌安全研究员在闲鱼发现搭载Xilinx高端芯片的阿里云退役FPGA加速卡,售价约50美元,经开源社区逆向适配后可用作10G/25G开源网卡。
阿里云推出AI驱动的设计工具QoderWork Design Desk,用户通过语音输入即可在无限画布上生成可运行的网页设计,并支持一键导出为React+Vite工程,颠覆传统设计开发流程。
AI搜索公司Perplexity正在内部测试一款名为"个人CFO"的专属金融工作台,整合投资组合管理、期权数据与Polymarket预测市场信息,欲与彭博终端竞争。
Google DeepMind研究员Lun Wang宣布离职并撰文批评现有AI评测机制存在根本性缺陷,认为落后的评测体系比数据、算力更制约行业发展。
独立研究机构Citrini Research今日抨击当前AI投资圈中盛行的「瓶颈叙事」,指出在技术路线两极分化、利润归属不明的情况下,单纯跟随线性瓶颈逻辑押注基础设施「卖铲人」策略风险急剧上升。
拥有草莓头像的X平台用户iruletheworldmo声称三大AI模型将在本周同步发布,因其惯常捏造信息的历史已被开发者社区广泛嘲讽。
开发者从 OpenAI Codex 代码库中发现 1536 行未激活的 Rust 代码,揭示 OpenAI 正为 Codex 开发实时语音编程模式,用户可语音指挥 AI 实时通话交流,同时后台静默执行代码修改。
斯坦福团队推出TERMS-Bench评测框架,用贝叶斯博弈替代传统成交率指标,揭示大模型在高压力谈判中的真实盈利能力差异。
YC W26硬件项目Fort联合创始人Zac Valles在完成路演后实地驻扎深圳8周,总结出一套针对硬件创业者的供应链对接实战指南。
腾讯正在测试一款名为「狍子AI」的个人知识库工具,用户可将微信公众号文章转发给该账号自动入库,实现内容从「只存不看」到「可检索问答」的转变。
全球最大对冲基金Citadel创始人Ken Griffin披露,公司内部AI智能体已能将原本需要金融PhD耗时数月的高端投研工作压缩至数小时完成,这一突破性进展正在重塑金融行业的竞争格局。
腾讯推出自研 AI 设计智能体平台 Ardot,利用 MCP 协议将设计稿自动转化为结构化数据并直接对接 IDE,实现从设计到代码的全链路自动化。
xAI针对其高端订阅服务SuperGrok Heavy推出限时降价策略,将月费从300美元降至99美元,旨在通过绑定的命令行编程工具Grok Build抢占AI编码代理市场。
开源智能体框架Hermes Agent发布重大版本更新,通过OAuth方式原生集成xAI的SuperGrok订阅,并新增本地代理功能,可将主流AI网页订阅转化为标准OpenAI接口。
xAI宣布已完成1.5T参数的Grok V9内部版本训练,计划引入Cursor代码数据进行补充训练以修复此前数据缺陷,预计3-4周内正式发布。