web-supplemented 2026-05-26 16:15 MiniMax-M2.7

面壁智能联合清华开源全球首个AI编写预训练框架ForgeTrain，MiniCPM5-1B登顶小模型榜首

面壁智能与清华NLP实验室在OpenBMB社区开源了全球首个完全由AI编写的生产级预训练框架ForgeTrain，并推出由此框架训练的端侧模型MiniCPM5-1B，以18分超越Qwen3.5-2B登顶开放权重小模型榜单。

面壁智能清华大学ForgeTrainMiniCPM开源大模型端侧AI预训练框架AI制造AI

References

面壁智能联合清华开源全球首个AI编写预训练框架

面壁智能与清华大学NLP实验室近日在OpenBMB开源社区联合发布了ForgeTrain——据称这是全球首个完全由AI编写的生产级大模型预训练框架。该框架的发布，标志着大模型预训练基础设施正式进入"AI制造AI"的新阶段。

为特定场景现场"锻造"代码的预训练新范式

ForgeTrain的核心创新在于面壁智能提出的**"代工工程"（Forge Engineering）**软件编程范式。这一范式摒弃了传统兼容一切硬件与任务的通用框架思路，转而利用AI的低成本代码生成能力，针对特定模型和硬件环境现场"锻造"专用代码，从而实现更高效、更适配的预训练基础设施构建。

在技术构建层面，ForgeTrain采用三阶段自动化方法：

数据采集阶段：从现有预训练框架中采集关键数据，构建标准测试Harness（考场）；
自动化迭代阶段：在自动闭环中迭代生成二进制一致的框架代码；
超越阶段：解除限制，实现对参考实现的对标与超越。

这一整套自动化演进路径，被认为对应了AI制造AI的L3至L4阶段。

性能超越英伟达Megatron，适配国产硬件

ForgeTrain在性能测试中展现出显著优势。在相同硬件条件下，ForgeTrain的性能超越了英伟达的Megatron预训练框架；在华为昇腾硬件上的预训练更是实现了10%的加速。这一成果对推动国产AI基础设施自主化具有重要意义。

MiniCPM5-1B：首个产出模型登顶小模型榜单

作为ForgeTrain的首个产出模型，MiniCPM5-1B拥有10.8亿参数，核心架构基于标准的LlamaForCausalLM设计，大幅降低了下游集成与推理部署门槛。在Artificial Analysis开放权重小模型评测中，MiniCPM5-1B以18分的成绩超越2B规模的Qwen3.5-2B（16分），并领先Qwen3.5-0.8B（11分）与LFM2.5-1.2B-Thinking（8分），一举登顶该榜单第一。

该模型支持MLX 4-bit与GGUF Q4_K_M等主流部署格式，INT4量化后权重仅为0.5GB，并原生支持131,072 tokens的长文本上下文以及基于enable_thinking的混合双模推理能力。

依托极低的硬件开销，OpenBMB同步开源了纯离线运行的桌面浮窗伴侣应用MiniCPM Desk Pet，支持实时响应Cursor等开发工具中的编码活动，并提供LoRA人设切换功能。

关于面壁智能

面壁智能是一家以"高效为第一性原理"为信条的清华系AI公司，核心科研团队来自清华大学NLP实验室，是国内最早一批从事预训练大模型研究的团队之一。公司CEO李大海此前表示，GPT-4水平的端侧模型预计将在2026年年底实现，而ForgeTrain和MiniCPM5-1B的发布正是这一目标路径上的重要里程碑。

面壁智能联合清华开源全球首个AI编写预训练框架

为特定场景现场"锻造"代码的预训练新范式

性能超越英伟达Megatron，适配国产硬件

MiniCPM5-1B：首个产出模型登顶小模型榜单

关于面壁智能

相关文章