面壁智能联合清华开源全球首个AI编写预训练框架
面壁智能与清华大学NLP实验室近日在OpenBMB开源社区联合发布了ForgeTrain——据称这是全球首个完全由AI编写的生产级大模型预训练框架。该框架的发布,标志着大模型预训练基础设施正式进入"AI制造AI"的新阶段。
为特定场景现场"锻造"代码的预训练新范式
ForgeTrain的核心创新在于面壁智能提出的**"代工工程"(Forge Engineering)**软件编程范式。这一范式摒弃了传统兼容一切硬件与任务的通用框架思路,转而利用AI的低成本代码生成能力,针对特定模型和硬件环境现场"锻造"专用代码,从而实现更高效、更适配的预训练基础设施构建。
在技术构建层面,ForgeTrain采用三阶段自动化方法:
- 数据采集阶段:从现有预训练框架中采集关键数据,构建标准测试Harness(考场);
- 自动化迭代阶段:在自动闭环中迭代生成二进制一致的框架代码;
- 超越阶段:解除限制,实现对参考实现的对标与超越。
这一整套自动化演进路径,被认为对应了AI制造AI的L3至L4阶段。
性能超越英伟达Megatron,适配国产硬件
ForgeTrain在性能测试中展现出显著优势。在相同硬件条件下,ForgeTrain的性能超越了英伟达的Megatron预训练框架;在华为昇腾硬件上的预训练更是实现了10%的加速。这一成果对推动国产AI基础设施自主化具有重要意义。
MiniCPM5-1B:首个产出模型登顶小模型榜单
作为ForgeTrain的首个产出模型,MiniCPM5-1B拥有10.8亿参数,核心架构基于标准的LlamaForCausalLM设计,大幅降低了下游集成与推理部署门槛。在Artificial Analysis开放权重小模型评测中,MiniCPM5-1B以18分的成绩超越2B规模的Qwen3.5-2B(16分),并领先Qwen3.5-0.8B(11分)与LFM2.5-1.2B-Thinking(8分),一举登顶该榜单第一。
该模型支持MLX 4-bit与GGUF Q4_K_M等主流部署格式,INT4量化后权重仅为0.5GB,并原生支持131,072 tokens的长文本上下文以及基于enable_thinking的混合双模推理能力。
依托极低的硬件开销,OpenBMB同步开源了纯离线运行的桌面浮窗伴侣应用MiniCPM Desk Pet,支持实时响应Cursor等开发工具中的编码活动,并提供LoRA人设切换功能。
关于面壁智能
面壁智能是一家以"高效为第一性原理"为信条的清华系AI公司,核心科研团队来自清华大学NLP实验室,是国内最早一批从事预训练大模型研究的团队之一。公司CEO李大海此前表示,GPT-4水平的端侧模型预计将在2026年年底实现,而ForgeTrain和MiniCPM5-1B的发布正是这一目标路径上的重要里程碑。