Prime Intellect 开放 Lab 平台:按 token 计费的 Agent 后训练闭环方案
分布式 AI 训练初创公司 Prime Intellect 宣布将其 Agent 后训练平台 Lab 从 Beta 阶段正式转正。该平台将模型评估、强化学习(RL)训练、LoRA 适配器部署与推理整合为一条完整闭环,帮助开发者持续迭代 AI Agent 能力。
核心设计:Environment 抽象
Lab 的核心抽象为 Environment 概念——将任务数据、模型 harness、沙箱环境与奖励指标打包封装。开发者只需定义任务目标与评分标准,平台即可自动驱动模型反复试错、收集奖励信号、训练 LoRA 适配器并部署上线,形成持续的迭代飞轮。
值得注意的是,同一 Environment 可直接复用于本地开发、托管评估、合成数据生成和 RL 训练等多个阶段,简化了工作流切换成本。
突破性定价:按 token 而非 GPU 时长
传统 AI 训练平台通常按 GPU 占用时长收费,Prime Intellect Lab 则采用按 token 计费模式,开发者只为实际处理的输入输出 token 付费,而非底层硬件使用时间。这一调整降低了成本可预测性门槛,对中小团队更加友好。
平台底层基于 Prime Intellect 开源的 Prime-RL 框架,该框架使用 PyTorch FSDP2 技术对模型状态分片,降低单节点显存压力,并异步处理推理节点生成的 rollout 数据。
模型覆盖与生态
正式版 Lab 首批支持来自英伟达、OpenAI、Meta 和 Qwen 的 14 个模型,参数规模从 10 亿(1B)到 700 亿(70B)不等,涵盖稠密(Dense)架构与混合专家(MoE)架构。这使得开发者可以在不同规模与架构的模型上快速验证后训练策略。
公司背景
Prime Intellect 成立于 2023 年,由 Vincent Weisser 和 Johannes Hagemann 联合创办。公司累计融资已超过 7000 万美元,其中 A 轮由 Founders Fund 领投,B 轮由 Radical Ventures 领投。
此前公司以分布式训练开源前沿模型闻名,曾发布 1060 亿参数的 MoE 大模型 INTELLECT-3,展示了其在超大规模训练领域的技术积累。
早期验证
Beta 测试期间,Lab 已吸引数百名开发者使用,平台上累计完成超过 1 万个训练任务,初步验证了产品市场契合度。