web-supplemented 2026-05-07 18:58 MiniMax-M2.7

Prime Intellect 开放 Lab 平台：按 token 计费的 Agent 后训练闭环方案

分布式 AI 训练公司 Prime Intellect 正式推出 Lab 平台，将评估、强化学习训练、适配器部署与推理整合为闭环流程，并以 token 用量替代传统 GPU 时长计费。

prime intellectlab 平台agent 训练强化学习token 计费loramoe 模型

References

分布式 AI 训练初创公司 Prime Intellect 宣布将其 Agent 后训练平台 Lab 从 Beta 阶段正式转正。该平台将模型评估、强化学习（RL）训练、LoRA 适配器部署与推理整合为一条完整闭环，帮助开发者持续迭代 AI Agent 能力。

Lab 的核心抽象为 Environment 概念——将任务数据、模型 harness、沙箱环境与奖励指标打包封装。开发者只需定义任务目标与评分标准，平台即可自动驱动模型反复试错、收集奖励信号、训练 LoRA 适配器并部署上线，形成持续的迭代飞轮。

值得注意的是，同一 Environment 可直接复用于本地开发、托管评估、合成数据生成和 RL 训练等多个阶段，简化了工作流切换成本。

传统 AI 训练平台通常按 GPU 占用时长收费，Prime Intellect Lab 则采用按 token 计费模式，开发者只为实际处理的输入输出 token 付费，而非底层硬件使用时间。这一调整降低了成本可预测性门槛，对中小团队更加友好。

平台底层基于 Prime Intellect 开源的 Prime-RL 框架，该框架使用 PyTorch FSDP2 技术对模型状态分片，降低单节点显存压力，并异步处理推理节点生成的 rollout 数据。

正式版 Lab 首批支持来自英伟达、OpenAI、Meta 和 Qwen 的 14 个模型，参数规模从 10 亿（1B）到 700 亿（70B）不等，涵盖稠密（Dense）架构与混合专家（MoE）架构。这使得开发者可以在不同规模与架构的模型上快速验证后训练策略。

Prime Intellect 成立于 2023 年，由 Vincent Weisser 和 Johannes Hagemann 联合创办。公司累计融资已超过 7000 万美元，其中 A 轮由 Founders Fund 领投，B 轮由 Radical Ventures 领投。

此前公司以分布式训练开源前沿模型闻名，曾发布 1060 亿参数的 MoE 大模型 INTELLECT-3，展示了其在超大规模训练领域的技术积累。

Beta 测试期间，Lab 已吸引数百名开发者使用，平台上累计完成超过 1 万个训练任务，初步验证了产品市场契合度。

相关文章