web-supplemented 2026-05-13 18:59 MiniMax-M2.7

14人团队打造前沿视觉推理模型Mk1，价格比谷歌、OpenAI低一个量级

前Meta FAIR研究员创立的Perceptron AI发布旗舰多模态模型Mk1，在视频理解和具身推理任务上与头部模型持平，定价却低80-90%，输入仅0.15美元/百万tokens。

人工智能多模态模型视频理解具身推理Perceptron创业公司

References

Perceptron AI发布旗舰模型Mk1：14人团队挑战巨头，视频理解成本骤降80-90%

一家仅有14名员工的小型创业公司，正以极低成本向谷歌、OpenAI、Anthropic等科技巨头发起挑战。当地时间5月12日，Perceptron AI正式发布其旗舰多模态推理模型Mk1（Mark One），在视频理解和具身推理（embodied reasoning）领域展现出与前沿模型旗鼓相当的实��。

团队背景：小团队的大野心

Perceptron AI总部位于华盛顿州贝尔维尤（Bellevue），由两名Meta FAIR（前Facebook AI研究院）前研究员Armen Aghajanyan和Akshat Shrivastava于2024年底创立。此前，该团队已开源了参数规模约20亿级别的轻量视觉模型Isaac系列，积累了一定的技术声誉。Mk1是其首款旗舰级产品，标志着团队从开源轻量模型向高端推理模型的关键一步。

价格优势：比竞争对手低80-90%

根据官方公布的定价，Mk1的API成本显著低于市场同类产品：

输入token：0.15美元/百万tokens
输出token：1.50美元/百万tokens
上下文窗口：32K tokens

对比主流竞品，Mk1的定价约为Anthropic Claude、OpenAI GPT-4V等模型的十分之一。行业分析指出，这一价格优势得益于团队在模型架构和训练策略上的创新，而非通过降低模型质量来实现。

核心能力：视频时序推理与具身理解

Mk1定位为「物理AI」（Physical AI）领域的专用模型，其核心卖点包括：

视频时序推理：作为混合推理模型，Mk1能够对体育赛事、烹饪过程等长视频输出结构化的时间线分析，自动定位视频中的特定事件并返回时间码。用户也可以在非推理场景下关闭该功能以节省算力。早期应用案例包括自动剪辑体育直播精彩片段，利用时序理解能力识别关键动作。

工业级视觉理解：在图像侧，Mk1支持像素级指向、百人以上密集计数、复杂OCR识别以及仪表读数，并可将文档直接转换为HTML、JSON或Markdown格式。这些能力直接对应工业巡检、仓储盘点等高频场景。

空间原语输出：对机器人开发者而言，Mk1将点、框、多边形、轨迹等空间原语作为一等输出，下游策略模型可直接消费，无需额外转换。此外，模型还能将遥操作录像自动标注为训练数据，大幅降低人工标注成本。

基准测试表现

官方公布的基准测试显示，Mk1在图像、视频和空间推理任务上与Google、Anthropic、OpenAI、Qwen等前沿模型打平甚至胜出，覆盖了Video-MME、OTVLA、PerceptionBench等主流评测基准。

上线与可用性

Mk1已通过Perceptron官方API和OpenRouter平台上线，开发者可即刻接入使用。