Perceptron AI发布旗舰模型Mk1:14人团队挑战巨头,视频理解成本骤降80-90%
一家仅有14名员工的小型创业公司,正以极低成本向谷歌、OpenAI、Anthropic等科技巨头发起挑战。当地时间5月12日,Perceptron AI正式发布其旗舰多模态推理模型Mk1(Mark One),在视频理解和具身推理(embodied reasoning)领域展现出与前沿模型旗鼓相当的实���。
团队背景:小团队的大野心
Perceptron AI总部位于华盛顿州贝尔维尤(Bellevue),由两名Meta FAIR(前Facebook AI研究院)前研究员Armen Aghajanyan和Akshat Shrivastava于2024年底创立。此前,该团队已开源了参数规模约20亿级别的轻量视觉模型Isaac系列,积累了一定的技术声誉。Mk1是其首款旗舰级产品,标志着团队从开源轻量模型向高端推理模型的关键一步。
价格优势:比竞争对手低80-90%
根据官方公布的定价,Mk1的API成本显著低于市场同类产品:
- 输入token:0.15美元/百万tokens
- 输出token:1.50美元/百万tokens
- 上下文窗口:32K tokens
对比主流竞品,Mk1的定价约为Anthropic Claude、OpenAI GPT-4V等模型的十分之一。行业分析指出,这一价格优势得益于团队在模型架构和训练策略上的创新,而非通过降低模型质量来实现。
核心能力:视频时序推理与具身理解
Mk1定位为「物理AI」(Physical AI)领域的专用模型,其核心卖点包括:
视频时序推理:作为混合推理模型,Mk1能够对体育赛事、烹饪过程等长视频输出结构化的时间线分析,自动定位视频中的特定事件并返回时间码。用户也可以在非推理场景下关闭该功能以节省算力。早期应用案例包括自动剪辑体育直播精彩片段,利用时序理解能力识别关键动作。
工业级视觉理解:在图像侧,Mk1支持像素级指向、百人以上密集计数、复杂OCR识别以及仪表读数,并可将文档直接转换为HTML、JSON或Markdown格式。这些能力直接对应工业巡检、仓储盘点等高频场景。
空间原语输出:对机器人开发者而言,Mk1将点、框、多边形、轨迹等空间原语作为一等输出,下游策略模型可直接消费,无需额外转换。此外,模型还能将遥操作录像自动标注为训练数据,大幅降低人工标注成本。
基准测试表现
官方公布的基准测试显示,Mk1在图像、视频和空间推理任务上与Google、Anthropic、OpenAI、Qwen等前沿模型打平甚至胜出,覆盖了Video-MME、OTVLA、PerceptionBench等主流评测基准。
上线与可用性
Mk1已通过Perceptron官方API和OpenRouter平台上线,开发者可即刻接入使用。