MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

14人团队打造前沿视觉推理模型Mk1,价格比谷歌、OpenAI低一个量级

前Meta FAIR研究员创立的Perceptron AI发布旗舰多模态模型Mk1,在视频理解和具身推理任务上与头部模型持平,定价却低80-90%,输入仅0.15美元/百万tokens。

References

Perceptron AI发布旗舰模型Mk1:14人团队挑战巨头,视频理解成本骤降80-90%

一家仅有14名员工的小型创业公司,正以极低成本向谷歌、OpenAI、Anthropic等科技巨头发起挑战。当地时间5月12日,Perceptron AI正式发布其旗舰多模态推理模型Mk1(Mark One),在视频理解和具身推理(embodied reasoning)领域展现出与前沿模型旗鼓相当的实���。

团队背景:小团队的大野心

Perceptron AI总部位于华盛顿州贝尔维尤(Bellevue),由两名Meta FAIR(前Facebook AI研究院)前研究员Armen Aghajanyan和Akshat Shrivastava于2024年底创立。此前,该团队已开源了参数规模约20亿级别的轻量视觉模型Isaac系列,积累了一定的技术声誉。Mk1是其首款旗舰级产品,标志着团队从开源轻量模型向高端推理模型的关键一步。

价格优势:比竞争对手低80-90%

根据官方公布的定价,Mk1的API成本显著低于市场同类产品:

  • 输入token:0.15美元/百万tokens
  • 输出token:1.50美元/百万tokens
  • 上下文窗口:32K tokens

对比主流竞品,Mk1的定价约为Anthropic Claude、OpenAI GPT-4V等模型的十分之一。行业分析指出,这一价格优势得益于团队在模型架构和训练策略上的创新,而非通过降低模型质量来实现。

核心能力:视频时序推理与具身理解

Mk1定位为「物理AI」(Physical AI)领域的专用模型,其核心卖点包括:

视频时序推理:作为混合推理模型,Mk1能够对体育赛事、烹饪过程等长视频输出结构化的时间线分析,自动定位视频中的特定事件并返回时间码。用户也可以在非推理场景下关闭该功能以节省算力。早期应用案例包括自动剪辑体育直播精彩片段,利用时序理解能力识别关键动作。

工业级视觉理解:在图像侧,Mk1支持像素级指向、百人以上密集计数、复杂OCR识别以及仪表读数,并可将文档直接转换为HTML、JSON或Markdown格式。这些能力直接对应工业巡检、仓储盘点等高频场景。

空间原语输出:对机器人开发者而言,Mk1将点、框、多边形、轨迹等空间原语作为一等输出,下游策略模型可直接消费,无需额外转换。此外,模型还能将遥操作录像自动标注为训练数据,大幅降低人工标注成本。

基准测试表现

官方公布的基准测试显示,Mk1在图像、视频和空间推理任务上与Google、Anthropic、OpenAI、Qwen等前沿模型打平甚至胜出,覆盖了Video-MME、OTVLA、PerceptionBench等主流评测基准。

上线与可用性

Mk1已通过Perceptron官方API和OpenRouter平台上线,开发者可即刻接入使用。