MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Datalab发布Surya OCR 2:6.5亿参数实现83.3%准确率,30亿以下开源模型登顶

开源文档智能平台Datalab发布Surya OCR 2,以6.5亿参数在权威评测中取得83.3%成绩,超越自身体量14倍的初代版本,刷新30亿参数以下开源OCR模型性能纪录。

References

小身材大能量:Surya OCR 2刷新参数效率纪录

开源文档智能平台 Datalab 近日正式发布 Surya OCR 2,这款仅有 6.5 亿参数的多语言 OCR 模型,在权威文档智能评测 olmOCR-bench 中一举拿下 83.3% 的成绩,在 30 亿参数以下级别的开源模型中位列第一,性能甚至超越了参数规模约 14 倍的初代 90 亿参数版本,堪称一次「参数效率革命」。

技术架构:从多模型协作到单一VLM

Surya OCR 2 采用了革命性的单一视觉语言模型(VLM)架构,将版面分析、文本识别和表格识别三大核心任务整合在一起。系统仅需单次模型调用即可完成全页 OCR 识别,输出包含坐标框和阅读顺序的结构化 HTML 代码——数学公式以 HTML math 标签输出,跨行跨列表格则被整理为标准 HTML 格式。

文本行检测与 OCR 错漏检测仍由独立的轻量级模型负责,这种「主模型+辅助模型」的组合既保证了核心识别能力,又维持了整体的高效运行。

多语言能力:91种语言综合通过率87.2%

Surya OCR 2 在多语言支持方面表现出色,在 91 种语言的测试中取得 87.2% 的综合通过率,其中中文通过率为 82.5%。新模型对残损文档和手写体进行了深度优化,进一步拓展了在实际场景中的适用性。

部署方案:RTX 5090可达每秒5.35页

针对不同部署场景,Surya OCR 2 支持两大推理后端:

  • 英伟达 GPU:运行 Docker 并启用 vLLM 后端,单张 RTX 5090 显卡实现每秒 5.35 页的超高吞吐率
  • 苹果设备/CPU:通过 llama.cpp 载入 GGUF 格式,可在 M1 芯片 Mac 上实现完全本地端侧运行

开源许可:Apache 2.0代码+OpenRAIL-M权重

Surya OCR 2 采用宽松的开源策略:

  • 源代码:Apache 2.0 协议
  • 模型权重:OpenRAIL-M 协议

免费提供给个人用户、高校及年收入 500 万美元以下的初创企业

Datalab 同时推出搭载更强 40 亿参数 Chandra 2 模型的付费 API,并赠送 5 美元体验额度,方便有更高性能需求的用户快速上手。

行业背景:开源OCR赛道竞争白热化

值得注意的是,此次 Datalab 选择「自我革命」的动作正值开源 OCR 赛道竞争激烈之际。此前百度基于文心大模型研发的 PaddleOCR 已凭借超 73,300 颗 GitHub Star 登顶全球 OCR 项目榜首,终结了谷歌 Tesseract OCR 近 40 年的霸主地位。Surya OCR 2 的发布,标志着 Datalab 试图以「小参数、高性能」的新路线在这一领域重新确立技术领先优势。