web-supplemented 2026-05-28 15:25 MiniMax-M2.7

Datalab发布Surya OCR 2：6.5亿参数实现83.3%准确率，30亿以下开源模型登顶

开源文档智能平台Datalab发布Surya OCR 2，以6.5亿参数在权威评测中取得83.3%成绩，超越自身体量14倍的初代版本，刷新30亿参数以下开源OCR模型性能纪录。

ocr深度学习开源多语言文档智能datalabsurya

References

小身材大能量：Surya OCR 2刷新参数效率纪录

开源文档智能平台 Datalab 近日正式发布 Surya OCR 2，这款仅有 6.5 亿参数的多语言 OCR 模型，在权威文档智能评测 olmOCR-bench 中一举拿下 83.3% 的成绩，在 30 亿参数以下级别的开源模型中位列第一，性能甚至超越了参数规模约 14 倍的初代 90 亿参数版本，堪称一次「参数效率革命」。

技术架构：从多模型协作到单一VLM

Surya OCR 2 采用了革命性的单一视觉语言模型（VLM）架构，将版面分析、文本识别和表格识别三大核心任务整合在一起。系统仅需单次模型调用即可完成全页 OCR 识别，输出包含坐标框和阅读顺序的结构化 HTML 代码——数学公式以 HTML math 标签输出，跨行跨列表格则被整理为标准 HTML 格式。

文本行检测与 OCR 错漏检测仍由独立的轻量级模型负责，这种「主模型+辅助模型」的组合既保证了核心识别能力，又维持了整体的高效运行。

多语言能力：91种语言综合通过率87.2%

Surya OCR 2 在多语言支持方面表现出色，在 91 种语言的测试中取得 87.2% 的综合通过率，其中中文通过率为 82.5%。新模型对残损文档和手写体进行了深度优化，进一步拓展了在实际场景中的适用性。

部署方案：RTX 5090可达每秒5.35页

针对不同部署场景，Surya OCR 2 支持两大推理后端：

英伟达 GPU：运行 Docker 并启用 vLLM 后端，单张 RTX 5090 显卡实现每秒 5.35 页的超高吞吐率
苹果设备/CPU：通过 llama.cpp 载入 GGUF 格式，可在 M1 芯片 Mac 上实现完全本地端侧运行

开源许可：Apache 2.0代码+OpenRAIL-M权重

Surya OCR 2 采用宽松的开源策略：

源代码：Apache 2.0 协议
模型权重：OpenRAIL-M 协议

免费提供给个人用户、高校及年收入 500 万美元以下的初创企业。

Datalab 同时推出搭载更强 40 亿参数 Chandra 2 模型的付费 API，并赠送 5 美元体验额度，方便有更高性能需求的用户快速上手。

行业背景：开源OCR赛道竞争白热化

值得注意的是，此次 Datalab 选择「自我革命」的动作正值开源 OCR 赛道竞争激烈之际。此前百度基于文心大模型研发的 PaddleOCR 已凭借超 73,300 颗 GitHub Star 登顶全球 OCR 项目榜首，终结了谷歌 Tesseract OCR 近 40 年的霸主地位。Surya OCR 2 的发布，标志着 Datalab 试图以「小参数、高性能」的新路线在这一领域重新确立技术领先优势。