LlamaIndex于2025年发布了LiteParse 2.0,这是一款开源文档解析库的核心版本升级,此次更新对代码库进行了彻底的重写,底层核心完全由Rust实现。根据官方基准测试,新版解析器在处理小型文档时速度最高提升达100倍,即使面对大型文档也有近3倍的性能提升。
LiteParse定位为AI智能体与检索增强生成(RAG)管道的轻量化空间版面解析底座,主打无需调用大模型即可本地运行的架构设计。解析器通过二维空间投影方式处理文档文本,输出保留原始版面布局与相对位置关系的结构化文本,从而为大语言模型提供高保真的上下文定位与引用能力。在技术实现上,LiteParse集成了定制化PDFium分支用于空间版面分析,并结合tesseract-rs库在本地实现光学字符识别(OCR)功能。当前版本已支持PDF以及Office办公文档格式(DOCX、XLSX、PPTX)。
跨平台兼容性是本次升级的核心亮点之一。新版提供了对三大主流运行时生态的原生支持:开发者可通过Python包(pip install liteparse)、JavaScript包(npm i @llamaindex/liteparse)或Rust的Cargo仓库直接集成。得益于Rust底层架构,新版还编译为WebAssembly格式,可在浏览器环境及边缘计算节点中实现本地运行,无需依赖服务器端算力。不过,由于WASM运行时限制,该环境下OCR功能需通过外部回调注入(如接入tesseract.js)实现。
LiteParse保持了无大模型依赖、无云端调用的设计原则,文档处理全流程在本地完成,开发者无需担忧token消耗或数据隐私问题。