Kreuzberg 是一款基于 Rust 编写的高性能多格式文档提取引擎。它原生支持 90 多种文件格式和 248 种编程语言,主打多语言绑定(SDK)、低内存占用和本地化隐私处理,非常适合作为 RAG(检索增强生成)管道、本地知识库构建或大规模数据抽取的基础设施。
Rust 编写的高速多格式文档解析框架,适合 RAG、本地知识库、数据抽取。
核心功能
- 支持 PDF/Word/Excel/ 图片 / EPUB 等50 + 格式
- 提取文本、元数据、表格、结构化信息
- 多语言、低内存、高并发
GitHub项目网址:https://github.com/kreuzberg-dev/kreuzberg

核心功能
- 多格式深度提取:支持 PDF、Word、Excel、PPT、图片、EPUB、邮件等 90 多种格式。不仅能提取纯文本,还能智能识别并提取表格结构、元数据(作者、创建时间等)以及代码符号(函数、类等)。
- 智能 OCR 引擎:内置 Tesseract、EasyOCR、PaddleOCR 等多种后端。它能自动检测文档是否包含文本层,有文本直接提取(快路径),无文本才触发 OCR(慢路径),并支持表格检测与重建。
- 高性能与低资源:得益于 Rust 核心与流式解析器,处理大文件时内存占用极低,且无需 GPU 即可全速运行,支持高并发批量处理。
- 广泛的语言与部署支持:提供了 Python、Node.js、Go、Java、C# 等 12+ 种语言的原生绑定或 FFI 接口。支持通过 CLI 命令行、REST API 服务器、Docker 容器或 MCP 服务器等多种方式部署。
