Kreuzberg 是一款基于 Rust 编写的高性能多格式文档提取引擎，原生支持 90 多种文件格式和 248 种编程语言。核心功能包括深度提取文本、元数据、表格及结构化信息，内置智能 OCR 引擎（支持 Tesseract、EasyOCR 等），自动识别文本层并触发 OCR。凭借 Rust 核心与流式解析器，实现低内存占用、高并发处理，无需 GPU。提供 Python、Node.js、Go 等 12+ 语言绑定，支持 CLI、REST API、Docker 等多种部署方式，适合 RAG 管道、本地知识库及大规模数据抽取。

Rust 打造，极速多格式文档提取，低内存高并发，RAG 管道首选。

立即访问

推荐星级★★★★★

官网github.com

收费模式未知

收录/更新时间2026-04-12

使用场景桌面端

文档提取Rust高性能多格式OCRRAG开源

Kreuzberg 是一款基于 Rust 编写的高性能多格式文档提取引擎。它原生支持 90 多种文件格式和 248 种编程语言，主打多语言绑定（SDK）、低内存占用和本地化隐私处理，非常适合作为 RAG（检索增强生成）管道、本地知识库构建或大规模数据抽取的基础设施。

Rust 编写的高速多格式文档解析框架，适合 RAG、本地知识库、数据抽取。

核心功能

支持 PDF/Word/Excel/ 图片 / EPUB 等50 + 格式
提取文本、元数据、表格、结构化信息
多语言、低内存、高并发

GitHub项目网址：https://github.com/kreuzberg-dev/kreuzberg

官网：https://kreuzberg.dev/

核心功能

多格式深度提取：支持 PDF、Word、Excel、PPT、图片、EPUB、邮件等 90 多种格式。不仅能提取纯文本，还能智能识别并提取表格结构、元数据（作者、创建时间等）以及代码符号（函数、类等）。
智能 OCR 引擎：内置 Tesseract、EasyOCR、PaddleOCR 等多种后端。它能自动检测文档是否包含文本层，有文本直接提取（快路径），无文本才触发 OCR（慢路径），并支持表格检测与重建。
高性能与低资源：得益于 Rust 核心与流式解析器，处理大文件时内存占用极低，且无需 GPU 即可全速运行，支持高并发批量处理。
广泛的语言与部署支持：提供了 Python、Node.js、Go、Java、C# 等 12+ 种语言的原生绑定或 FFI 接口。支持通过 CLI 命令行、REST API 服务器、Docker 容器或 MCP 服务器等多种方式部署。

相关阅读：

你可能感兴趣的网站

为什么WordPress网站容易被攻击，98%的威胁，简单的一个插件就能解决 Worepress高防插件 – 123ONE智能高防插件万里汇（WorldFirst） – 全球多币种收款账户 WordPress网站被DDOS和CC攻击了怎么办？

Kreuzberg – Rust 文档提取引擎

核心功能

Moondream – 开源视觉语言模型VLM

nanoclaw – OpenClaw（小龙虾）的安全轻量平替

延伸阅读: