文档智能解析工具
RAG 系统的上限是数据输入的质量——PDF 里的表格、公式、多栏排版、扫描图如果没解析好,后面的 chunking 和 embedding 再精巧也救不回来。Garbage in, garbage out。本目录对比三款主流开源 PDF / Office → Markdown 工具,覆盖从「中文复杂 PDF」到「广谱办公文档」的不同取舍。
1. 工具对比矩阵
| 工具 | 主打场景 | 中文能力 | 格式支持 | 技术特点 |
|---|---|---|---|---|
| MinerU(上海 AI Lab) | 科研文献、财报、扫描 PDF | ✅ 强 | PDF / 网页 / 电子书 → Markdown / JSON | 多模态 PDF 模型管线,公式转 LaTeX,乱码 PDF 自动识别 |
| Marker(VikParuchuri) | 英文书籍、科研论文 | ⚠️ 弱 | PDF / EPUB / MOBI → Markdown | 基于深度学习的布局检测,比 nougat 快 10 倍 |
| MarkItDown(Microsoft) | Office / 图片 / 音频 | 一般 | PDF / Office / 图像 OCR / 音频 STT / HTML / ZIP → Markdown | 广谱格式覆盖,适合通用 ETL |
2. 核心文档
2.1 MinerU:复杂中文 PDF 首选
- MinerU 高效解析 PDF — 详解 MinerU 的四阶段管线(预处理 → 布局分析 → 内容抽取 → Markdown 组装),重点介绍其针对中文复杂版式(多栏、公式、表格、页眉页脚)的处理策略,并给出 CLI / Docker / S3 三种运行方式。
2.2 Marker:英文文献深度解析
- Marker 源码解析(译) — 译自 journal.hexmos.com 的 Marker 源码深度解读。从准备、OCR、布局检测、文本抽取、后处理到 Markdown 输出,拆解 Marker 如何用 PyMuPDF + 布局模型把 PDF 转成高精度 Markdown。适合想理解 PDF AI 解析内部机制的读者。
- ⚠️ 注意:Marker 中文支持较弱,中文文档优先选择 MinerU。
2.3 MarkItDown:广谱办公文档转换
- MarkItDown 入门与容器化 — Microsoft 开源的通用文档转 Markdown 工具,支持 PDF / PowerPoint / Word / Excel / 图像 OCR / 音频转写等 9 类输入;本目录提供加速国内构建的自定义 Dockerfile 与样例 PDF。
3. 如何选型
- 中文 PDF(财报 / 论文 / 教材) → MinerU。
- 英文科研文献 / EPUB / MOBI → Marker。
- Office 文档、图片 OCR、音频转写等广谱需求 → MarkItDown。
- 多工具对比:批量跑同一批 PDF,用
../rag_basics/evaluating_chunking_strategies_summary.md的 token 级指标做下游检索效果评估。
4. 相关资源
- RAG 基础 — 解析后的 Markdown 如何喂进 RAG 管线。
- LLM 理论与基础 · 文件格式 — 模型侧的文件格式知识。