MarkItDown:Microsoft 通用文档转 Markdown

MarkItDown 是 Microsoft 开源的「万能格式转 Markdown」工具,覆盖 PDF、PowerPoint、Word、Excel、图片(EXIF + OCR)、音频(EXIF + 语音转写)、HTML、CSV / JSON / XML、ZIP 归档等 9 类输入,是一个典型的 RAG 前置 ETL 组件。本目录在官方用法之外,增补了一份加速国内构建的 Dockerfile。

1. 目录内容

  • markitdown_intro.md — 快速入门:功能介绍、GitHub 地址、Docker 构建与运行命令(含示例 PDF 转换)。
  • Dockerfile — 本仓库定制版 Dockerfile,替换了官方镜像中的 aptpip 源为国内镜像,显著加快国内网络下的构建速度。使用时需将官方 repo 中的 Dockerfile 替换为本目录这一份。
  • assets/deepseek_v3.pdf — 用于 Docker 容器内试跑的样例 PDF(DeepSeek-V3 技术报告)。

2. 快速上手

# 克隆官方仓库
git clone https://github.com/microsoft/markitdown.git
cd markitdown

# 用本目录的加速版 Dockerfile 替换官方版
cp /path/to/this/Dockerfile ./Dockerfile

# 构建镜像(使用国内 apt/pip 源)
docker build --network=host -t markitdown:latest .

# 转换本目录的 sample PDF
docker run --network=host --rm -i markitdown:latest < assets/deepseek_v3.pdf > deepseek_v3.md

3. 相关资源