RAG 与工具生态
把「让大模型用上领域知识」这件事做好,有两条绕不开的路:RAG(用检索补全 LLM 知识的时效性与专精性)和知识图谱(把结构化关系喂给 LLM 做可控推理)。两条路各自又分出「基础能力」「架构升级」和「数据输入」三层关切——本目录就沿着这条脉络展开:从 chunking / embedding 基本功,到 GraphRAG / KAG 的图驱动推理,再到银行反电诈的 LLM + KG 协同案例;所有这些都建立在高质量的数据输入之上,所以也收录了 MinerU / Marker / MarkItDown 三款 PDF 解析工具的对比与实战。
1. RAG 基础能力
真正决定 RAG 线上效果的是「切、嵌、编排」三件事。详细索引见 rag_basics/README.md。
- RAG 快速开发实战(从 0 到 1 搭建) — RAG 技术全景导航。
- RAG 策略对比 — 多类 Agentic RAG 架构的选型矩阵(Router / Multi-Agent / Corrective / Adaptive / Graph / Agent-G / GeAR / ADW)。
- Chunking 策略评估 — token 级 Precision / Recall / IoU 替代 nDCG@K 的新评估方法。
- 中文 Embedding 模型选型 — BGE / GTE / M3E / Conan 等主流模型的 MTEB-zh 对比与场景推荐。
2. GraphRAG 与知识图谱
Naive RAG 在多跳推理、数值/时间约束、领域 Schema 对齐上会失效。图驱动的方案(GraphRAG / KAG)把文档变成结构化知识让 LLM 沿图走。详细索引见 graph_rag/README.md 与 knowledge_graph/README.md。
- GraphRAG 学习指南 — 基于 DeepLearning.AI × Neo4j 的 Knowledge Graphs for RAG 课程重组。
- KAG 框架介绍 — OpenSPG 的 LLMFriSPG 知识表示 + 逻辑形式(Logical Form)引导求解。
- Neo4j Cypher 查询语言 — 节点 / 关系 / 模式匹配的权威教程。
- Neo4j 实战指南 — Docker 起容器、Browser 登录、真实反欺诈数据上手。
3. LLM + KG 协同落地案例
以银行反电信网络诈骗为标本,把设计方案与可运行 demo 打通。详细索引见 synergized_llms_kgs/README.md。
- 银行反电诈智能系统设计方案 — 完整方案:场景挑战、图谱建模、LLM 可解释归因、合规边界、工程化路线。
- 反欺诈 Demo 源码 — 从合成数据、Neo4j 导入、LLM 研判到 API 服务的端到端示例。
4. 文档智能解析工具链
「Garbage in, garbage out」——RAG 的质量上限是 PDF 解析的质量。详细对比与选型见 pdf_tools/README.md。
- MinerU 高效解析 PDF — 上海 AI Lab 开源,复杂中文 PDF(公式 / 表格 / 多栏)首选。
- Marker 源码解析(译) — 英文文献深度解析引擎,比 nougat 快 10 倍。
- MarkItDown 容器化 — Microsoft 通用文档转 Markdown,覆盖 Office / 图像 OCR / 音频转写。
5. 相关资源
- LLM 理论与基础 — Embedding、Token、Hallucination 等底层机制。
- 智能体系统(Agentic System) — Agentic RAG 背后的 Agent 基础设施与多智能体协作。
- 模型训练与微调 — 当 RAG 不够时,用垂域 SFT 进一步补齐领域能力。
- 推理系统与优化 — 大规模 RAG 在线服务的延迟与显存约束。