文本嵌入（Text Embeddings）技术指南

「句子相似」「检索最相关的 top-K」「异常聚类」这些看似不同的需求，归根到底都是一件事：把自然语言压成稠密向量，然后在向量空间里算几何。本目录系统梳理这条技术线——从词袋模型一路走到 Transformer 句向量，包含算法原理、距离度量、可视化技巧，以及在 RAG / 聚类 / 分类 / 异常检测等场景中的落地用法。

1. 核心文档

深入了解文本嵌入技术 🌟 推荐主读
从 Bag-of-Words、TF-IDF 到 Word2Vec（CBOW / Skip-gram），再到 Transformer 句向量的完整演进图谱；配合 L2 / 曼哈顿 / 点积 / 余弦相似度四类距离度量、PCA / t-SNE 两类降维可视化，以及聚类、分类、异常检测、RAG 四类下游场景的动手样例。
LLM 嵌入技术图文指南
以几何直觉+可视化把 Embedding 讲成「向量空间里的位置与距离」，适合在读理论前先建立直觉。
文本嵌入快速入门
面向初次接触 Embedding 的读者，给出最短可行的概念讲解与调用样例。
LLM 内嵌 Embedding 层 vs. 独立 Embedding 模型
剖析 LLM 自带的 Embedding 层与 BGE、OpenAI text-embedding-3 等外部独立模型在训练目标、输出维度、使用场景上的差异，以及在 RAG 系统里如何协同。

2. 图片资源

img/ — 所有文档配图，按主题命名（公式、聚类散点、距离度量、热力图等）。

3. 学习路径建议

先看 图文指南，在脑子里建立 Embedding = 向量空间里的点这一几何直觉。
再精读 深入了解文本嵌入技术，掌握算法演进 + 相似度计算 + 可视化的完整技能栈。
最后看 LLM 内嵌 vs. 独立 Embedding 模型，区分 RAG 与训练语境下的用法差异。

4. 相关资源