文本嵌入(Text Embeddings)技术指南
「句子相似」「检索最相关的 top-K」「异常聚类」这些看似不同的需求,归根到底都是一件事:把自然语言压成稠密向量,然后在向量空间里算几何。本目录系统梳理这条技术线——从词袋模型一路走到 Transformer 句向量,包含算法原理、距离度量、可视化技巧,以及在 RAG / 聚类 / 分类 / 异常检测等场景中的落地用法。
1. 核心文档
- 深入了解文本嵌入技术 🌟 推荐主读
从 Bag-of-Words、TF-IDF 到 Word2Vec(CBOW / Skip-gram),再到 Transformer 句向量的完整演进图谱;配合 L2 / 曼哈顿 / 点积 / 余弦相似度四类距离度量、PCA / t-SNE 两类降维可视化,以及聚类、分类、异常检测、RAG 四类下游场景的动手样例。 - LLM 嵌入技术图文指南
以几何直觉+可视化把 Embedding 讲成「向量空间里的位置与距离」,适合在读理论前先建立直觉。 - 文本嵌入快速入门
面向初次接触 Embedding 的读者,给出最短可行的概念讲解与调用样例。 - LLM 内嵌 Embedding 层 vs. 独立 Embedding 模型
剖析 LLM 自带的 Embedding 层与 BGE、OpenAI text-embedding-3 等外部独立模型在训练目标、输出维度、使用场景上的差异,以及在 RAG 系统里如何协同。
2. 图片资源
3. 学习路径建议
- 先看 图文指南,在脑子里建立 Embedding = 向量空间里的点 这一几何直觉。
- 再精读 深入了解文本嵌入技术,掌握算法演进 + 相似度计算 + 可视化的完整技能栈。
- 最后看 LLM 内嵌 vs. 独立 Embedding 模型,区分 RAG 与训练语境下的用法差异。