LLM 基础概念

一个大语言模型怎么把一段中文「读进去」、怎么在内部生成推理链、怎么压缩到能跑在消费级显卡、又怎么避免「听起来很对其实是编的」?本目录把这些看似独立但实际互相咬合的基础概念整理在一起,作为进一步研究训练、推理、RAG、Agent 等上层话题之前的统一参考系。

1. 核心概念与理论

  • 思维链 (CoT) — 通过显式书写中间推理步骤提升复杂任务准确率的机制,及其与 few-shot / zero-shot / self-consistency 的关系。
  • Token 机制 — 切分算法(BPE / WordPiece)、长度估算工具与 Token-based 成本控制实战,配套 token_estimation.py 脚本与 Dockerfile。
  • 模型幻觉 (Hallucination) — 幻觉成因的分层解释(数据层 / 训练层 / 推理层)及检索、约束、校验三类缓解手段。

2. 嵌入(Embedding)

文本嵌入把离散符号压成稠密向量,是 RAG、聚类、分类、异常检测等几乎所有下游任务的共同底座。相关文档收在 embedding/

3. 模型架构与优化

  • 混合专家 (MoE) — 稀疏激活、专家路由与负载均衡,如何让模型参数量增长而不线性增加推理成本。
  • 模型量化 (Quantization) — FP16 / INT8 / INT4 / GPTQ / AWQ 等量化路径的图解解析,以及精度—性能的折中决策。

4. 文件格式与应用层技术

5. 相关资源