LLM Token 技术指南
Token 是大模型看世界的最小单位——既决定了模型能一次处理多长的上下文,也直接挂钩 API 调用的钱。搞清楚「一段文本会被切成多少 token」「不同 tokenizer 的策略差异在哪」「怎么不超限还省钱」,是所有 LLM 工程的共同基本功。本目录把这些内容压缩为一份介绍文档外加一个可运行的 Token 估算小工具。
1. 内容概览
1.1 核心文档
- llm_token_intro.md — 介绍 Token 的定义、BPE / WordPiece 等主流切分算法、与成本/上下文窗口的关系,以及常见的长度估算陷阱。
1.2 实用工具
- token_estimation.py — 命令行 Token 数量估算脚本,支持多种主流 tokenizer。
- Dockerfile — 容器化构建文件,将估算脚本打包为可部署镜像,便于在 CI / 内部服务中调用。
1.3 Token 化过程
- 文本分割 — 把字符 / 词组切成 Token 序列,不同语言策略差异显著。
- 编码算法 — BPE(GPT 系)、WordPiece(BERT 系)、SentencePiece 的差异与适用场景。
- 特殊 Token —
[CLS]/[SEP]/<|endoftext|>/ 工具调用标签等控制符号的作用与数量占用。 - 多语言支持 — 中文、代码等非英文语料下的切分稳定性与 fallback 策略。
1.4 Token 计算
- 长度估算 — 预先估算请求的 token 数量,避免超出模型上下文窗口。
- 成本控制 — 按 prompt / completion 分别计价的 Token-based 成本模型。
- 限制处理 — 超长输入的截断、滑窗、摘要三类缓解方案。
- 优化技巧 — prompt 压缩、重复内容去除、system prompt 共享等工程手段。