LLM Token 技术指南

Token 是大模型看世界的最小单位——既决定了模型能一次处理多长的上下文，也直接挂钩 API 调用的钱。搞清楚「一段文本会被切成多少 token」「不同 tokenizer 的策略差异在哪」「怎么不超限还省钱」，是所有 LLM 工程的共同基本功。本目录把这些内容压缩为一份介绍文档外加一个可运行的 Token 估算小工具。

1. 内容概览

1.1 核心文档

llm_token_intro.md — 介绍 Token 的定义、BPE / WordPiece 等主流切分算法、与成本/上下文窗口的关系，以及常见的长度估算陷阱。

1.2 实用工具

token_estimation.py — 命令行 Token 数量估算脚本，支持多种主流 tokenizer。
Dockerfile — 容器化构建文件，将估算脚本打包为可部署镜像，便于在 CI / 内部服务中调用。

1.3 Token 化过程

文本分割 — 把字符 / 词组切成 Token 序列，不同语言策略差异显著。
编码算法 — BPE（GPT 系）、WordPiece（BERT 系）、SentencePiece 的差异与适用场景。
特殊 Token — [CLS] / [SEP] / <|endoftext|> / 工具调用标签等控制符号的作用与数量占用。
多语言支持 — 中文、代码等非英文语料下的切分稳定性与 fallback 策略。

1.4 Token 计算

长度估算 — 预先估算请求的 token 数量，避免超出模型上下文窗口。
成本控制 — 按 prompt / completion 分别计价的 Token-based 成本模型。
限制处理 — 超长输入的截断、滑窗、摘要三类缓解方案。
优化技巧 — prompt 压缩、重复内容去除、system prompt 共享等工程手段。

2. 相关资源