Mini-GPT:手写 Transformer 训练

本模块从零实现 GPT-2 风格的 decoder-only Transformer(~11M 参数,字符级编码),在单张 NPU 上完成训练和文本生成。核心价值不在模型本身,而在于亲手写出 self-attention 的每一行代码——从 Q·Kᵀ / √dₖ 到 causal mask 到 online softmax,全部手写、不做封装。

2000 次迭代训练耗时 43 秒,loss 从 5.43 降至 0.14。生成的文本能正确使用”达芬奇架构”“HCCS 全互联”等训练数据中的术语。

1. Mini-GPT 训练详解

从语言模型的基本概念出发,逐步拆解 Transformer 六大核心机制(Self-Attention、Multi-Head、FFN、残差连接、LayerNorm、Position Embedding),再到模型架构、训练过程、文本生成策略和实测数据。全文理论线与实践线交织,建议对照 train_gpt.py 源码阅读。