从零训练一个 Mini GPT — 实战学习笔记

Henry_Lee https://blog.hatena.ne.jp/Henry_Lee/ Levis's GenAI Fullstack Engineer Blog https://henry-lee-genai-fullstack.hatenablog.com/ 这份笔记来自一次真实的训练实践：在 RTX 3070 (8GB VRAM) + 16GB RAM 上，从零实现并训练了一个 ~10M 参数的 GPT 语言模型。包含完整代码、踩过的坑、训练数据，适合作为深度学习对话的上下文。一、GPT 是什么？一句话版本 GPT = 只有 Decoder 的 Transformer，任务是"给定前面的文字，预测下一个字"（自回归语言模型）。训练时：喂一段文本，模型尝试预测每个位置的下一个 token，用 cross-entropy loss 衡量预测好坏。生成时：给一个开头，模型一个字一个字往后"续写"。二、核心架构（逐层拆解） 2.1 整体结构输入… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fhenry-lee-genai-fullstack.hatenablog.com%2Fentry%2F2026%2F03%2F05%2F125729" title="从零训练一个 Mini GPT — 实战学习笔记 - Levis's GenAI Fullstack Engineer Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2026-03-05 12:57:29 从零训练一个 Mini GPT — 实战学习笔记 rich https://henry-lee-genai-fullstack.hatenablog.com/entry/2026/03/05/125729 1.0 100%