从零构建大模型 (1) · 理解大语言模型
1.理解大语言模型
从零构建大语言模型,理解 GPT 底层原理与实现
1.理解大语言模型
2.处理文本数据
4.从零开始实现一个用于文本生成的 GPT 模型
6.用于分类任务的微调
5.在无标记数据集上进行预训练
7.指令遵循微调
附录A. PyTorch简介
附录D. 给训练循环添加高级技巧
附录E. 使用LoRA的参数高效微调
张量、自动求导、Dataset/DataLoader、GPU
学习率热身、余弦衰减、梯度裁剪
LoRA 原理与最小实现
分词、BPE、滑窗采样、嵌入与位置编码
弄清 LLM 的范式、训练阶段与 Transformer 角色
来自 MLNLP-World 和 Datawhale 中文翻译项目的扩展知识点
来自中文翻译项目的扩展知识点:BPE深入、嵌入直觉、数据采样
自注意力、因果掩码、多头注意力的逐步实现
残差、LayerNorm、GELU、Transformer Block 拼装
来自中文翻译项目的扩展知识点:注意力机制原理详解、多头注意力
来自中文翻译项目的扩展知识点——残差连接、LayerNorm、GELU激活函数的深入理解与性能分析
损失函数、训练循环、采样策略、权重加载
来自中文翻译项目的扩展知识点——学习率调度、GPT权重加载、GPT→Llama架构转换
指令数据格式、对齐式训练、初步评估
来自中文翻译项目的扩展知识点——微调策略对比、IMDB情感分类实验、模型横向评测
替换输出头、冻结/解冻、评估垃圾邮件分类
来自中文翻译项目的扩展知识点——DPO偏好微调、合成数据集生成、模型评估方法
参考 rasbt/LLMs-from-scratch 章节结构,用中文重新撰写的原创教学讲义。适合有 Python 和基础深度学习经验的开发者。
MLNLP 社区翻译版 · Markdown 笔记 + Jupyter 代码中文注释 · 覆盖全部 7 章 + 附录
Datawhale 出品 · 逐节翻译 notebook + 简洁入门代码 + 模型架构对比(Llama3/GLM4/RWKV6/Mamba…)
Sebastian Raschka 原著 · 配套《Build a Large Language Model (From Scratch)》· 大量 Bonus 专题
网页直接看,无需 clone 仓库,适合快速查阅
| 章节 | 主题 | MLNLP | Datawhale | 原版 Bonus |
|---|---|---|---|---|
| Ch01 | 理解大语言模型 | ✅ | ✅ | — |
| Ch02 | 文本数据处理 | ✅ + BPE/嵌入扩展 | ✅ 逐节翻译 | BPE / 嵌入直觉 |
| Ch03 | 注意力机制 | ✅ | ✅ 逐节翻译 | 高效多头注意力 |
| Ch04 | 从零实现 GPT | ✅ + 练习解答 | ✅ 逐节翻译 | KV-Cache / GQA / MLA / MoE / SWA |
| Ch05 | 预训练 | ✅ + GPT→Llama | ✅ 逐节翻译 | Qwen3 / Gemma3 / OLMo3 / Muon |
| Ch06 | 分类微调 | ✅ + IMDB 扩展 | 待发布 | IMDB / 额外实验 |
| Ch07 | 指令微调 | ✅ + DPO 偏好微调 | 待发布 | DPO / 数据生成 |
| App-A | PyTorch 速览 | ✅ | ✅ | DDP 分布式 |
| App-D | 训练循环增强 | ✅ | ✅ | 学习率调度 |
| App-E | LoRA 微调 | ✅ | — | LoRA 原理与实现 |
Datawhale 版本独有的「模型架构讨论」板块,从 GPT 扩展到主流开源架构的从零实现:
原版仓库持续更新,以下专题尚未有中文翻译,适合进阶阅读:
>_ 搭配方式:先看本站中文课件建立框架 → MLNLP 中文注释代码动手跑 → Datawhale 看其他模型架构
>_ 进阶路线:原版 Bonus 专题覆盖 KV-Cache、GQA、MoE、DPO 等前沿技术,值得深读
>_ 快速查阅:在线中文版适合随手翻阅,不用 clone 整个仓库