MODULE // COURSE

LLM_From_Scratch

从零构建大语言模型,理解 GPT 底层原理与实现

📐 注意力机制 🔧 从零实现 GPT ⚡ LoRA 微调

LEARNING_PATH

01
基础概念
Ch1-2 · LLM + 文本处理
02
核心架构
Ch3-4 · 注意力 + GPT
03
训练实战
Ch5 · 预训练
04
微调应用
Ch6-7 + LoRA

ALL_CHAPTERS (30)

RESOURCE_MAP 各仓库内容对照

章节 主题 MLNLP Datawhale 原版 Bonus
Ch01 理解大语言模型
Ch02 文本数据处理 ✅ + BPE/嵌入扩展 ✅ 逐节翻译 BPE / 嵌入直觉
Ch03 注意力机制 ✅ 逐节翻译 高效多头注意力
Ch04 从零实现 GPT ✅ + 练习解答 ✅ 逐节翻译 KV-Cache / GQA / MLA / MoE / SWA
Ch05 预训练 ✅ + GPT→Llama ✅ 逐节翻译 Qwen3 / Gemma3 / OLMo3 / Muon
Ch06 分类微调 ✅ + IMDB 扩展 待发布 IMDB / 额外实验
Ch07 指令微调 ✅ + DPO 偏好微调 待发布 DPO / 数据生成
App-A PyTorch 速览 DDP 分布式
App-D 训练循环增强 学习率调度
App-E LoRA 微调 LoRA 原理与实现
✅ = 有中文内容 | Bonus = 原仓库附加专题

MODEL_ZOO Datawhale 模型架构专题

Datawhale 版本独有的「模型架构讨论」板块,从 GPT 扩展到主流开源架构的从零实现:

Llama 3
GQA + RoPE
ChatGLM 4
中文对话模型
RWKV v1-v6
线性 RNN 系列
Mamba
SSM 架构
Phi / Phi-3
微软小模型
MiniCPM
面壁智能
GPT-J
并行注意力
OLMo / OpenELM
完全开源

BONUS_TOPICS 原版仓库额外专题(英文)

原版仓库持续更新,以下专题尚未有中文翻译,适合进阶阅读:

KV-Cache / GQA / MLA / MoE ch04 bonus
Sliding Window Attention ch04 bonus
Qwen3 / Gemma3 / OLMo3 从零加载 ch05 bonus
DPO 偏好微调 / 数据集生成 ch07 bonus
Muon 优化器 ch05 bonus
GPT→Llama 架构转换 ch05 bonus

HOW_TO_USE

>_ 搭配方式:先看本站中文课件建立框架 → MLNLP 中文注释代码动手跑 → Datawhale 看其他模型架构

>_ 进阶路线:原版 Bonus 专题覆盖 KV-Cache、GQA、MoE、DPO 等前沿技术,值得深读

>_ 快速查阅:在线中文版适合随手翻阅,不用 clone 整个仓库