MODULE // COURSE

LLM_From_Scratch

从零构建大语言模型，理解 GPT 底层原理与实现

📐 注意力机制 🔧 从零实现 GPT ⚡ LoRA 微调

LEARNING_PATH

01

基础概念

Ch1-2 · LLM + 文本处理

02

核心架构

Ch3-4 · 注意力 + GPT

03

训练实战

Ch5 · 预训练

04

微调应用

Ch6-7 + LoRA

ALL_CHAPTERS (31)

AI from Scratch · Phase 10 | 从零构建大语言模型

27节课，从Tokenizer到DeepSeek-V3架构，完整拆解LLM从预训练到推理优化的全链路

2026年6月18日

#AI工程 #从零开始

从零构建大模型 (1) · 理解大语言模型

1.理解大语言模型

2026年6月3日

#LLM #大模型

从零构建大模型 (2) · 处理文本数据

2.处理文本数据

2026年6月3日

#LLM #大模型

从零构建大模型 (3) · 实现注意力机制

2026年6月3日

#LLM #大模型

从零构建大模型 (4) · 从零实现 GPT 模型

4.从零开始实现一个用于文本生成的 GPT 模型

2026年6月3日

#LLM #大模型

从零构建大模型 (6) · 分类任务微调

6.用于分类任务的微调

2026年6月3日

#LLM #大模型

从零构建大模型 (5) · 无标记数据预训练

5.在无标记数据集上进行预训练

2026年6月3日

#LLM #大模型

从零构建大模型 (7) · 指令遵循微调

7.指令遵循微调

2026年6月3日

#LLM #大模型

从零构建大模型 · 附录A · PyTorch 简介

附录A. PyTorch简介

2026年6月3日

#LLM #大模型

从零构建大模型 · 附录B · 参考文献和扩展阅读

2026年6月3日

#LLM #大模型

从零构建大模型 · 附录D · 训练循环高级技巧

附录D. 给训练循环添加高级技巧

2026年6月3日

#LLM #大模型

从零构建大模型 · 附录C · 习题解答

2026年6月3日

#LLM #大模型

从零构建大模型 · 附录E · LoRA 参数高效微调

附录E. 使用LoRA的参数高效微调

2026年6月3日

#LLM #大模型

附录A：PyTorch 速览

张量、自动求导、Dataset/DataLoader、GPU

2026年5月25日

#从零构建大语言模型 #PyTorch

附录D：训练循环增强

学习率热身、余弦衰减、梯度裁剪

2026年5月25日

#从零构建大语言模型 #训练技巧

附录E：LoRA 参数高效微调

LoRA 原理与最小实现

2026年5月25日

#从零构建大语言模型 #LoRA

第2章：文本数据处理

分词、BPE、滑窗采样、嵌入与位置编码

2026年5月25日

#从零构建大语言模型 #LLM

第1章：理解大语言模型

弄清 LLM 的范式、训练阶段与 Transformer 角色

2026年5月25日

#从零构建大语言模型 #LLM

第1章补充材料：扩展阅读与注释

来自 MLNLP-World 和 Datawhale 中文翻译项目的扩展知识点

2026年5月25日

#从零构建大语言模型 #LLM

第2章补充材料：文本数据处理扩展

来自中文翻译项目的扩展知识点：BPE深入、嵌入直觉、数据采样

2026年5月25日

#从零构建大语言模型 #LLM

第3章：注意力机制

自注意力、因果掩码、多头注意力的逐步实现

2026年5月25日

#从零构建大语言模型 #LLM

第4章：从零实现GPT模型

残差、LayerNorm、GELU、Transformer Block 拼装

2026年5月25日

#从零构建大语言模型 #GPT

第3章补充材料：注意力机制扩展

来自中文翻译项目的扩展知识点：注意力机制原理详解、多头注意力

2026年5月25日

#从零构建大语言模型 #LLM

第4章补充材料：GPT架构深度剖析

来自中文翻译项目的扩展知识点——残差连接、LayerNorm、GELU激活函数的深入理解与性能分析

2026年5月25日

#从零构建大语言模型 #LLM

第5章：在无标注数据上预训练

损失函数、训练循环、采样策略、权重加载

2026年5月25日

#从零构建大语言模型 #LLM

第5章补充材料：预训练进阶技术

来自中文翻译项目的扩展知识点——学习率调度、GPT权重加载、GPT→Llama架构转换

2026年5月25日

#从零构建大语言模型 #LLM

第7章：指令微调

指令数据格式、对齐式训练、初步评估

2026年5月25日

#从零构建大语言模型 #LLM

第6章补充材料：微调策略与IMDB分类实验

来自中文翻译项目的扩展知识点——微调策略对比、IMDB情感分类实验、模型横向评测

2026年5月25日

#从零构建大语言模型 #LLM

第6章：分类微调

替换输出头、冻结/解冻、评估垃圾邮件分类

2026年5月25日

#从零构建大语言模型 #LLM

第7章补充材料：指令微调进阶与DPO偏好优化

来自中文翻译项目的扩展知识点——DPO偏好微调、合成数据集生成、模型评估方法

2026年5月25日

#从零构建大语言模型 #LLM

从零构建大语言模型 · 中文课件

参考 rasbt/LLMs-from-scratch 章节结构，用中文重新撰写的原创教学讲义。适合有 Python 和基础深度学习经验的开发者。

2026年5月25日

#从零构建大语言模型 #LLM

EXTERNAL_RESOURCES 社区中文资源

MLNLP-World / LLMs-from-scratch-CN

MLNLP 社区翻译版 · Markdown 笔记 + Jupyter 代码中文注释 · 覆盖全部 7 章 + 附录

ch01-07 全章节中文 Jupyter 注释附加材料

Datawhale / llms-from-scratch-cn

Datawhale 出品 · 逐节翻译 notebook + 简洁入门代码 + 模型架构对比（Llama3/GLM4/RWKV6/Mamba…）

逐节翻译 Llama3 / GLM4 / RWKV Mamba / Phi / MiniCPM

rasbt / LLMs-from-scratch

Sebastian Raschka 原著 · 配套《Build a Large Language Model (From Scratch)》· 大量 Bonus 专题

KV-Cache / GQA / MLA MoE / DPO Qwen3 / Gemma3

Build a Large Language Model (From Scratch) 在线中文版

网页直接看，无需 clone 仓库，适合快速查阅

RESOURCE_MAP 各仓库内容对照

章节	主题	MLNLP	Datawhale	原版 Bonus
Ch01	理解大语言模型	✅	✅	—
Ch02	文本数据处理	✅ + BPE/嵌入扩展	✅ 逐节翻译	BPE / 嵌入直觉
Ch03	注意力机制	✅	✅ 逐节翻译	高效多头注意力
Ch04	从零实现 GPT	✅ + 练习解答	✅ 逐节翻译	KV-Cache / GQA / MLA / MoE / SWA
Ch05	预训练	✅ + GPT→Llama	✅ 逐节翻译	Qwen3 / Gemma3 / OLMo3 / Muon
Ch06	分类微调	✅ + IMDB 扩展	待发布	IMDB / 额外实验
Ch07	指令微调	✅ + DPO 偏好微调	待发布	DPO / 数据生成
App-A	PyTorch 速览	✅	✅	DDP 分布式
App-D	训练循环增强	✅	✅	学习率调度
App-E	LoRA 微调	✅	—	LoRA 原理与实现

✅ = 有中文内容 | Bonus = 原仓库附加专题

MODEL_ZOO Datawhale 模型架构专题

Datawhale 版本独有的「模型架构讨论」板块，从 GPT 扩展到主流开源架构的从零实现：

Llama 3

GQA + RoPE

ChatGLM 4

中文对话模型

RWKV v1-v6

线性 RNN 系列

Mamba

SSM 架构

Phi / Phi-3

微软小模型

MiniCPM

面壁智能

GPT-J

并行注意力

OLMo / OpenELM

完全开源

查看全部 → Model_Architecture_Discussions

BONUS_TOPICS 原版仓库额外专题（英文）

原版仓库持续更新，以下专题尚未有中文翻译，适合进阶阅读：

▸

KV-Cache / GQA / MLA / MoE ch04 bonus

▸

Sliding Window Attention ch04 bonus

▸

Qwen3 / Gemma3 / OLMo3 从零加载 ch05 bonus

▸

DPO 偏好微调 / 数据集生成 ch07 bonus

▸

Muon 优化器 ch05 bonus

▸

GPT→Llama 架构转换 ch05 bonus

HOW_TO_USE

>_ 搭配方式：先看本站中文课件建立框架 → MLNLP 中文注释代码动手跑 → Datawhale 看其他模型架构

>_ 进阶路线：原版 Bonus 专题覆盖 KV-Cache、GQA、MoE、DPO 等前沿技术，值得深读

>_ 快速查阅：在线中文版适合随手翻阅，不用 clone 整个仓库