MiniMind学习指南
原理 + 实验 + 实践
重点: Pre-LN vs Post-LN,为什么需要归一化 时长: 1 小时 | 状态: 完成
重点: RoPE 与位置编码的设计选择 时长: 1.5 小时 | 状态: 完成
重点: Q/K/V 的直觉,多头注意力 时长: 2 小时 | 状态: 完成
重点: FFN 的设计与 SwiGLU 激活函数 时长: 1 小时 | 状态: 完成
git clone https://github.com/joyehuang/minimind-notes.git
cd minimind-notes
source venv/bin/activate# 实验 1:为什么需要归一化?
cd modules/01-foundation/01-normalization/experiments
python exp1_gradient_vanishing.py
# 你将观察到:
# ❌ 无归一化:激活值标准差衰减(梯度消失)
# ✅ RMSNorm:激活值标准差保持稳定# 阅读教学笔记,了解 Why/What/How
cat modules/01-foundation/01-normalization/teaching.md✅ 原理优先
先跑实验,再读理论。重点理解每个设计选择为什么存在。
🔬 实验驱动学习
每个模块都包含对照实验,回答:"不这样做会怎样?"
💻 低门槛
TinyShakespeare (1MB) 或 TinyStories (10-50MB),CPU 上几分钟即可运行,学习阶段无需 GPU。