Skip to content

快速体验(30 分钟)

通过三个简短实验,理解 LLM 训练中最重要的设计选择。

环境准备(5 分钟)

bash
# 1. 克隆仓库
git clone https://github.com/joyehuang/minimind-notes.git
cd minimind-notes

# 2. 激活虚拟环境
source venv/bin/activate

# 3. 下载实验数据集(可选)
cd modules/common
python data_sources.py --download-all
cd ../..

实验 1:归一化(10 分钟)

观察梯度消失现象,理解为什么 Pre-LN + RMSNorm 能保持训练稳定。

bash
cd modules/01-foundation/01-normalization/experiments
python exp1_gradient_vanishing.py

深入学习:归一化模块


实验 2:RoPE 位置编码(10 分钟)

对比绝对位置编码,理解 RoPE 为什么能更好地进行长度外推。

bash
cd ../../02-position-encoding/experiments
python exp1_rope_basics.py

深入学习:位置编码模块


实验 3:注意力机制(10 分钟)

理解 Q/K/V 和注意力权重的工作原理。

bash
cd ../../03-attention/experiments
python exp1_attention_basics.py

深入学习:注意力机制模块


接下来

基于 MiniMind 的学习笔记与实验