我自己的学习过程 从CLIP讲到VLA
从零实现 micrograd 风格的 autograd,建立对反向传播机制的直观理解
一些常见的pytorch的用法
PPO损失函数的推导与理解
基于 nanogpt 的 transformer 复习
一些做题时候容易忘记/重要的trick
关于TD,PG的一些推导
关于强化学习的一些基础概念