https://github.com/karpathy/minGPT新手不会调参各种换着玩的。最近一直在学习这个项目,偶然把GELU换成ReLU,在play_math上得到了100%正确率。也许是因为GELU更适合NLP?不过,换了后,也不能叫GPT了。GPT中用的是GELU