摘要:
模型层间差分学习率 一般在微调Bert等预训练模型时使用,可以配合warmup,见warmup小记。 tensorflow 几行搞定,参考官方文档[1] import tensorflow_addons as tfa optimizers = [ tf.keras.optimizers.Adam(l 阅读全文
摘要:
什么是warmup 热身,在刚刚开始训练时以很小的学习率进行训练,使得网络熟悉数据,随着训练的进行学习率慢慢变大,到了一定程度,以设置的初始学习率进行训练,接着过了一些inter后,学习率再慢慢变小; 学习率变化:上升——平稳——下降 为什么用warmup 有助于减缓模型在初始阶段对mini-bat 阅读全文