[code] Transformer For Summarization Source Code Reading [3]
摘要:
1. Label Smoothing 对于分类问题,我们希望模型输出的标签上概率分布,逼近于真实标签的one hot representation。带来的问题是: 1. 无法保证泛化 2. one hot表示鼓励将真实类别和其他类别之间的差距尽可能拉大,造成模型过分相信预测的类别 论文 When D 阅读全文
posted @ 2019-07-24 13:31 LAUSpectrum 阅读(402) 评论(0) 推荐(0) 编辑