Loading

摘要: Intro 在训练集上最小化损失很可能导致泛化性低,因为当今模型的过参数化会导致training loss的landscape异常复杂且非凸,包含很多local/global minima,因此优化器的选择至关重要。loss landscape的几何性质(特别是minima的flatness)与泛化 阅读全文
posted @ 2024-01-13 17:48 脂环 阅读(151) 评论(0) 推荐(0) 编辑