摘要: Meta-Learning Finn, Chelsea, P. Abbeel and Sergey Levine. “Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks.” International Conferenc 阅读全文
posted @ 2024-06-18 16:32 RubySIU 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 虽然我们认为训练样本是独立同分布的,但是在实际训练过程中,我们会划分 batch 来提高训练效率,此时不同的 batch 之间可能不再是同分布,从而影响模型的训练效果。 深度学习模型往往都具有较多的层,网络越深越容易出现梯度消失和梯度爆炸的问题,导致模型不稳定,不容易收敛。 对于深层的模型,如果不做 阅读全文
posted @ 2024-05-22 14:16 RubySIU 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 超参数优化 超参数在很大程度上可以决定模型的训练效果,例如学习率影响学习效率,正则化影响泛化能力等。 对超参数的优化也一直是一个受人关注的问题,尤其是可调整的超参数越来越多,手动调参的消耗越来越大,迫切需要一些可以自动化搜索最佳超参数的算法。 本文将介绍几种常用的超参数优化算法。 Grid Sear 阅读全文
posted @ 2024-05-12 13:32 RubySIU 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 什么是偏差和方差 偏差描述预测值和真实值之间的差距,偏差越大,越偏离真实值。 方差描述预测值的变化范围,也可以描述预测值和其期望值之间的差距,方差越大,数据越分散。 对于深度学习模型,我们最关注模型的泛化能力,或者说泛化误差,而泛化误差可以分解为 偏差+方差+噪音。 由于我们的用于训练模型的数据有限 阅读全文
posted @ 2024-05-11 17:25 RubySIU 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 有关机器学习的一些有用的知识 以分类器为例,但是讨论的问题可以广泛应用于其他机器学习方法。 Learning = Representation+Evaluation+Optimization Representation 所谓 Representation,就是假设空间,即该模型可能学习的分类器集。 阅读全文
posted @ 2024-05-09 16:01 RubySIU 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 学习率的作用 学习率是梯度下降的重要参数,可以直接影响学习效果。 在梯度下降公式中 \[w=w-\alpha\frac{d}{dw}J(w) \]\(\alpha\)就是学习率,决定了每次更新的“步幅”。 如果学习率太小,权重更新过慢,则需要很多步才能达到损失函数最小值。如果学习率过大,权重会更新的 阅读全文
posted @ 2024-05-08 20:33 RubySIU 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 牛顿法 牛顿法使用方程 \(f(x)\) 的泰勒级数的前几项来寻找 \(f(x)=0\) 的解。 首先选择一个接近 \(f(x)\) 零点的横坐标 \(x_0\),计算 \(f(x_0)\) 及其斜率 \(f'(x_0)\),穿过点 \((x_0,f(x_0))\) 以斜率 \(f'(x_0)\) 阅读全文
posted @ 2024-04-09 12:01 RubySIU 阅读(75) 评论(0) 推荐(0) 编辑