摘要:
##L1,L2,以及弹性网络 前情提要: 模型泛化与岭回归与LASSO ###正则 ridge和lasso的后面添加的式子的格式上其实和MSE,MAE,以及欧拉距离和曼哈顿距离是非常像的 虽然应用场景不同,但是其表示出来的数学思想是非常相近的 对明科夫斯基距离进行泛化可以得到 对于任何向量x,都可以 阅读全文
摘要:
##模型泛化与岭回归与LASSO ###模型正则化 模型正则化,简单来说就是限制参数大小 模型正则化是用什么思路来解决先前过拟合的由于过于拟合导致的曲线抖动(线性方程前的系数都很大) 线性回归的目标就是求一个最优解,让损失函数尽可能的小也就是使求出来的均方误差尽可能的小 如果过拟合的话,就会让the 阅读全文
摘要:
##偏差方差权衡 Bias Variance Trade off 什么叫偏差,什么叫方差 根据下图来说 偏差可以看作为左下角的图片,意思就是目标为红点,但是没有一个命中,所有的点都偏离了 方差可以看作为右上角的图片,意思就是目标为红点,虽然还在周围,没有太偏,但是太过分散了,不够集中,这就有很高的方 阅读全文
摘要:
##验证数据集与交叉验证 一些相关前提: 过拟合和欠拟合以及为什么要对分为训练数据集和测试数据集 可视化模型误差之学习曲线 ###验证数据集 严格意义上来说,使用训练数据集和测试数据集来进行是有不太好的地方,这样得出来的模型,可能导致一个问题,即这个最后得到的模型是过拟合了这个特定的测试数据集 不断 阅读全文
摘要:
###学习曲线 在过拟合和欠拟合以及为什么要对分为训练数据集和测试数据集中绘制了模型复杂度曲线,那么如果还想用别的方法可视化过拟合和欠拟合的关系的话,可以使用学习曲线 什么是学习曲线? 学习曲线描述的就是随着训练样本的逐渐增多,算法训练出的模型的表现能力的变化 具体实现体现一下 (在notebook 阅读全文
摘要:
##过拟合和欠拟合以及为什么要对分为训练数据集和测试数据集 ###过拟合和欠拟合 有了多项式回归以后,就可以比较轻松地用线性回归来求解非线性的问题了,不过过于使用可能会导致过拟合和欠拟合 先使用实际的例子来说明过拟合和欠拟合 (在notebook中) 加载好包,创建好虚假的数据集x和y,设置随机种子 阅读全文
摘要:
##多项式回归以及在sklearn中使用多项式回归和pipeline ###多项式回归 线性回归法有一个很大的局限性,就是假设数据背后是存在线性关系的,但是实际上,具有线性关系的数据集是相对来说比较少的,更多时候,数据之间是具有的非线性的关系,那么我们想要用线性回归法来对非线性的数据进行处理应该怎么 阅读全文