摘要: 在模型评估过程中,过拟合和欠拟合具体指什么现象? 过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。 欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合 阅读全文
posted @ 2020-11-10 17:34 MiQing4in 阅读(1461) 评论(1) 推荐(0) 编辑
摘要: One-hot的作用是什么?为什么不直接使用数字作为表示?One-hot 主要用来编码类别特征,即采用哑变量(dummy variables) 对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。 直接使用数字会给将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及 阅读全文
posted @ 2020-11-10 17:26 MiQing4in 阅读(1712) 评论(0) 推荐(0) 编辑
摘要: 1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: 阅读全文
posted @ 2020-11-10 17:00 MiQing4in 阅读(3919) 评论(0) 推荐(1) 编辑
摘要: 特征降维其实从大的方面来讲有两种思路可以走: 基于原有的特征进行降维 基于原有的特征进行筛选 第一种降维方法中,常见的有:PCA、LDA、SVD、稀疏自编码、word2vec等 第二种筛选的方法主要是对原有特征和目标label进行重要性分析,将那些不重要的特征进行剔除,比如使用gbdt、random 阅读全文
posted @ 2020-11-10 16:48 MiQing4in 阅读(1293) 评论(0) 推荐(0) 编辑
摘要: 为什么要对特征进行归一化? 一句话描述:1)归一化后加快了梯度下降求最优解的速度 2)归一化有可能提高精度 1:归一化后加快了梯度下降求最优解的速度 蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非 阅读全文
posted @ 2020-11-10 16:32 MiQing4in 阅读(3281) 评论(0) 推荐(1) 编辑