摘要:
多元线性回归算法 $x^{(i)}$由一个特征变为多个特征,此时拟合函数不是简单的$y^{(i)} = ax^{(i)}+b$, 而是: $$\hat y^{(i)} = \theta _0x^{(i)}_0 + \theta _1x^{(i)}_1+ \theta _2x^{(i)}_2+...+ 阅读全文
摘要:
线性回归算法的衡量标准 均方误差(Mean Squared Error) $$\frac{1}{m}\sum_{i=1}^{m}(y_{test}^{(i)} \hat y{_{test}^{(i)}})^2$$ 均方根误差(Root Mean Squared Error) $$\sqrt{\fra 阅读全文
摘要:
线性回归算法的实现 线性回归算法核心,求a,b的值: 调用自己封装的库 调用SimpleLineRegression库 向量化 a值计算时采用for循环,效率较低,观察a的表达式发现,可以用向量间的点乘实现: 实现: 性能比较 由下图可以看出,向量化运算比简单的for循环要快100倍 阅读全文
摘要:
线性回归算法 解决回归问题 思想简单,实现容易 许多强大的非线性模型的基础 结果具有很好的解释性 蕴含机器学习中很多重要的思想 一类机器学习算法的思路:通过分析问题,找到问题的损失函数或者效用函数,通过最优化损失函数或者效用函数,确定机器学习的算法模型 简单线性回归的推导 最小二乘法 如图所示,对于 阅读全文
摘要:
k近邻算法的思考 k近邻的缺点 1.效率低下 如果训练集有m个样本,n个特征,预测一个新的数据,需要O(m n) 优化:使用数结构,KD Tree,Ball Tree 2.高度数据相关 对outline更敏感,如果使用三近邻算法,在预测的样本中间如果有两个错误,则足够影响结果的准确性,尽管空间中有大 阅读全文
摘要:
数据归一化(Feature Scaling) 多个特征值时,其中某个特征数量级比较大,其他特征较小时,分类结果会被特征值所主导,而弱化了其他特征的影响,这是各个特征值的量纲不同所致,需要将数据归一化处理 如上图所示,样本间的距离,被发现时间所主导 解决办法:将所有的数据映射到同一尺度 方法一:最值归 阅读全文