摘要:
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化。 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大->样本越稀疏,方差越小->样本越紧密 所以问题转化成了 --> 与线性回归对比,似乎有些类似。但它们是不同的! 不仅是 阅读全文
摘要:
梯度下降法 不是一个机器学习算法 是一种基于搜索的最优化方法 作用:最小化一个损失函数 梯度上升法:最大化一个效用函数 举个栗子 直线方程:导数代表斜率 曲线方程:导数代表切线斜率 导数可以代表方向,对应J增大的方向。对于蓝点,斜率为负,西塔减少时J增加,西塔增加时J减少,我们想让J减小,对应导数的 阅读全文
摘要:
Python中容易混淆知识点的一些总结笔记 len, count, size, shape, ndim len() -> 返回长度,e.g. len([1,2]) = 2, len([[1,2,3],[3,4,5]]) = 2 count() -> 计算个数, e.g. 'aabcc'.count( 阅读全文
摘要:
衡量线性回归法的指标:MSE, RMSE和MAE 举个栗子: 对于简单线性回归,目标是找到a,b 使得尽可能小 其实相当于是对训练数据集而言的,即 当我们找到a,b后,对于测试数据集而言 ,理所当然,其衡量标准可以是 但问题是,这个衡量标准和m相关。 (当10000个样本误差累积是100,而1000 阅读全文
摘要:
最小二乘法 最小化误差的平方。 对于式子,y(i)是真值,ax(i)-b 是预测值。将两者差的平方和最小化,就是最小二乘法解决的问题。 x_bar :x向量对应的均值 推导过程: 阅读全文
摘要:
待续。。 阅读全文
摘要:
线性回归算法 解决回归问题 思想简单,容易实现 是许多强大的非线性模型的基础 结果具有很好的可解释性 蕴含机器学习中的很多重要思想 基本思想:寻找一条直线,最大程度的“拟合”样本特征和样本输出标记之间的关系 如横轴房屋面积,纵轴房屋价格 由实际值x(i)代入到拟合直线方程中得到的y_hat, 即y的 阅读全文
摘要:
机器学习流程总结 阅读全文
摘要:
数据归一化Feature Scaling 当我们有如上样本时,若采用常规算欧拉距离的方法sqrt((5-1)2+(200-100)2), 样本间的距离被‘发现时间’所主导。尽管5是1的5倍,200只是100的2倍。这是由于量纲不同,导致数据不在同一个度量级上。 因此我们需要进行一些数据归一化的处理, 阅读全文