摘要: 多元线性回归算法 $x^{(i)}$由一个特征变为多个特征,此时拟合函数不是简单的$y^{(i)} = ax^{(i)}+b$, 而是: $$\hat y^{(i)} = \theta _0x^{(i)}_0 + \theta _1x^{(i)}_1+ \theta _2x^{(i)}_2+...+ 阅读全文
posted @ 2019-07-14 20:01 凌晨四点的洛杉矶 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法的衡量标准 均方误差(Mean Squared Error) $$\frac{1}{m}\sum_{i=1}^{m}(y_{test}^{(i)} \hat y{_{test}^{(i)}})^2$$ 均方根误差(Root Mean Squared Error) $$\sqrt{\fra 阅读全文
posted @ 2019-07-14 18:02 凌晨四点的洛杉矶 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法的实现 线性回归算法核心,求a,b的值: 调用自己封装的库 调用SimpleLineRegression库 向量化 a值计算时采用for循环,效率较低,观察a的表达式发现,可以用向量间的点乘实现: 实现: 性能比较 由下图可以看出,向量化运算比简单的for循环要快100倍 阅读全文
posted @ 2019-07-14 13:10 凌晨四点的洛杉矶 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 线性回归算法 解决回归问题 思想简单,实现容易 许多强大的非线性模型的基础 结果具有很好的解释性 蕴含机器学习中很多重要的思想 一类机器学习算法的思路:通过分析问题,找到问题的损失函数或者效用函数,通过最优化损失函数或者效用函数,确定机器学习的算法模型 简单线性回归的推导 最小二乘法 如图所示,对于 阅读全文
posted @ 2019-07-14 11:55 凌晨四点的洛杉矶 阅读(373) 评论(0) 推荐(0) 编辑
摘要: k近邻算法的思考 k近邻的缺点 1.效率低下 如果训练集有m个样本,n个特征,预测一个新的数据,需要O(m n) 优化:使用数结构,KD Tree,Ball Tree 2.高度数据相关 对outline更敏感,如果使用三近邻算法,在预测的样本中间如果有两个错误,则足够影响结果的准确性,尽管空间中有大 阅读全文
posted @ 2019-07-14 10:07 凌晨四点的洛杉矶 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 数据归一化(Feature Scaling) 多个特征值时,其中某个特征数量级比较大,其他特征较小时,分类结果会被特征值所主导,而弱化了其他特征的影响,这是各个特征值的量纲不同所致,需要将数据归一化处理 如上图所示,样本间的距离,被发现时间所主导 解决办法:将所有的数据映射到同一尺度 方法一:最值归 阅读全文
posted @ 2019-07-14 10:06 凌晨四点的洛杉矶 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 超参数 超参数:在算法运行之前需要决定的参数 模型参数:算法过程中学习到的参数 KNN算法作为最简单的机器学习算法,它没有模型参数,下面讨论它的超参数 加载数据集: 寻找最好的k: 考虑距离权重(weight)? 欧拉距离,曼哈顿距离,明可夫斯基距离 图中绿色最短的为欧拉距离,红黄蓝为曼哈顿距离 将 阅读全文
posted @ 2019-07-13 13:13 凌晨四点的洛杉矶 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 算法具体应用 加载手写数据集 手写数据集共有5620个样本,每个样本有64个特征,为手写数据集的像素点,其样本的结果为0 9的手写数字,其数据集描述如下: 样本结构: 数据可视化,查看某个样本的特征和结果: 查看此数据的结果: 封装之前的代码,实现手写数据集的预测 定义K近邻算法(KNN.py): 阅读全文
posted @ 2019-07-13 09:42 凌晨四点的洛杉矶 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 模型评估与选择 如何评价一个算法的性能? 将所有样本数据作为训练数据集参与模型的创建,得到的模型如果很差,在真实环境中会造成损失,而真实环境难以拿到真实的归类。此时我们需要将所有的样本数据分类,一部分作为训练数据集,一部分作为测试数据集,这样可以检测模型的泛化能力从而对算法做出改进。 train_t 阅读全文
posted @ 2019-07-12 21:12 凌晨四点的洛杉矶 阅读(225) 评论(0) 推荐(0) 编辑
摘要: K近邻算法 K近邻算法,又称KNN算法,是机器学习入门的第一个算法,其解决的是分类问题,具有以下特点: 思想简单 应用数学知识少 效果好(后续会讨论其缺点) 机器学习的入门算法 原理及简单实现 例:图为肿瘤时间与大小对于肿瘤的分类,红色代表良性肿瘤,蓝色代表了恶性肿瘤,当新来一个数据点(绿色数据点) 阅读全文
posted @ 2019-07-11 20:15 凌晨四点的洛杉矶 阅读(520) 评论(0) 推荐(0) 编辑