凌晨四点的洛杉矶

2019年7月14日

摘要：多元线性回归算法 $x^{(i)}$由一个特征变为多个特征，此时拟合函数不是简单的$y^{(i)} = ax^{(i)}+b$, 而是： $$\hat y^{(i)} = \theta _0x^{(i)}_0 + \theta _1x^{(i)}_1+ \theta _2x^{(i)}_2+...+ 阅读全文

posted @ 2019-07-14 20:01 凌晨四点的洛杉矶阅读(421) 评论(0) 推荐(0) 编辑

线性回归算法-3.线性回归算法的衡量标准

摘要：线性回归算法的衡量标准均方误差（Mean Squared Error） $$\frac{1}{m}\sum_{i=1}^{m}(y_{test}^{(i)} \hat y{_{test}^{(i)}})^2$$ 均方根误差（Root Mean Squared Error） $$\sqrt{\fra 阅读全文

posted @ 2019-07-14 18:02 凌晨四点的洛杉矶阅读(229) 评论(0) 推荐(0) 编辑

线性回归算法-2.简单线性回归的实现

摘要：线性回归算法的实现线性回归算法核心，求a,b的值：调用自己封装的库调用SimpleLineRegression库向量化 a值计算时采用for循环，效率较低，观察a的表达式发现，可以用向量间的点乘实现：实现：性能比较由下图可以看出，向量化运算比简单的for循环要快100倍阅读全文

posted @ 2019-07-14 13:10 凌晨四点的洛杉矶阅读(205) 评论(0) 推荐(0) 编辑

线性回归算法-1.简单线性回归原理

摘要：线性回归算法解决回归问题思想简单，实现容易许多强大的非线性模型的基础结果具有很好的解释性蕴含机器学习中很多重要的思想一类机器学习算法的思路：通过分析问题，找到问题的损失函数或者效用函数，通过最优化损失函数或者效用函数，确定机器学习的算法模型简单线性回归的推导最小二乘法如图所示，对于阅读全文

posted @ 2019-07-14 11:55 凌晨四点的洛杉矶阅读(382) 评论(0) 推荐(0) 编辑

k近邻算法-6.更多思考

摘要： k近邻算法的思考 k近邻的缺点 1.效率低下如果训练集有m个样本，n个特征，预测一个新的数据，需要O(m n) 优化：使用数结构，KD Tree,Ball Tree 2.高度数据相关对outline更敏感，如果使用三近邻算法，在预测的样本中间如果有两个错误，则足够影响结果的准确性，尽管空间中有大阅读全文

posted @ 2019-07-14 10:07 凌晨四点的洛杉矶阅读(126) 评论(0) 推荐(0) 编辑

k近邻算法-5.数据归一化

摘要：数据归一化（Feature Scaling）多个特征值时，其中某个特征数量级比较大，其他特征较小时，分类结果会被特征值所主导，而弱化了其他特征的影响，这是各个特征值的量纲不同所致，需要将数据归一化处理如上图所示，样本间的距离，被发现时间所主导解决办法：将所有的数据映射到同一尺度方法一：最值归阅读全文

posted @ 2019-07-14 10:06 凌晨四点的洛杉矶阅读(485) 评论(0) 推荐(0) 编辑

2019年7月13日

K近邻算法-4.超参数

摘要：超参数超参数：在算法运行之前需要决定的参数模型参数：算法过程中学习到的参数 KNN算法作为最简单的机器学习算法，它没有模型参数，下面讨论它的超参数加载数据集：寻找最好的k：考虑距离权重（weight）？欧拉距离,曼哈顿距离,明可夫斯基距离图中绿色最短的为欧拉距离，红黄蓝为曼哈顿距离将阅读全文

posted @ 2019-07-13 13:13 凌晨四点的洛杉矶阅读(670) 评论(0) 推荐(0) 编辑

k近邻算法-3.算法应用

摘要：算法具体应用加载手写数据集手写数据集共有5620个样本，每个样本有64个特征，为手写数据集的像素点，其样本的结果为0 9的手写数字，其数据集描述如下：样本结构：数据可视化，查看某个样本的特征和结果：查看此数据的结果：封装之前的代码，实现手写数据集的预测定义K近邻算法(KNN.py)：阅读全文

posted @ 2019-07-13 09:42 凌晨四点的洛杉矶阅读(141) 评论(0) 推荐(0) 编辑

2019年7月12日

k近邻算法-2.模型评估与选择

摘要：模型评估与选择如何评价一个算法的性能？将所有样本数据作为训练数据集参与模型的创建，得到的模型如果很差，在真实环境中会造成损失，而真实环境难以拿到真实的归类。此时我们需要将所有的样本数据分类，一部分作为训练数据集，一部分作为测试数据集，这样可以检测模型的泛化能力从而对算法做出改进。 train_t 阅读全文

posted @ 2019-07-12 21:12 凌晨四点的洛杉矶阅读(239) 评论(0) 推荐(0) 编辑

2019年7月11日

K近邻算法-1.原理及简单实现

摘要： K近邻算法 K近邻算法，又称KNN算法，是机器学习入门的第一个算法，其解决的是分类问题，具有以下特点：思想简单应用数学知识少效果好（后续会讨论其缺点）机器学习的入门算法原理及简单实现例：图为肿瘤时间与大小对于肿瘤的分类，红色代表良性肿瘤，蓝色代表了恶性肿瘤，当新来一个数据点（绿色数据点）阅读全文

posted @ 2019-07-11 20:15 凌晨四点的洛杉矶阅读(522) 评论(0) 推荐(0) 编辑

帅龙

公告