摘要: 重点介绍了基于Python的Requests HTTP库和BeautifulSoup网页解析库 阅读全文
posted @ 2016-12-06 22:41 木白的菜园 阅读(6962) 评论(1) 推荐(1) 编辑
摘要: 概念 爬虫就是对网页的获取。 一般获取的网页中又有通向其他网页的通路,我们叫做超链接,那么就可以通过这样的通路获取更多其他的网页,就像一只在网路上爬行的蜘蛛,所以俗称爬虫。 爬虫的工作原理和浏览器浏览网页的原理类似,是请求/返回模式,就是说客户端向服务器提出访问某个页面的请求(request),服务 阅读全文
posted @ 2016-12-06 21:25 木白的菜园 阅读(1137) 评论(0) 推荐(0) 编辑
摘要: 概念 在回归(一)中提到用最小二乘法求解回归系数的过程中需要考虑特征矩阵是否可逆的问题,事实上当特征数量比样本数量多的时候(样本数m大于特征数n,X不是满秩矩阵)就会遇到这个问题,这个时候标准线性回归显然就无从下手了 引入岭回归就是为了解决这个问题,它是最先用来处理特征数多余样本数的算法。该算法的基 阅读全文
posted @ 2016-10-11 20:54 木白的菜园 阅读(18321) 评论(2) 推荐(2) 编辑
摘要: 前言回顾一下回归(一)中的标准线性回归:step1: 对于训练集,求系数w,使得最小step2: 对于新输入x,其预测输出为w*x从中我们知道,标准线性回归可能表达能力比较差,出现如图所示的欠拟合的情况(underfitting):我们可以通过添加诸如x2或sin(x)等特征重新拟合函数来解决这个问题,但是这里讨论另一种方法:局部加权回归(Locally Weighted Linear Regre... 阅读全文
posted @ 2016-10-10 20:27 木白的菜园 阅读(3965) 评论(0) 推荐(0) 编辑
摘要: 概念线性回归(linear regression)意味着可以把输入项分别乘以一些常量,然后把结果加起来得到输出。这个输出就是我们需要预测的目标值而这些常量就是所谓的回归系数我们把求这些回归系数的过程叫做回归,这个过程是对已知数据点的拟合过程更一般化的解释来自Tom M.Mitchell的《机器学习》:回归的含义是逼近一个实数值的目标函数标准线性回归那应该怎么求回归系数w呢。一个常用的方法是找出使得... 阅读全文
posted @ 2016-10-10 20:03 木白的菜园 阅读(4547) 评论(0) 推荐(2) 编辑
摘要: 大纲简介支持向量机(support vector machines)是一个二分类的分类模型(或者叫做分类器)。如图:它分类的思想是,给定给一个包含正例和反例的样本集合,svm的目的是寻找一个超平面来对样本根据正例和反例进行分割。各种资料对它评价甚高,说“ 它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中”SVM之线性分类器如果一个线性函数能够... 阅读全文
posted @ 2016-07-10 16:39 木白的菜园 阅读(2437) 评论(0) 推荐(0) 编辑
摘要: 简介要理解什么是降维,书上给出了一个很好但是有点抽象的例子。说,看电视的时候屏幕上有成百上千万的像素点,那么其实每个画面都是一个上千万维度的数据;但是我们在观看的时候大脑自动把电视里面的场景放在我们所能理解的三维空间来理解,这个很自然的过程其实就是一个降维(dimensionallity reduction)的过程降维有什么作用呢?数据在低维下更容易处理、更容易使用;相关特征,特别是重要特征更能在... 阅读全文
posted @ 2016-05-26 12:01 木白的菜园 阅读(14232) 评论(0) 推荐(0) 编辑
摘要: 前言logistic回归的主要思想:根据现有数据对分类边界建立回归公式,以此进行分类所谓logistic,无非就是True or False两种判断,表明了这其实是一个二分类问题我们又知道回归就是对一些数据点拟合成线性函数,但是线性函数的值域是无穷的所以logistic和回归加在一起,就是要把取值范围从无穷映射到(0,1)上,使之成为一个二分类器所以本文会介绍怎么拟合一个回归函数,然后再把它作为自... 阅读全文
posted @ 2016-04-21 15:47 木白的菜园 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 前言Decision tree is one of the most popular classification tools它用一个训练数据集学到一个映射,该映射以未知类别的新实例作为输入,输出对这个实例类别的预测。决策树相当于将一系列问题组织成树,具体说,每个问题对应一个属性,根据属性值来生成判断分支,一直到决策树的叶节点就产生了类别。那么,接下来的问题就是怎么选择最佳的属性作为当前的判断分支... 阅读全文
posted @ 2016-04-20 19:16 木白的菜园 阅读(623) 评论(0) 推荐(0) 编辑
摘要: 前言这是一个KNN算法的应用实例,参考《机器学习实战》中的datingTestSet2.txt的数据集。可以通过对不同约会对象的特征进行分析然后自动得出以下三种结论:不喜欢的有点魅力的很有魅力的准备数据这个数据集中针对每一个约会对象收集了三种具有代表性的特征,分别是:每年获得的飞行常客里程数玩网游所消耗的时间比每年消耗的冰淇淋公升数然后对每个约会对象的三种结论进行打分,对应的分数分别为1、2、3。... 阅读全文
posted @ 2016-04-20 14:33 木白的菜园 阅读(1194) 评论(0) 推荐(0) 编辑