摘要: 用scikit-learn估计值分类主要是为数据挖掘搭建通用的框架。有了这个框架之后,增加了算法的泛化性,减少了数据挖掘的复杂性。 用scikit-learn估计值分类有这三个方面: 1. 估计器(estimator):用于分类、聚类和回归分析。 2. 转换器(transformer):用于数据的预 阅读全文
posted @ 2017-05-19 09:43 星影L 阅读(1677) 评论(0) 推荐(1) 编辑
摘要: 这样某一个特征只有0和1两种取值,数据集有三个类别。当取0的时候,假如类别A有20个这样的个体,类别B有60个这样的个体,类别C有20个这样的个体。所以,这个特征为0时,最有可能的是类别B,但是,还是有40个个体不在B类别中,所以,将这个特征为0分到类别B中的错误率是40%。然后,将所有的特征统计完 阅读全文
posted @ 2017-05-16 22:34 星影L 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 亲和性分析根据样本个体之间的相似度,确定它们关系的亲疏。应用场景: 1.向网站用户提供多样化的服务或投放定向广告。 2.为了向用户推荐电影或商品 3.根据基因寻找有亲缘关系的人 比如:统计顾客购买了商品1,然后再购买商品2的比率,算相似度。 阅读全文
posted @ 2017-05-13 21:30 星影L 阅读(1785) 评论(0) 推荐(0) 编辑
摘要: 三种解析网页的方法各有所用,各有特点。通过,对比三种方式更能明白在什么情况之下采用什么方法。其中,运行代码时,可能会遇到一个bug( ),这其实是有一个参数没有对,如果删除之后,运行顺利! 输出结果是: Regular expressions: 3.82 secondsBeautifulSoup: 阅读全文
posted @ 2017-05-12 10:08 星影L 阅读(710) 评论(0) 推荐(0) 编辑
摘要: 爬虫解析方式除了正则表达式,还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多,且要简洁明白一些。但是,由于它是用python编写出来的包,速度会慢一些。 2.LXML模块 这此模块中有一个CSS选择器。在使用前,必须先要安 阅读全文
posted @ 2017-05-10 10:51 星影L 阅读(808) 评论(0) 推荐(0) 编辑
摘要: 上面链接爬虫只是能将我们所需的网页下载下来,但是,我们没办法得到我们想要的数据。因此,我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器,对数据进行提取。 数据抓取(Scraping)有三种方式:1.正则表达式;2.第三方包——BeautifulSoup;3. 阅读全文
posted @ 2017-05-07 10:09 星影L 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 第一次遇到这个问题时,自己误打误撞解决了。但是,当第二次遇到的时候,却不知道怎么办才好了。所以,百度 Google 了一下,加上自己总结知道了解决的办法。 首先,这是因为用户的权限不够导致的。 使用 ls -l /etc/passwd 查看所有用户及权限。只有可读权限(r),说明用户的权限不够。 因 阅读全文
posted @ 2017-05-07 09:46 星影L 阅读(3016) 评论(0) 推荐(2) 编辑
摘要: 对数据的提取和收集也是数据分析中一大重点,所以,学习爬虫是非常有用的。完成数据采集,对后面的数据分析做下基础。 今天,要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结,便于相互学习。 阅读全文
posted @ 2017-05-05 23:40 星影L 阅读(664) 评论(0) 推荐(0) 编辑
摘要: 这用pandas包进行数据处理的时候,会遇到一些文件的输出与写入。比如csv文件,是一种比较常见的文件,它以逗号作为分隔符。所以,总结一下运用pandas数据处理包,处理csv文件的输出与写入方式。 引用的csv文件如下: ex1.csv ex2.csv ex3.csv ex3.txt ex4.cs 阅读全文
posted @ 2017-05-01 22:10 星影L 阅读(939) 评论(0) 推荐(0) 编辑
摘要: 对于python进行数据处理来说,pandas式一个不得不用的包,它比numpy很为强大。通过对《利用python进行数据分析》这本书中介绍pandas包的学习,再加以自己的理解,写下这篇随笔,与一起喜欢数据分析的朋友分享和相互学习。 pandas中的索引高级处理: 用pandas包进行简单的统计学 阅读全文
posted @ 2017-04-25 15:44 星影L 阅读(2500) 评论(0) 推荐(0) 编辑