摘要: 本文内容来源:https://www.dataquest.io/mission/117/working-with-apis 本文的数据来源:https://en.wikipedia.org/wiki/International_Space_Station 本文摘要:通过requests库和github的api来操作github仓库,从而熟悉一下与网络数据交互的过程 API(Applicati... 阅读全文
posted @ 2016-03-04 21:17 kylinlin 阅读(6680) 评论(0) 推荐(0) 编辑
摘要: 本文内容来源:http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/ 在使用Scrapy的时候,一旦进行高频率的爬取就容易被封IP,此时可以通过使用TOR来进行匿名爬取,同时要安装Polipo代理服务器 注意:要进行下面的操作的前提是,你能FQ 安装TOR 下载地址:https://www.torprojec... 阅读全文
posted @ 2016-03-04 15:30 kylinlin 阅读(8452) 评论(3) 推荐(0) 编辑
摘要: 本文内容来源:https://www.dataquest.io/mission/133/creating-compelling-visualizations 本文数据来源:http://www.cdc.gov/nchs/nsfg.htm 本文摘要:介绍一个以matplotlib为底层,更容易定制化作图的库Seaborn Seaborn其实是在matplotlib的基础上进行了更高级的A... 阅读全文
posted @ 2016-03-02 21:36 kylinlin 阅读(128494) 评论(1) 推荐(1) 编辑
摘要: 本文来源:https://www.dataquest.io/mission/132/data-visualization-and-exploration 本文数据来源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv 本文主要介绍了一下如何简单的探查数据之间的关系 原始数... 阅读全文
posted @ 2016-03-02 11:23 kylinlin 阅读(9863) 评论(0) 推荐(0) 编辑
摘要: 本节的内容来源:https://www.dataquest.io/mission/10/plotting-basics 本节的数据来源:https://archive.ics.uci.edu/ml/datasets/Forest+Fires 原始数据展示(这张表记录了某个公园的火灾情况,X和Y代表的是坐标位置,area代表的是烧毁面积) import pandas forest_fi... 阅读全文
posted @ 2016-03-01 21:33 kylinlin 阅读(12698) 评论(1) 推荐(0) 编辑
摘要: 在刚学Pandas时,行选择和列选择非常容易混淆,在这里进行一下讨论和归纳 本文的数据来源:https://github.com/fivethirtyeight/data/tree/master/fandango import pandas as pd fandango = pd.read_csv('fandango_score_comparison.csv') 原始的数据如下(截... 阅读全文
posted @ 2016-03-01 16:09 kylinlin 阅读(77894) 评论(0) 推荐(3) 编辑
摘要: 本节主要介绍一下Pandas的另一个数据结构:DataFrame,本文的内容来源:https://www.dataquest.io/mission/147/pandas-internals-dataframes 在上一节中已经介绍过了Series对象,Series对象可以理解为由一列索引和一列值,共两列数据组成的结构。而DataFrame就是由一列索引和多列值组成的结构,其中,在DataFram... 阅读全文
posted @ 2016-03-01 15:53 kylinlin 阅读(20902) 评论(0) 推荐(2) 编辑
摘要: 本节主要介绍一下Pandas的数据结构,本文引用的网址:https://www.dataquest.io/mission/146/pandas-internals-series 本文所使用的数据来自于:https://github.com/fivethirtyeight/data/tree/master/fandango 该数据主要描述了一些电影的烂番茄评分情况 数据结构 在Pand... 阅读全文
posted @ 2016-03-01 10:40 kylinlin 阅读(4570) 评论(1) 推荐(0) 编辑
摘要: 目录: 处理缺失数据 制作透视图 删除含空数据的行和列 多行索引 使用apply函数 本节主要介绍如何处理缺失的数据,可以参考原文:https://www.dataquest.io/mission/12/working-with-missing-data 本节要处理的数据来自于泰坦尼克号的生存者名单,它的数据如下 ... 阅读全文
posted @ 2016-02-29 11:19 kylinlin 阅读(19291) 评论(0) 推荐(2) 编辑
摘要: 目录: 读取数据 索引 选择数据 简单运算 声明,本文引用于:https://www.dataquest.io/mission/8/introduction-to-pandas (建议阅读原文) Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas 阅读全文
posted @ 2016-02-29 11:04 kylinlin 阅读(43908) 评论(2) 推荐(5) 编辑