摘要: 一 关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录。表可以看作某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系。多个表组成一个数据库,也就是关系型数据库。关系型数据库有多种,如SQLite、MySQL、Oracle、SQL Server、DB2等... 阅读全文
posted @ 2019-03-11 14:09 远方那一抹云 阅读(2625) 评论(0) 推荐(0) 编辑
摘要: 用解析器解析出数据后就要对数据进行存储。存储形式有多种,可直接在保存为文本文件,如TXT,JSON,CSV等。另外还可保存到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB,Redis等。一 文件存储主要有txt,json,csv等文本文件存储方式。(一) TXT文本存储优点:简单,兼容任何平台;缺点:不利于检索。对检索和数据结构要求不高,使用方便的话,可用TXT文本存储。... 阅读全文
posted @ 2019-03-11 10:42 远方那一抹云 阅读(5343) 评论(0) 推荐(0) 编辑
摘要: 在网页节点中,可以定义id、class或其他属性。节点间有层次关系,网页中要通过XPath或CSS选择器定位一个或多个节点。在页面解析时,可利用XPath或CSS选择器提取某个节点,再调用相应方法获取它的正文内容或者属性,就可提取到想要的信息。在python中常用的解析库有lxml、Beautifu 阅读全文
posted @ 2019-03-08 16:03 远方那一抹云 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: Python提供了功能齐全的类库来完成网络请求。基础库的HTTP库有urllib, httplib2, requests, treq等。 比如说rullib库,不用关心底层怎么实现的,只要关心请求的链接是什么,要传的参数是什么,以及如何设置可选的请求。有这些库,可能两行代码就可完成一个请求和响应的处 阅读全文
posted @ 2019-01-24 17:26 远方那一抹云 阅读(1968) 评论(0) 推荐(0) 编辑
摘要: 一、HTTP基本原理(一) URI和URL URI全称为:Uniform Resource Identifier,统一资源标志符 URL全称为:Universal Resource Locator ,即统一资源定位符。 用URL/URI来唯一指定它的访问方式,包括了访问协议https、访问路径(/即 阅读全文
posted @ 2019-01-23 10:59 远方那一抹云 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 一、Python3的安装安装包下载及相关文档介绍。相关连接如下。官方网站:https://www.python.org/下载地址:https://www.python.org/downloads第三方库:https://pypi.python.org/pypi官方文档:https://docs.py 阅读全文
posted @ 2019-01-22 16:54 远方那一抹云 阅读(494) 评论(2) 推荐(0) 编辑
摘要: 第二篇中,学习了IPython shell和Jupyter notebook的基础。本篇中,继续探索IPython更深层次的功能,可以从控制台或在jupyter使⽤。 一、使⽤命令历史 Ipython维护了⼀个位于磁盘的⼩型数据库,⽤于保存执⾏的每条指令。它的⽤途有: 只⽤最少的输⼊,就能搜索、补全 阅读全文
posted @ 2019-01-14 15:50 远方那一抹云 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 在这篇中,将会深⼊NumPy库的数组计算。这会包括ndarray更内部的细节,和更⾼级的数组操作和算法。一、ndarray对象的内部机理NumPy的ndarray提供了⼀种将同质数据块(可以是连续或跨越)解释为多维数组对象的⽅式。正如你之前所看到的那样,数据类型(dtype)决定了数据的解释⽅式,⽐如浮点数、整数、布尔值等。ndarray如此强⼤的部分原因是所有数组对象都是数据块的⼀个跨度视图(s... 阅读全文
posted @ 2019-01-14 14:33 远方那一抹云 阅读(621) 评论(0) 推荐(0) 编辑
摘要: 经过前面的学习,下面来看⼀些真实世界的数据集。对于每个数据集,我们会⽤之前介绍的⽅法,从原始数据中提取有意义的内容。展示的⽅法适⽤于其它数据集,也包括你的。本篇包含了⼀些各种各样的案例数据集,可以⽤来练习。 案例数据集可以在Github仓库找到。 一、来⾃Bitly的USA.gov数据 2011年, 阅读全文
posted @ 2019-01-08 17:30 远方那一抹云 阅读(1980) 评论(0) 推荐(0) 编辑
摘要: 前面已经介绍了Python数据分析的编程基础。数据分析师和科学家总是在数据规整和准备上花费⼤量时间,前面部分的重点在于掌握这些功能。开发模型选⽤什么库取决于应⽤本身。许多统计问题可以⽤简单⽅法解决,⽐如普通的最⼩⼆乘回归,其它问题可能需要复杂的机器学习⽅法。幸运的是,Python已经成为了运⽤这些分析⽅法的语⾔之⼀,因此读完这些文章,你可以探索许多⼯具。本篇中,首先回顾⼀些pandas的特点,在你... 阅读全文
posted @ 2019-01-08 12:59 远方那一抹云 阅读(2193) 评论(0) 推荐(0) 编辑