05 2017 档案

摘要:什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2017-05-31 19:40 fan-tastic 阅读(33449) 评论(29) 推荐(10) 编辑
摘要:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2017-05-28 09:53 fan-tastic 阅读(107365) 评论(21) 推荐(26) 编辑
摘要:官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块 阅读全文
posted @ 2017-05-26 23:31 fan-tastic 阅读(154101) 评论(17) 推荐(13) 编辑
摘要:在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容如果服务器能正常响应,会 阅读全文
posted @ 2017-05-24 11:44 fan-tastic 阅读(129414) 评论(6) 推荐(16) 编辑
摘要:整理这个文档的初衷是自己开始学习的时候没有找到好的教程和文本资料,自己整理一份这样的资料希望能对小伙伴有帮助 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、 阅读全文
posted @ 2017-05-24 09:42 fan-tastic 阅读(47109) 评论(8) 推荐(14) 编辑
摘要:创建版本库(操作都是在linux环境下) 什么是版本库呢?版本库又名仓库,英文名repository,其实就是一个目录,可以进行增删查改 创建一个目录,这里在根目录下创建一个git_home目录mkdir /git_homecd git_homegit init 这样就创建好了一个仓库,当然目前是一 阅读全文
posted @ 2017-05-23 23:09 fan-tastic 阅读(2068) 评论(0) 推荐(1) 编辑
摘要:windows安装git msysgit是windows版本的Git 下载地址:https://git-for-windows.github.io/ 安装步骤 linux安装git https://git-scm.com/download/linux git的官网对不同的linux版本安装进行了说明 阅读全文
posted @ 2017-05-23 17:24 fan-tastic 阅读(3871) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示