摘要: import urllib.robotparser >>> rp = urllib.robotparser.RobotFileParser() >>> rp.set_url("http://www.musi-cal.com/robots.txt") >>> rp.read() >>> rrate = 阅读全文
posted @ 2017-09-04 21:49 追梦的独行者 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 在windows环境,python3.5下使用命令行安装模块 pip install Twisted 会报错 Unable to find vcvarsall.bat 原因大概是和VC编译环境有关系,网上找了一堆方法,感觉编译环境这事太麻烦。找到最简单是方法是,先安装wheel模块,然后下载Twis 阅读全文
posted @ 2017-09-04 21:42 追梦的独行者 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 我们先找个whl文件,我们在百度搜索python whl, 我们先找个whl文件,我们在百度搜索python whl, 打开连接我随便下载一个,但是要找到符合自己python版本,下载了一个组件多线程的功能 打开连接我随便下载一个,但是要找到符合自己python版本,下载了一个组件多线程的功能 下载 阅读全文
posted @ 2017-09-04 21:39 追梦的独行者 阅读(22326) 评论(0) 推荐(0) 编辑
摘要: 本文根据RFC2616(HTTP/1.1规范),参考 http://www.w3.org/Protocols/rfc2068/rfc2068 http://www.w3.org/Protocols/rfc2616/rfc2616 http://www.ietf.org/rfc/rfc3229.txt 阅读全文
posted @ 2017-09-04 20:31 追梦的独行者 阅读(15250) 评论(0) 推荐(0) 编辑
摘要: 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。 第一步:分析网站的请求过程 我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求, 阅读全文
posted @ 2017-09-04 20:16 追梦的独行者 阅读(36363) 评论(1) 推荐(0) 编辑
摘要: 序 前面已经完成了简单网页以及伪装浏览器的学习。下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下。 首先,豆瓣首页部分图片展示 这只是截取的一部分。下面给出,整个爬虫程序。 爬虫程序 这个爬取图片的程序采用伪装浏览器的方式,只不过是加了处理图片的模块。 爬取结果 (1)打印出来的信息 阅读全文
posted @ 2017-09-04 11:30 追梦的独行者 阅读(1275) 评论(0) 推荐(0) 编辑
摘要: 一、伪装浏览器 对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。具体实现:自定义网页请求报头。 二、使用Fiddler查看请求和响应报头 打开工具Fiddler,然后再浏览器访问“https://www.douban.com/” 阅读全文
posted @ 2017-09-04 11:29 追梦的独行者 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: 爬虫之前 在着手写爬虫之前,要先把其需要的知识线路理清楚。 第一:了解相关Http协议知识 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Int 阅读全文
posted @ 2017-09-04 11:18 追梦的独行者 阅读(10579) 评论(0) 推荐(0) 编辑
摘要: 1、安装命令: pip install builtwith 如果在命令行提示如下错误: Fatal error in launcher: Unable to create process using ‘"‘ 使用如下命令: python3 -m pip install builtwith 2、导入模 阅读全文
posted @ 2017-09-04 10:18 追梦的独行者 阅读(349) 评论(0) 推荐(0) 编辑