摘要: 爬虫的自我修养_2 一、Handler处理器 和 自定义Opener(引擎们) opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cooki 阅读全文
posted @ 2017-11-30 18:41 想54256 阅读(925) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫如何抓取网页数据: 网页三大特征: -1. 网页都有自己唯一的URL(统一资源定位符)来进行定位 -2. 网页都使用HTML (超文本标记语言)来描述页面信息。 -3. 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。 爬虫的设计思路: -1. 首先确定需要爬取的网页 阅读全文
posted @ 2017-11-30 12:36 想54256 阅读(3751) 评论(0) 推荐(0) 编辑