摘要: 我也是根据:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ,来写出豆瓣读书的爬虫,废话不说直接上代码: 1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 import urllib2 5 6 #获取豆瓣读书的分页的页面 7 def doubanbook(url,begin,end): 8 for i in range(begin,end+1): 9 filename = str(i) + '.html'10 print 'Do... 阅读全文
posted @ 2014-03-28 13:25 中大黑熊 阅读(1550) 评论(0) 推荐(0) 编辑
摘要: 一开始我以为urllib2模块单纯是urllib模块的升级版,因为我看到它们都有urlopen方法,但是经过查找资料,发现两者差别还是很大的。这是我在网上看到的总结:urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,你不可以通过urllib模块伪装你的User Agent字符串等(伪装浏览器)。urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。urllib2模块比较优势的地方是urlliburllib2.urlopen可以接受Req 阅读全文
posted @ 2014-03-28 10:51 中大黑熊 阅读(15578) 评论(0) 推荐(1) 编辑
摘要: 1.cookielib模块cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个:CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。其中他们的关系如下:2.urllib2模块说到urllib2模块最强大的部分绝对是它的opener,urllib2模块的 OpenerDirector 操作类。这是一个管理很多处理类(Handler 阅读全文
posted @ 2014-03-28 10:44 中大黑熊 阅读(41775) 评论(0) 推荐(5) 编辑