Python爬虫简单笔记
Python2.7里内置了很多非常有用的库,它在我电脑上的位置在/usr/lib/python2.7中。
写个基本的爬虫要用到的库有urllib、urllib2、cookielib、sgmllib和re,下面先分别简单介绍下一些文件的信息和相关函数——具体的真的是建议阅读源码,网上找的资料反而不及它直观(但先了解个大概总是好的),但sgmllib除外。先看一段代码吧。
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
urllib2.install_opener(opener)
response = urllib2.urlopen(url)
urllib2.py 这个文件的注释是最最良心的,基本上看了下注释和浏览文件主class和def都能了解用法了。按注释上的说法,它是An extensible library for opening URLs using a variety of protocols. 其主要class有:
Handler —— Each Handler implements a particular protocol or option. 它并不是一个特定的class,而是一堆有各自专门作用的Handler的集合,比如在def build_opener里default_classes记录的ProxyHandler, HTTPHandler(各为一种class)。每一个Handler都是用特定的url协议打开url或处理url的一些相关内容,比如上面的HTTPCookieProcessor,能通过传入的CookieJar沿用之前的Cookie,并有http_request和http_response函数将其整入到request或response当中。这些class都继承于class BaseHandler。
class OpenerDirector —— The OpenerDirector sets up the User Agent as the python-urllib client and manages a collection of Handler objects.
在其__init__函数可以清楚的看到self.addheaders = [('User-agent', client_version)] 一句,可见它现在是准备构造一个请求(只是准备)。然后它还有add_handler(self, handler)方法来为其添加Handler。简单来说就是个人认为它是用来告诉urllib2(上面说了as the python-urllib client)该以怎样的方式处理作参传入的url。至于这个class下面的open这些方法稍后再说。
def build_opener(*handlers) 实例化一个OpenerDirector类, 并将它稍加处理后return
def install_opener 函数用于将传入的OpenerDirector对象用global转换成全局变量,这样urllib2打开url时就能用设定好的方式打开
def urlopen 先看它相关的源码:
(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT):
global _opener
if _opener is None:
_opener = build_opener()
return _opener.open(url, data, timeout)
然后对于返回的页面结果的相关描述是,It opens the URL and returns the results as file-like object. url和请求可能用到的data都在参数列表里面了,还有最后一句代码,可见这里是真正的发送请求和返回页面信息的地方。在这顺便说下 OpenerDirector的open() 中有req = Request(fullurl, data) 一句,可见Request是在这构建的。然后,open()又调用了_open(),_open()又调用了_call_chain()......这些函数还会一层一层的调用下去,这里就不扯了。我们写爬虫要考虑的到 urlopen()这里就够了。等以后看较低层的内容时我再另外写文说明吧。
还有其他的一些就不说了,感觉没必要,如class Request,就是An object that encapsulates the state of a request.
Urllib.py 对于特定url请求的都还是直接用urllib2.py就好了,它有部分内容都是urllib.py 给import过去的,感觉那边的使用方便多了;虽说这里有不少内容都是urllib2.py上没用的,但总感觉可以用别的更易懂的方式替代掉。另外,这个文件总有些莫名其妙的东西(比如突然蹦出一行 ftpcache = {} 老搞得我开始怀疑人生
所以这里只说该文件的一个character set处理的问题。比如它有urlencode(),可将str进行URL编码()——当然是先编码再将data作参整合到Request当中啦。此外,也还有toByte()这样的处理方式。这些都是散的,要用的时候看源码查谷歌就好。
此外,它还有if sys.platform == 'darwin'和elif os.name == 'nt'这样好玩的语句。这个文件,可以说想了解基层的处理的话,一定要读。
Cookielib.py 我对cookie不怎么了解,这里也只挑一点点个人觉得较重要的讲
class Cookie 就只是对一个cookie操作啊,也是__init__ __str__ __repr__这些操作,
也还有直接对它的特定属性进行操作的,比如
set_nonstandard_attr(self, name, value):
self._rest[name] = value
class CookieJar 注释说得很清楚了,Collection of HTTP cookies。至于Cookie的收集来源就是path(好像也有方法支持从request里剥下来?不十分确定)。主要方法有_cookies_for_domain和_cookies_for_request。
在这顺便提下Cookie的 domain和path属性。domain为cookie对象的有效域,可以不是请求生成的访问域。cookie不能直接跨域访问,但能有一定的方法突破这个限制。
path则表示cookie所在目录
另外,有些页面貌似是要附有特定进入页面的cookie信息才有效的样子(至少我是这么理解针对我学校课程信息的爬虫代码的).
sgmllib.py 读这个文件的时候感到十分蛋疼,完全不知道讲的啥。在这种情况下,个人建议还是先上网查查这个文件干嘛的,大概怎么用,理清点结构再回来看,这时就会感到清晰多了。
这文件主要就是一个SGMLParser。它将HTML文档内容根据标签等分解成一个个有用的片段,并根据各片段的特点分别调用自身内对象的方法进行处理,解读各片段时会依照原文档里出现的顺序
在定义解析Hypertext时具体要干嘛时,要先建立一个SGMLParser子类,然后定义在遇到特定标签的行为(如def start_td就是描述遇到<td>的时候这个子类要干嘛,def end_td则是解析到</td>时的行为),至于在两者中间呢...between tags is passed to the parser by calling self.handle_data().另外,它也还能解析自定义标签。据说解析大份文档时,性能上是优于正则的。这个我没测试。
re.py则是python里用来表示正则的。常用的就是reg = re.complie('xxx') 来构建一个正则式,再objs = reg.findall(content) 在content里找到全部的符合reg的内容。然后就可以for obj in objs来遍历处理了。
另外,如果有必要设utf-8编码,最好记得import sys后,再reload(sys) ,然后再设sys.setdefaultencoding( "utf-8" )
然后直接上个最简单的实例吧
url = "http://xxxxxx"
cookiejar = cookielib.CookieJar() # 下面有检查的,没有cookie它也会自己间一个
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
urllib2.install_opener(opener)
response = urllib2.urlopen(url)
content = response.read()
content = content.decode("gb18030")
print content
爬下来了就用sgml或者re找你感兴趣的部分吧。可惜我正则并不算过关,写个麻烦点的都得先看看例子。