摘要: 序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅寻寻觅觅,发现了BeautifulSoup这么个玩意。BeautifulSoup提供了很人性化的parser tree,有了它,我们可以简单的抽取出tagname, attrs, text等等等等... install什么的,看这里 -> http://www.crummy.com/softwa 阅读全文
posted @ 2012-04-26 18:07 三夜灯 阅读(72298) 评论(9) 推荐(7) 编辑