2012 年 4月 26 日随笔档案 - 三夜灯

2012年4月26日

摘要：序言之前用python爬取网页的时候，一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时，SGMLParser往往就不那么给力了！（哈，难道说我 too native了？毕竟beautifulSoup是继承sgmlparser的么~）所以，我寻寻觅觅寻寻觅觅，发现了BeautifulSoup这么个玩意。BeautifulSoup提供了很人性化的parser tree，有了它，我们可以简单的抽取出tagname, attrs, text等等等等... install什么的，看这里 -> http://www.crummy.com/softwa 阅读全文

posted @ 2012-04-26 18:07 三夜灯阅读(72322) 评论(9) 推荐(7) 编辑

三夜灯

公告