摘要: 本来想用scrapy框架来抓取某个网站的内容,结果发现太庞大,要很多时间来研究。另外,抓取网页的代码部署在SAE上,所以不明白该如何将scrapy框架嵌入到SAE。所幸要取得网页内容不是很复杂,就直接用urllib2来获取内容。但是取出的内容要如何处理,如何才能找到所需要的内容。从网上搜索发现可以用HtmlParser或者BeautifulSoup来获取,经过尝试之后果断放弃HtmlParser。BeautifulSoup:python中的Beautiful是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 下载地址:http:/ 阅读全文
posted @ 2013-01-13 20:37 brackenbo 阅读(514) 评论(0) 推荐(0) 编辑