2013 年 1月 13 日随笔档案 - brackenbo

2013年1月13日

摘要：本来想用scrapy框架来抓取某个网站的内容，结果发现太庞大，要很多时间来研究。另外，抓取网页的代码部署在SAE上，所以不明白该如何将scrapy框架嵌入到SAE。所幸要取得网页内容不是很复杂，就直接用urllib2来获取内容。但是取出的内容要如何处理，如何才能找到所需要的内容。从网上搜索发现可以用HtmlParser或者BeautifulSoup来获取，经过尝试之后果断放弃HtmlParser。BeautifulSoup：python中的Beautiful是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。下载地址：http:/ 阅读全文

posted @ 2013-01-13 20:37 brackenbo 阅读(514) 评论(0) 推荐(0) 编辑

公告