03 2013 档案

摘要:创建一个新网站,一开始没有内容,通常需要抓取其他人的网页内容,一般的操作步骤如下:根据url下载网页内容,针对每个网页的html结构特征,利用正则表达式,或者其他的方式,做文本解析,提取出想要的正文。为每个网页写特征分析这个还是太耗费开发的时间,我的思路是这样的。Python的BeautifulSoup包大家都知道吧,import BeautifulSoupsoup = BeautifulSoup.BeautifulSoup(html)利用这个包先把html里script,style给清理了:[script.extract() for script in soup.findAll('s 阅读全文
posted @ 2013-03-15 17:10 高天蒲 阅读(5250) 评论(10) 推荐(6) 编辑

[url=http://t.sina.com.cn/1084588625?s=6uyXnP][img]http://service.t.sina.com.cn/widget/qmd/1084588625/a57ab42b/1.png[/img][/url]