03 2013 档案

网页内容爬取：如何提取正文内容

摘要：创建一个新网站，一开始没有内容，通常需要抓取其他人的网页内容，一般的操作步骤如下：根据url下载网页内容，针对每个网页的html结构特征，利用正则表达式，或者其他的方式，做文本解析，提取出想要的正文。为每个网页写特征分析这个还是太耗费开发的时间，我的思路是这样的。Python的BeautifulSoup包大家都知道吧，import BeautifulSoupsoup = BeautifulSoup.BeautifulSoup(html)利用这个包先把html里script，style给清理了：[script.extract() for script in soup.findAll('s 阅读全文

posted @ 2013-03-15 17:10 高天蒲阅读(5250) 评论(10) 推荐(6) 编辑

03 2013 档案

公告