运用BeautifulSoup抓取网页的链接
摘要:
之前一直都是做前端,不知道搜索引擎后台核心是怎样实现。今天看到bd内部的spider资料,决定运用先前学过的python模拟一把,把指定网页的a标签中的href提取出来。
运用到扩展模块BeautifulSoup(http://www.crummy.com/software/BeautifulSoup/),原理很简单,先把网页提取出来,再提取a标签,再过滤出href,最后完善一下文本。 阅读全文
posted @ 2011-10-06 16:55 极寒之冰 阅读(7683) 评论(0) 推荐(0) 编辑