随笔档案「2011年10月6日」：运用BeautifulSoup抓取网页的链接 ... - 极寒之冰

2011年10月6日

运用BeautifulSoup抓取网页的链接

摘要：之前一直都是做前端，不知道搜索引擎后台核心是怎样实现。今天看到bd内部的spider资料，决定运用先前学过的python模拟一把，把指定网页的a标签中的href提取出来。运用到扩展模块BeautifulSoup(http://www.crummy.com/software/BeautifulSoup/),原理很简单，先把网页提取出来，再提取a标签,再过滤出href,最后完善一下文本。阅读全文

posted @ 2011-10-06 16:55 极寒之冰阅读(7717) 评论(0) 推荐(0)

极寒之冰

运用BeautifulSoup抓取网页的链接

导航

公告