会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
随心
博客园
首页
新随笔
新文章
联系
订阅
管理
2014年10月13日
多线程网页爬虫 python 实现
摘要: 采用了多线程和锁机制,实现了广度优先算法的网页爬虫。 对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网
阅读全文
posted @ 2014-10-13 20:30 吉大依恋
阅读(5878)
评论(0)
推荐(1)
编辑