2014 年 10月 13 日随笔档案 - 吉大依恋

2014年10月13日

摘要：采用了多线程和锁机制，实现了广度优先算法的网页爬虫。对于一个网络爬虫，如果要按广度遍历的方式下载，它就是这样干活的： 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址，放入下载列表中 3.按下载列表中的地址，下载所有新的网页 4.从所有新的网页中找出没有下载过的网阅读全文

posted @ 2014-10-13 20:30 吉大依恋阅读(5897) 评论(0) 推荐(1) 编辑