Fork me on GitHub
摘要: 爬虫的基本流程 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子URL 将种子URL加入任务队列 从待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 分析已抓取URL队列中的U 阅读全文
posted @ 2017-06-13 16:18 cpselvis 阅读(11205) 评论(29) 推荐(21) 编辑