摘要: 1.了解网页结构 首先选取一部分的种子URL,将这些URL放入待抓取URL队列; 取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL 阅读全文
posted @ 2019-11-09 21:11 余生情指教 阅读(195) 评论(0) 推荐(0) 编辑