calll_me_gaga

2018年8月23日

摘要：单机爬虫，在通过优先级队列合并下载队列和访问队列，通过统一的下载器去合并下载器以及访问器之后，其机构就变的非常简单。其启动代码也特别简单。中间还需要加入对访问失败的URL的处理单元，比如建立一个逻辑，访问失败的URL放回任务池中等待重新访问，当访问失败3次就保存到本地。然而，单台计算机当作爬虫阅读全文

posted @ 2018-08-23 19:41 calll_me_gaga 阅读(581) 评论(0) 推荐(0)

2018年8月21日

单机爬虫的逻辑以及问题解决

摘要： 1.1单机爬虫网络爬虫是指按照一定的规则，自动抓取互联网信息的程序或脚本。其原理很简单，就是获取到一个页面的内容，获取其中所有的下一级URL，然后访问。单线程的爬虫可以设计成递归的模式。即使，方法的入口是一个URL，方法中对URL对象内容进行解析，操作和存储，同时，在方法中获取子集URL并调用方阅读全文

posted @ 2018-08-21 13:45 calll_me_gaga 阅读(813) 评论(0) 推荐(0)

公告