摘要: 简单的爬虫架构 调度端→URL管理器→网页下载器→网页解析器 网页解析器将有价值的数据传送到应用,无价值的返回给URL管理器 URL管理器 防止重复抓取,循环抓取 三种方式: 1.直接存放在内存 2.关系数据库(MySQL) 3.缓存数据看(redis) 网页下载器 将HTML以文件或字符串的形式存 阅读全文
posted @ 2017-10-08 16:52 Akinero 阅读(154) 评论(0) 推荐(0) 编辑