2017 年 10月 8 日随笔档案 - Akinero

2017年10月8日

摘要：简单的爬虫架构调度端→URL管理器→网页下载器→网页解析器网页解析器将有价值的数据传送到应用，无价值的返回给URL管理器 URL管理器防止重复抓取，循环抓取三种方式： 1.直接存放在内存 2.关系数据库（MySQL） 3.缓存数据看（redis）网页下载器将HTML以文件或字符串的形式存阅读全文

posted @ 2017-10-08 16:52 Akinero 阅读(154) 评论(0) 推荐(0) 编辑