会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Akinero
博客园
首页
新随笔
联系
订阅
管理
2017年10月8日
python 爬虫笔记
摘要: 简单的爬虫架构 调度端→URL管理器→网页下载器→网页解析器 网页解析器将有价值的数据传送到应用,无价值的返回给URL管理器 URL管理器 防止重复抓取,循环抓取 三种方式: 1.直接存放在内存 2.关系数据库(MySQL) 3.缓存数据看(redis) 网页下载器 将HTML以文件或字符串的形式存
阅读全文
posted @ 2017-10-08 16:52 Akinero
阅读(154)
评论(0)
推荐(0)
编辑