摘要: 简单的爬虫架构 调度器 URL管理器 管理待抓取的URL集合和已抓取的URL,防止重复抓取,防止死循环 功能列表 1:判断新添加URL是否在容器中 2:向管理器添加新URL 3:判断容器是否为空 4:将已爬取URL移动到已爬取集合 5:获取待爬取URL 实现方式 1:使用set(自动去除重复项目) 阅读全文
posted @ 2017-05-27 20:52 岑忠满 阅读(285) 评论(0) 推荐(0) 编辑
摘要: i 输入模式 :q 不保存退出 :q! 强制退出 :wq 保存退出 j 下 k 上 h 左 l 右 gg start G end x 往后删 X 往前删 yy 复制行 p 粘贴 dd 剪切行 u 撤销 v 可视化模式 缩进 阅读全文
posted @ 2017-05-27 19:47 岑忠满 阅读(138) 评论(0) 推荐(0) 编辑