摘要:
hashlib模块 密文加密 MD5基本使用: import hashlib # 获取MD5对象 md5 = hashlib.md5() # 可以在获取MD5对象时加'盐',以更深程度的加密 # hashlib.md5("salt".encode("utf8")) # 要加密的内容 # update 阅读全文
摘要:
增量式爬虫 概念:监测网站数据更新的情况。 核心:去重!!! 主要有两种情况: 深度爬取类型 深度爬取类型的网站中需要对详情页的url进行记录和检测 记录:将爬取过的详情页的url进行记录保存 url存储到redis的set中 检测:如果对某一个详情页的url发起请求之前先要取记录表中进行查看,该u 阅读全文
摘要:
分布式爬虫 分布式概述 基于多台电脑组建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,然后让它们对同一个网站的数据进行分布爬取 作用:提升爬虫数据的效率 实现:基于scrapy+redis的形式实现分布式,scrapy结合这scrapy-redis组件实现的分布式 原生scrapy无法 阅读全文
摘要:
基于CrawlSpider的全站数据爬取 CrawlSpider就是爬虫类中Spider的一个子类 使用流程 1.创建一个基于CrawlSpider的一个爬虫文件,命令: scrapy genspider -t crawl spiderName www.xxxx.com 2.构造链接提取器和规则解析 阅读全文
摘要:
redis五种数据类型以及其常用指令 启动相关 先启动服务端再启动客户端 启动服务端 redis-server 启动客户端 redis-cli(中文会乱码) redis-cli --raw(中文不会乱码) 停止客户端 redis-cli shutdown 查看端口 ps -ef|grep -i re 阅读全文