scrapy-redis
一、 memcached & redis 是什么?
软件,在内存中存取数据。 应用场景:主要做页面缓存
二、 memcached & redis有什么区别?
内存中存储时:都是以键值对存储 k === v 类型: memcached: 类型单一 k === "字符串" redis: 五大数据类型 k === "字符串",数字也是以字符串方式存储 k === 列表list k === 字典hash k === 集合set k === 有序集合order set() 持久化: memcached: 断电内存清空 redis: 支持持久化(定时把缓存写入硬盘中,断电后有电后自动写入缓存中) 但持久化耗时,性能降低 Redis只使用单核,而Memcached可以使用多核
三、 memcached
安装:
Mac安装和windows安装:pip3 install python3-memcached
启动Memcached
memcached -d -m 10 -u root -l 10.211.55.4 -p 12000 -c 256 -P /tmp/memcached.pid 参数说明: -d 是启动一个守护进程 -m 是分配给Memcache使用的内存数量,单位是MB -u 是运行Memcache的用户 -l 是监听的服务器IP地址 -p 是设置Memcache监听的端口,最好是1024以上的端口 -c 选项是最大运行的并发连接数,默认是1024,按照你服务器的负载量来设定 -P 是设置保存Memcache的pid文件
Memcached命令
存储命令: set/add/replace/append/prepend/cas 获取命令: get/gets 其他命令: delete/stats..
Python操作Memcached
1. 连接
import memcache # mc = memcache.Client(['192.168.x.x:12000'], debug=True) #上线的时候把debug修改为False # mc.set("k", "value") # value是字符串类型 # ret = mc.get('k') # 根据k获取value值 # print(ret)
2. 天生支持集群
mc = memcache.Client([('192.168.11.81:12000',1),], debug=True) #列表,可以连多台机器。后面数字理解为权重,权重越大客户端连接的越多 # 内部算法,选择哪台服务器 # ['192.168.x.1:12000','192.168.x.2:12000','192.168.x.2:12000','192.168.x.2:12000'] # # 服务器个数:2 # # 设置:key -> 内部算法转化为 5646 -> 5646%/2 用转化的数字对连接服务器总个数取余,获取索引,从而知道从数据库获取的信息放到哪台服务器 # # 获取:key -> 内部算法转化为 5646 -> 5646%/2 # mc.set("k", "value",10) # 10为超时时间,超时后获取不了value值 # ret = mc.get('k') # print(ret) mc.set("ct", 1000) v = mc.get('ct') print(v,type(v))
3. 常用操作
add:添加一条键值对,如果已经存在的 key,重复执行add操作异常 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) mc.add('k1', 'v1') # mc.add('k1', 'v2') # 报错,对已经存在的key重复添加,失败!!! replace:修改某个key的值,如果key不存在,则异常 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) # 如果memcache中存在kkkk,则替换成功,否则一场 mc.replace('kkkk','999') set 和 set_multi set 设置一个键值对,如果key不存在,则创建,如果key存在,则修改 set_multi 设置多个键值对,如果key不存在,则创建,如果key存在,则修改 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) mc.set('key0', 'xyp') mc.set_multi({'key1': 'val1', 'key2': 'val2'}) delete 和 delete_multi delete 在Memcached中删除指定的一个键值对 delete_multi 在Memcached中删除指定的多个键值对 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) mc.delete('key0') mc.delete_multi(['key1', 'key2']) get 和 get_multi get 获取一个键值对 get_multi 获取多一个键值对 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) val = mc.get('key0') item_dict = mc.get_multi(["key1", "key2", "key3"]) append 和 prepend append 修改指定key的值,在该值 后面 追加内容 prepend 修改指定key的值,在该值 前面 插入内容 import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) # k1 = "v1" mc.append('k1', 'after') # k1 = "v1after" mc.prepend('k1', 'before') # k1 = "beforev1after" decr 和 incr incr 自增,将Memcached中的某一个值增加 N ( N默认为1 ) decr 自减,将Memcached中的某一个值减少 N ( N默认为1 ) import memcache mc = memcache.Client(['10.211.55.4:12000'], debug=True) mc.set('k1', '777') mc.incr('k1') # k1 = 778 mc.incr('k1', 10) # k1 = 788 mc.decr('k1') # k1 = 787 mc.decr('k1', 10) # k1 = 777 gets 和 cas s1.py设置mc.set("ct", 1000) s2.py和s3.py import memcache mc = memcache.Client([('192.168.11.81:12000',1),], debug=True) ret = mc.get('ct') print(ret) v = input('>>>>') mc.cas('ct',999) 运行s2.py #---> 1000 运行s3.py #---> 1000 运行s1.py 获取mc.get('ct') # ---> 999,实际应该是998 解决: s2.py和s3.py import memcache mc = memcache.Client([('192.168.11.81:12000',1),], debug=True,cache_cas=True) ret = mc.gets('ct') print(ret) v = input('>>>>') mc.cas('ct',999) 运行s2.py #---> 1000 运行s3.py # 报错
4. memcached应用Django缓存中
http://www.cnblogs.com/xuyaping/p/7106809.html
redis也能应用到django中,但不支持内置。需要第三方插件来实现,搜django、redis缓存插件。
4.1 数据类型
k->"" #字符串 k->[1,2,3,2,666] #列表 chouti:items: chout:start_urls k->{"k1":'v1','k2':'v2'} #字典 k->{11,222} #集合,不重复 chouti:dupefilter:{} k->{11(9),222(3)} #有序集合,不重复,可排序。根据()内数字进行排序 chouti:requests cnblogs:requests : 设想: conn.set('k','v') conn.append('k','666') # 当设置的v是列表[1,2,3,2] ---> [1,2,3,2,666] conn.set('k',k1,v1) # 设置的v是字典 conn.add('k',11) # 设置的v是集合,去重规则 k->{http://www.xxx.com(-1),www.xxx.com(-2),,www.xxx.com(-3)} # 根据()里数字优先级来下载网页
4.2 操作模式
redis-py提供两个类Redis和StrictRedis用于实现Redis的命令,StrictRedis用于实现大部分官方的命令,并使用官方的语法和命令, Redis是StrictRedis的子类,用于向后兼容旧版本的redis-py。 import redis r = redis.Redis(host='192.168.11.81', port=6379) r.set('foo', 'Bar') print r.get('foo')
4.3 连接池
redis-py使用connection pool来管理对一个redis server的所有连接,避免每次建立、释放连接的开销。默认,每个Redis实例都会维护一个自己的连接池。 可以直接建立一个连接池,然后作为参数Redis,这样就可以实现多个Redis实例共享一个连接池。 import redis pool = redis.ConnectionPool(host='192.168.11.81', port=6379) r = redis.Redis(connection_pool=pool) r.set('foo', 'Bar') print r.get('foo') #---> b'Bar'
4.4 操作
String操作,redis中的String在在内存中按照一个name对应一个value来存储。如图:
set(name, value, ex=None, px=None, nx=False, xx=False)
在Redis中设置值,默认,不存在则创建,存在则修改 参数: ex,过期时间(秒) px,过期时间(毫秒) nx,如果设置为True,则只有name不存在时,当前set操作才执行 xx,如果设置为True,则只有name存在时,岗前set操作才执行setnx(name, value)
设置值,只有name不存在时,执行设置操作(添加)setex(name, value, time)
# 设置值 # 参数: # time,过期时间(数字秒 或 timedelta对象)psetex(name, time_ms, value)
# 设置值 # 参数: # time_ms,过期时间(数字毫秒 或 timedelta对象)mset(*args, **kwargs)
批量设置值 如: mset(k1='v1', k2='v2') 或 mget({'k1': 'v1', 'k2': 'v2'})get(name)
获取值mget(keys, *args)
批量获取 如: mget('ylr', 'wupeiqi') 或 r.mget(['ylr', 'wupeiqi'])getset(name, value)
设置新值并获取原来的值getrange(key, start, end)
# 获取子序列(根据字节获取,非字符) # 参数: # name,Redis 的 name # start,起始位置(字节) # end,结束位置(字节) # 如: "武沛齐" ,0-3表示 "武"setrange(name, offset, value)
# 修改字符串内容,从指定字符串索引开始向后替换(新值太长时,则向后添加) # 参数: # offset,字符串的索引,字节(一个汉字三个字节) # value,要设置的值setbit(name, offset, value)
# 对name对应值的二进制表示的位进行操作 # 参数: # name,redis的name # offset,位的索引(将值变换成二进制后再进行索引) # value,值只能是 1 或 0 # 注:如果在Redis中有一个对应: n1 = "foo", 那么字符串foo的二进制表示为:01100110 01101111 01101111 所以,如果执行 setbit('n1', 7, 1),则就会将第7位设置为1, 那么最终二进制则变成 01100111 01101111 01101111,即:"goo" # 扩展,转换二进制表示: # source = "武沛齐" source = "foo" for i in source: num = ord(i) print bin(num).replace('b','') 特别的,如果source是汉字 "武沛齐"怎么办? 答:对于utf-8,每一个汉字占 3 个字节,那么 "武沛齐" 则有 9个字节 对于汉字,for循环时候会按照 字节 迭代,那么在迭代时,将每一个字节转换 十进制数,然后再将十进制数转换成二进制 11100110 10101101 10100110 11100110 10110010 10011011 11101001 10111101 10010000 -------------------------- ----------------------------- ----------------------------- 武 沛 齐getbit(name, offset)
# 获取name对应的值的二进制表示中的某位的值 (0或1)bitcount(key, start=None, end=None)
# 获取name对应的值的二进制表示中 1 的个数 # 参数: # key,Redis的name # start,位起始位置 # end,位结束位置bitop(operation, dest, *keys)
# 获取多个值,并将值做位运算,将最后的结果保存至新的name对应的值 # 参数: # operation,AND(并) 、 OR(或) 、 NOT(非) 、 XOR(异或) # dest, 新的Redis的name # *keys,要查找的Redis的name # 如: bitop("AND", 'new_name', 'n1', 'n2', 'n3') # 获取Redis中n1,n2,n3对应的值,然后讲所有的值做位运算(求并集),然后将结果保存 new_name 对应的值中strlen(name)
# 返回name对应值的字节长度(一个汉字3个字节)incr(self, name, amount=1)
# 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。 # 参数: # name,Redis的name # amount,自增数(必须是整数) # 注:同incrbyincrbyfloat(self, name, amount=1.0)
# 自增 name对应的值,当name不存在时,则创建name=amount,否则,则自增。 # 参数: # name,Redis的name # amount,自增数(浮点型)decr(self, name, amount=1)
# 自减 name对应的值,当name不存在时,则创建name=amount,否则,则自减。 # 参数: # name,Redis的name # amount,自减数(整数)append(key, value)
# 在redis name对应的值后面追加内容 # 参数: key, redis的name value, 要追加的字符串
Hash操作,redis中Hash在内存中的存储格式如下图:
hset(name, key, value)
# name对应的hash中设置一个键值对(不存在,则创建;否则,修改) # 参数: # name,redis的name # key,name对应的hash中的key # value,name对应的hash中的value # 注: # hsetnx(name, key, value),当name对应的hash中不存在当前key时则创建(相当于添加)hmset(name, mapping)
# 在name对应的hash中批量设置键值对 # 参数: # name,redis的name # mapping,字典,如:{'k1':'v1', 'k2': 'v2'} # 如: # r.hmset('xx', {'k1':'v1', 'k2': 'v2'})hget(name,key)
# 在name对应的hash中获取根据key获取valuehmget(name, keys, *args)
# 在name对应的hash中获取多个key的值 # 参数: # name,reids对应的name # keys,要获取key集合,如:['k1', 'k2', 'k3'] # *args,要获取的key,如:k1,k2,k3 # 如: # r.mget('xx', ['k1', 'k2']) # 或 # print r.hmget('xx', 'k1', 'k2')hgetall(name)
获取name对应hash的所有键值hlen(name)
# 获取name对应的hash中键值对的个数hkeys(name)
# 获取name对应的hash中所有的key的值hvals(name)
# 获取name对应的hash中所有的value的值hexists(name, key)
# 检查name对应的hash是否存在当前传入的keyhdel(name,*keys)
# 将name对应的hash中指定key的键值对删除hincrby(name, key, amount=1)
# 自增name对应的hash中的指定key的值,不存在则创建key=amount # 参数: # name,redis中的name # key, hash对应的key # amount,自增数(整数)hincrbyfloat(name, key, amount=1.0)
# 自增name对应的hash中的指定key的值,不存在则创建key=amount # 参数: # name,redis中的name # key, hash对应的key # amount,自增数(浮点数) # 自增name对应的hash中的指定key的值,不存在则创建key=amounthscan(name, cursor=0, match=None, count=None)
# 增量式迭代获取,对于数据大的数据非常有用,hscan可以实现分片的获取数据,并非一次性将数据全部获取完,从而放置内存被撑爆 # 参数: # name,redis的name # cursor,游标(基于游标分批取获取数据) # match,匹配指定key,默认None 表示所有的key # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数 # 如: # 第一次:cursor1, data1 = r.hscan('xx', cursor=0, match=None, count=None) # 第二次:cursor2, data1 = r.hscan('xx', cursor=cursor1, match=None, count=None) # ... # 直到返回值cursor的值为0时,表示数据已经通过分片获取完毕hscan_iter(name, match=None, count=None)
# 利用yield封装hscan创建生成器,实现分批去redis中获取数据 # 参数: # match,匹配指定key,默认None 表示所有的key # count,每次分片最少获取个数,默认None表示采用Redis的默认分片个数 # 如: # for item in r.hscan_iter('xx'): # print item
List操作,redis中的List在在内存中按照一个name对应一个List来存储。如图:
lpush(name,values)
# 在name对应的list中添加元素,每个新的元素都添加到列表的最左边 # 如: # r.lpush('oo', 11,22,33) # 保存顺序为: 33,22,11 # 扩展: # rpush(name, values) 表示从右向左操作lpushx(name,value)
# 在name对应的list中添加元素,只有name已经存在时,值添加到列表的最左边 # 更多: # rpushx(name, value) 表示从右向左操作llen(name)
# name对应的list元素的个数linsert(name, where, refvalue, value))
# 在name对应的列表的某一个值前或后插入一个新值 # 参数: # name,redis的name # where,BEFORE或AFTER # refvalue,标杆值,即:在它前后插入数据 # value,要插入的数据r.lset(name, index, value)
# 对name对应的list中的某一个索引位置重新赋值 # 参数: # name,redis的name # index,list的索引位置 # value,要设置的值r.lrem(name, value, num)
# 在name对应的list中删除指定的值 # 参数: # name,redis的name # value,要删除的值 # num, num=0,删除列表中所有的指定值; # num=2,从前到后,删除2个; # num=-2,从后向前,删除2个lpop(name)
# 在name对应的列表的左侧获取第一个元素并在列表中移除,返回值则是第一个元素 # 更多: # rpop(name) 表示从右向左操作lindex(name, index)
在name对应的列表中根据索引获取列表元素lrange(name, start, end)
# 在name对应的列表分片获取数据 # 参数: # name,redis的name # start,索引的起始位置 # end,索引结束位置ltrim(name, start, end)
# 在name对应的列表中移除没有在start-end索引之间的值 # 参数: # name,redis的name # start,索引的起始位置 # end,索引结束位置rpoplpush(src, dst)
# 从一个列表取出最右边的元素,同时将其添加至另一个列表的最左边 # 参数: # src,要取数据的列表的name # dst,要添加数据的列表的nameblpop(keys, timeout)
# 将多个列表排列,按照从左到右去pop对应列表的元素 # 参数: # keys,redis的name的集合 # timeout,超时时间,当元素所有列表的元素获取完之后,阻塞等待列表内有数据的时间(秒), 0 表示永远阻塞 # 更多: # r.brpop(keys, timeout),从右向左获取数据brpoplpush(src, dst, timeout=0)
# 从一个列表的右侧移除一个元素并将其添加到另一个列表的左侧 # 参数: # src,取出并要移除元素的列表对应的name # dst,要插入元素的列表对应的name # timeout,当src对应的列表中没有数据时,阻塞等待其有数据的超时时间(秒),0 表示永远阻塞自定义增量迭代
# 由于redis类库中没有提供对列表元素的增量迭代,如果想要循环name对应的列表的所有元素,那么就需要: # 1、获取name对应的所有列表 # 2、循环列表 # 但是,如果列表非常大,那么就有可能在第一步时就将程序的内容撑爆,所有有必要自定义一个增量迭代的功能: def list_iter(name): """ 自定义redis列表增量迭代 :param name: redis中的name,即:迭代name对应的列表 :return: yield 返回 列表元素 """ list_count = r.llen(name) for index in xrange(list_count): yield r.lindex(name, index) # 使用 for item in list_iter('pp'): print itemSet操作,Set集合就是不允许重复的列表
sadd(name,values)
# name对应的集合中添加元素scard(name)
获取name对应的集合中元素个数sdiff(keys, *args)
在第一个name对应的集合中且不在其他name对应的集合的元素集合sdiffstore(dest, keys, *args)
# 获取第一个name对应的集合中且不在其他name对应的集合,再将其新加入到dest对应的集合中sinter(keys, *args)
# 获取多一个name对应集合的并集sinterstore(dest, keys, *args)
# 获取多一个name对应集合的并集,再讲其加入到dest对应的集合中sismember(name, value)
# 检查value是否是name对应的集合的成员smembers(name)
# 获取name对应的集合的所有成员smove(src, dst, value)
# 将某个成员从一个集合中移动到另外一个集合spop(name)
# 从集合的右侧(尾部)移除一个成员,并将其返回srandmember(name, numbers)
# 从name对应的集合中随机获取 numbers 个元素srem(name, values)
# 在name对应的集合中删除某些值sunion(keys, *args)
# 获取多一个name对应的集合的并集sunionstore(dest,keys, *args)
# 获取多一个name对应的集合的并集,并将结果保存到dest对应的集合中sscan(name, cursor=0, match=None, count=None)
sscan_iter(name, match=None, count=None)# 同字符串的操作,用于增量迭代分批获取元素,避免内存消耗太大
有序集合,在集合的基础上,为每元素排序;元素的排序需要根据另外一个值来进行比较,所以,对于有序集合,每一个元素有两个值,即:值和分数,分数专门用来做排序。
zadd(name, *args, **kwargs)
# 在name对应的有序集合中添加元素 # 如: # zadd('zz', 'n1', 1, 'n2', 2) # 或 # zadd('zz', n1=11, n2=22)zcard(name)
# 获取name对应的有序集合元素的数量zcount(name, min, max)
# 获取name对应的有序集合中分数 在 [min,max] 之间的个数zincrby(name, value, amount)
# 自增name对应的有序集合的 name 对应的分数r.zrange( name, start, end, desc=False, withscores=False, score_cast_func=float)
# 按照索引范围获取name对应的有序集合的元素 # 参数: # name,redis的name # start,有序集合索引起始位置(非分数) # end,有序集合索引结束位置(非分数) # desc,排序规则,默认按照分数从小到大排序 # withscores,是否获取元素的分数,默认只获取元素的值 # score_cast_func,对分数进行数据转换的函数 # 更多: # 从大到小排序 # zrevrange(name, start, end, withscores=False, score_cast_func=float) # 按照分数范围获取name对应的有序集合的元素 # zrangebyscore(name, min, max, start=None, num=None, withscores=False, score_cast_func=float) # 从大到小排序 # zrevrangebyscore(name, max, min, start=None, num=None, withscores=False, score_cast_func=float)zrank(name, value)
# 获取某个值在 name对应的有序集合中的排行(从 0 开始) # 更多: # zrevrank(name, value),从大到小排序zrangebylex(name, min, max, start=None, num=None)
# 当有序集合的所有成员都具有相同的分值时,有序集合的元素会根据成员的 值 (lexicographical ordering)来进行排序,而这个命令则可以返回给定的有序集合键 key 中, 元素的值介于 min 和 max 之间的成员 # 对集合中的每个成员进行逐个字节的对比(byte-by-byte compare), 并按照从低到高的顺序, 返回排序后的集合成员。 如果两个字符串有一部分内容是相同的话, 那么命令会认为较长的字符串比较短的字符串要大 # 参数: # name,redis的name # min,左区间(值)。 + 表示正无限; - 表示负无限; ( 表示开区间; [ 则表示闭区间 # min,右区间(值) # start,对结果进行分片处理,索引位置 # num,对结果进行分片处理,索引后面的num个元素 # 如: # ZADD myzset 0 aa 0 ba 0 ca 0 da 0 ea 0 fa 0 ga # r.zrangebylex('myzset', "-", "[ca") 结果为:['aa', 'ba', 'ca'] # 更多: # 从大到小排序 # zrevrangebylex(name, max, min, start=None, num=None)zrem(name, values)
# 删除name对应的有序集合中值是values的成员 # 如:zrem('zz', ['s1', 's2'])zremrangebyrank(name, min, max)
# 根据排行范围删除zremrangebyscore(name, min, max)
# 根据分数范围删除zremrangebylex(name, min, max)
# 根据值返回删除zscore(name, value)
# 获取name对应有序集合中 value 对应的分数zinterstore(dest, keys, aggregate=None)
# 获取两个有序集合的交集,如果遇到相同值不同分数,则按照aggregate进行操作 # aggregate的值为: SUM MIN MAXzunionstore(dest, keys, aggregate=None)
# 获取两个有序集合的并集,如果遇到相同值不同分数,则按照aggregate进行操作 # aggregate的值为: SUM MIN MAXzscan(name, cursor=0, match=None, count=None, score_cast_func=float)
zscan_iter(name, match=None, count=None,score_cast_func=float)# 同字符串相似,相较于字符串新增score_cast_func,用来对分数进行操作
其他常用操作
delete(*names)
# 根据删除redis中的任意数据类型exists(name)
# 检测redis的name是否存在keys(pattern='*')
# 根据模型获取redis的name # 更多: # KEYS * 匹配数据库中所有 key 。 # KEYS h?llo 匹配 hello , hallo 和 hxllo 等。 # KEYS h*llo 匹配 hllo 和 heeeeello 等。 # KEYS h[ae]llo 匹配 hello 和 hallo ,但不匹配 hilloexpire(name ,time)
# 为某个redis的某个name设置超时时间rename(src, dst)
# 对redis的name重命名为move(name, db))
# 将redis的某个值移动到指定的db下randomkey()
# 随机获取一个redis的name(不删除)type(name)
# 获取name对应值的类型scan(cursor=0, match=None, count=None)
scan_iter(match=None, count=None)# 同字符串操作,用于增量迭代获取key
4.5 发布和订阅:但比rabbitmq弱很多
import redis pool = redis.ConnectionPool(host='192.168.11.81', port=6379,) conn = redis.Redis(connection_pool=pool) conn.publish('fm104.5','sb')
import redis pool = redis.ConnectionPool(host='192.168.11.81', port=6379) conn = redis.Redis(connection_pool=pool) pb = conn.pubsub() pb.subscribe('fm104.5') while True: msg = pb.parse_response() print(msg)
运行s6.py、s7.py,然后运行s5.py实现发布和订阅。
四、 scrapy-redis插件实现简单分布式爬虫
scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫: - 定义调度器 - 定义去重规则: 本质利用redis 集合元素不重复(被调度器使用) # 看源码request_seen函数 pip3 install scrapy-redis
1. redis配置文件settings.py
#from scrapy_redis import defaults # 查看默认配置
REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(优先于以上配置) # REDIS_PARAMS = {} # Redis连接参数 默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}) # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块 默认:redis.StrictRedis REDIS_ENCODING = "utf-8" # redis编码类型 默认:'utf-8'
from scrapy_redis.scheduler import Scheduler SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 使用该调度器,scrapy-redis原生调度器被替换掉 from scrapy_redis.queue import PriorityQueue from scrapy_redis import picklecompat SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表) SCHEDULER_QUEUE_KEY = '%(spider)s:requests' # 调度器中请求存放在redis中的key SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat" # 对保存到redis中的数据进行序列化,默认使用pickle SCHEDULER_PERSIST = True # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空 SCHEDULER_FLUSH_ON_START = False # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空。本地测试可以为true,实际工作中False SCHEDULER_IDLE_BEFORE_CLOSE = 10 # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。 SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter' # 去重规则,在redis中保存时对应的key SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' # 去重规则对应处理的类
from scrapy_redis.pipelines import RedisPipeline ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300, } REDIS_ITEMS_KEY = '%(spider)s:items' REDIS_ITEMS_SERIALIZER = 'json.dumps' # 指定下序列化
2.当url太长时,数据库保存占空间,创建唯一标识符
from scrapy.utils import request from scrapy.http import Request obj1 = Request(url='http://www.baidu.com?id=1&name=3') obj2 = Request(url='http://www.baidu.com?name=3&id=1') # 当传参一致时,创建的标识符也一样 v = request.request_fingerprint(obj1) print(v) v = request.request_fingerprint(obj2) print(v)
3. 起始URL相关
from scrapy_redis.pipelines import RedisSpider class ChoutiSpider(scrapy.RedisSpider): name = "chouti" allowed_domains = ["chouti.com"] def parse(self, response): for i in range(0,10): yield
总结:
1. memcached 2. Django缓存 3. redis - 连接 - StrictRedis() - Redis(StrictRedis) # 继承StrictRedis - 连接池 - 基本操作 .. - 事务 - 发布和订阅 4. scrapy-redis流程 4.1 引擎,获取起始Request对象, 添加(pickle)到调度器 - scrapy内部调度器 - scrapy-redis调度器三个选择:先进先出列表,后进先出列表,有序集合 4.2 调度器通知下载器可以开始下载,去调度器中获取request对象(通过pickle存储request对象),下载器进行下载 4.3 爬虫parse方法,yield返回对象item或request - item 交给pipeline处理 - request 交给调度去处理,调用DUPEFILTER_CLASS去检查是否已经访问过,来决定request重新放置调度器或者丢弃 scrapy-redis扩种: - 中间件 - 基于信号的扩展
五、scrapy-redis示例
# DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # # # from scrapy_redis.scheduler import Scheduler # from scrapy_redis.queue import PriorityQueue # SCHEDULER = "scrapy_redis.scheduler.Scheduler" # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' # 默认使用优先级队列(默认),其他:PriorityQueue(有序集合),FifoQueue(列表)、LifoQueue(列表) # SCHEDULER_QUEUE_KEY = '%(spider)s:requests' # 调度器中请求存放在redis中的key # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat" # 对保存到redis中的数据进行序列化,默认使用pickle # SCHEDULER_PERSIST = True # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空 # SCHEDULER_FLUSH_ON_START = False # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空 # SCHEDULER_IDLE_BEFORE_CLOSE = 10 # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter' # 去重规则,在redis中保存时对应的key # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类 # # # # REDIS_HOST = '10.211.55.13' # 主机名 # REDIS_PORT = 6379 # 端口 # # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(优先于以上配置) # # REDIS_PARAMS = {} # Redis连接参数 默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}) # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块 默认:redis.StrictRedis # REDIS_ENCODING = "utf-8" # redis编码类型 默认:'utf-8'
import scrapy class ChoutiSpider(scrapy.Spider): name = "chouti" allowed_domains = ["chouti.com"] start_urls = ( 'http://www.chouti.com/', ) def parse(self, response): for i in range(0,10): yield