缓存与队列
NoSQL(Not Only SQL)泛指非关系型的数据库。
NoSQL数据库的四大分类:
- 键值(Key-Value)存储数据库,
- 列存储数据库,
- 文档型数据库,
- 图形(Graph)数据库。
Redis
介绍
redis是业界主流的key-value nosql 数据库之一。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。
1. 使用Redis有哪些好处? (1) 速度快,因为数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1) (2) 支持丰富数据类型,支持string,list,set,sorted set,hash (3) 支持事务,操作都是原子性,所谓的原子性就是对数据的更改要么全部执行,要么全部不执行 (4) 丰富的特性:可用于缓存,消息,按key设置过期时间,过期后将会自动删除 2. redis相比memcached有哪些优势? (1) memcached所有的值均是简单的字符串,redis作为其替代者,支持更为丰富的数据类型 (2) redis的速度比memcached快很多 (3) redis可以持久化其数据 3. redis常见性能问题和解决方案: (1) Master最好不要做任何持久化工作,如RDB内存快照和AOF日志文件 (2) 如果数据比较重要,某个Slave开启AOF备份数据,策略设置为每秒同步一次 (3) 为了主从复制的速度和连接的稳定性,Master和Slave最好在同一个局域网内 (4) 尽量避免在压力很大的主库上增加从库 (5) 主从复制不要用图状结构,用单向链表结构更为稳定,即:Master <- Slave1 <- Slave2 <- Slave3... 这样的结构方便解决单点故障问题,实现Slave对Master的替换。如果Master挂了,可以立刻启用Slave1做Master,其他不变。 4. MySQL里有2000w数据,redis中只存20w的数据,如何保证redis中的数据都是热点数据 相关知识:redis 内存数据集大小上升到一定大小的时候,就会施行数据淘汰策略。redis 提供 6种数据淘汰策略: voltile-lru:从已设置过期时间的数据集(server.db[i].expires)中挑选最近最少使用的数据淘汰 volatile-ttl:从已设置过期时间的数据集(server.db[i].expires)中挑选将要过期的数据淘汰 volatile-random:从已设置过期时间的数据集(server.db[i].expires)中任意选择数据淘汰 allkeys-lru:从数据集(server.db[i].dict)中挑选最近最少使用的数据淘汰 allkeys-random:从数据集(server.db[i].dict)中任意选择数据淘汰 no-enviction(驱逐):禁止驱逐数据 5. Memcache与Redis的区别都有哪些? 1)、存储方式 Memecache把数据全部存在内存之中,断电后会挂掉,数据不能超过内存大小。 Redis有部份存在硬盘上,这样能保证数据的持久性。 2)、数据支持类型 Memcache对数据类型支持相对简单。 Redis有复杂的数据类型。 3),value大小 redis最大可以达到1GB,而memcache只有1MB 6. Redis 常见的性能问题都有哪些?如何解决? 1).Master写内存快照,save命令调度rdbSave函数,会阻塞主线程的工作,当快照比较大时对性能影响是非常大的,会间断性暂停服务,所以Master最好不要写内存快照。 2).Master AOF持久化,如果不重写AOF文件,这个持久化方式对性能的影响是最小的,但是AOF文件会不断增大,AOF文件过大会影响Master重启的恢复速度。Master最好不要做任何持久化工作,包括内存快照和AOF日志文件,特别是不要启用内存快照做持久化,如果数据比较关键,某个Slave开启AOF备份数据,策略为每秒同步一次。 3).Master调用BGREWRITEAOF重写AOF文件,AOF在重写的时候会占大量的CPU和内存资源,导致服务load过高,出现短暂服务暂停现象。 4). Redis主从复制的性能问题,为了主从复制的速度和连接的稳定性,Slave和Master最好在同一个局域网内 7, redis 最适合的场景 Redis最适合所有数据in-momory的场景,虽然Redis也提供持久化功能,但实际更多的是一个disk-backed的功能,跟传统意义上的持久化有比较大的差别,那么可能大家就会有疑问,似乎Redis更像一个加强版的Memcached,那么何时使用Memcached,何时使用Redis呢? 如果简单地比较Redis与Memcached的区别,大多数都会得到以下观点: 、Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,zset,hash等数据结构的存储。 、Redis支持数据的备份,即master-slave模式的数据备份。 、Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。 (1)、会话缓存(Session Cache) 最常用的一种使用Redis的情景是会话缓存(session cache)。用Redis缓存会话比其他存储(如Memcached)的优势在于:Redis提供持久化。当维护一个不是严格要求一致性的缓存时,如果用户的购物车信息全部丢失,大部分人都会不高兴的,现在,他们还会这样吗? 幸运的是,随着 Redis 这些年的改进,很容易找到怎么恰当的使用Redis来缓存会话的文档。甚至广为人知的商业平台Magento也提供Redis的插件。 (2)、全页缓存(FPC) 除基本的会话token之外,Redis还提供很简便的FPC平台。回到一致性问题,即使重启了Redis实例,因为有磁盘的持久化,用户也不会看到页面加载速度的下降,这是一个极大改进,类似PHP本地FPC。 再次以Magento为例,Magento提供一个插件来使用Redis作为全页缓存后端。 此外,对WordPress的用户来说,Pantheon有一个非常好的插件 wp-redis,这个插件能帮助你以最快速度加载你曾浏览过的页面。 (3)、队列 Reids在内存存储引擎领域的一大优点是提供 list 和 set 操作,这使得Redis能作为一个很好的消息队列平台来使用。Redis作为队列使用的操作,就类似于本地程序语言(如Python)对 list 的 push/pop 操作。 如果你快速的在Google中搜索“Redis queues”,你马上就能找到大量的开源项目,这些项目的目的就是利用Redis创建非常好的后端工具,以满足各种队列需求。例如,Celery有一个后台就是使用Redis作为broker,你可以从这里去查看。 (4),排行榜/计数器 Redis在内存中对数字进行递增或递减的操作实现的非常好。集合(Set)和有序集合(Sorted Set)也使得我们在执行这些操作的时候变的非常简单,Redis只是正好提供了这两种数据结构。所以,我们要从排序集合中获取到排名最靠前的10个用户–我们称之为“user_scores”,我们只需要像下面一样执行即可: 当然,这是假定你是根据你用户的分数做递增的排序。如果你想返回用户及用户的分数,你需要这样执行: ZRANGE user_scores 0 10 WITHSCORES Agora Games就是一个很好的例子,用Ruby实现的,它的排行榜就是使用Redis来存储数据的,你可以在这里看到。 (5)、发布/订阅 最后(但肯定不是最不重要的)是Redis的发布/订阅功能。发布/订阅的使用场景确实非常多。我已看见人们在社交网络连接中使用,还可作为基于发布/订阅的脚本触发器,甚至用Redis的发布/订阅功能来建立聊天系统!(不,这是真的,你可以去核实)。 Redis提供的所有特性中,我感觉这个是喜欢的人最少的一个,虽然它为用户提供如果此多功能。
连接池
import redis r = redis.Redis(host='172.30.100.111', port=6379, password='redis') r.set('foo', 'Bar') print(r.get('foo'))
连接池
import redis pool = redis.ConnectionPool(host='172.30.100.111', port=6379, password='redis') r = redis.Redis(connection_pool=pool) r.set('foo', 'Bar') print(r.get('foo'))
管道
redis-py默认在执行每次请求都会创建(连接池申请连接)和断开(归还连接池)一次连接操作,如果想要在一次请求中指定多个命令,则可以使用pipline实现一次请求指定多个命令,并且默认情况下一次pipline 是原子性操作。
import redis pool = redis.ConnectionPool(host='172.30.100.111', port=6379, password='redis') r = redis.Redis(connection_pool=pool) pipe = r.pipeline(transaction=True) # transaction是否执行原子操作 pipe.multi() # 启动pipe事务,以execute结束事务块 pipe.set('s1', 'hello') pipe.set('s2', 'world') pipe.execute()
#!/usr/bin/env python # -*- coding:utf-8 -*- import redis conn = redis.Redis(host='192.168.1.41',port=6379) conn.set('count',1000) with conn.pipeline() as pipe: # 先监视,自己的值没有被修改过 conn.watch('count') # 事务开始 pipe.multi() old_count = conn.get('count') count = int(old_count) if count > 0: # 有库存 pipe.set('count', count - 1) # 执行,把所有命令一次性推送过去 pipe.execute()
发布订阅
监听者
import redis conn = redis.Redis(host='172.30.100.111', port=6379, password='redis') sub = conn.pubsub() # 实例化一个Publish/Subscribe对象,用来订阅频道并接受发布的消息 sub.subscribe('111') # 订阅一个频道 sub.parse_response() # 监听后会先收到一条信息 print("准备监听...") data = sub.parse_response() # 等待解析发布/订阅命令的响应 print(data)
发布者
import redis conn = redis.Redis(host='172.30.100.111', port=6379, password='redis') msg = 'hello' conn.publish('111', msg) # 向指定频道发送信息
创建Publish/Subscribe对象
import redis class RedisHelper: def __init__(self): self.__conn = redis.Redis(host='172.30.100.111', port=6379, password='redis') self.chan_sub = 'fm104.5' self.chan_pub = 'fm104.5' def publish(self, msg): self.__conn.publish(self.chan_pub, msg) # 向指定频道发送信息 return True def subscribe(self): sub = self.__conn.pubsub() # 实例化一个Publish/Subscribe对象,用来订阅频道并接受发布的消息 sub.subscribe(self.chan_sub) # 订阅一个频道 sub.parse_response() # 解析发布/订阅命令的响应 return sub # 监听者 pubsub= RedisHelper() s = pubsub.subscribe() while True: print('Listening...') data = s.parse_response() print(data) # 发布者 pubsub= RedisHelper() msg = 'hello, world' pubsub.publish(msg)
Celery分布式任务队列
Celery 是一个强大的分布式任务队列,它可以让任务的执行完全脱离主程序,甚至可以被分配到其他主机上运行。我们通常使用它来实现异步任务( async task )和定时任务( crontab )。 异步任务比如是发送邮件、或者文件上传, 图像处理等等一些比较耗时的操作 ,定时任务是需要在特定时间执行的任务。
使用 Celery 实现异步任务的步骤:
(1) 创建一个 Celery 实例
(2) 启动 Celery Worker ,通过delay() 或 apply_async()(delay 方法封装了 apply_async, apply_async支持更多的参数 ) 将任务发布到broker
(3) 应用程序调用异步任务
(4)存储结果 (发布的任务需要return才会有结果,否则为空)
使用 Celery 实现定时任务的步骤:
(1) 创建一个 Celery 实例
(2) 配置文件中配置任务 ,发布任务 celery A xxx beat
(3) 启动 Celery Worker
(4) 存储结果
celery定时任务简单使用
1、目录结构:
[root@test111 python]# tree celery_task celery_task ├── celery_conf.py ├── celery.py ├── __init__.py └── task_scripts ├── add.py └── list_sum.py
2、celery配置文件:
from __future__ import absolute_import, unicode_literals from celery.schedules import crontab broker_url = 'redis://redis@172.30.100.111' result_backend='redis://redis@172.30.100.111' # 允许内容类型,消息类型不在此列表中,将被丢弃并异常 accept_content = ['json'] # 允许后端结果的内容类型 result_accept_content = ['json'] # 结果序列化格式 result_serializer = 'json' task_serializer = 'json' timezone = 'Asia/Shanghai' # 默认删除root logger之前配置的所有处理程序,如果自定义logger,可以禁用此行为 worker_hijack_root_logger = False result_expires = 60 * 60 * 24 # 导入task模块 imports = [ 'celery_task.task_scripts.add', 'celery_task.task_scripts.list_sum', ] l = [10, 20, 30, 40] # 设置定时任务 beat_schedule = { 'add': { 'task': 'celery_task.task_scripts.add.add', 'schedule': 10, 'args': (100,200), }, 'sum': { 'task': 'celery_task.task_scripts.list_sum.list_sum', 'schedule': crontab(minute='*/1'), 'args': (l), } }
3、celery初始化文件
from __future__ import absolute_import, unicode_literals from celery import Celery # 实例化一个Celery对象 app = Celery('celery_demo') # 从celery配置文件,将配置应用到app实例中 app.config_from_object('celery_task.celery_conf')
4、任务函数
# add.py from celery_task.celery import app def log(x, y): print('this is add(%s, %s)' % (x, y)) def excute(x, y): return x + y @app.task def add(x, y): log(x, y) return excute(x, y) # list_sum.py from celery_task.celery import app @app.task def list_sum(*args): _list = list(args) print('this is sum(%s)' % _list) return sum(args)
5、启动执行任务worker
[root@test111 python]# celery -A celery_task worker -l info -------------- celery@test111 v4.3.0 (rhubarb) ---- **** ----- --- * *** * -- Linux-3.10.0-693.el7.x86_64-x86_64-with-centos-7.4.1708-Core 2019-09-19 13:21:52 -- * - **** --- - ** ---------- [config] - ** ---------- .> app: celery_demo:0x7fcd451c1da0 - ** ---------- .> transport: redis://redis@172.30.100.111:6379// - ** ---------- .> results: redis://redis@172.30.100.111/ - *** --- * --- .> concurrency: 6 (prefork) -- ******* ---- .> task events: OFF (enable -E to monitor tasks in this worker) --- ***** ----- -------------- [queues] .> celery exchange=celery(direct) key=celery [tasks] . celery_task.task_scripts.add.add . celery_task.task_scripts.list_sum.list_sum [2019-09-19 13:21:52,446: INFO/MainProcess] Connected to redis://redis@172.30.100.111:6379// [2019-09-19 13:21:52,454: INFO/MainProcess] mingle: searching for neighbors [2019-09-19 13:21:53,473: INFO/MainProcess] mingle: all alone [2019-09-19 13:21:53,482: INFO/MainProcess] celery@test111 ready.
6、发布定时任务beat
[root@test111 python]# celery -A celery_task beat celery beat v4.3.0 (rhubarb) is starting. __ - ... __ - _ LocalTime -> 2019-09-19 13:21:00 Configuration -> . broker -> redis://redis@172.30.100.111:6379// . loader -> celery.loaders.app.AppLoader . scheduler -> celery.beat.PersistentScheduler . db -> celerybeat-schedule . logfile -> [stderr]@%WARNING . maxinterval -> 5.00 minutes (300s)
管理
# 后台启动 celery worker进程 celery multi start work_1 -A appcelery # work_1 为woker的名称,可以用来进行对该进程进行管理 # 多进程相关 celery multi stop WOERNAME # 停止worker进程,有的时候这样无法停止进程,就需要加上-A 项目名,才可以删掉 celery multi restart WORKNAME # 重启worker进程 # 查看进程数 celery status -A celery_task # 查看该项目运行的进程数 celery_task同级目录下 执行完毕后会在当前目录下产生一个二进制文件,celerybeat-schedule 。 该文件用于存放上次执行结果: 1、如果存在celerybeat-schedule文件,那么读取后根据上一次执行的时间,继续执行。 2、如果不存在celerybeat-schedule文件,那么会立即执行一次。 3、如果存在celerybeat-schedule文件,读取后,发现间隔时间已过,那么会立即执行。