深入探究分布式锁
一、分布式锁简介
锁是一种用来解决多个执行线程 访问共享资源 错误或数据不一致问题的工具。 如果把一台服务器比作一个房子,那么线程就好比里面的住户,当他们想要共同访问一个共享资源,例如厕所的时候,如果厕所门上没有锁...更甚者厕所没装门...这是会出原则性的问题的.. 装上了锁,大家用起来就安心多了,本质也就是 同一时间只允许一个住户使用。
而随着互联网世界的发展,单体应用已经越来越无法满足复杂互联网的高并发需求,转而慢慢朝着分布式方向发展,慢慢进化成了 更大一些的住户。所以同样,我们需要引入分布式锁来解决分布式应用之间访问共享资源的并发问题。
1.1、为何需要分布式锁
一般情况下,我们使用分布式锁主要有两个场景:
1、避免不同节点重复相同的工作:比如用户执行了某个操作有可能不同节点会发送多封邮件;
2、避免破坏数据的正确性:如果两个节点在同一条数据上同时进行操作,可能会造成数据错误或不一致的情况出现;
1.2、Java 中实现的常见方式
上面我们用简单的比喻说明了锁的本质:同一时间只允许一个用户操作。所以理论上,能够满足这个需求的工具我们都能够使用。
1、基于 MySQL 中的锁:MySQL 本身有自带的悲观锁 for update 关键字,也可以自己实现悲观/乐观锁来达到目的;
2、基于 Zookeeper 有序节点:Zookeeper 允许临时创建有序的子节点,这样客户端获取节点列表时,就能够当前子节点列表中的序号判断是否能够获得锁;
3、基于 Redis 的单线程:由于 Redis 是单线程,所以命令会以串行的方式执行,并且本身提供了像 SETNX(set if not exists) 这样的指令,本身具有互斥性;
每个方案都有各自的优缺点,例如 MySQL 虽然直观理解容易,但是实现起来却需要额外考虑 锁超时、加事务 等,并且性能局限于数据库,诸如此类我们在此不作讨论,重点关注 Redis。
1.3、Redis 分布式锁的问题
1)锁超时
假设现在我们有两台平行的服务 A B,其中 A 服务在 获取锁之后 由于未知神秘力量突然 挂了,那么 B 服务就永远无法获取到锁了:
所以我们需要额外设置一个超时时间,来保证服务的可用性。但是另一个问题随即而来:如果在加锁和释放锁之间的逻辑执行得太长,以至于超出了锁的超时限制,也会出现问题。因为这时候第一个线程持有锁过期了,而临界区的逻辑还没有执行完,与此同时第二个线程就提前拥有了这把锁,导致临界区的代码不能得到严格的串行执行。为了避免这个问题,Redis 分布式锁不要用于较长时间的任务。如果真的偶尔出现了问题,造成的数据小错乱可能就需要人工的干预。
有一个稍微安全一点的方案是将锁的 value 值设置为一个随机数,释放锁时先匹配随机数是否一致,然后再删除 key,这是为了确保当前线程占有的锁不会被其他线程释放,除非这个锁是因为过期了而被服务器自动释放的。但是匹配 value 和删除 key 在 Redis 中并不是一个原子性的操作,也没有类似保证原子性的指令,所以可能需要使用像 Lua 这样的脚本来处理了,因为 Lua 脚本可以保证多个指令的原子性执行。
2)单点/多点问题
如果 Redis 采用单机部署模式,那就意味着当 Redis 故障了,就会导致整个服务不可用。而如果采用主从模式部署,我们想象一个这样的场景:服务 A 申请到一把锁之后,如果作为主机的 Redis 宕机了,那么 服务 B 在申请锁的时候就会从从机那里获取到这把锁,为了解决这个问题,Redis 作者提出了一种 RedLock 红锁的算法:
1 // 三个 Redis 集群 2 RLock lock1 = redissionInstance1.getLock("lock1"); 3 RLock lock2 = redissionInstance2.getLock("lock2"); 4 RLock lock3 = redissionInstance3.getLock("lock3"); 5 6 RedissionRedLock lock = new RedissionLock(lock1, lock2, lock2); 7 lock.lock(); 8 // do something.... 9 lock.unlock();
二、Redis 分布式锁的实现
分布式锁类似于 "占坑",而 SETNX(SET if Not eXists) 指令就是这样的一个操作,只允许被一个客户端占有,我们来看看源码(t_string.c/setGenericCommand) 吧:
1 // SET/ SETEX/ SETTEX/ SETNX 最底层实现 2 void setGenericCommand(client *c, int flags, robj *key, robj *val, robj *expire, int unit, robj *ok_reply, robj *abort_reply) { 3 long long milliseconds = 0; /* initialized to avoid any harmness warning */ 4 5 // 如果定义了 key 的过期时间则保存到上面定义的变量中 6 // 如果过期时间设置错误则返回错误信息 7 if (expire) { 8 if (getLongLongFromObjectOrReply(c, expire, &milliseconds, NULL) != C_OK) 9 return; 10 if (milliseconds <= 0) { 11 addReplyErrorFormat(c,"invalid expire time in %s",c->cmd->name); 12 return; 13 } 14 if (unit == UNIT_SECONDS) milliseconds *= 1000; 15 } 16 17 // lookupKeyWrite 函数是为执行写操作而取出 key 的值对象 18 // 这里的判断条件是: 19 // 1.如果设置了 NX(不存在),并且在数据库中找到了 key 值 20 // 2.或者设置了 XX(存在),并且在数据库中没有找到该 key 21 // => 那么回复 abort_reply 给客户端 22 if ((flags & OBJ_SET_NX && lookupKeyWrite(c->db,key) != NULL) || 23 (flags & OBJ_SET_XX && lookupKeyWrite(c->db,key) == NULL)) 24 { 25 addReply(c, abort_reply ? abort_reply : shared.null[c->resp]); 26 return; 27 } 28 29 // 在当前的数据库中设置键为 key 值为 value 的数据 30 genericSetKey(c->db,key,val,flags & OBJ_SET_KEEPTTL); 31 // 服务器每修改一个 key 后都会修改 dirty 值 32 server.dirty++; 33 if (expire) setExpire(c,c->db,key,mstime()+milliseconds); 34 notifyKeyspaceEvent(NOTIFY_STRING,"set",key,c->db->id); 35 if (expire) notifyKeyspaceEvent(NOTIFY_GENERIC, 36 "expire",key,c->db->id); 37 addReply(c, ok_reply ? ok_reply : shared.ok); 38 }
就像上面介绍的那样,其实在之前版本的 Redis 中,由于 SETNX 和 EXPIRE 并不是 原子指令,所以在一起执行会出现问题。 也许你会想到使用 Redis 事务来解决,但在这里不行,因为 EXPIRE 命令依赖于 SETNX 的执行结果,而事务中没有 if-else 的分支逻辑,如果 SETNX 没有抢到锁,EXPIRE 就不应该执行。 为了解决这个疑难问题,Redis 开源社区涌现了许多分布式锁的 library,为了治理这个乱象,后来在 Redis 2.8 的版本中,加入了 SET 指令的扩展参数,使得 SETNX 可以和 EXPIRE 指令一起执行了:
1 > SET lock:test true ex 5 nx 2 OK 3 ... do something critical ... 4 > del lock:test
你只需要符合 SET key value [EX seconds | PX milliseconds] [NX | XX] [KEEPTTL] 这样的格式就好了。
2.1、代码实现
下面用 Jedis 来模拟实现以下,关键代码如下:
1 private static final String LOCK_SUCCESS = "OK"; 2 private static final Long RELEASE_SUCCESS = 1L; 3 private static final String SET_IF_NOT_EXIST = "NX"; 4 private static final String SET_WITH_EXPIRE_TIME = "PX"; 5 6 @Override 7 public String acquire() { 8 try { 9 // 获取锁的超时时间,超过这个时间则放弃获取锁 10 long end = System.currentTimeMillis() + acquireTimeout; 11 // 随机生成一个 value 12 String requireToken = UUID.randomUUID().toString(); 13 while (System.currentTimeMillis() < end) { 14 String result = jedis 15 .set(lockKey, requireToken, SET_IF_NOT_EXIST, SET_WITH_EXPIRE_TIME, expireTime); 16 if (LOCK_SUCCESS.equals(result)) { 17 return requireToken; 18 } 19 try { 20 Thread.sleep(100); 21 } catch (InterruptedException e) { 22 Thread.currentThread().interrupt(); 23 } 24 } 25 } catch (Exception e) { 26 log.error("acquire lock due to error", e); 27 } 28 29 return null; 30 } 31 32 @Override 33 public boolean release(String identify) { 34 if (identify == null) { 35 return false; 36 } 37 38 String script = "if redis.call('get', KEYS[1]) == ARGV[1] then return redis.call('del', KEYS[1]) else return 0 end"; 39 Object result = new Object(); 40 try { 41 result = jedis.eval(script, Collections.singletonList(lockKey), 42 Collections.singletonList(identify)); 43 if (RELEASE_SUCCESS.equals(result)) { 44 log.info("release lock success, requestToken:{}", identify); 45 return true; 46 } 47 } catch (Exception e) { 48 log.error("release lock due to error", e); 49 } finally { 50 if (jedis != null) { 51 jedis.close(); 52 } 53 } 54 55 log.info("release lock failed, requestToken:{}, result:{}", identify, result); 56 return false; 57 }