分布式交易系统的并发处理, 以及用Redis和Zookeeper实现分布式锁
交易系统
交易系统的数据结构
支付系统API通常需要一个“订单号”作为入参, 而实际调用API接口时使用到的往往不是真正意义的业务订单号, 而是交易订单号. 支付系统的API会使用“商户号+订单号”唯一的标准来设计, 对于商户方就需要做对应的逻辑来保证业务的一致性. 这里就引入了交易订单表, 一个业务订单在支付时会创建一条交易订单,这笔交易订单会关联业务订单,并将交易订单号发给支付系统, 根据结果处理资金账户数据和业务订单数据. 由于是调用远程接口, 有同步也有异步, 结果会出现各种各样的情况,如成功, 失败, 等待, 超时等等, 因此一笔业务订单可能对应多条交易订单,每一条交易订单会对应一个或多个请求结果.
交易的模式
交易主要有三个模式: 同步请求, 异步请求, 还有查询. 对于一些系统, 还有批量提交的请求方式, 这个可以归为异步请求这一类.
对于同步的交易, 可能会在发出请求后收到成功, 失败, 未知三种情况;
对于异步的交易, 可能会收到成功, 失败两种情况;
对于查询, 可能会收到成功, 失败, 未知三种情况, 和同步交易一样.
交易的结果处理
成功: 更新交易订单状态, 记录结果, 根据实际业务处理.
失败: 更新交易订单状态, 记录结果, 根据实际业务, 创建新的交易订单或者将业务订单置为失败.
未知: 不做操作, 等待异步通知, 或通过时间任务异步查询, 或加入队列进行异步查询.
需要注意的是, 对于有多种返回结果代码的支付系统, 一定要明确各个代码的归类, 属于"成功"和"失败"的代码不能出现偏差. 在通道方的结果代码有调整时, 要及时更新.
交易的事务控制
交易的事务应当仅仅局限于本地方法, 中间不能有远程调用, 因为远程接口不可控, 更不可能在事务失败时跟随本地调用一起回滚. 另外还可能导致本地资源一直被占用, 尤其是数据库连接.
并发问题
单机的并发可以通过synchronized或者Lock解决(全局一致性), 也可以通过乐观锁解决(最终一致性), 同时使用队列降低系统突发压力. 这个比较简单就不说明了.
对于分布式系统的并发, 可以通过以下途径解决:
乐观锁
乐观锁是通过数据库入库时, 校验数据版本的一致性来达到业务最终一致性的一种手段, 适用于单机分布式等各种环境, 好处是实现简单, 读性能非常好, 缺点也很明显, 在业务的交易链较长时, 一个回滚可能会导致整个上层交易失败, 这样的情况虽然能保证资金不出错, 但是系统的交易频率越高, 特别是同一个资金账户的交易频率越高, 乐观锁失败的概率就越大, 重试次数多了, 就会影响业务效率. 所以乐观锁只是一个基础, 仅保证业务数据不出错, 要解决并发问题还需要靠其他手段.
分布式锁
分布式锁可以基于db, redis, zookeeper等实现. 最简单的锁实现的是lock和unlock功能, 实际应用中, 还需要两个功能: 一个Reentrant 以实现同线程重入, 和一个Timeout 以实现在某个实例出现异常时, 不至于导致整个交易被永久挂起. 常见的是用Redis或Zookeeper做的分布式锁. 在资金账户数量很大, 交易较分散的情况下, 分布式锁起到了"微队列"的作用, 对处理效率的影响较小.
消息队列
消息队列常用于业务间和模块间的性能优化. 通过队列缓冲突发负载, 对请求进行排重减少实际交易的请求, 以及序列化请求避免资源冲突. 模式简单的业务可以使用Redis的rpush+blpop做简易队列, 需求较复杂的场景, 可以使用rabbitmq.
Redisson的分布式锁
借助Redisson的getLock和getReadWriteLock方法, 对同线程可重入, 可以设置锁超时, 可以设置取锁超时, 锁本身有默认30秒的超时
public class LockManagerImpl implements LockManager { private final Redisson redisson; public LockManagerImpl(ZookeeperManager zookeeperManager) { Map<String, ZookeeperValue> settings = zookeeperManager.load("/lock"); Config config = new Config(); config .useSingleServer() .setAddress(settings.get("address").getString("redis://127.0.0.1:6379")) .setTimeout(settings.get("timeout").getInteger(3000)) .setPassword(settings.get("password").getString(null)); redisson = (Redisson) Redisson.create(config); } public void init() { logger.debug("init()"); } public void destroy() { logger.debug("destroy()"); } @Override public Lock getLock(String key) { return redisson.getLock(key); } @Override public ReadWriteLock getReadWriteLock(String key) { return redisson.getReadWriteLock(key); } }
Jedis实现的分布式锁
Redis版本小于2.6的, 借助 SETNX 命令, 只有当key不存在时才能set成功, 这只是一个简单的实现, 有超时, 但是不能同一线程重入. 具体代码参考 https://github.com/abelaska/jedis-lock
Redis版本2.6.0之后, 增加了内置LUA语言支持, 可以通过EVAL()和EVALSHA()执行LUA脚本. 通过LUA脚本实现的分布式锁, 可以更好的支持线程重入和超时的特性.
获取锁的代码
实际上是实现了一个spinlock, 不断尝试获取锁, 直至超时. 锁在Redis中体现为一个hash, hash的名称就是资源ID, hash的超时时间就是锁的超时时间, hash里的key是 uuid + 线程ID, value是当前线程重入的数量.
// Note: index of key&argv starts from 1 private static final String COMMAND_LOCK = "if (redis.call('exists', KEYS[1]) == 0) then " + "redis.call('hset', KEYS[1], ARGV[1], 1); " + "redis.call('pexpire', KEYS[1], ARGV[2]); " + "return 1; " + "end; " + "if (redis.call('hexists', KEYS[1], ARGV[1]) == 1) then " + "local counter = redis.call('hincrby', KEYS[1], ARGV[1], 1); " + "redis.call('pexpire', KEYS[1], ARGV[2]); " + "return counter; " + "end; " + "return nil;"; public boolean acquire() { int timeout = acquiryTimeoutInMillis; while (timeout >= 0) { Object result = client.eval(COMMAND_LOCK, 1, lockKeyPath, getId(), lockExpiryInMillis + ""); if (result == null) { timeout -= DEFAULT_ACQUIRY_RESOLUTION_MILLIS; try { Thread.sleep(DEFAULT_ACQUIRY_RESOLUTION_MILLIS); } catch (InterruptedException e) { // Do nothing } } else { this.counter = (Long)result; return true; } } return false; }
释放锁的代码
释放锁时会减少线程的重入数量, 当重入数量为0时, 才删除锁.
private static final String COMMAND_UNLOCK = "if (redis.call('hexists', KEYS[1], ARGV[1]) == 0) then " + "return nil;" + "end; " + "local counter = redis.call('hincrby', KEYS[1], ARGV[1], -1); " + "if (counter > 0) then " + "redis.call('pexpire', KEYS[1], ARGV[2]); " + "return counter; " + "else " + "redis.call('del', KEYS[1]); " + "return 0; "+ "end; " + "return nil;"; public void release() { Object result = client.eval(COMMAND_UNLOCK, 1, lockKeyPath, getId(), lockExpiryInMillis + ""); if (result == null) { this.counter = 0; } else { this.counter = (Long)result; } }
具体的代码参考 https://github.com/MiltonLai/jedis-lock
Zookeeper实现的分布式锁
利用了Zookeeper的Watcher机制. 在Zookeeper中节点类型使用 EPHEMERAL_SEQUENTIAL, 这种类型当客户端无效后会自动删除, 并且同名节点会通过后缀数字增长进行添加. 这样实际上维护了两个序列: 在Zookeeper中会保持一个同名但是后缀数字不断增长的序列, 而在本地是线程序列, 使用一个同步的lock对getChildren进行竞争. 每一个本地线程都会在zookeeper中创建一个带序列号的节点, 同时等待资源锁被释放, 当拿到资源锁时, 判断自己是不是top的那个节点, 如果不是就释放资源锁, 继续等待. 如果是就说明拿到业务锁了, 在业务执行完之后, 要调用unlock释放业务锁, 触发watcher事件. 如果拿到业务锁的线程中途退出了并未执行unlock, zookeeper在检查到客户节点退出后, 也会将对应的节点删除, 也会触发watcher事件.
public class DistributedLock { private final ZooKeeper zk; private final String lockBasePath; private final String lockName; private String lockPath; public DistributedLock(ZooKeeper zk, String lockBasePath, String lockName) { this.zk = zk; this.lockBasePath = lockBasePath; this.lockName = lockName; } public void lock() throws IOException { try { // lockPath will be different than (lockBasePath + "/" + lockName) becuase of the sequence number ZooKeeper appends lockPath = zk.create(lockBasePath + "/" + lockName, null, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL); final Object lock = new Object(); // The requests in the same jvm will be blocked here waiting for wait() or notifyAll(). This will prevent missing notifications. synchronized(lock) { while(true) { List<String> nodes = zk.getChildren(lockBasePath, new Watcher() { @Override public void process(WatchedEvent event) { synchronized (lock) { // When the brother nodes are changed, all waiting threads will be notified. lock.notifyAll(); } } }); Collections.sort(nodes); // ZooKeeper node names can be sorted lexographically if (lockPath.endsWith(nodes.get(0))) { return; } else { // This will give up the lock and wait the next notification. When woken up, it will go through the WHILE block again lock.wait(); } } } } catch (KeeperException e) { throw new IOException (e); } catch (InterruptedException e) { throw new IOException (e); } } public void unlock() throws IOException { try { // This will trigger the Watcher.process() zk.delete(lockPath, -1); lockPath = null; } catch (KeeperException e) { throw new IOException (e); } catch (InterruptedException e) { throw new IOException (e); } } }
Jedis实现的队列
利用 Redis 的 LIST 类型数据的 RPUSH 和 BLPOP 方法实现消息的生产和消费
public long rpush(final String... value) { if (value == null) return -1; return (Long) execute((Jedis jedis) -> jedis.rpush(getId(), value)); } public long rpushObject(final Object value) { if (value == null) return -1; return (Long) execute((Jedis jedis) -> jedis.rpush(getId().getBytes(), SerializeUtil.serialize(value))); } public long rpushObject(final Object... value) { if (value == null || value.length == 0) return -1; return (Long) execute((Jedis jedis) -> jedis.rpush(getId().getBytes(), SerializeUtil.serialize(value))); } public List<String> blpop(int timeout) { return (List<String>) execute((Jedis jedis)-> jedis.blpop(timeout, getId())); } public List<Object> blpopObject(int timeout) { return (List<Object>)execute((Jedis jedis) -> { List<Object> objects = new ArrayList<>(); List<byte[]> bytesList = jedis.blpop(timeout, getId().getBytes()); for (byte[] bytes : bytesList) { objects.add(SerializeUtil.unserialize(bytes)); } return objects; }); }
业务中使用队列
@Override public long lRpush(String id, String value) { return factory.getList(id).rpush(value); } @Override public long lRpushObject(String id, Object value) { return factory.getList(id).rpushObject(value); } @Override public List<String> lBlpop(String id, int timeout) { return factory.getList(id).blpop(timeout); } @Override public List<Object> lBlpopObject(String id, int timeout) { return factory.getList(id).blpopObject(timeout); } /* * ========================================= */ @Override public long pushToQueue(int type, String id) { QueueItemDTO item = new QueueItemDTO(type, id); String value = JacksonUtils.compressObject(item); if (redisService.sIsMember(REDIS_SET_TRANS, value)) { logger.info("Item:{} exists in queue, skip.", value); return 0; } redisService.sAdd(REDIS_SET_TRANS, value); long size = redisService.lRpush(REDIS_QUEUE_TRANS, value); logger.info("Request:{} pushed to queue. size:{}", value, size); return size; } @Override public QueueItemDTO readQueue() { List<String> list = redisService.lBlpop(REDIS_QUEUE_TRANS, 5); if (list != null && list.size() > 1) { logger.info("Queue:{}, pop:{}", list.get(0), list.get(1)); redisService.sRemove(REDIS_SET_TRANS, list.get(1)); return JacksonUtils.extractObject(list.get(1), QueueItemDTO.class); } else { return null; } }
.