代码改变世界

消息队列

2016-08-24 18:40  瞬间永恒成功  阅读(1326)  评论(0编辑  收藏  举报

1、为什么需要消息队列?
当系统中出现“生产“和“消费“的速度或稳定性等因素不一致的时候,就需要消息队列,作为抽象层,弥合双方的差异。

举个例子:业务系统触发短信发送申请,但短信发送模块速度跟不上,需要将来不及处理的消息暂存一下,缓冲压力。 
再举个例子:调远程系统下订单成本较高,且因为网络等因素,不稳定,攒一批一起发送。 
再举个栗子,交互模块5:00到24:00和电商系统联通,和内部ERP断开。1:00到4:00和ERP联通,和电商系统断开。 
再举个例子,服务员点菜快,厨师做菜慢。 
再举个例子,到银行办事的人多,提供服务的窗口少。 
乖乖排队吧。
2、使用消息队列有什么好处?
2.1、提高系统响应速度
使用了消息队列,生产者一方,把消息往队列里一扔,就可以立马返回,响应用户了。无需等待处理结果。
处理结果可以让用户稍后自己来取,如医院取化验单。也可以让生产者订阅(如:留下手机号码或让生产者实现listener接口、加入监听队列),有结果了通知。获得约定将结果放在某处,无需通知。
2.2、提高系统稳定性
考虑电商系统下订单,发送数据给生产系统的情况。 
电商系统和生产系统之间的网络有可能掉线,生产系统可能会因维护等原因暂停服务。
如果不使用消息队列,电商系统数据发布出去,顾客无法下单,影响业务开展。 
两个系统间不应该如此紧密耦合。应该通过消息队列解耦。同时让系统更健壮、稳定。
3、为什么需要分布式?
3.1、多系统协作需要分布式
消息队列中的数据需要在多个系统间共享数据才能发挥价值。 
所以必须提供分布式通信机制、协同机制。
3.2、单系统内部署环境需要分布式
单系统内部,为了更好的性能、为了避免单点故障,多为集群环境。 
集群环境中,应用运行在多台服务器的多个JVM中;数据也保存在各种类型的数据库或非数据库的多个节点上。 
为了满足多节点协作需要,需要提供分布式的解决方案。
4、分布式环境下需要解决哪些问题
4.1、并发问题
需进行良好的并发控制。确保“线程安全“。
不要出现一个订单被出货两次。不要出现顾客A下的单,发货发给了顾客B等情况。
4.2、简单的、统一的操作机制
需定义简单的,语义明确的,业务无关的,恰当稳妥的统一的访问方式。
4.3、容错
控制好单点故障,确保数据安全。
4.4、可横向扩展
可便捷扩容。
5、如何实现?
成熟的消息队列中间件产品太多了,族繁不及备载。
成熟产品经过验证,接口规范,可扩展性强。
结合事业环境因素、组织过程遗产、实施运维考虑、技术路线考虑、开发人员情况等原因综合考虑,基于Redis自己做一个是最可行的选择。



1、消息队列需提供哪些功能?
在功能设计上,我崇尚奥卡姆剃刀法则。 
对于消息队列,只需要两个方法: 生产 和 消费。 
具体的业务场景是任务队列,代码设计如下:
public abstract class TaskQueue{
    private final String name ;
    public String getName(){return this.name;}
    public abstract void addTask(Serializable taskId);
    public abstract Serializable popTask();
}
同时支持多个队列,每个队列都应该有个名字。final确保TaskQueue是线程安全的。TaskQueue的实现类也应该确保线程安全。
addTask向队列中添加一个任务。队列中仅保存任务的id,不存储任务的业务数据。
popTask从队列中取出一个任务来执行。 
这种设计不是特别友好,因为她需要调用者自行保证任务执行成功,如果执行失败,自行确保重新把任务放回队列。 无论如何,这种机制是可以工作的。想想奥卡姆剃刀法则,我们先按照这个设计实现出来看看。 
如果调用者把业务数据存在数据库中,业务数据中包含“状态“列,标识任务是否被执行,调用者需要自行管理这个状态,并控制事务。
popTask采用阻塞方式,还是非阻塞方式呢? 
如果采用阻塞方式,队列中没任务的时候,客户端不会断开连接,只是等。 
一般情况下,客户端会有多个worker抢着干活儿,几条狼一起等一个肉包子,画面太美。连接是重要资源,如果一直没活儿干,先放回池里,也不错。 
先采用非阻塞的方式吧,如果队列是空的,popTask返回null,立即返回。
2、后续可能提供的功能
2.1、引入Task生命周期概念
应用场景不同,需求也不同。 
在严格的应用场景中,需要确保每个Task执行“成功“了。 
对于上面提到的popTask后不管的“模式“,这是另外一种“运行模式“,两种模式可以并行存在。
在这种新模式下,Task状态有3种:新创建(new,刚调用addTask加到队列中)、正在执行(in-process,调用popTask后,调用finish前)、完成(done,执行OK了,调用finishTask后)。 
调整后的代码如下:
public abstract class TaskQueue{
    private final String name ;
    public String getName(){return this.name;}
    public abstract int getMode();
    public abstract void addTask(Serializable taskId);
    public abstract Serializable popTask();
    public abstract void finishTask(Serializable taskId);
}
2.2、增加批量取出任务的功能
popTask()一次取出一个任务,太磨叽了。 
好比我们要买5瓶水,开车去超市买,每去一次买1瓶,有点儿啥。 
我们需要一个一次取多个任务的方法。
public abstract class TaskQueue{
    ... ...
    public abstract Serializable[] popTasks(long cnt);
}1
2.3、增加阻塞等待机制
想象一种场景: 
小明同学,取出一个任务,发现干不了,放回队列,再去取,取出来发现还是干不了,又放回去。反反复复。 
小明童鞋肿么了?可能是他干活需要网络,网络断了。可能是他做任务需要写磁盘,磁盘满了。
如果小明像邻居家的孩子一样优秀,当他发现哪里不对的时候,他应该冷静下来,歇会儿。
但他万一不是呢?只有我们能帮他了。
假如队列中有10000个待办任务。 
这时候小明来了。他失败100次后,我们应该拦他吗?不应该,除非他主动要求(在系统参数中配置)。5000次后呢?也不应该,除非他主动要求。我们的原则是:我们做的所有事情,对于调用者,都是可以预期的。
我们可以在系统参数中要求调用者设置一个阀值N,如果不设置,默认为100。连续失败N次后,让调用者睡一会儿,睡多长时间,让调用者配置。
假如我们的底层实现中包含待办子队列、重做子队列和完成子队列(这种设计好复杂!pop的时候先pop重做,还是先pop待办,复杂死了!但愿不需要这样)。 
待办子队列中有10000个任务。
在小明失败10000次后,所有的任务都在重做子队列了。这时候我们应该拦他吗? 
重做子队列要不要设置大小,超过之后,让下一个访问者等。 
等的话就会涉及超时,超时后,任务也不能丢弃。 
太复杂 了!设置一个连续失败次数的限制就够了!
2.4、考虑增加Task类
不保存任务的相关数据是基本原则,绝对不动摇。 
增加Task类可以管理下生命周期,更有用的是,可以把Task本身设计成Listener,代码大概时这样的:
public abstract class Task{
    public Serializable getId();
    public int getState();
    pubic void doTask();
    public void whenAdded(final TaskQueue tq);
    public void whenPoped(final TaskQueue tq);
    // public void whenFaild(final TaskQueue tq);
    public void whenFinished(final TaskQueue tq);
}
通过Task接口,我们可以对调用过程进行更强势的管理(如进行事务控制),对调用者施加更强的控制,用户也可以获得更多的交互机会,同TaskQueue有更好的交互(如在whenFinished中做持久化工作)。
但这些真的有必要吗?是不是太侵入了?注解的方式会好些吗? 
再考虑吧。
2.5、增加系统参数
貌似需要个Config类了,不爽! 
本来想做一个很小很精致的小东西的,如果必须再加吧。 
如果做的话,需要支持properties、注解设置、api方式设置、Spring注入式设置,烦。
次回预告:Redis本身机制和TaskQueue的契合。



1、Redis是什么鬼?
Redis是一个简单的,高效的,分布式的,基于内存的缓存工具。 
假设好服务器后,通过网络连接(类似数据库),提供Key-Value式缓存服务。
简单,是Redis突出的特色。 
简单可以保证核心功能的稳定和优异。
2、性能
性能方面:Redis是足够高效的。 
和Memecached对比,在数据量较小大情况下,Redis性能更优秀。 
数据量大到一定程度的时候,Memecached性能稍好。
简单结论:但总体上讲Redis性能已经足够好。
// Ref: Redis性能测试 http://www.cnblogs.com/lulu/archive/2013/06/10/3130878.html 
原则:Value大小不要超过1390Byte。
经实验得知: 
List操作和字符串操作性能相当,略差,几乎可以忽略。 
使用Jedis自带pool,“每次从pool中取用完放回“ 和 “重用单个连接“ 相比,平均用时是3倍。这部分需要继续研究底层机制,采用更合理的实验方法进一步获得数据。 
使用Jedis自带pool,性能上是满足当前访问量需要的,等有时间了再进一步深入。
3、数据类型
Redis支持5种数据类型:字符串、Map、List、Set、Sorted Set。 
List特别适合用于实现队列。提供的操作包括: 
从左侧(或右侧)放入一个元素,从右侧(或左侧)取出一个元素,读取某个范围的元素,删除某个范围的元素。
Sorted Set中元素是唯一的,可以通过名字找。 
Map可以高效地通过key找。 
假如我们需要实现finishTash(taskId),需要通过名字在队列中找元素,上面两个可能会用到。
4、原子操作
实现分布式队列首要问题是:不能出现并发问题。
Redis是底层是单线程的,命令执行是原子操作,支持事务,契合了我们的需求。
Redis直接提供的命令都是原子操作,包括lpush、rpop、blpush、brpop等。
Redis支持事务。通过类似 begin…[cancel]…commit的语法,提供begin…commit之间的命令为原子操作的功能,之间命令对数据的改变对其他操作是不可见的。类似关系型数据库中的存储过程,同时提供了最高级别的事务隔离级别。
Redis支持脚本,每个脚本的执行是原子性的。
做了一下并发测试: 
写了个小程序,随机对List做push或pop操作,push的比pop的稍多。 
记录每次处理的详细信息到数据库。 
最后把List中数据都pop出来,详细记录每次pop详细信息。 
统计push和pop是否相等,统计针对每条数据是否都有push和pop。 
500并发,没有出现并发问题。
5、集群
实现分布式队列另一个重要问题是:不能出现单点故障。
Redis支持Master-Slave数据复制,从服务器设置 slave-of master-ip:port 即可。 
集群功能可以由客户端提供。 
客户端使用哨兵,可自动切换主服务器。
由于队列操作都是写操作,从服务器主要目的是备份数据,保证数据安全。
如果想基于 sharding 做多master集群,可以结合 zookeeper 自己做。
Redis 3.0支持集群了,还没细看,应该是个好消息,等大家都用起来,没什么问题的话,可以考虑试试看。
如果 master 宕掉,怎么办? 
“哨兵”会选出一个新的master来。产生过程中,消息队列暂停服务。 
最极端的情况,所有Redis都停了,当消息队列发现Redis停止响应时,对业务系统的请求应抛出异常,停止队列服务。 
这样会影响业务,业务系统下订单、审批等操作会失败。如果可以接受,这是一种方案。 
Redis整个集群宕掉,这种情况很少发生,如果真发生了,业务系统停止服务也是可以理解的。
如果想要在Redis整个集群宕掉的情况下,消息队列仍继续提供服务。 
方法是这样的: 
启用备用存储机制,可以是zookeeper、可以是关系型数据库、可以是另外可用的Memecached等。 
本地内存存储是不可取的,首先,同步多个客户端虚拟机内存数据太复杂,相当于自己实现了一个Redis,其次,保证内存数据存储安全太复杂。 
备用存储机制相当于实现了另外一个版本的消息队列,逻辑一致,底层存储不同。这个实现可以性能低一些,保证最基本的原则即可。 
想要保证不出现并发问题,由于消息队列程序同时运行在多个虚拟机中,对象锁、方法锁无效。需要有一个独立于虚拟机的锁机制,zookeeper是个好选择。 
将关系型数据库设置为最高级别的事务隔离级别,太傻了。除了zk有其他好办法吗?
Redis集群整个宕掉的同时Zookeeper也全军覆没怎么办? 
这个问题是没有尽头的,提供了第二备用存储、第三备用存储、第四备用存储、…,理论上也会同时宕掉,那时候怎么办? 
有钱任性的土豪可以继续,预算有限的情况,能做到哪步就做到哪步。
6、持久化
分布式队列的应用场景和缓存的应用场景是不一样的。
如果有没来得及持久化的数据怎么办? 
从业务系统的角度,已经成功发送给消息队列了。 
消息队列也以为Redis妥妥地收好了。 
可Redis还没写到日记里,更没有及时通知小伙伴,挂了。可能是断电了,可能是进程被kill了。
后果会怎样? 
已经执行过的任务会再次执行一遍。 
已经放到队列中的任务,消失了。 
标记为已经完成的任务,状态变为“进行中”了,然后又被执行了一遍。 
后果不可接受。
分布式队列不允许丢数据。 
从业务角度,哪怕丢1条数据也是无法接受的。 
从运维角度,Redis丢数据后,如果可以及时发现并补救,也是可以接受的。
从架构角度,队列保存在Redis中,业务数据(包括任务状态)保存在关系型数据库中。 
任务状态是从业务角度确定的,消息队列不应该干涉。如果业务状态没有统一的规范和定义,从业务数据比对任务队列是否全面正确,就只能交给业务开发方来做。 
从分工上来看,任务队列的目的是管理任务执行的状态,业务系统把这个职责交给了任务队列,业务系统自身的任务状态维护未必准确。 
结论:任务队列不能推卸责任,不能丢数据是核心功能,不能打折扣。
采用 Master-Slave 数据复制模式,配置bgsave,追加存储到aof。
在从服务器上配置bgsave,不影响master性能。
队列操作都是写操作,master任务繁重,能让slave分担的持久化工作,就不要master做。
rdb和aof两种方法都用上,多重保险。 
appendfsync设为always。// 单节点测性能,连续100000次算平均时间,和per second比对,性能损失不大。 
性能会有些许损失,但任务执行为异步操作,无需用户同步等待,为了保证数据安全,这样是值得的。
当运维需要重启Master服务器的时候,采取这样的顺序: 
1. 通过 cli shutdown 停止master服务器, master交代完后事后,关掉自己。这时候“哨兵”会找一个新的master出来。 
万万不可以直接kill或者直接打开防火墙中断master和slave之间的连接。 
master 对外防火墙,停止对外服务,Master 自动切换到其他服务器上, 原 Master 继续持久化 aof,发送到原来各从服务器。 
2. 在原 master 上进行运维操作。 
3. 启动原 master,这时候它已经是从服务器了。耐心等待它从新 master 获取最新数据。观察 redis 日志输出,确认数据安全。 
4. 对新的 master 重复1-3的操作。 
5. 将以上操作写成脚本,自动化执行,避免人为错误。

 

1、访问Redis的工具类
public class RedisManager {
    private static Pool<Jedis> pool;
    protected final static Logger logger = Logger.getLogger(RedisManager.class);
    static{
        try {
            init();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    public static void init() throws Exception {
        Properties props = ConfigManager.getProperties("redis");
        logger.debug("初始化Redis连接池。");
        if(props==null){
            throw new RuntimeException("没有找到redis配置文件");
        }
        // 创建jedis池配置实例
        JedisPoolConfig jedisPoolConfig = new JedisPoolConfig();
        // 设置池配置项值
        int poolMaxTotal = Integer.valueOf(props.getProperty("redis.pool.maxTotal").trim());
        jedisPoolConfig.setMaxTotal(poolMaxTotal);
        int poolMaxIdle = Integer.valueOf(props.getProperty("redis.pool.maxIdle").trim());
        jedisPoolConfig.setMaxIdle(poolMaxIdle);
        long poolMaxWaitMillis = Long.valueOf(props.getProperty("redis.pool.maxWaitMillis").trim());
        jedisPoolConfig.setMaxWaitMillis(poolMaxWaitMillis);
        logger.debug(String.format("poolMaxTotal: %s , poolMaxIdle : %s , poolMaxWaitMillis : %s ",
                poolMaxTotal,poolMaxIdle,poolMaxWaitMillis));
        // 根据配置实例化jedis池
        String connectMode = props.getProperty("redis.connectMode");
        String hostPortStr = props.getProperty("redis.hostPort");
        logger.debug(String.format("host : %s ",hostPortStr));
        logger.debug(String.format("mode : %s ",connectMode));
        if(StringUtils.isEmpty(hostPortStr)){
            throw new OptimusException("redis配置文件未配置主机-端口集");
        }
        String[] hostPortSet = hostPortStr.split(","); 
        if("single".equals(connectMode)){
            String[] hostPort = hostPortSet[0].split(":");
            pool = new JedisPool(jedisPoolConfig, hostPort[0], Integer.valueOf(hostPort[1].trim()));
        }else if("sentinel".equals(connectMode)){
            Set<String> sentinels = new HashSet<String>();    
            for(String hostPort : hostPortSet){
                sentinels.add(hostPort);
            }
            pool = new JedisSentinelPool("mymaster", sentinels, jedisPoolConfig);
        }
    }
    /**
    * 使用完成后,必须调用 returnResource 还回。
    * @return 获取Jedis对象
    */
    public static Jedis getResource(){
        Jedis jedis = pool.getResource();
        if(logger.isDebugEnabled()){
            logger.debug("获得链接:" + jedis);
        }
        return jedis;
    }
    /**
    * 获取Jedis对象。
    * 
    * 用完后,需要调用returnResource放回连接池。
    * 
    * @param db 数据库序号
    * @return
    */
    public static Jedis getResource(int db){
        Jedis jedis = pool.getResource();
        jedis.select(db);
        if(logger.isDebugEnabled()){
            logger.debug("获得链接:" + jedis);
        }
        return jedis;
    }
    /**
    * @param jedis
    */
    public static void returnResource(Jedis jedis){
        if(jedis!=null){
            pool.returnResource(jedis);
            if(logger.isDebugEnabled()){
                logger.debug("放回链接:" + jedis);
            }
        }
    }
    /**
    * 需要通过Spring确认这个方法被调用。
    * @throws Exception
    */
    public static void destroy() throws Exception {
        pool.destroy();
    }
}
这个类没有通过技术手段强制调用returnResource和destroy,需要想想办法。
2、队列接口
public interface TaskQueue {
    /**
    * 获取队列名
    * @return
    */
    String getName();
    /**
    * 往队列中添加任务
    * @param task
    */
    void pushTask(String task);
    /**
    * 从队列中取出一个任务
    * @return
    */
    String popTask();
}
用String类型描述任务,也可以考虑byte[],要求对每个任务描述的数据尽可能短。
3、队列的Redis实现类
/**
* 任务队列Redis实现。

* 采用每次获取Jedis并放回pool的方式。
* 如果获得Jedis后一直不放手,反复重用,两个操作耗时可以降低1/3。
* 暂时先忍受这种低性能,不明确Jedis是否线程安全。
*
*/
public class TaskQueueRedisImpl implements TaskQueue {
    private final static int REDIS_DB_IDX = 9;
    private final static Logger logger = Logger.getLogger(TaskQueueRedisImpl.class);
    private final String name;
    /**
    * 构造函数。
    * 
    * @param name
    */
    public TaskQueueRedisImpl(String name) {
        this.name = name;
    }
    /* (non-Javadoc)
    * @see com.gwssi.common.mq.TaskQueue#getName()
    */
    public String getName() {
        return this.name;
    }
    /* (non-Javadoc)
    * @see com.gwssi.common.mq.TaskQueue#pushTask(String)
    */
    public void pushTask(String task) {
        Jedis jedis = null;
        try{
            jedis = RedisManager.getResource(REDIS_DB_IDX);
            jedis.lpush(this.name, task);
        }catch(Throwable e){
            logger.error(e.getMessage(),e);
        }finally{
            if(jedis!=null){
                RedisManager.returnResource(jedis);
            }
        }
    }
    /* (non-Javadoc)
    * @see com.gwssi.common.mq.TaskQueue#popTask()
    */
    public String popTask() {
        Jedis jedis = null;
        String task = null;
        try{
            jedis = RedisManager.getResource(REDIS_DB_IDX);
            task = jedis.rpop(this.name);
        }catch(Throwable e){
            logger.error(e.getMessage(),e);
        }finally{
            if(jedis!=null){
                RedisManager.returnResource(jedis);
            }
        }
        return task;
    }
}
4、获取队列实例的工具类
/**
* <pre>
*  // 获得队列
*  TaskQueue tq = TaskQueueManager.get(TaskQueueManager.SMS_QUEUE);
*  
*  // 添加任务到队列
*  String task = "task id";
*  tq.pushTask(task);

*  // 从队列中取出任务执行
*  String taskToDo = tq.popTask();
* </pre>
* @author liuhailong
*/
public class TaskQueueManager {
    protected final static Logger logger = Logger.getLogger(TaskQueueManager.class);
    private static Map<String, TaskQueueRedisImpl> queneMap = new ConcurrentHashMap<String, TaskQueueRedisImpl>();
    /**
    * 短信队列名。
    */
    public static final String SMS_QUEUE = "SMS_QUEUE";
    /**
    * 规则队列名。
    */
    public static final String RULE_QUEUE = "RULE_QUEUE";
    private static void initQueneMap() {
        logger.debug("初始化任务队列...");
        queneMap.put(RULE_QUEUE, new TaskQueueRedisImpl(RULE_QUEUE));
        logger.debug("建立队列:"+RULE_QUEUE);
        queneMap.put(SMS_QUEUE, new TaskQueueRedisImpl(SMS_QUEUE));
        logger.debug("建立队列:"+SMS_QUEUE);
    }
    static {
        initQueneMap();
    }
    public static TaskQueue get(String name){
        return getRedisTaskQueue(name);
    }
    public static TaskQueue getRedisTaskQueue(String name){
        return queneMap.get(name);
    }
}
和具体的队列过于紧耦合,但简单好用。 
先跑起来再说。
5、向队列中添加任务的代码
TaskQueue tq = TaskQueueManager.get(TaskQueueManager.SMS_QUEUE);
tq.pushTask(smsMessageId);1
6、从队列中取出任务执行的代码
public class SmsSendTask{
    protected final static Logger logger = Logger.getLogger(SmsSendTask.class);
    protected static SmsSendService smsSendService = new SmsSendServiceUnicomImpl();
    /**
    * 入口方法。
    */
    public void execute()  {
        TaskQueue taskQueue = null;
        String task = null;
        try {
            taskQueue = TaskQueueManager.get(TaskQueueManager.SMS_QUEUE);
            // 非线程安全
            Set<Serializable> executedTaskSet = new HashSet<Serializable>();
            task = taskQueue.popTask();
            while(task!=null){
                // 判断是否把所有任务都执行一遍了,避免死循环
                if(executedTaskSet.contains(task)){
                    taskQueue.pushTask(task);
                    break;
                }
                executeSingleTask(taskQueue,task);
                task = taskQueue.popTask();
            }
        }catch(Throwable e){
            logger.error(e.getMessage(),e);
            e.printStackTrace();
        }
    }
    /**
    * 发送单条短信。
    * 
    * 取出任务并执行,如果失败,放回任务列表。
    * 
    * @param taskQueue
    * @param task
    */
    @SuppressWarnings({ "rawtypes", "unchecked" })
    private void executeSingleTask(TaskQueue taskQueue, String task) {
        try {
            // do the job
            String smsId = task;
            Map<String,String> sms = smsSendService.getSmsList(smsId);
            smsSendService.send(sms);
            smsSendService.updateSmsStatus(task,SmsSendService.STATUS_SENT);
            String opType = "2";
            TaskQueueUtil.taskLog(taskQueue.getName(), opType, task);
        } catch (Throwable e) {
            if(task!=null){
                taskQueue.pushTask(task);
                smsSendService.updateSmsStatus(task,SmsSendService.STATUS_WAIT);
                if(logger.isDebugEnabled()){
                    logger.error(String.format("任务%s执行失败:%s,重新放回队列", task, e.getMessage()));
                }
            }else {
                e.printStackTrace();
            }
        }
    }
}
这部分代码是固定模式,而且不这样做存在重大缺陷,会有任务执行失败,被丢弃,这部分代码应该写到队列实现中。 
有空再改。