记一次redis规模化运维讨论会

http://www.10tiao.com/html/490/201608/2648672432/1.html

7月29日下午，在滴滴，有幸邀请到了业界的一些同学，一起就「redis规模化运维」踩过的坑和最佳实践，做了深入的讨论和交流。知识是无价的，分享却是无私的，非常感谢各位朋友们的参与。「世上本没有路，填的坑多了，便成了路」共勉。

滴滴codis集群运维实践

主讲人：曾凡禹、刑惺

codis是滴滴业务依赖最重的基础服务之一，上千台服务器，上百套集群。过多的集群，给运维上带来了很多的挑战和阻碍，这是由于对codis的集群稳定性把控不足，为了减少单个集群故障对业务的影响范围，所以不得已而为之，物理上的隔离造成了集群数量变多，同时资源利用率无法最大化。

滴滴的同学，给我们从以下几个方面，做了拆解：

滴滴redis架构的演进
codis在运维中存在的一些问题
codis连接关闭慢引发的事故
滴滴对于codis的一些改进

小米redis运维实践

主讲人：卓汝林、张文

小米的同学，从redis-cluster3.0 beta7（2014年6月），就开始引入生产环境尝试，到目前的百余个集群，数千个节点的规模，单个集群内存容量1TB+，15亿+的键，百万级QPS的吞吐量，其中经历了各种各样的问题，也积累了丰富的实践经验。

汝林从以下几个方面为我们做了精彩的呈现：

RedisCluster在小米的运营简介
Redis Monitor and Alarm
Redis Troubleshooting cases
Redis Cluster capacity planning
Redis大规模运营过程遇到的问题

从汝林的分享中，我们深深感受到了小米的同学，精细化运维的态度和追求极致的精神，以监控为例，监控维度覆盖了CPU、IO、Memory、Network、Latency、再到redis自身运行相关的业务指标，都做了详尽的覆盖和研究，确保了集群的运行状态都处于可控、透明的状态。

此外，汝林也细数了在redis cluster运维过程中，踩过的各种坑，以及对应的排查思路和解决方案，从理论到实践，都做了非常详细的阐述，是不可多得的第一手资料。

优酷蓝鲸系统简介

主讲人：吴建超

吴建超同学，分享了优酷基于redis cluster所构建的一体化存储解决方案，为我们打开了另外一种思路，感受到了不同的运维风格。

集群目前的状况
集群结构
我们在SDK方面的工作
我们在运维方面的工作
监控、报警
重写运维脚本

微博redis服务化之路

主讲人：曹增涛

微博作为国内最早大规模使用redis的公司之一，在redis方面做了非常多的探索和优化。曹增涛同学，从以下方面给大家做了深入的分享。

redis在微博应用介绍
redis在微博架构中的应用
redis运维中遇到的一些问题及改造
redis服务化之路

微博在对redis的持续优化中，最令人印象深刻的，包括有“主从优化”、“支持动态升级”、“持久化优化”，其中动态升级，在规模化运维中，能帮助我们大幅提升效率。

在高可用方面，采用一主多从，故障自动选主等手段来保障，同时通过优化“主从同步”来提升效率和保障可用性。

redis作为使用最广泛的服务，如何与整个运维体系打通，提升运维效率，也是至关重要的。

Redis in Baidu

主讲人：闫宇

百度云的闫宇同学，则着重从服务化的角度，详细的拆解了，redis在百度云的应用场景、优化、运维实践等方面，让我们感受到了“大厂的风范”：）

一个场景分析和改造的案例：

redis服务化支撑体系

饿了么redis运维实践

主讲人：郭浩川

最后，浩川同学，介绍了饿了么在redis运维自动化方面的工作，非常精彩，同时也分享了饿了么在运维过程中踩过的坑...

分享了他们在运维过程中总结出来的一些最佳实践

饿了么的redis监控非常体系化，给大家留下了非常深的印象。

送上现场照片，感谢各位朋友一起交流

posted on 2018-07-13 15:42 一天不进步，就是退步阅读(282) 评论(0) 收藏举报

刷新页面返回顶部