http://www.10tiao.com/html/490/201608/2648672432/1.html

7月29日下午,在滴滴,有幸邀请到了业界的一些同学,一起就「redis规模化运维」踩过的坑和最佳实践,做了深入的讨论和交流。知识是无价的,分享却是无私的,非常感谢各位朋友们的参与。「世上本没有路,填的坑多了,便成了路」共勉。

 

滴滴codis集群运维实践

主讲人:曾凡禹、刑惺

 

codis是滴滴业务依赖最重的基础服务之一,上千台服务器,上百套集群。过多的集群,给运维上带来了很多的挑战和阻碍,这是由于对codis的集群稳定性把控不足,为了减少单个集群故障对业务的影响范围,所以不得已而为之,物理上的隔离造成了集群数量变多,同时资源利用率无法最大化。

 

滴滴的同学,给我们从以下几个方面,做了拆解:

  • 滴滴redis架构的演进

  • codis在运维中存在的一些问题

  • codis连接关闭慢引发的事故

  • 滴滴对于codis的一些改进

     

 


 

小米redis运维实践 

主讲人:卓汝林、张文

 

小米的同学,从redis-cluster3.0 beta7(2014年6月),就开始引入生产环境尝试,到目前的百余个集群,数千个节点的规模,单个集群内存容量1TB+,15亿+的键,百万级QPS的吞吐量,其中经历了各种各样的问题,也积累了丰富的实践经验。

 

汝林从以下几个方面为我们做了精彩的呈现:

 

  • RedisCluster在小米的运营简介  

  • Redis Monitor  and Alarm

  • Redis Troubleshooting cases

  • Redis Cluster capacity planning

  • Redis大规模运营过程遇到的问题

 

从汝林的分享中,我们深深感受到了小米的同学,精细化运维的态度和追求极致的精神,以监控为例,监控维度覆盖了CPU、IO、Memory、Network、Latency、再到redis自身运行相关的业务指标,都做了详尽的覆盖和研究,确保了集群的运行状态都处于可控、透明的状态。

 



 

此外,汝林也细数了在redis cluster运维过程中,踩过的各种坑,以及对应的排查思路和解决方案,从理论到实践,都做了非常详细的阐述,是不可多得的第一手资料。

 


 

优酷蓝鲸系统简介

主讲人:吴建超 

 

吴建超同学,分享了优酷基于redis cluster所构建的一体化存储解决方案,为我们打开了另外一种思路,感受到了不同的运维风格。

 

  • 集群目前的状况

  • 集群结构

  • 我们在SDK方面的工作

  • 我们在运维方面的工作

  • 监控、报警

  • 重写运维脚本

 


 

 

微博redis服务化之路 

主讲人:曹增涛 

 

微博作为国内最早大规模使用redis的公司之一,在redis方面做了非常多的探索和优化。曹增涛同学,从以下方面给大家做了深入的分享。

 

  • redis在微博应用介绍

  • redis在微博架构中的应用

  • redis运维中遇到的一些问题及改造

  • redis服务化之路

 

微博在对redis的持续优化中,最令人印象深刻的,包括有“主从优化”、“支持动态升级”、“持久化优化”,其中动态升级,在规模化运维中,能帮助我们大幅提升效率。

在高可用方面,采用一主多从,故障自动选主等手段来保障,同时通过优化“主从同步”来提升效率和保障可用性。

redis作为使用最广泛的服务,如何与整个运维体系打通,提升运维效率,也是至关重要的。

 

 


 

 

 

Redis in Baidu

主讲人:闫宇 

 

百度云的闫宇同学,则着重从服务化的角度,详细的拆解了,redis在百度云的应用场景、优化、运维实践等方面,让我们感受到了“大厂的风范”:)

一个场景分析和改造的案例:

 

redis服务化支撑体系

 


 

饿了么redis运维实践

主讲人:郭浩川

 

最后,浩川同学,介绍了饿了么在redis运维自动化方面的工作,非常精彩,同时也分享了饿了么在运维过程中踩过的坑...

分享了他们在运维过程中总结出来的一些最佳实践

饿了么的redis监控非常体系化,给大家留下了非常深的印象。

 

 


 

送上现场照片,感谢各位朋友一起交流

 

 

posted on 2018-07-13 15:42  一天不进步,就是退步  阅读(254)  评论(0编辑  收藏  举报