摘要: 转自:http://blog.163.com/guaiguai_family/blog/static/20078414520138911393767/http://sites.computer.org/debull/A12june/pipeline.pdf这一套可以成为互联网公司的标准基础架构了,摘要如下:把数据的 source of truth 放在数据总线里,而非 Hadoop 和数据仓库里。这是个很违反直觉的做法,但得益与 Kafka 巧妙的数据持久性以及分区、备份的设计,数据总线成了实时系统和批处理系统的非常可靠的数据源头,兼顾两种处理范式;ActiveMQ 各种问题,不堪数据收集重任 阅读全文
posted @ 2014-01-28 11:09 Django's blog 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.163.com/guaiguai_family/blog/static/20078414520138100562883/Flume 是 Cloudera 公司开源出来的一套日志收集系统,早期版本依赖 ZooKeeper,现在的 FumeNG 去掉了这个依赖,我没用过之前的版本,想来失去整个日志收集系统的全局视图是挺可惜的,但 FlumeNG 上手以及使用挺简单,搭配监测系统也能用的不赖,有利有弊了:-)下图展示了一种常见的 Flume 使用场景,服务器上发送事件给本地的 Flume agent 或者让本地 Flume agent 去 tail -f 日志文件,日志 阅读全文
posted @ 2014-01-28 10:57 Django's blog 阅读(1032) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.163.com/guaiguai_family/blog/static/20078414520132181010189/写代码的人都知道日志很重要,机器不多的时候,查看日志很简单,ssh 上去 grep + awk + perl 啥的 ad hoc 的搞几把就行,但面对上百台甚至上千台机器时,如何有效的收集和分析日志就成了个很头疼的事情。日志处理必然有如下过程:从各个服务器读取日志把日志存放到集中的地方挖掘日志数据,用友好的 UI 展示出来,最好能做到实时的输入表达式做过滤、聚合下面分三个方面聊聊,整个过程是需要多方配合的,包括写日志、读日志、转储日志、分析日志, 阅读全文
posted @ 2014-01-28 10:54 Django's blog 阅读(3221) 评论(0) 推荐(0) 编辑
摘要: 《淘宝技术这十年》读后感转自:http://blog.163.com/guaiguai_family/blog/static/20078414520140273552602/2014-01-27 18:16:43|分类:系统管理|标签:乖乖公|举报|字号订阅花了两天时间扫了下,后面的列传没仔细看,整个的文风就是个 BBS 八卦体,写的很有趣味,对互联网从业人员也很有启发性,是本好书。下面记录下一些乱七八糟的思绪。淘宝一开始创业的技术并不高明,虽然有很多牛人,但感觉也只是很勤奋而已(个人觉得甚至有点矬,比如那个重启 sql relay 的活儿,哥啊,你们真的没整个自动监测并重启的脚本?另一个例子 阅读全文
posted @ 2014-01-28 10:33 Django's blog 阅读(1089) 评论(0) 推荐(0) 编辑