随笔档案「2014年1月28日」：Building LinkedIn’s Real-time Activity ... - Django's blog

2014年1月28日

Building LinkedIn’s Real-time Activity Data Pipeline

摘要：转自：http://blog.163.com/guaiguai_family/blog/static/20078414520138911393767/http://sites.computer.org/debull/A12june/pipeline.pdf这一套可以成为互联网公司的标准基础架构了，摘要如下：把数据的 source of truth 放在数据总线里，而非 Hadoop 和数据仓库里。这是个很违反直觉的做法，但得益与 Kafka 巧妙的数据持久性以及分区、备份的设计，数据总线成了实时系统和批处理系统的非常可靠的数据源头，兼顾两种处理范式；ActiveMQ 各种问题，不堪数据收集重任阅读全文

posted @ 2014-01-28 11:09 Django's blog 阅读(425) 评论(0) 推荐(0)

Apache Flume 简介

摘要：转自：http://blog.163.com/guaiguai_family/blog/static/20078414520138100562883/Flume 是 Cloudera 公司开源出来的一套日志收集系统，早期版本依赖 ZooKeeper，现在的 FumeNG 去掉了这个依赖，我没用过之前的版本，想来失去整个日志收集系统的全局视图是挺可惜的，但 FlumeNG 上手以及使用挺简单，搭配监测系统也能用的不赖，有利有弊了:-)下图展示了一种常见的 Flume 使用场景，服务器上发送事件给本地的 Flume agent 或者让本地 Flume agent 去 tail -f 日志文件，日志阅读全文

posted @ 2014-01-28 10:57 Django's blog 阅读(1051) 评论(0) 推荐(0)

日志收集以及分析：Splunk

摘要：转自：http://blog.163.com/guaiguai_family/blog/static/20078414520132181010189/写代码的人都知道日志很重要，机器不多的时候，查看日志很简单，ssh 上去 grep + awk + perl 啥的 ad hoc 的搞几把就行，但面对上百台甚至上千台机器时，如何有效的收集和分析日志就成了个很头疼的事情。日志处理必然有如下过程：从各个服务器读取日志把日志存放到集中的地方挖掘日志数据，用友好的 UI 展示出来，最好能做到实时的输入表达式做过滤、聚合下面分三个方面聊聊，整个过程是需要多方配合的，包括写日志、读日志、转储日志、分析日志，阅读全文

posted @ 2014-01-28 10:54 Django's blog 阅读(3316) 评论(0) 推荐(0)

《淘宝技术这十年》读后感

摘要：《淘宝技术这十年》读后感转自：http://blog.163.com/guaiguai_family/blog/static/20078414520140273552602/2014-01-27 18:16:43|分类：系统管理|标签：乖乖公|举报|字号订阅花了两天时间扫了下，后面的列传没仔细看，整个的文风就是个 BBS 八卦体，写的很有趣味，对互联网从业人员也很有启发性，是本好书。下面记录下一些乱七八糟的思绪。淘宝一开始创业的技术并不高明，虽然有很多牛人，但感觉也只是很勤奋而已（个人觉得甚至有点矬，比如那个重启 sql relay 的活儿，哥啊，你们真的没整个自动监测并重启的脚本？另一个例子阅读全文

posted @ 2014-01-28 10:33 Django's blog 阅读(1101) 评论(0) 推荐(0)

Django's blog

公告