TonyChai

2015年5月25日

摘要：在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flume的使用过程中，遇到的主要问题如下... 阅读全文

posted @ 2015-05-25 15:10 TonyChai 阅读(373) 评论(0) 推荐(0) 编辑

基于Flume的美团日志收集系统(一)架构和设计

摘要：美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计，将主要着眼于日志收集系... 阅读全文

posted @ 2015-05-25 15:09 TonyChai 阅读(1585) 评论(0) 推荐(0) 编辑

Flume环境部署和配置详解及案例大全

摘要： flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。一、什么是Flume? flume 作为 cloudera 开发... 阅读全文

posted @ 2015-05-25 14:44 TonyChai 阅读(728) 评论(0) 推荐(0) 编辑

2015年2月22日

Zookeeper工作原理

摘要： ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些... 阅读全文

posted @ 2015-02-22 16:36 TonyChai 阅读(236) 评论(0) 推荐(0) 编辑

2015年1月24日

Storm的容错性

摘要：一、简介如果在消息处理过程中出了一些异常，Storm 会重新安排这个出问题的 topology。Storm 保证一个 topology 永远运行（除非你显式杀掉这个 topology）。当然，如果 topology 中存储了中间状态，那么当 topology 重新被 Storm 启动的时候... 阅读全文

posted @ 2015-01-24 18:30 TonyChai 阅读(426) 评论(0) 推荐(0) 编辑

Storm中tuple的可靠性

摘要：一、简介 Storm 可以保证 spout 发出的每条消息都能被“完全处理” ，这也是直接区别于其他实时系统的地方，如 S4。请注意，spout 发出的消息后续可能会触发产生成千上万条消息，可以形象的理解为一棵消息树，其中 spout 发出的消息为树根， Storm会跟踪这棵消息树的处理情... 阅读全文

posted @ 2015-01-24 18:13 TonyChai 阅读(1167) 评论(0) 推荐(0) 编辑

Strom Topology执行分析：worker数，Bolt实例数，executor数，task数

摘要：在创建Storm的Topology时，我们通常使用如下代码：builder.setBolt("cpp", new CppBolt(), 3).setNumTasks(5).noneGrouping(pre_name);Config conf = new Config();conf.setNumWor... 阅读全文

posted @ 2015-01-24 17:34 TonyChai 阅读(389) 评论(0) 推荐(0) 编辑

2015年1月18日

漫游Kafka实现篇之消息和日志

摘要：消息格式消息由一个固定长度的头部和可变长度的字节数组组成。头部包含了一个版本号和CRC32校验码。[plain]view plaincopy/***具有N个字节的消息的格式如下**如果版本号是0**1.1个字节的"magic"标记**2.4个字节的CRC32校验码**3.N-5个字节的具体信息**如... 阅读全文

posted @ 2015-01-18 11:11 TonyChai 阅读(457) 评论(0) 推荐(0) 编辑

漫游Kafka实战篇之客户端API

摘要： Kafka Producer APIs旧版的Procuder API有两种：kafka.producer.SyncProducer和kafka.producer.async.AsyncProducer.它们都实现了同一个接口：[java]view plaincopyclassProducer{/*将... 阅读全文

posted @ 2015-01-18 11:10 TonyChai 阅读(631) 评论(0) 推荐(0) 编辑

漫游Kafka设计篇之主从同步

摘要： Kafka允许topic的分区拥有若干副本，这个数量是可以配置的，你可以为每个topci配置副本的数量。Kafka会自动在每个个副本上备份数据，所以当一个节点down掉时数据依然是可用的。Kafka的副本功能不是必须的，你可以配置只有一个副本，这样其实就相当于只有一份数据。创建副本的单位是topic... 阅读全文

posted @ 2015-01-18 11:09 TonyChai 阅读(3398) 评论(0) 推荐(0) 编辑

公告