fxjwind

Apache Kafka源码分析 – Controller

摘要： https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Controller+Internalshttps://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Controller是为了加入replica机制而创建的，0.7时brok... 阅读全文

posted @ 2014-02-26 16:11 fxjwind 阅读(2175) 评论(0) 推荐(0) 编辑

Spark Streaming Programming Guide

摘要：参考，http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html Overview SparkStreaming支持多种流输入，like Kafka, Flume, Twitter, ZeroMQ or plain old TCP sockets，并且可以在上面进行transform操作，最终数据存入... 阅读全文

posted @ 2014-02-21 18:19 fxjwind 阅读(2667) 评论(0) 推荐(0) 编辑

Apache Kafka Replication Design – High level

摘要：参考，https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Replication Kafka Replication High-level Design Replication是0.8里面加入的新功能，保障当broker crash后数据不会丢失设计目标，提供可配置，需要保障stronger durability可以ena... 阅读全文

posted @ 2014-02-20 17:21 fxjwind 阅读(1275) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 – Log Management

摘要： LogManager LogManager会管理broker上所有的logs（在一个log目录下），一个topic的一个partition对应于一个log（一个log子目录）首先loadLogs会加载每个partition所对应的log对象，然后提供createLog，getLog，deleteLog之类的管理接口并且会创建些后台线程来进行，cleanup，flush，checkpoint生成... 阅读全文

posted @ 2014-02-18 16:41 fxjwind 阅读(2373) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 – Broker Server

摘要： 1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: val kafkaServerStartble = new KafkaServerStartable(serverConfig) 2: kafkaServerStartble.sta... 阅读全文

posted @ 2014-02-14 11:52 fxjwind 阅读(2654) 评论(0) 推荐(0) 编辑

Big Data资料汇总

摘要：整理和翻新一下自己看过和笔记过的Big Data相关的论文和Blog Streaming & Spark In-Stream Big Data Processing Discretized Streams, 离散化的流数据处理 Spark - A Fault-Tolerant Abstraction for In-Memory Cluster Computing Mesos: A ... 阅读全文

posted @ 2014-01-27 17:12 fxjwind 阅读(692) 评论(0) 推荐(0) 编辑

Spark 源码分析 -- task实际执行过程

摘要： Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给TaskScheduler, 然后等待调度, 最终到Executor上执行 val sc = new SparkContext(……)val textFile = sc.textFile("READ... 阅读全文

posted @ 2014-01-21 16:38 fxjwind 阅读(3146) 评论(6) 推荐(0) 编辑

Spark源码分析 – 汇总索引

摘要： http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/17222873 如果想了解Spark的设计, 第一个足够如果想梳理Spark的源码整体结构, 第二个也可以 ALL Spark源码分析 – SparkContext Spark源码分... 阅读全文

posted @ 2014-01-16 14:29 fxjwind 阅读(3946) 评论(0) 推荐(0) 编辑

Spark源码分析 – Shuffle

摘要：参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的事情其实就是... 阅读全文

posted @ 2014-01-16 11:34 fxjwind 阅读(7803) 评论(0) 推荐(2) 编辑

Apache Samza - Reliable Stream Processing atop Apache Kafka and Hadoop YARN

摘要： http://engineering.linkedin.com/data-streams/apache-samza-linkedins-real-time-stream-processing-frameworkhttp://samza.incubator.apache.org/前两年一直在使用Kafka, 虽说Kafka一直说可用于online分析, 但是实际在使用的时候会发现问题很多, 比如deploy, 调度, failover等, 我们也做了一些相应的工作 Samza算是把这个补全了, 可以更加简单的在Kafka上进行online分析, 所以看着比较亲切1 Background首先对me 阅读全文

posted @ 2014-01-14 13:58 fxjwind 阅读(1544) 评论(0) 推荐(0) 编辑