fxjwind

Apache Kafka源码分析 - ReplicaStateMachine

摘要： startup 在onControllerFailover中被调用， /** * Invoked on successful controller election. First registers a broker change listener since that triggers all * state transitions for replicas. Initia... 阅读全文

posted @ 2015-11-05 14:40 fxjwind 阅读(1003) 评论(0) 推荐(0)

Apache Kafka源码分析 - PartitionStateMachine

摘要： startup 在onControllerFailover中被调用， initializePartitionState private def initializePartitionState() { for((topicPartition, replicaAssignment) // else, check if the leader for part... 阅读全文

posted @ 2015-11-02 17:48 fxjwind 阅读(1556) 评论(0) 推荐(0)

Apache Kafka源码分析 - autoLeaderRebalanceEnable

摘要：在broker的配置中，auto.leader.rebalance.enable (false) 那么这个leader是如何进行rebalance的？首先在controller启动的时候会打开一个scheduler， if (config.autoLeaderRebalanceEnable) { //如果打开outoLeaderRebalance，需要把partiton leade... 阅读全文

posted @ 2015-10-27 12:18 fxjwind 阅读(2382) 评论(0) 推荐(0)

Apache Kafka源码分析 - KafkaApis

摘要： kafka apis反映出kafka broker server可以提供哪些服务，broker server主要和producer，consumer，controller有交互，搞清这些api就清楚了broker server的所有行为 handleOffsetRequest 提供对offset的查询的需求，比如查询earliest，latest offset是什么，或before某个时间戳的... 阅读全文

posted @ 2015-10-27 11:30 fxjwind 阅读(3287) 评论(0) 推荐(0)

如何保障流式处理的数据一致性

摘要：背景相对于传统的Hadoop这样的batch分析平台，流式分析的优点就是实时性，即可以在秒级别延迟上得到分析结果。当然缺点是, 很难保证强一致性，即Exactly-Once语义（在海量数据的前提下，为了保障吞吐量，无法使用类似事务的强一致性的方案）。一般流式分析平台都会promise较弱的一致性，即Least-Once语义，保证数据不丢但允许数据重复。但这只是在正常... 阅读全文

posted @ 2015-07-30 15:55 fxjwind 阅读(1877) 评论(0) 推荐(0)

Tuning Spark

摘要： https://spark.apache.org/docs/1.2.1/tuning.html Data Serialization 数据序列化，对于任意分布式系统都是性能的关键点 Spark默认使用Java serialization，这个比较低效推荐使用，Kryo serialization，会比Java序列化，更快更小， Spark使用Twitter chill library（Kry... 阅读全文

posted @ 2015-04-21 19:52 fxjwind 阅读(1004) 评论(1) 推荐(0)

Java内存管理和垃圾回收

摘要：笔记，深入理解java虚拟机 Java运行时内存区域程序计数器，线程独占，当前线程所执行的字节码的行号指示器，每个线程需要记录下执行到哪儿了，下次调度的时候可以继续执行，这个区是唯一不会发生oom的栈，线程独占，包含虚拟机栈或native method stack，用于存放局部变量的堆，线程共阅读全文

posted @ 2015-04-20 15:57 fxjwind 阅读(6010) 评论(1) 推荐(0)

Spark MLlib - Decision Tree源码分析

摘要： http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始，因为简单，而且也比较容易用到，当前的boosting或random forest也是常以其为基础的决策树算法本身参考之前的blog，其实就是贪婪算法，每次切分使得数据变得最为有序那么如何来定义有序或无序？无序，node impurity ... 阅读全文

posted @ 2014-12-08 14:32 fxjwind 阅读(6815) 评论(0) 推荐(0)

阿里云数据库团队校园春季招聘

摘要：最后更新时间：2020/03/18 请赐简历至：xiaojie.fxj@alibaba-inc.com，感谢您对加入我们公司有兴趣，我们希望能早日和您共事。校园招聘标题：阿里云数据库产品事业部实习内推，有转正机会招聘岗位：-阿里云数据库研发实习工程师（C/C++orJava）-工作地点为杭州-有阅读全文

posted @ 2014-11-28 11:11 fxjwind 阅读(1089) 评论(0) 推荐(0)

JStack分析cpu消耗过高问题

摘要： Mark一下, 今天确实用这个方法找到了问题http://www.iteye.com/topic/11142191. top找到目标进程，记下pid2. top –p pid, 并用shift+h打开线程模式这样可以看到这个进程中，到底哪个线程占用大量cpu 记下threadid，tid... 阅读全文

posted @ 2014-10-10 16:30 fxjwind 阅读(905) 评论(0) 推荐(0)