上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 53 下一页

Apache Kafka源码分析 - ReplicaStateMachine

摘要: startup 在onControllerFailover中被调用, /** * Invoked on successful controller election. First registers a broker change listener since that triggers all * state transitions for replicas. Initia... 阅读全文
posted @ 2015-11-05 14:40 fxjwind 阅读(982) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 - PartitionStateMachine

摘要: startup 在onControllerFailover中被调用, initializePartitionState private def initializePartitionState() { for((topicPartition, replicaAssignment) // else, check if the leader for part... 阅读全文
posted @ 2015-11-02 17:48 fxjwind 阅读(1538) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 - autoLeaderRebalanceEnable

摘要: 在broker的配置中,auto.leader.rebalance.enable (false) 那么这个leader是如何进行rebalance的? 首先在controller启动的时候会打开一个scheduler, if (config.autoLeaderRebalanceEnable) { //如果打开outoLeaderRebalance,需要把partiton leade... 阅读全文
posted @ 2015-10-27 12:18 fxjwind 阅读(2295) 评论(0) 推荐(0) 编辑

Apache Kafka源码分析 - KafkaApis

摘要: kafka apis反映出kafka broker server可以提供哪些服务,broker server主要和producer,consumer,controller有交互,搞清这些api就清楚了broker server的所有行为 handleOffsetRequest 提供对offset的查询的需求,比如查询earliest,latest offset是什么,或before某个时间戳的... 阅读全文
posted @ 2015-10-27 11:30 fxjwind 阅读(3259) 评论(0) 推荐(0) 编辑

如何保障流式处理的数据一致性

摘要: 背景 相对于传统的Hadoop这样的batch分析平台,流式分析的优点就是实时性, 即可以在秒级别延迟上得到分析结果 。 当然缺点是, 很难保证强一致性,即Exactly-Once语义 (在海量数据的前提下,为了保障吞吐量,无法使用类似事务的强一致性的方案)。 一般流式分析平台都会promise较弱的一致性,即Least-Once语义,保证数据不丢但允许数据重复。 但这只是在正常... 阅读全文
posted @ 2015-07-30 15:55 fxjwind 阅读(1765) 评论(0) 推荐(0) 编辑

Tuning Spark

摘要: https://spark.apache.org/docs/1.2.1/tuning.html Data Serialization 数据序列化,对于任意分布式系统都是性能的关键点 Spark默认使用Java serialization,这个比较低效 推荐使用,Kryo serialization,会比Java序列化,更快更小, Spark使用Twitter chill library(Kry... 阅读全文
posted @ 2015-04-21 19:52 fxjwind 阅读(987) 评论(1) 推荐(0) 编辑

Java内存管理和垃圾回收

摘要: 笔记,深入理解java虚拟机 Java运行时内存区域 程序计数器,线程独占,当前线程所执行的字节码的行号指示器,每个线程需要记录下执行到哪儿了,下次调度的时候可以继续执行,这个区是唯一不会发生oom的 栈,线程独占,包含虚拟机栈或native method stack,用于存放局部变量的 堆,线程共 阅读全文
posted @ 2015-04-20 15:57 fxjwind 阅读(5993) 评论(1) 推荐(0) 编辑

Spark MLlib - Decision Tree源码分析

摘要: http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或random forest也是常以其为基础的 决策树算法本身参考之前的blog,其实就是贪婪算法,每次切分使得数据变得最为有序 那么如何来定义有序或无序? 无序,node impurity ... 阅读全文
posted @ 2014-12-08 14:32 fxjwind 阅读(6724) 评论(0) 推荐(0) 编辑

阿里云数据库团队校园春季招聘

摘要: 最后更新时间:2020/03/18 请赐简历至:xiaojie.fxj@alibaba-inc.com, 感谢您对加入我们公司有兴趣,我们希望能早日和您共事。 校园招聘标题:阿里云数据库产品事业部实习内推,有转正机会招聘岗位:-阿里云数据库研发实习工程师(C/C++orJava)-工作地点为杭州-有 阅读全文
posted @ 2014-11-28 11:11 fxjwind 阅读(1049) 评论(0) 推荐(0) 编辑

JStack分析cpu消耗过高问题

摘要: Mark一下, 今天确实用这个方法找到了问题http://www.iteye.com/topic/11142191. top找到目标进程,记下pid2. top –p pid, 并用shift+h打开线程模式 这样可以看到这个进程中,到底哪个线程占用大量cpu 记下threadid,tid... 阅读全文
posted @ 2014-10-10 16:30 fxjwind 阅读(887) 评论(0) 推荐(0) 编辑
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 53 下一页