摘要:参考: https://www.cnblogs.com/xinxin1994/p/10898318.html
阅读全文
摘要:函数解析: 1. 参数:(zeroValue: U) (seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb
阅读全文
摘要:如果服务器真的坏了, 只需要新启动一个broker, 把broker.id设置为 损坏的那个broker的id, 就会自动复制过去丢失的数据 How to replace a failed broker? When a broker fails, Kafka doesn't automaticall
阅读全文
摘要:一、kafka replication 1.当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 2.Replica的个数小于等于Broker的个数,也就是说,对
阅读全文
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu
阅读全文
摘要:一、hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/sh
阅读全文
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一
阅读全文