RICH-ATONE

08 2021 档案

idea把目录项目转为module模块
摘要:参考: https://www.cnblogs.com/xinxin1994/p/10898318.html 阅读全文

posted @ 2021-08-31 16:48 RICH-ATONE 阅读(770) 评论(0) 推荐(0) 编辑

Spark中的 aggregate 方法详解
摘要:函数解析: 1. 参数:(zeroValue: U) (seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb 阅读全文

posted @ 2021-08-30 18:03 RICH-ATONE 阅读(1083) 评论(0) 推荐(0) 编辑

假如Kafka集群中一个broker宕机无法恢复, 应该如何处理?
摘要:如果服务器真的坏了, 只需要新启动一个broker, 把broker.id设置为 损坏的那个broker的id, 就会自动复制过去丢失的数据 How to replace a failed broker? When a broker fails, Kafka doesn't automaticall 阅读全文

posted @ 2021-08-30 10:30 RICH-ATONE 阅读(463) 评论(0) 推荐(0) 编辑

关于kafka中ISR、AR、HW、LEO、LSO、LW的含义详解
摘要:一、kafka replication 1.当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 2.Replica的个数小于等于Broker的个数,也就是说,对 阅读全文

posted @ 2021-08-27 18:56 RICH-ATONE 阅读(1898) 评论(0) 推荐(0) 编辑

hive解决小文件过多的问题
摘要:针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1466) 评论(0) 推荐(0) 编辑

Hadoop支持Lzo压缩配置及flume采集案例
摘要:一、hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/sh 阅读全文

posted @ 2021-08-12 15:01 RICH-ATONE 阅读(404) 评论(0) 推荐(0) 编辑

Hadoop文件存储格式及Hive数据压缩
摘要:一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一 阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(751) 评论(0) 推荐(1) 编辑

导航

统计信息

点击右上角即可分享
微信分享提示