随笔档案「2021年8月」 - RICH-ATONE

idea把目录项目转为module模块

摘要：参考： https://www.cnblogs.com/xinxin1994/p/10898318.html 阅读全文

posted @ 2021-08-31 16:48 RICH-ATONE 阅读(788) 评论(0) 推荐(0)

Spark中的 aggregate 方法详解

摘要：函数解析： 1. 参数：(zeroValue: U) (seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)2. 作用：aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb 阅读全文

posted @ 2021-08-30 18:03 RICH-ATONE 阅读(1178) 评论(0) 推荐(0)

假如Kafka集群中一个broker宕机无法恢复, 应该如何处理?

摘要：如果服务器真的坏了, 只需要新启动一个broker, 把broker.id设置为损坏的那个broker的id, 就会自动复制过去丢失的数据 How to replace a failed broker? When a broker fails, Kafka doesn't automaticall 阅读全文

posted @ 2021-08-30 10:30 RICH-ATONE 阅读(503) 评论(0) 推荐(0)

关于kafka中ISR、AR、HW、LEO、LSO、LW的含义详解

摘要：一、kafka replication 1.当某个topic的replication-factor为N且N大于1时，每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 2.Replica的个数小于等于Broker的个数，也就是说，对阅读全文

posted @ 2021-08-27 18:56 RICH-ATONE 阅读(2086) 评论(0) 推荐(0)

hive解决小文件过多的问题

摘要：针对小文件问题，一般可以再采集端（flume）进行合并，后期的话可以针对如下方式进行解决：相比map个数的控制复杂性，reduce个数的设定要相对简单多了，reduce的个数一般最后决定了输出文件的个数，二者相等，如果想多输出文件的个数（这样文件变小，但有可能程序变慢），那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1618) 评论(0) 推荐(0)

Hadoop支持Lzo压缩配置及flume采集案例

摘要：一、hadoop支持Lzo压缩配置 1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/sh 阅读全文

posted @ 2021-08-12 15:01 RICH-ATONE 阅读(478) 评论(0) 推荐(0)

Hadoop文件存储格式及Hive数据压缩

摘要：一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式，数据被存储成文本格式。文本文件可以被分割和并行处理，也可以使用压缩，比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理，会造成一个作业只有一个mapper去处理数据，使用压缩的文本文件要确保文件不要过大，一阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(845) 评论(0) 推荐(1)

RICH-ATONE

08 2021 档案