RICH-ATONE

上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 33 下一页

2021年9月3日 #

Spark 2.2.x 中文文档

摘要: Spark 2.2.x 中文文档 阅读全文

posted @ 2021-09-03 11:28 RICH-ATONE 阅读(105) 评论(0) 推荐(0) 编辑

2021年9月1日 #

Spark学习与面试整理

摘要: Spark学习与面试整理 阅读全文

posted @ 2021-09-01 17:24 RICH-ATONE 阅读(67) 评论(0) 推荐(0) 编辑

2021年8月31日 #

idea把目录项目转为module模块

摘要: 参考: https://www.cnblogs.com/xinxin1994/p/10898318.html 阅读全文

posted @ 2021-08-31 16:48 RICH-ATONE 阅读(752) 评论(0) 推荐(0) 编辑

2021年8月30日 #

Spark中的 aggregate 方法详解

摘要: 函数解析: 1. 参数:(zeroValue: U) (seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行comb 阅读全文

posted @ 2021-08-30 18:03 RICH-ATONE 阅读(1026) 评论(0) 推荐(0) 编辑

假如Kafka集群中一个broker宕机无法恢复, 应该如何处理?

摘要: 如果服务器真的坏了, 只需要新启动一个broker, 把broker.id设置为 损坏的那个broker的id, 就会自动复制过去丢失的数据 How to replace a failed broker? When a broker fails, Kafka doesn't automaticall 阅读全文

posted @ 2021-08-30 10:30 RICH-ATONE 阅读(433) 评论(0) 推荐(0) 编辑

2021年8月27日 #

关于kafka中ISR、AR、HW、LEO、LSO、LW的含义详解

摘要: 一、kafka replication 1.当某个topic的replication-factor为N且N大于1时,每个Partition都会有N个副本(Replica)。kafka的replica包含leader与follower。 2.Replica的个数小于等于Broker的个数,也就是说,对 阅读全文

posted @ 2021-08-27 18:56 RICH-ATONE 阅读(1837) 评论(0) 推荐(0) 编辑

2021年8月26日 #

hive解决小文件过多的问题

摘要: 针对小文件问题,一般可以再采集端(flume)进行合并,后期的话可以针对如下方式进行解决: 相比map个数的控制复杂性,reduce个数的设定要相对简单多了,reduce的个数一般最后决定了输出文件的个数, 二者相等,如果想多输出文件的个数(这样文件变小,但有可能程序变慢),那么可以人为增加redu 阅读全文

posted @ 2021-08-26 15:58 RICH-ATONE 阅读(1415) 评论(0) 推荐(0) 编辑

2021年8月12日 #

Hadoop支持Lzo压缩配置及flume采集案例

摘要: 一、hadoop支持Lzo压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/sh 阅读全文

posted @ 2021-08-12 15:01 RICH-ATONE 阅读(379) 评论(0) 推荐(0) 编辑

2021年8月11日 #

Hadoop文件存储格式及Hive数据压缩

摘要: 一、文件的存储格式 1.TEXTFILE 创建表时的默认文件格式,数据被存储成文本格式。文本文件可以被分割和并行处理,也可以使用压缩,比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理,会造成一个作业只有一个mapper去处理数据,使用压缩的文本文件要确保文件不要过大,一 阅读全文

posted @ 2021-08-11 18:51 RICH-ATONE 阅读(715) 评论(0) 推荐(1) 编辑

2021年7月26日 #

Git创建远程分支

摘要: idea示例: 步骤一: 1.1菜单选择如下: 1.2新建分支 并输入名称 步骤二: 新建分支后可以Push 直接提交到远程仓库 (勾选checkout 会把上游的库更新到当前分支,并选择为当前分支) git创建远程分支(使用Git shell命令创建) intellij idea 新建分支 ide 阅读全文

posted @ 2021-07-26 11:35 RICH-ATONE 阅读(1136) 评论(0) 推荐(0) 编辑

上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 33 下一页

导航