摘要: 1)gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在1... 阅读全文
posted @ 2020-12-31 23:12 曲水修竹 阅读(38) 评论(0) 推荐(0) 编辑
摘要: TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。 SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<ke 阅读全文
posted @ 2020-12-31 23:09 曲水修竹 阅读(1535) 评论(0) 推荐(0) 编辑
摘要: 1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。 2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。 3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这 阅读全文
posted @ 2020-12-31 23:05 曲水修竹 阅读(761) 评论(0) 推荐(0) 编辑
摘要: 1)Broker参数配置(server.properties) 1、网络和io操作线程配置优化 # broker处理消息的最大线程数(默认为3) num.network.threads=cpu核数+1 # broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据 阅读全文
posted @ 2020-12-31 22:58 曲水修竹 阅读(1211) 评论(0) 推荐(0) 编辑
摘要: HashMap和Hashtable区别 1) 线程安全性不同 HashMap是线程不安全的,HashTable是线程安全的,其中的方法是Synchronize的,在多线程并发的情况下,可以直接使用Hashtable,但是使用HashMap时必须自己增加同步处理。 2) 是否提供contains方法 阅读全文
posted @ 2020-12-31 22:54 曲水修竹 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 压缩格式 Hadoop自带? 算法 文件扩展名 支持切分 换成压缩格式后,原来的程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改 Gzip 是,直接使用 DEFLATE .gz 否 和文本处理一样,不需要修改 bzip2 是,直接使用 阅读全文
posted @ 2020-12-31 22:50 曲水修竹 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1)节点上线操作: 当要新上线数据节点的时候,需要把数据节点的名字追加在 dfs.hosts 文件中 (1)关闭新增节点的防火墙 (2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname (3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 ho 阅读全文
posted @ 2020-12-31 22:49 曲水修竹 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 1)半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以zookeeper适合装在奇数台机器上。 2)Zookeeper虽然在配置文件中并没有指定master和slave。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选 阅读全文
posted @ 2020-12-31 22:48 曲水修竹 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1. Source 增加Source个数(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。 阅读全文
posted @ 2020-12-31 22:43 曲水修竹 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1.reparttion 实际就是强制shuffle的coalesce repartition 在spark中源码中实际执行的是: coalesce(numPartitions, shuffle = true) * Return a new RDD that has exactly numParti 阅读全文
posted @ 2020-12-31 22:38 曲水修竹 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 1)架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要包含:Jobmanager、Taskmanager和Slot。 2)任务调度Spark Streaming 连续不断的生成微小的数据批次,构建有向无 阅读全文
posted @ 2020-12-31 22:35 曲水修竹 阅读(1305) 评论(0) 推荐(0) 编辑
摘要: 1.mapPartitions效率比map高 Map(function)的function是针对RDD的所有元素进行操作,有多少个元素就会执行多少次 MapPartition(function)的function是RDD的分区进行操作,有多少个分区就会执行多少次,独立在每个分区上运行,所以mapPa 阅读全文
posted @ 2020-12-31 22:32 曲水修竹 阅读(1410) 评论(0) 推荐(0) 编辑