摘要: 压缩格式 Hadoop自带? 算法 文件扩展名 支持切分 换成压缩格式后,原来的程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改 Gzip 是,直接使用 DEFLATE .gz 否 和文本处理一样,不需要修改 bzip2 是,直接使用 阅读全文
posted @ 2020-12-31 22:50 曲水修竹 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1)节点上线操作: 当要新上线数据节点的时候,需要把数据节点的名字追加在 dfs.hosts 文件中 (1)关闭新增节点的防火墙 (2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname (3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 ho 阅读全文
posted @ 2020-12-31 22:49 曲水修竹 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 1)半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以zookeeper适合装在奇数台机器上。 2)Zookeeper虽然在配置文件中并没有指定master和slave。但是,zookeeper工作时,是有一个节点为leader,其他则为follower,Leader是通过内部的选 阅读全文
posted @ 2020-12-31 22:48 曲水修竹 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 1. Source 增加Source个数(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。 阅读全文
posted @ 2020-12-31 22:43 曲水修竹 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 1)架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要包含:Jobmanager、Taskmanager和Slot。 2)任务调度Spark Streaming 连续不断的生成微小的数据批次,构建有向无 阅读全文
posted @ 2020-12-31 22:35 曲水修竹 阅读(1308) 评论(0) 推荐(0) 编辑
摘要: 报错如下 org.apache.zookeeper.ClientCnxn - Session 0x102c87b7f880003 for server cweb244/10.17.2.241:2181, unexpected error, closing socket connection and 阅读全文
posted @ 2020-12-28 21:04 曲水修竹 阅读(994) 评论(0) 推荐(0) 编辑
摘要: 新版superset连接druid数据源设置 由于新版本supperset datasource 目录下移除了自带的连接drui... 阅读全文
posted @ 2020-11-04 17:52 曲水修竹 阅读(131) 评论(0) 推荐(0) 编辑
摘要: Spark DateFrame分组聚合转Map 的方式 比如按照年龄分组 把相同分组的人名聚合在一列 方法一:DateFrame自带... 阅读全文
posted @ 2020-08-20 21:49 曲水修竹 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 批量查询Hbase 传入一个rowkey List 返回一个嵌套 HashMap> public static HashMa... 阅读全文
posted @ 2020-07-28 21:59 曲水修竹 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 先去集群中hive hadoop的配置目录中把以下4个site.xml文件下载下来 core-site.xmlhdfs-site.x... 阅读全文
posted @ 2020-07-10 20:03 曲水修竹 阅读(259) 评论(0) 推荐(0) 编辑