曲水修竹

2020年12月31日

摘要：压缩格式 Hadoop自带？算法文件扩展名支持切分换成压缩格式后，原来的程序是否需要修改 DEFLATE 是，直接使用 DEFLATE .deflate 否和文本处理一样，不需要修改 Gzip 是，直接使用 DEFLATE .gz 否和文本处理一样，不需要修改 bzip2 是，直接使用阅读全文

posted @ 2020-12-31 22:50 曲水修竹阅读(212) 评论(0) 推荐(0)

hadoop 服役新数据节点和退役旧节点步骤

摘要： 1）节点上线操作：当要新上线数据节点的时候，需要把数据节点的名字追加在 dfs.hosts 文件中（1）关闭新增节点的防火墙（2）在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname （3）在每个新增数据节点的 hosts 文件中加入 NameNode 的 ho 阅读全文

posted @ 2020-12-31 22:49 曲水修竹阅读(264) 评论(0) 推荐(0)

ZooKeeper的选举机制

摘要： 1）半数机制（Paxos 协议）：集群中半数以上机器存活，集群可用。所以zookeeper适合装在奇数台机器上。 2）Zookeeper虽然在配置文件中并没有指定master和slave。但是，zookeeper工作时，是有一个节点为leader，其他则为follower，Leader是通过内部的选阅读全文

posted @ 2020-12-31 22:48 曲水修竹阅读(166) 评论(0) 推荐(0)

Flume参数调优

摘要： 1. Source 增加Source个数（使用Tair Dir Source时可增加FileGroups个数）可以增大Source的读取数据的能力。例如：当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录，同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。阅读全文

posted @ 2020-12-31 22:43 曲水修竹阅读(289) 评论(0) 推荐(0)

Flink跟Spark Streaming的区别

摘要： 1）架构模型Spark Streaming 在运行时的主要角色包括：Master、Worker、Driver、Executor，Flink 在运行时主要包含：Jobmanager、Taskmanager和Slot。 2）任务调度Spark Streaming 连续不断的生成微小的数据批次，构建有向无阅读全文

posted @ 2020-12-31 22:35 曲水修竹阅读(1363) 评论(0) 推荐(0)

2020年12月28日

Druid写入zookeeper数据太大的解决办法

摘要：报错如下 org.apache.zookeeper.ClientCnxn - Session 0x102c87b7f880003 for server cweb244/10.17.2.241:2181, unexpected error, closing socket connection and 阅读全文

posted @ 2020-12-28 21:04 曲水修竹阅读(1093) 评论(0) 推荐(0)

2020年11月4日

新版supperset连接druid数据源设置

摘要：新版superset连接druid数据源设置由于新版本supperset datasource 目录下移除了自带的连接drui... 阅读全文

posted @ 2020-11-04 17:52 曲水修竹阅读(220) 评论(0) 推荐(0)

2020年8月20日

Spark 分组聚合转Map 的方式

摘要： Spark DateFrame分组聚合转Map 的方式比如按照年龄分组把相同分组的人名聚合在一列方法一：DateFrame自带... 阅读全文

posted @ 2020-08-20 21:49 曲水修竹阅读(429) 评论(0) 推荐(0)

2020年7月28日

Hbase 根据rowkey批量读写

摘要：批量查询Hbase 传入一个rowkey List 返回一个嵌套 HashMap> public static HashMa... 阅读全文