摘要: config/server.properties log.dirs 解释:kafka 日志文件保存目录 默认值:安装目录下或/tmp下 设置值:/mnt/data1/kafka/logs num.partitions 解释:topic 默认分区数 默认值:1 设置值:1 (创建 topic 时再定制 阅读全文
posted @ 2019-08-27 13:00 PigeonNoir 阅读(204) 评论(0) 推荐(0) 编辑
摘要: DAG,有向无环图,Directed Acyclic Graph的缩写,常用于建模。 Spark中使用DAG对RDD的关系进行建模,描述了RDD的依赖关系,这种关系也被称之为lineage,RDD的依赖关系使用Dependency维护,参考Spark RDD之Dependency,DAG在Spark 阅读全文
posted @ 2019-04-01 17:29 PigeonNoir 阅读(1623) 评论(0) 推荐(0) 编辑
摘要: 基于micro-batch, spark2.3之后, 支持continues processing 基于spark SQL 如同在静态table上运行标准批查询一样表现流计算, spark 通过在一个 unbound input table 上运行增量查询来实现. unbound input tab 阅读全文
posted @ 2019-03-31 14:56 PigeonNoir 阅读(729) 评论(0) 推荐(0) 编辑
摘要: gc配置 hbase-env.sh hbase-site.xml zookeeper.session.timeout 用途:zookeeper超时时间 默认:3min 调整:调小:则提高master监控的灵敏度。调大:则会增加hbase在gc过程中或大量写时高压过程中,造成gc暂停,从而误判超时的 阅读全文
posted @ 2019-03-08 17:05 PigeonNoir 阅读(210) 评论(0) 推荐(0) 编辑
摘要: stream.map.input.ignoreKey 作用:是否忽略key,只传递值。 默认值:false 我的设置:按需要更改 stream.map.input.field.separator stream.reduce.input.field.separator 作用:分割输入键值的分隔符 默认 阅读全文
posted @ 2019-03-01 13:22 PigeonNoir 阅读(801) 评论(0) 推荐(0) 编辑
摘要: hadoop版本:3.1.1 yarn-site.xml yarn.log-aggregation-enable 作用:是否开启任务日志收集 默认值:false 我的设置:true yarn.log-aggregation.retain-seconds 作用:日志自动清理前保存多长时间,单位秒。 默 阅读全文
posted @ 2019-02-28 18:58 PigeonNoir 阅读(614) 评论(0) 推荐(0) 编辑
摘要: step 1:使用hdfs-site.xml的配置项,排除节点。 step 2:刷新datanode 在Hadoop站点上很快就能看到Decommission正在进行,此时NameNode会检查并将数据复制到其它节点上以恢复副本数(要移除的节点上的数据不会被删除,如果数据比较敏感,要手动删除它们)。 阅读全文
posted @ 2019-02-28 18:43 PigeonNoir 阅读(952) 评论(0) 推荐(0) 编辑
摘要: hadoop版本:3.1.1 core-site.xml dfs.namenode.rpc-address 作用:rpc地址。我在使用distcp时显式使用到了。 默认值:port是8020 我的设置:hostname:8020 io.file.buffer.size 作用:io操作的缓存大小,单位 阅读全文
posted @ 2019-02-28 17:35 PigeonNoir 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 环境:mac/linux hadoop版本:3.1.1 安装特性:非HA 准备: 1. jdk8以上 2. ssh 3. 下载hadoop安装包 配置文件,这里都只有简易配置: 1. core-site.xml 2. hdfs-site.xml 3. yarn-site.xml 4. mapred- 阅读全文
posted @ 2019-02-28 12:07 PigeonNoir 阅读(226) 评论(0) 推荐(0) 编辑
摘要: Chapter 2 命名 命名要表现意图 避免歧义和误导,增强区分 命名可读性:便于发音,增强印象,便于交流 命名可查性:增强区分,便于搜索 类和对象的命名:名词或名词短语 方法的命名:动词或动词短语 使用仅表述单一概念的词,如 get,避免多概念的词,如 fetch 使用行业术语及业务术语 Cha 阅读全文
posted @ 2018-12-03 18:26 PigeonNoir 阅读(301) 评论(0) 推荐(0) 编辑