DaBai的黑屋

2022年4月14日

摘要：《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》阅读全文

posted @ 2022-04-14 18:04 DaBai的黑屋阅读(30) 评论(0) 推荐(0)

2019年9月14日

Kafuka面试（整合Kafka两种模式区别）

摘要：整合Kafka两种模式说明 ★面试题：Receiver & Direct 开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理，在spark1.3版本后，kafkaUtils里面提供了两种创建DStream的方法: 1.Receiver接收方式： KafkaUti 阅读全文

posted @ 2019-09-14 21:08 DaBai的黑屋阅读(1744) 评论(0) 推荐(0)

secondary namenode 检查点

摘要： secondary namenode NameNode职责是管理元数据信息，DataNode的职责是负责数据具体存储，那么SecondaryNameNode的作用是什么？对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看，它给人的感觉就像是NameNode的备份。但它实际上却不阅读全文

posted @ 2019-09-14 21:07 DaBai的黑屋阅读(475) 评论(0) 推荐(0)

MapReduce总结

摘要： MapReduce思想：核心：分而治之，先分在和应用场景：复杂任务，没有依赖，以并行提供处理效率脉络体现：先map后reduce map：把复杂的任务拆分成任务，局部进行计算，得出局部结果 reduce：把map的局部结果进行全局汇总，得到最终结果 MapReduce设计构思：如何进行阅读全文

posted @ 2019-09-14 21:06 DaBai的黑屋阅读(560) 评论(0) 推荐(1)

Map、Reduce和Job方法总结

摘要： map方法： map的方法 public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…} key:偏移量，一般为0，用不到 value：每行的值 contex 阅读全文

posted @ 2019-09-14 21:05 DaBai的黑屋阅读(1216) 评论(0) 推荐(0)

Reduce端join弊端&方法key探讨

摘要：  阅读全文

posted @ 2019-09-14 21:04 DaBai的黑屋阅读(280) 评论(0) 推荐(0)

Hadoop 两种环境下的checkpoint机制

摘要：伪分布式环境： HA环境checkpoint机制配置了HA的HDFS中，有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息，因为standby namenode已经将集群状态存储在内存中了，所以创建检查点checkpoint的过程只需要阅读全文

posted @ 2019-09-14 21:04 DaBai的黑屋阅读(621) 评论(0) 推荐(0)

MapReduce的Partitioner案例

摘要：项目简介这里给出一个经典的词频统计的案例：统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin 阅读全文

posted @ 2019-09-14 21:03 DaBai的黑屋阅读(246) 评论(0) 推荐(0)

MapReduce作业任务的管理

摘要：通过 web console 监控作业的运行：  通过 yarn application 命令来进行作业管理列出帮助信息：yarn application --help 查看运行的 MapReduce 程序：yarn application --list 查看应用状态：yar 阅读全文

posted @ 2019-09-14 21:02 DaBai的黑屋阅读(510) 评论(2) 推荐(0)

MapReduce的WordCount案例

posted @ 2019-09-14 21:02 DaBai的黑屋阅读(574) 评论(0) 推荐(0)

无法浪费时间，浪费的只是自己！

公告