摘要: 《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》 阅读全文
posted @ 2022-04-14 18:04 DaBai的黑屋 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 整合Kafka两种模式说明 ★面试题:Receiver & Direct 开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法: 1.Receiver接收方式: KafkaUti 阅读全文
posted @ 2019-09-14 21:08 DaBai的黑屋 阅读(1712) 评论(0) 推荐(0) 编辑
摘要: secondary namenode NameNode职责是管理元数据信息,DataNode的职责是负责数据具体存储,那么SecondaryNameNode的作用是什么?对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不 阅读全文
posted @ 2019-09-14 21:07 DaBai的黑屋 阅读(449) 评论(0) 推荐(0) 编辑
摘要: MapReduce思想: 核心: 分而治之,先分在和 应用场景: 复杂任务,没有依赖,以并行提供处理效率 脉络体现: 先map后reduce map:把复杂的任务拆分成任务,局部进行计算,得出局部结果 reduce:把map的局部结果进行全局汇总,得到最终结果 MapReduce设计构思: 如何进行 阅读全文
posted @ 2019-09-14 21:06 DaBai的黑屋 阅读(538) 评论(0) 推荐(1) 编辑
摘要: map方法: map的方法 public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…} key:偏移量,一般为0,用不到 value:每行的值 contex 阅读全文
posted @ 2019-09-14 21:05 DaBai的黑屋 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 伪分布式环境: HA环境checkpoint机制 配置了HA的HDFS中,有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息,因为standby namenode已经将集群状态存储在内存中了,所以创建检查点checkpoint的过程只需要 阅读全文
posted @ 2019-09-14 21:04 DaBai的黑屋 阅读(579) 评论(0) 推荐(0) 编辑
摘要: <!--more--> 阅读全文
posted @ 2019-09-14 21:04 DaBai的黑屋 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin 阅读全文
posted @ 2019-09-14 21:03 DaBai的黑屋 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 通过 web console 监控作业的运行: <!--more--> 通过 yarn application 命令来进行作业管理 列出帮助信息:yarn application --help 查看运行的 MapReduce 程序:yarn application --list 查看应用状态:yar 阅读全文
posted @ 2019-09-14 21:02 DaBai的黑屋 阅读(492) 评论(2) 推荐(0) 编辑
摘要: 项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin 阅读全文
posted @ 2019-09-14 21:02 DaBai的黑屋 阅读(542) 评论(0) 推荐(0) 编辑
Live2D