摘要:
《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》 阅读全文
摘要:
整合Kafka两种模式说明 ★面试题:Receiver & Direct 开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法: 1.Receiver接收方式: KafkaUti 阅读全文
摘要:
secondary namenode NameNode职责是管理元数据信息,DataNode的职责是负责数据具体存储,那么SecondaryNameNode的作用是什么?对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不 阅读全文
摘要:
MapReduce思想: 核心: 分而治之,先分在和 应用场景: 复杂任务,没有依赖,以并行提供处理效率 脉络体现: 先map后reduce map:把复杂的任务拆分成任务,局部进行计算,得出局部结果 reduce:把map的局部结果进行全局汇总,得到最终结果 MapReduce设计构思: 如何进行 阅读全文
摘要:
map方法: map的方法 public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…} key:偏移量,一般为0,用不到 value:每行的值 contex 阅读全文
摘要:
<!--more--> 阅读全文
摘要:
伪分布式环境: HA环境checkpoint机制 配置了HA的HDFS中,有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息,因为standby namenode已经将集群状态存储在内存中了,所以创建检查点checkpoint的过程只需要 阅读全文
摘要:
项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin 阅读全文
摘要:
通过 web console 监控作业的运行: <!--more--> 通过 yarn application 命令来进行作业管理 列出帮助信息:yarn application --help 查看运行的 MapReduce 程序:yarn application --list 查看应用状态:yar 阅读全文
摘要:
项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin 阅读全文