摘要: HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分 Client:客户端 文件切分。文件上传 HDFS 的时候,Client 将文件 阅读全文
posted @ 2019-08-15 14:31 北漂屌丝 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1、输入文件分片,每一片都由一个MapTask来处理 2、Map输出的中间结果会先放在内存缓冲区中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出一个或者多个这样的文件,如果一个map输出的全部内容没有超过限制,那么最终也 阅读全文
posted @ 2019-08-15 14:18 北漂屌丝 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: kafka 是分布式消息中间件,自带存储,提供 push 和 pull 存取数据的功能,是一个非常通用消息缓存的系统,可以有许多生产者和很多的消费者共享多个主题 flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的 阅读全文
posted @ 2019-08-15 10:28 北漂屌丝 阅读(832) 评论(0) 推荐(0) 编辑
摘要: kafka producer 发送消息的时候,可以指定 key,这个 key 的作用是为消息选择存储分区 当指定 key 且不为空的时候,kafka 是根据 key 的 hash 值与分区数取模来决定数据存储到那个分区 当 key=null 时,kafka 是先从缓存中取分区号,然后判断缓存的值是否 阅读全文
posted @ 2019-08-15 09:40 北漂屌丝 阅读(2188) 评论(0) 推荐(0) 编辑
摘要: spark.deploy.recoveryMode:恢复模式(Master重新启动的模式) ZooKeeper:生产中用Zookeeper,因为基于文件系统的需要我们手动启动挂掉的Master FileSystem :FileSystem在测试阶段用 NONE:NONE表示不恢复 ZooKeeper 阅读全文
posted @ 2019-08-15 07:46 北漂屌丝 阅读(423) 评论(0) 推荐(0) 编辑