摘要:
HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分 Client:客户端 文件切分。文件上传 HDFS 的时候,Client 将文件 阅读全文
摘要:
1、输入文件分片,每一片都由一个MapTask来处理 2、Map输出的中间结果会先放在内存缓冲区中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出一个或者多个这样的文件,如果一个map输出的全部内容没有超过限制,那么最终也 阅读全文
摘要:
kafka 是分布式消息中间件,自带存储,提供 push 和 pull 存取数据的功能,是一个非常通用消息缓存的系统,可以有许多生产者和很多的消费者共享多个主题 flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的 阅读全文
摘要:
kafka producer 发送消息的时候,可以指定 key,这个 key 的作用是为消息选择存储分区 当指定 key 且不为空的时候,kafka 是根据 key 的 hash 值与分区数取模来决定数据存储到那个分区 当 key=null 时,kafka 是先从缓存中取分区号,然后判断缓存的值是否 阅读全文
摘要:
spark.deploy.recoveryMode:恢复模式(Master重新启动的模式) ZooKeeper:生产中用Zookeeper,因为基于文件系统的需要我们手动启动挂掉的Master FileSystem :FileSystem在测试阶段用 NONE:NONE表示不恢复 ZooKeeper 阅读全文