2019 年 8月 15 日随笔档案 - 北漂屌丝

2019年8月15日

摘要： HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分 Client：客户端文件切分。文件上传 HDFS 的时候，Client 将文件阅读全文

posted @ 2019-08-15 14:31 北漂屌丝阅读(150) 评论(0) 推荐(0) 编辑

MR 流程

摘要： 1、输入文件分片，每一片都由一个MapTask来处理 2、Map输出的中间结果会先放在内存缓冲区中，这个缓冲区的大小默认是100M，当缓冲区中的内容达到80%时（80M）会将缓冲区的内容写到磁盘上。也就是说，一个map会输出一个或者多个这样的文件，如果一个map输出的全部内容没有超过限制，那么最终也阅读全文

posted @ 2019-08-15 14:18 北漂屌丝阅读(1938) 评论(0) 推荐(0) 编辑

FLUME和KAFKA 比较

摘要： kafka 是分布式消息中间件，自带存储，提供 push 和 pull 存取数据的功能，是一个非常通用消息缓存的系统，可以有许多生产者和很多的消费者共享多个主题 flume分为agent（数据采集器）,collector（数据简单处理和写入）,storage（存储器）三部分，每一部分都是可以定制的阅读全文

posted @ 2019-08-15 10:28 北漂屌丝阅读(832) 评论(0) 推荐(0) 编辑

KAFKA分区选择策略

摘要： kafka producer 发送消息的时候，可以指定 key，这个 key 的作用是为消息选择存储分区当指定 key 且不为空的时候，kafka 是根据 key 的 hash 值与分区数取模来决定数据存储到那个分区当 key=null 时，kafka 是先从缓存中取分区号，然后判断缓存的值是否阅读全文

posted @ 2019-08-15 09:40 北漂屌丝阅读(2188) 评论(0) 推荐(0) 编辑

SPARK 恢复模式

摘要： spark.deploy.recoveryMode：恢复模式（Master重新启动的模式） ZooKeeper：生产中用Zookeeper，因为基于文件系统的需要我们手动启动挂掉的Master FileSystem ：FileSystem在测试阶段用 NONE：NONE表示不恢复 ZooKeeper 阅读全文

posted @ 2019-08-15 07:46 北漂屌丝阅读(423) 评论(0) 推荐(0) 编辑

beipiaodiaosi