我的定位:中高级人才(框架熟练、Java语法精通、数据库会用、Linux会用、中间件会用、有大数据经验!)
开始,我以为自己什么都知道。后来发现,其实我什么都不知道。
摘要: Hadoop内核 | YARN (资源管理系统) YARN是什么? √Hadoop2.0新增系统 √负责集群的资源管理和调度 √使得多种计算框架可以运行在一个集群中 YARN的特点 √良好的扩展性、高可用性 √对多种类型的应用程序进行统一管理和调度 √自带了多种多用户调度器,适合共享集群环境 Res 阅读全文
posted @ 2017-06-24 22:58 想太多先森 阅读(131) 评论(0) 推荐(0) 编辑
摘要: HDFS副本放置策略 一个文件划分成多个block,每个 block存多份,如何为每个block选 择节点存储这几份数据? Block副本放置策略: √副本1:同Client节点上 √副本2:不同机架的节点上 √副本3:与第二个副本同一机架的另一个节点上 √其他副本:随机挑选 HDFS不适合存储小文 阅读全文
posted @ 2017-06-24 22:18 想太多先森 阅读(91) 评论(0) 推荐(0) 编辑
摘要: HDFS数据块(block) 文件被切分成固定大小的数据块 > √默认数据块大小为64MB,可配 √若文件大小不到64MB,则单存成一个block 为何数据块如此之大 > √数据传输时间超过寻道时间(高吞吐率) 一个文件存储方式 > √按大小被切分成若干个block,存储到不同的节点上 √默认情况下 阅读全文
posted @ 2017-06-24 21:41 想太多先森 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 读取流程 写流程 SecondaryNameNode Namenode的一个快照 周期性的备份namenode 记录namenode中的metadata及其它数据 可以用来恢复Namenode HDFS优点 高容错性 > √数据自动保存多个节点 √备份丢失后,自动恢复 适合批处理 > √移动计算而非 阅读全文
posted @ 2017-06-24 18:00 想太多先森 阅读(105) 评论(0) 推荐(0) 编辑
摘要: NameNode 管理文件系统的命名空间 记录每个文件数据在各个DataNode上的位置和副本信息 协调客户端对文件的访问 NameNode文件解析 > VERSION 版本信息,文件系统标识符 seen_txid 事务管理用文件 fsimage_* 元数据文件 fsimage_*.md5 元数据文 阅读全文
posted @ 2017-06-24 17:29 想太多先森 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-06-24 15:37 想太多先森 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 一个Topic的多个分区,被分布在kafka集群中的多个server上。每个分区都有一个server为"leader";leader负责所有的读写操作,如果leader失效,那么将会有其他follower来接管(成为新的leader);follower只是单调的和leader 跟进,同步消息即可。由 阅读全文
posted @ 2017-06-24 12:45 想太多先森 阅读(250) 评论(0) 推荐(0) 编辑
摘要: ookeeper节点属性 Zookeeper中9个基本操作 watch注册与触发 (1) Master启动 在引入了Zookeeper以后我们启动了两个主节点,"主节点-A"和"主节点-B"他们启动以后,都向ZooKeeper去注册一个节点。 (2) Master故障 如果"主节点-A"挂了,这时候 阅读全文
posted @ 2017-06-24 12:20 想太多先森 阅读(185) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper数据模型Znode 阅读全文
posted @ 2017-06-24 11:34 想太多先森 阅读(113) 评论(0) 推荐(0) 编辑