摘要: 工作流程1 Map Task MR工作流程2 Reduce Task 1)提交切片信息,jar包,和xml配置文件到yarn。2)Yarn ResourceManager启动一个MR AppMaster。3)AppMaster根据切片信息启动相应数量的Map Task。4)Map Task取读取按照 阅读全文
posted @ 2020-07-03 22:17 地中有山 阅读(284) 评论(0) 推荐(0) 编辑
摘要: HDFS写数据流程 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返 阅读全文
posted @ 2020-07-03 21:34 地中有山 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 拉链表概念 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前日期至今有效,在生效结束日期中填入一个极大值,如9999-99-99。 拉链表适合于数据会发生变化,但是大部分是不变的。只在数据变化的时候进行记录,其他时候不做处理, 阅读全文
posted @ 2020-07-03 15:26 地中有山 阅读(418) 评论(0) 推荐(0) 编辑