2018 年 1月 17 日随笔档案 - 光辉蝈蝈

2018年1月17日

摘要： 1.MapReduce 实现join的方法分别是： map join（基于内存的），reduce join 阅读全文

posted @ 2018-01-17 21:35 光辉蝈蝈阅读(93) 评论(0) 推荐(0) 编辑

该文被密码保护。阅读全文

posted @ 2018-01-17 21:33 光辉蝈蝈阅读(3) 评论(0) 推荐(0) 编辑

摘要： 1.表述hive和hadoop的关系： hive存储数据实在hdfs上，hive计算的底层使用的mapreduce，执行的程序运行在yarn上 2.hive的内部表和外部表的区别：内部表删除数据会把元数据和数据都删除外部表只删除元数据不会删除存储在hdfs上的数据 3.hive创建表有几种方式，阅读全文

posted @ 2018-01-17 21:16 光辉蝈蝈阅读(192) 评论(0) 推荐(0) 编辑

yarn执行流程

摘要： 1.client向ResourceManager请求运行应用程序， 2.ResourceManageer接受的到请求后，就会为应用程序分配资源， 3.到第一个NodeManager上要求Container启动ApplicationMaster， 4.AppMaster向ResourceManager 阅读全文

posted @ 2018-01-17 20:38 光辉蝈蝈阅读(819) 评论(0) 推荐(0) 编辑

shuffle流程图

摘要： 1.map端有一个环形缓冲区，由于存储数据的，默认大小为100M,当存放的数据达到80M时，就会落地成一个文件，写到hdfs上，然后继续向环形缓冲区中写数据，当环形缓冲区写满是，map端的数据写入就会阻塞停滞，等待缓冲区中的数据写完为止。 2.在环形数据写入到磁盘之前，会根据Reduce个数进行对数阅读全文

posted @ 2018-01-17 20:21 光辉蝈蝈阅读(473) 评论(0) 推荐(1) 编辑

hdfs读流程

摘要： 1.client(客户端）与NameNode通信，向NameNode索取存放数据的block块的元数据信息，NN会将元数据的部分或者全部信息返回给客户端， 2.客户端接收到信息会到里自己最近的DataNode去读取数据， 3.如果读取后，客户端会去检查核对，如果block读取的有问题就会从下一个bl 阅读全文

posted @ 2018-01-17 19:24 光辉蝈蝈阅读(68) 评论(0) 推荐(0) 编辑

hdfs写流程

摘要： 1.client(客户端）会和NameNode进行通信，NN会对我们写操作的文件进行核对，验证我们写文件是否存在，是否有权限去写，如果文件存在或者没有权限进行操作，我们的NN会返回给我们的client写入失败的信息，验证成功的话，就会我们写操作分配相应的DataNode,然后将这些信息返回给我们客户阅读全文

posted @ 2018-01-17 19:04 光辉蝈蝈阅读(161) 评论(0) 推荐(0) 编辑

光辉蝈蝈

公告