光辉蝈蝈

摘要： 1.表述hive和hadoop的关系： hive存储数据实在hdfs上，hive计算的底层使用的mapreduce，执行的程序运行在yarn上 2.hive的内部表和外部表的区别：内部表删除数据会把元数据和数据都删除外部表只删除元数据不会删除存储在hdfs上的数据 3.hive创建表有几种方式，阅读全文

posted @ 2018-01-17 21:16 光辉蝈蝈阅读(202) 评论(0) 推荐(0)

yarn执行流程

摘要： 1.client向ResourceManager请求运行应用程序， 2.ResourceManageer接受的到请求后，就会为应用程序分配资源， 3.到第一个NodeManager上要求Container启动ApplicationMaster， 4.AppMaster向ResourceManager 阅读全文

posted @ 2018-01-17 20:38 光辉蝈蝈阅读(846) 评论(0) 推荐(0)

shuffle流程图

摘要： 1.map端有一个环形缓冲区，由于存储数据的，默认大小为100M,当存放的数据达到80M时，就会落地成一个文件，写到hdfs上，然后继续向环形缓冲区中写数据，当环形缓冲区写满是，map端的数据写入就会阻塞停滞，等待缓冲区中的数据写完为止。 2.在环形数据写入到磁盘之前，会根据Reduce个数进行对数阅读全文

posted @ 2018-01-17 20:21 光辉蝈蝈阅读(489) 评论(0) 推荐(1)

hdfs读流程

摘要： 1.client(客户端）与NameNode通信，向NameNode索取存放数据的block块的元数据信息，NN会将元数据的部分或者全部信息返回给客户端， 2.客户端接收到信息会到里自己最近的DataNode去读取数据， 3.如果读取后，客户端会去检查核对，如果block读取的有问题就会从下一个bl 阅读全文

posted @ 2018-01-17 19:24 光辉蝈蝈阅读(71) 评论(0) 推荐(0)

公告