摘要: 1.MapReduce 实现join的方法分别是: map join(基于内存的) ,reduce join 阅读全文
posted @ 2018-01-17 21:35 光辉蝈蝈 阅读(93) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-01-17 21:33 光辉蝈蝈 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 1.表述hive和hadoop的关系: hive存储数据实在hdfs上,hive计算的底层使用的mapreduce,执行的程序运行在yarn上 2.hive的内部表和外部表的区别: 内部表删除数据会把元数据和数据都删除 外部表只删除元数据不会删除存储在hdfs上的数据 3.hive创建表有几种方式, 阅读全文
posted @ 2018-01-17 21:16 光辉蝈蝈 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 1.client向ResourceManager请求运行应用程序, 2.ResourceManageer接受的到请求后,就会为应用程序分配资源, 3.到第一个NodeManager上要求Container启动ApplicationMaster, 4.AppMaster向ResourceManager 阅读全文
posted @ 2018-01-17 20:38 光辉蝈蝈 阅读(819) 评论(0) 推荐(0) 编辑
摘要: 1.map端有一个环形缓冲区,由于存储数据的,默认大小为100M,当存放的数据达到80M时,就会落地成一个文件,写到hdfs上,然后继续向环形缓冲区中写数据,当环形缓冲区写满是,map端的数据写入就会阻塞停滞,等待缓冲区中的数据写完为止。 2.在环形数据写入到磁盘之前,会根据Reduce个数进行对数 阅读全文
posted @ 2018-01-17 20:21 光辉蝈蝈 阅读(473) 评论(0) 推荐(1) 编辑
摘要: 1.client(客户端)与NameNode通信,向NameNode索取存放数据的block块的元数据信息,NN会将元数据的部分或者全部信息返回给客户端, 2.客户端接收到信息会到里自己最近的DataNode去读取数据, 3.如果读取后,客户端会去检查核对,如果block读取的有问题就会从下一个bl 阅读全文
posted @ 2018-01-17 19:24 光辉蝈蝈 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 1.client(客户端)会和NameNode进行通信,NN会对我们写操作的文件进行核对,验证我们写文件是否存在,是否有权限去写,如果文件存在或者没有权限进行操作,我们的NN会返回给我们的client写入失败的信息,验证成功的话,就会我们写操作分配相应的DataNode,然后将这些信息返回给我们客户 阅读全文
posted @ 2018-01-17 19:04 光辉蝈蝈 阅读(161) 评论(0) 推荐(0) 编辑