摘要: 1.描述一下hadoop工作流引擎Azkaban: azkaban是一个任务调度器,可以调度我们的任务,解决每个任务间的依赖关系,让任务依赖被依赖的会在前面的执行,在这个任务执行完了后再进行执行后面的任务。 阅读全文
posted @ 2018-01-18 11:37 光辉蝈蝈 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 1.简述sqoop的功能: sqoop是一个用来将hdfs和关系型数据库的数据相互转移的工具,可以将一个关系型数据库中的数据导进到hadoop的hdfs中,也可以将hdfs的数据导进到关系型数据库。 阅读全文
posted @ 2018-01-18 11:27 光辉蝈蝈 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 1.简述hdfs的副本存放策略: 默认是3个副本,本机架本地存放一个,本机架非本地存放一个,非本机架存放一个。 阅读全文
posted @ 2018-01-18 09:12 光辉蝈蝈 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop2.0和hadoop1.0的区别: hadoop2.0比hadoop1.0多了资源管理器YARN,hadoop还增加了HA高可靠机制。 阅读全文
posted @ 2018-01-18 09:08 光辉蝈蝈 阅读(360) 评论(0) 推荐(0) 编辑
摘要: 1.MapReduce 实现join的方法分别是: map join(基于内存的) ,reduce join 阅读全文
posted @ 2018-01-17 21:35 光辉蝈蝈 阅读(93) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-01-17 21:33 光辉蝈蝈 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 1.表述hive和hadoop的关系: hive存储数据实在hdfs上,hive计算的底层使用的mapreduce,执行的程序运行在yarn上 2.hive的内部表和外部表的区别: 内部表删除数据会把元数据和数据都删除 外部表只删除元数据不会删除存储在hdfs上的数据 3.hive创建表有几种方式, 阅读全文
posted @ 2018-01-17 21:16 光辉蝈蝈 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 1.client向ResourceManager请求运行应用程序, 2.ResourceManageer接受的到请求后,就会为应用程序分配资源, 3.到第一个NodeManager上要求Container启动ApplicationMaster, 4.AppMaster向ResourceManager 阅读全文
posted @ 2018-01-17 20:38 光辉蝈蝈 阅读(819) 评论(0) 推荐(0) 编辑
摘要: 1.map端有一个环形缓冲区,由于存储数据的,默认大小为100M,当存放的数据达到80M时,就会落地成一个文件,写到hdfs上,然后继续向环形缓冲区中写数据,当环形缓冲区写满是,map端的数据写入就会阻塞停滞,等待缓冲区中的数据写完为止。 2.在环形数据写入到磁盘之前,会根据Reduce个数进行对数 阅读全文
posted @ 2018-01-17 20:21 光辉蝈蝈 阅读(473) 评论(0) 推荐(1) 编辑
摘要: 1.client(客户端)与NameNode通信,向NameNode索取存放数据的block块的元数据信息,NN会将元数据的部分或者全部信息返回给客户端, 2.客户端接收到信息会到里自己最近的DataNode去读取数据, 3.如果读取后,客户端会去检查核对,如果block读取的有问题就会从下一个bl 阅读全文
posted @ 2018-01-17 19:24 光辉蝈蝈 阅读(68) 评论(0) 推荐(0) 编辑