摘要: 数据结构 customer表 oder表 MAPJOIN 场景:我们模拟一个有一份小表一个大表的场景,customer是那份小表,order是那份大表做法:直接将较小的数据加载到内存中,按照连接的关键字建立索引, 大份数据作为MapTask的输入键值对 map()方法的每次输入都去内存当中直接去匹配 阅读全文
posted @ 2019-05-02 22:02 任重而道远的小蜗牛 阅读(1476) 评论(0) 推荐(0) 编辑
摘要: 1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是? 4、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什 阅读全文
posted @ 2019-05-02 09:49 任重而道远的小蜗牛 阅读(9606) 评论(0) 推荐(0) 编辑