My Blog
摘要: Yarn的三种调度器(Scheduler) 1:FIFO Scheduler:先进先出调度策略 2:Capacity Scheduler:可以看作是FIFO Scheduler的多队列版本 3:Fair Scheduler:多队列、多用户资源共享 阅读全文
posted @ 2020-12-28 19:37 王心森 阅读(563) 评论(0) 推荐(0) 编辑
摘要: Hadoop序列化机制的特点 1:紧凑:高效使用存储空间 2:快速:读写数据的额外开销小 3:可扩展:可透明地读取老格式的数据 4:互操作:支持多语言的交互 Java序列化的不足 1:不精简,附加信息多,不大适合随机访问 2:存储空间大,递归地输出类的超类描述直到时不再有超类 3:扩展性差,Hado 阅读全文
posted @ 2020-12-28 19:36 王心森 阅读(197) 评论(0) 推荐(0) 编辑
摘要: MapReduce之Map阶段执行过程 1:框架会把输入文件(夹)划分为很多InputSplit,默认,每个HDFS的Block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<K1,V1>。默认,每一行会被解析成一个<K1,V1>。 2:框架调用 阅读全文
posted @ 2020-12-28 19:34 王心森 阅读(463) 评论(0) 推荐(1) 编辑