摘要: MapReduce处理数据的大致流程 ①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象 ②将封装好的key-value,交给Mapper.map() >将处理的结果写出 keyout-valueout ③ReduceTask 阅读全文
posted @ 2020-07-11 23:59 孙晨c 阅读(437) 评论(0) 推荐(0) 编辑
摘要: @ 概念 Job(作业) : 一个MapReduce程序称为一个Job。 MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。 Task(任务): Task是一个进程 阅读全文
posted @ 2020-07-11 23:02 孙晨c 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 从源头上解决,在上传到HDFS之前,就将多个小文件归档 使用tar命令 带上参数-zcvf 示例: tar -zcvf xxx.tar.gz 小文件列表 如果小文件已经上传到HDFS了,可以使用在线归档 使用hadoop archive命令 示例: hadoop archive -archiveNa 阅读全文
posted @ 2020-07-11 16:16 孙晨c 阅读(203) 评论(0) 推荐(0) 编辑
摘要: @ 计算机网络体系架构相关概念 IS0--internet standard organzation 国际标准化组织 0SI/RM--Open System Interconnection 开放式系统互联 TCP/IP Suite 因特网事实上的国际标准 Network Protocols 数据交换 阅读全文
posted @ 2020-07-11 10:37 孙晨c 阅读(444) 评论(0) 推荐(0) 编辑