Hadoop 2.0中的日志收集以及配置方法

Hadoop中的日志包含三个部分，Application Master产生的运行日志和Container的日志。

一、ApplicationMaster产生的作业运行日志

Application Master产生的日志信息详细记录了Map Reduce job的启动时间，运行时间，用了多少个Mapper,多少个Reducer，Counter等等信息。MapReduce作业中的Application Master是运行在container中的。

默认情况下，Application Master产生的日志信息保存在HDFS上的特定的路径下，由以下几个参数来决定。

yarn.app.mapreduce.am.staging-dir : 默认为/tmp/hadoop-yarn/staging

mapreduce.jobhistory.done-dir : 存放已经结束的MR job的日志，默认为${yarn.app.mapreduce.am.staging-dir}/history/done

mapreduce.jobhistory.intermediate-done-dir : 存放正在运行中的MR job的日志，默认为${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate

到达HDFS目录下查看后发现,每个MR job都包含两个文件，一个是.jobhist结尾的文件，一个conf.xml

打开一个jhist查看，前半部分是avsc文件，描述了数据文件的结构，例如包含了什么字段，每个字段的数据类型以及possible value.

后面的部分则是json格式的数据，描述了MapReduce Job的运行状态和日志信息。

打开conf.xml可以发现，这个xml文件中包含了这个MapReduce job的参数。

二、Container日志

Container日志存放在每个NodeManager的本地磁盘上，存放位置由参数 yarn.nodemanager.log-dirs 决定，默认是$HADOOP_HOME/logs/userlogs下。这里包含了每一个application的log.

每一个以application命名的文件夹下，包含三个container的文件夹，以0000001结尾的文件夹下的文件就是ApplicationMaster的运行日志。

每个container文件夹下都包含三个文件，syserr,sysout, syslog

三、日志聚集功能

因为container的运行日志保存在每个NodeManager的本地磁盘下，不方便管理，可以启用日志聚集功能，打开该功能后，container的日志会被上传到HDFS某个目录下，并将syserr,sysout和syslog合并成一个文件，可以通过jobhistory server来查看，在没有启用日志聚集的功能时，在jobhistory server的Web UI里是没办法查看某个Map或者Reduce的日志的。