摘要:
示例场景 日志说明 有两台Web服务器,日志文件存放在/usr/local/nginx/logs/目录,日志默认为nginx定义格式。如: 以空格分隔,共有12列数据: 场景部署 在两台Web服务器上部署HDFS客户端,以便定期上传Web日志到HDFS存储平台,最终实现分布式计算。 上传日志到HDF 阅读全文
摘要:
Mrjob简介 Mrjob是一个编写MapReduce任务的开源Python框架,它实际上对Hadoop Streaming的命令行进行了封装,因此接粗不到Hadoop的数据流命令行,使我们可以更轻松、快速的编写MapReduce任务。 Mrjob具有如下特点: Mrjob编写MapReduce 安 阅读全文