摘要: Hadoop-MR实现日志清洗(四)6.单机部署Hadoop(伪分布式)在我们自己购买的阿里云Linux主机上部署单机hadoop,测试我们的mapreduce程序。也可以在windows上安装虚拟机部署。6.1配置Java环境下载jdk-8u171-linux-x64.tar.gz后上传到主机,解压缩:tar zxf jdk-8u171-linux-x64.tar.gz得到文件夹:jdk1.8.... 阅读全文
posted @ 2018-09-04 14:37 leeyuki 阅读(822) 评论(0) 推荐(0) 编辑
摘要: Hadoop-MR实现日志清洗(三)5.论坛请求日志清洗解析请求日志的清洗主要是指过滤掉跟后续统计无关的数据,包括爬虫数据、静态资源数据、无用数据列等。根据需要,清洗过程中也可以对部门数据域进行数据转换,比如日期,以便简化后续的数据加工/统计分析。对日志的清洗逻辑上也是分为编写map、reduce、run(main)函数,在对输入数据处理时,日志的提取过滤较为复杂,通常是将文件处理的方法单独编写作... 阅读全文
posted @ 2018-09-04 14:28 leeyuki 阅读(754) 评论(0) 推荐(0) 编辑