摘要: (接上:Hadoop-MR实现日志清洗(一))4.groupbycount测试编写Hadoop-MR的groupbycount程序测试Hadoop运行环境,同时也是对mapreduce程序的一次复习。为了不影响logparser项目结构,单独创建了groupbycount项目,配置与logparser一致。初始结构:4.1源文件准备源文件取自工作中部分数据集。下载地址:2018-08-29-15-... 阅读全文
posted @ 2018-08-30 16:40 leeyuki 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 1.日志内容样式 目前所接触到的日志一种是网页请求日志,一种是埋点日志,一种后端系统日志。 1.1请求日志 请求日志是用户访问网站时,打开网址或点击网站上了项目元素时,向服务器发送或提交的资源请求。 (论坛日志) 27.38.53.84 - - [30/May/2013:23:37:57 +0800 阅读全文
posted @ 2018-08-30 16:09 leeyuki 阅读(3068) 评论(0) 推荐(0) 编辑