摘要: 通过hadoop的分布式文件系统与MR完成日常日志文件的数据处理,以求达到数据清洗的目的。 日志数据格式: 27.19.74.143 - - [30/Mar/2015:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 11 阅读全文
posted @ 2019-09-02 20:45 但为君故。 阅读(721) 评论(0) 推荐(0) 编辑
摘要: 大致思路是将hdfs上的文本作为输入,MapReduce通过InputFormat会将文本进行切片处理,并将每行的首字母相对于文本文件的首地址的偏移量作为输入键值对的key,文本内容作为输入键值对的value,经过在map函数处理,输出中间结果<word,1>的形式,并在reduce函数中完成对每个 阅读全文
posted @ 2019-09-02 20:43 但为君故。 阅读(1854) 评论(0) 推荐(0) 编辑
摘要: 1.安装ssh免密登录 命令:ssh-keygen overwrite(覆盖写入)输入y 一路回车 将生成的密钥发送到本机地址 ssh-copy-id localhost (若报错命令无法找到则需要安装openssh-clients) yum –y install openssh-clients 测 阅读全文
posted @ 2019-09-02 19:00 但为君故。 阅读(8694) 评论(0) 推荐(0) 编辑