打赏
摘要: 1. 自定义inputFormat 1.1.需求: 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件,此时就需要有相应解决方案; 1.2.分析: 小文件的优化无非以下几种方式: 1、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS; 2、在业务 阅读全文
posted @ 2018-07-03 17:22 QueryMarsBo 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 1.需求: 现有一些原始日志需要做增强解析处理,流程: 1、 从原始日志文件中读取数据(日志文件:https://pan.baidu.com/s/12hbDvP7jMu9yE-oLZXvM_g) 2、 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、 如果成功增强,则输出到增强结 阅读全文
posted @ 2018-07-03 13:14 QueryMarsBo 阅读(419) 评论(0) 推荐(1) 编辑