会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
源码王
博客园
首页
新随笔
联系
订阅
管理
2019年7月29日
日志离线收集处理方案——2.数据清理和计算
摘要: 接上文,本文采用Hive相关的技术来完成数据清理和计算 一. 原始日志信息的存储 hive的表支持正则式的方式进行存储和读取,如下:(注:不要建成外部表,便于数据清洗完后Truncate掉数据,以便后续数据的清洗) 我们的access.log的日志数据格式如下: 所以建表语句中的正则式 二. 原始日
阅读全文
posted @ 2019-07-29 20:45 杭州胡欣
阅读(860)
评论(0)
推荐(0)
编辑
公告