摘要: 明细宽表的构建及数据加载 -- 明细宽表 相当于在贴源数据表的基础之上,增加了9个字段,时间字段增加6个,请求字段增加了3个 create external table if not exists web_detail( ipaddr string comment "ip address", vis 阅读全文
posted @ 2022-08-09 23:39 jsqup 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 动态分区问题的解决 在dataClean.sh中清洗数据前,创建一个动态时间变量 timeStr=`date -d "yesterday" "+%Y%m%d"` 在dataAnaly.sh中执行 yesterday=`date -d "yesterday" "+%Y%d%m"` hive --hiv 阅读全文
posted @ 2022-08-09 16:42 jsqup 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 说明 通过编写mapreduce,来清洗数据 清洗的原始数据格式: 180.153.11.130 - - 2018-03-18 11:42:44 "POST https://www.taobao.com/category/d HTTP/1.1" 200 12901 https://www.taoba 阅读全文
posted @ 2022-08-09 12:18 jsqup 阅读(41) 评论(0) 推荐(0) 编辑