06 2017 档案

摘要:说明:同样数据的两个orc表,分别模拟一个月120亿wifi数据,平均每日4亿数据。 字段:id 唯一标记 mac mac地址 point 点位 x x坐标 y y坐标 hour 数据时间-小时 day 数据时间-日期 区别: 表1:wifi_orc 以day作为一级分区,hour作为二级分区 表2 阅读全文
posted @ 2017-06-28 18:33 黑道撒加 阅读(1008) 评论(0) 推荐(0) 编辑
摘要:CREATE TABLE card_data(KEY string,coorid string, coorname string,cooraddr string,roadnum string,speed string,direction string,date string,hphm string, 阅读全文
posted @ 2017-06-09 18:43 黑道撒加 阅读(423) 评论(0) 推荐(0) 编辑
摘要:./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,f1:name,f1:age,f1:addr t1 /zldata/demo 阅读全文
posted @ 2017-06-09 16:07 黑道撒加 阅读(122) 评论(0) 推荐(0) 编辑
摘要:1:下架表 disable `card_base`; 2:设置压缩 alter 'card_base', NAME => 'base', COMPRESSION => 'GZ' 3:上架表 enable 'card_base' 4:进行压缩 major_compact 'card_base' 阅读全文
posted @ 2017-06-08 14:30 黑道撒加 阅读(328) 评论(0) 推荐(0) 编辑
摘要:依赖库:yum -y install gcc+ gcc-c++ 官方文档中提到编译前提需要:gcc c++, autoconf, automake, libtool, Java 6, JAVA_HOME set, Maven 3 1:下载所需的动态库和hadoop snappy插件工程 snappy 阅读全文
posted @ 2017-06-06 11:46 黑道撒加 阅读(265) 评论(0) 推荐(0) 编辑
摘要:GZIP、LZO、Zippy Snappy压缩算法应用场景小结 GZIP 、 LZO 、 Zippy/Snappy 是常用的几种压缩算法,各自有其特点,因此适用的应用场景也不尽相同。这里结合相关工程实践的情况,做一次小结。压缩算法的比较以下是 Google 几年前发布的一组测试数据(数据有些老了,有 阅读全文
posted @ 2017-06-05 14:36 黑道撒加 编辑