diadem_gyl

Hive使用技巧

摘要： hive默认查询不会显示列名，当一个表字段比较多的时候，往往看不出值与列之间的对应关系，对日常查错及定位问题带来不便，像下面这样。hive>>select * from example_table where dt='2012-03-31-02' limit 2;OKNULL 315103 2012-12-24_monthNULL 10106 2013-01-07_dayNULL 15368 2013-01-14_dayNULL 356742 2013-02-28_monthNULL 14253 2013-03-24_dayTime taken: 1.104 se 阅读全文

posted @ 2014-01-06 09:46 diadem_gyl 阅读(1293) 评论(0) 推荐(0)

写好Hive 程序的若干优化技巧和实际案例

摘要：使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是一个”好”的Hive程序需要对Hive运行机制有深入的了解，像理解mapreduce作业一样理解Hive QL才能写出正确、高效的HQL。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。3.对sum，count来说，不存在数据倾斜问题。4.对count(distinct ),效率较低，数据量一多，准出问题，如果阅读全文

posted @ 2013-12-22 22:45 diadem_gyl 阅读(511) 评论(0) 推荐(0)

awk 学习笔记

摘要： awk的语法有两种形式awk [options] 'script' var=value file(s)awk [options] -f scriptfile var=value file(s)选项(options)-F fs or --field-separator fs 默认域分割符是tab或者空格，用-F选项可以指定需要的分割符，fs是一个字符串或者是一个正则表达式，如-F:，用冒号分割; -F[;,]，用逗号或者分号分割。-f scripfile or --file scriptfile 从脚本文件中读取awk命令，长的脚本或者以后经常重用的脚本可以写在文件里。变量(va 阅读全文

posted @ 2013-12-09 00:02 diadem_gyl 阅读(348) 评论(0) 推荐(0)

SVM学习笔记

摘要：入门进阶总结阅读全文

posted @ 2013-05-29 10:36 diadem_gyl 阅读(108) 评论(0) 推荐(0)

Hive使用技巧

写好Hive 程序的若干优化技巧和实际案例

awk 学习笔记

SVM学习笔记

导航

公告