diadem_gyl

2014年1月6日 #

Hive使用技巧

摘要: hive默认查询不会显示列名, 当一个表字段比较多的时候,往往看不出值与列之间的对应关系,对日常查错及定位问题带来不便,像下面这样。hive>>select * from example_table where dt='2012-03-31-02' limit 2;OKNULL 315103 2012-12-24_monthNULL 10106 2013-01-07_dayNULL 15368 2013-01-14_dayNULL 356742 2013-02-28_monthNULL 14253 2013-03-24_dayTime taken: 1.104 se 阅读全文

posted @ 2014-01-06 09:46 diadem_gyl 阅读(1278) 评论(0) 推荐(0)

2013年12月22日 #

写好Hive 程序的若干优化技巧和实际案例

摘要: 使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确、高效的HQL。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。3.对sum,count来说,不存在数据倾斜问题。4.对count(distinct ),效率较低,数据量一多,准出问题,如果 阅读全文

posted @ 2013-12-22 22:45 diadem_gyl 阅读(495) 评论(0) 推荐(0)

2013年12月9日 #

awk 学习笔记

摘要: awk的语法有两种形式awk [options] 'script' var=value file(s)awk [options] -f scriptfile var=value file(s)选项(options)-F fs or --field-separator fs 默认域分割符是tab或者空格,用-F选项可以指定需要的分割符,fs是一个字符串或者是一个正则表达式,如-F:,用冒号分割; -F[;,],用逗号或者分号分割。-f scripfile or --file scriptfile 从脚本文件中读取awk命令,长的脚本或者以后经常重用的脚本可以写在文件里。变量(va 阅读全文

posted @ 2013-12-09 00:02 diadem_gyl 阅读(332) 评论(0) 推荐(0)

2013年5月29日 #

SVM学习笔记

摘要: 入门进阶总结 阅读全文

posted @ 2013-05-29 10:36 diadem_gyl 阅读(107) 评论(0) 推荐(0)

导航