瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

2014年8月14日 #

摘要: 一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容:spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST... 阅读全文
posted @ 2014-08-14 16:54 瞌睡中的葡萄虎 阅读(1124) 评论(0) 推荐(0) 编辑

摘要: ARRAY一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ... 阅读全文
posted @ 2014-08-14 13:55 瞌睡中的葡萄虎 阅读(541) 评论(0) 推荐(0) 编辑

摘要: Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:将属于以的形式序列化到文件中;该类型的文件存储略大于TEXTFILE类型;3、RCFile:面向列的文件格式。遵循“先按列划分再按行划分”的理念。在查询过程中,... 阅读全文
posted @ 2014-08-14 13:33 瞌睡中的葡萄虎 阅读(2828) 评论(0) 推荐(0) 编辑