摘要: 第一部分:Transformation算子操作,延迟操作,返回新的RDD Map算子 FlatMap算子 Filter算子 Distinct算子(有参数) Distinct算子(无参数) Coalesce算子 Repartition算子 Sample算子 RandomSplit算子 RandomSa 阅读全文
posted @ 2017-08-17 17:30 AlgorithmInit 阅读(417) 评论(0) 推荐(0) 编辑
摘要: HIVE的几种文件格式1、TEXTFILE 文本格式,默认格式,数据不做压缩,磁盘开销大,数据解析开销大 对应hive API为org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTextOutput 阅读全文
posted @ 2017-08-17 17:05 AlgorithmInit 阅读(3562) 评论(0) 推荐(0) 编辑
摘要: Hive数据类型: 原始数据类型: Integers: tinyint 1位整型 smallint 2位整型 int 4位整型 bigint 8位整型 布尔类型: boolean true/false 浮点: float 单精度 double 双精度 定点数: decimal 指定范围和小数点位 字 阅读全文
posted @ 2017-08-17 11:24 AlgorithmInit 阅读(182) 评论(0) 推荐(0) 编辑