luckuan1985

hive如何提交hql语句到hive上执行

摘要： hive的安装部署，网上有很多教程，我在这边就不再重复了，这次我要讲的是hive如何提交hql语句到hive上执行。一共有以下几种方式：第一、hiveserver 通过搭建hiveserver来提供thrift接口，接收来自远程提交的hql语句执行。这样做的好处是不需要hive客户端，简化部署... 阅读全文

posted @ 2015-09-15 12:06 luckuan1985 阅读(1635) 评论(0) 推荐(0) 编辑

spark计算平均值

摘要：对于Array(('a',1), ('a',2), ('b',3), ('a',4), ('a',15))如何计算平均值呢：原来通过计算两边，第一遍计算总次数val a = sc.parallelize(data).map(x=>1)val b = sc.parallelize(data).map(... 阅读全文

posted @ 2015-08-11 12:25 luckuan1985 阅读(3046) 评论(0) 推荐(0) 编辑

Flume和HDFS的整合问题

摘要：用hdfsSink往hadoop写日志过程中，如果设置了lzo的压缩方式，则总提示以下错误：Unsupported compression codec lzo. Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, Gz... 阅读全文

posted @ 2015-07-24 12:20 luckuan1985 阅读(786) 评论(0) 推荐(0) 编辑

RDD无reduceByKey方法

摘要：写Spark代码的时候经常发现rdd没有reduceByKey的方法，这个发生在spark1.2及其以前对版本，因为rdd本身不存在reduceByKey的方法，需要隐式转换成PairRDDFunctions才能访问，因此需要引入Import org.apache.spark.SparkContex... 阅读全文

posted @ 2015-05-05 16:40 luckuan1985 阅读(1578) 评论(0) 推荐(0) 编辑

spark/kafka的集成

摘要： Spark1.3中新增DirectStream处理Kafka的消息。使用方法如下：KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)ssc:S... 阅读全文

posted @ 2015-05-05 15:55 luckuan1985 阅读(1643) 评论(0) 推荐(0) 编辑

hive如何提交hql语句到hive上执行

spark计算平均值

Flume和HDFS的整合问题

RDD无reduceByKey方法

spark/kafka的集成

导航

公告