hive如何提交hql语句到hive上执行

摘要: hive的安装部署,网上有很多教程,我在这边就不再重复了,这次我要讲的是hive如何提交hql语句到hive上执行。一共有以下几种方式:第一、hiveserver 通过搭建hiveserver来提供thrift接口,接收来自远程提交的hql语句执行。 这样做的好处是不需要hive客户端,简化部署... 阅读全文
posted @ 2015-09-15 12:06 luckuan1985 阅读(1631) 评论(0) 推荐(0) 编辑

spark计算平均值

摘要: 对于Array(('a',1), ('a',2), ('b',3), ('a',4), ('a',15))如何计算平均值呢:原来通过计算两边,第一遍计算总次数val a = sc.parallelize(data).map(x=>1)val b = sc.parallelize(data).map(... 阅读全文
posted @ 2015-08-11 12:25 luckuan1985 阅读(3038) 评论(0) 推荐(0) 编辑

Flume和HDFS的整合问题

摘要: 用hdfsSink往hadoop写日志过程中,如果设置了lzo的压缩方式,则总提示以下错误:Unsupported compression codec lzo. Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, Gz... 阅读全文
posted @ 2015-07-24 12:20 luckuan1985 阅读(776) 评论(0) 推荐(0) 编辑

RDD无reduceByKey方法

摘要: 写Spark代码的时候经常发现rdd没有reduceByKey的方法,这个发生在spark1.2及其以前对版本,因为rdd本身不存在reduceByKey的方法,需要隐式转换成PairRDDFunctions才能访问,因此需要引入Import org.apache.spark.SparkContex... 阅读全文
posted @ 2015-05-05 16:40 luckuan1985 阅读(1569) 评论(0) 推荐(0) 编辑

spark/kafka的集成

摘要: Spark1.3中新增DirectStream处理Kafka的消息。使用方法如下:KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)ssc:S... 阅读全文
posted @ 2015-05-05 15:55 luckuan1985 阅读(1642) 评论(0) 推荐(0) 编辑