博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2016年8月25日

摘要: 目的是将phoenix做存储,spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。在这里将Phoenix的表作为spark的RDD或者DataFrames来操作,并且将操作的结果写回phoenix中。这样做也扩大了两者的使用场景。 Phoenix 版本 4.4.0H 阅读全文

posted @ 2016-08-25 11:07 来碗酸梅汤 阅读(6231) 评论(0) 推荐(0) 编辑

摘要: hbase-site.xml中配置 否则报错 Error: ERROR 1029 (42Y88): Mutable secondary indexes must have the hbase.regionserver.wal.codec property set to org.apache.hado 阅读全文

posted @ 2016-08-25 10:59 来碗酸梅汤 阅读(437) 评论(0) 推荐(0) 编辑

2016年8月9日

摘要: class pyspark.sql.SQLContext(sparkContext, sparkSession=None, jsqlContext=None) spark、spark1.x以结构化数据(rows and columns)为内容的工作进入点 spark2.0中被替代为SparkSess 阅读全文

posted @ 2016-08-09 14:58 来碗酸梅汤 阅读(1436) 评论(0) 推荐(0) 编辑

2016年8月1日

摘要: pyspark.sql module Module Context --spark SQL 、dataFrames的重要类 pyspark.sql.SQLContext --DataFrame 和 SQL 功能的主要进入点 pyspark.sql.DataFrame --以列命令的分布式数据集合 p 阅读全文

posted @ 2016-08-01 15:46 来碗酸梅汤 阅读(5253) 评论(5) 推荐(0) 编辑