Spark - 随笔分类 - Syn良子

Pyspark的HBaseConverters详解

摘要：作者：Syn良子出处： "http://www.cnblogs.com/cssdongl/p/7449682.html" 转载请注明出处最近在折腾pyspark的HbaseConverters，由于资料太少折腾了好一会儿才明白，特此分享给大家. 问题背景最近在使用pyspark写hbase的过阅读全文

posted @ 2017-08-29 19:07 Syn良子阅读(3335) 评论(4) 推荐(0)

Pyspark访问Hbase

摘要：作者：Syn良子出处： "http://www.cnblogs.com/cssdongl/p/7347167.html" 转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程. 连接准备快速用pyspark访问Hbase中的阅读全文

posted @ 2017-08-11 17:49 Syn良子阅读(3829) 评论(0) 推荐(0)

Spark排错与优化

摘要：转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维二. 运行错误 missing output location 当前的配置为每个executor使用1core,5GRAM,启动了20个executor spark.exec 阅读全文

posted @ 2017-04-27 16:27 Syn良子阅读(2691) 评论(0) 推荐(0)

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要：本文转发自Jason’s Blog，原文链接 http://www.jasongj.com/spark/skew/ 摘要为何要处理数据倾斜（Data Skew）什么是数据倾斜数据倾斜是如何造成的从数据源直接读取。如读取HDFS，Kafka 读取上一个Stage的Shuffle数据如何缓解/ 阅读全文

posted @ 2017-03-21 14:49 Syn良子阅读(18584) 评论(2) 推荐(5)

Hadoop创始人Doug Cutting寄语2017：五种让开源项目成功的方法

摘要：原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错，Mark一下英文链接:http://techseen 阅读全文

posted @ 2017-01-13 18:29 Syn良子阅读(358) 评论(0) 推荐(0)

Spark读写Hbase的二种方式对比

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase，如下代码所示简单解释下，用sc.newAPIHadoopRDD根据conf中阅读全文

posted @ 2016-12-30 18:57 Syn良子阅读(46280) 评论(6) 推荐(5)

MapReduce和Spark写入Hbase多表总结

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时，直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration( 阅读全文

posted @ 2016-12-27 18:46 Syn良子阅读(2714) 评论(0) 推荐(0)

SparkStreaming实现Exactly-Once语义

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这阅读全文

posted @ 2016-12-22 12:57 Syn良子阅读(4262) 评论(0) 推荐(0)

Spark的DataFrame的窗口函数使用

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql 阅读全文

posted @ 2016-12-20 18:31 Syn良子阅读(17402) 评论(0) 推荐(0)

Spark计算均值

摘要：作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用spark来快速计算分组的平均值，写法很便捷，话不多说上代码用textFile读取数据后，以address进行分组来求age的平均值,这里用combineByKey来计算，这是一个抽象层次很高阅读全文

posted @ 2016-12-15 18:22 Syn良子阅读(7216) 评论(0) 推荐(0)

RDD、DataFrame和DataSet的区别

摘要：RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示，并且数据以编码的二进制形式被存储，不需要反序列化就可以执行sorting、shuffle等阅读全文

posted @ 2016-12-05 12:57 Syn良子阅读(3988) 评论(1) 推荐(1)

Syn良子

每天都保持空杯心态

随笔分类 - Spark

公告