随笔分类 - Spark
摘要:作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7449682.html" 转载请注明出处 最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家. 问题背景 最近在使用pyspark写hbase的过
阅读全文
摘要:作者:Syn良子 出处: "http://www.cnblogs.com/cssdongl/p/7347167.html" 转载请注明出处 记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程. 连接准备 快速用pyspark访问Hbase中的
阅读全文
摘要:转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 二. 运行错误 missing output location 当前的配置为每个executor使用1core,5GRAM,启动了20个executor spark.exec
阅读全文
摘要:本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/
阅读全文
摘要:原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 英文链接:http://techseen
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase,如下代码所示 简单解释下,用sc.newAPIHadoopRDD根据conf中
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration(
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql
阅读全文
摘要:作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 用textFile读取数据后,以address进行分组来求age的平均值,这里用combineByKey来计算,这是一个抽象层次很高
阅读全文
摘要:RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等
阅读全文