随笔分类 - Spark
摘要:窄依赖、宽依赖以及stage的划分依据:https://www.cnblogs.com/itboys/p/6673046.html 参考: http://blog.csdn.net/u012684933/article/details/51028707 参考: http://blog.csdn.ne
阅读全文
摘要:参考:http://blog.csdn.net/u010454030/article/details/69291663 和一般的saveAsTextFile不同之处在于增加了一个参数 classOf[GzipCodec]
阅读全文
摘要:Spark java.io.IOException: Filesystem closed partition数量太小,读取数据后进行repartition重新分片再处理。 Spark Streaming问题: Spark Twitter Streaming exception : (org.apac
阅读全文
摘要:DataSet:面向对象的,从JVM进行构建,或从其它格式进行转化 DataFrame:面向SQL查询,从多种数据源进行构建,或从其它格式进行转化 RDD DataSet DataFrame互转 DataFrameTest1.scala DataFrameTest2.scala DataFrameT
阅读全文
摘要:参考资料: http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark http://stackoverflow.com/questions/34078430/treereduce-vs-reduceby
阅读全文
摘要:1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html 2. 使用maven编译: 注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况。 windows下设置:%MAVEN_HOME%\bin\
阅读全文
摘要:一、引子 在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGr
阅读全文
摘要:Spark 集成算法的数据格式即评估方法 类别 算法名称 需求格式 评估方法 聚类算法 KMeans RDD[Verctor] 分类算法 DecisionTree(决策树) RDD[LabeledPoint] ACU,F-measure,ROC LogisticRegression(逻辑回归) RD
阅读全文
摘要:原文链接:http://blog.csdn.net/w412692660/article/details/43639683 首先,推荐下大神(anzhsoft)的文章,http://blog.csdn.net/column/details/spark.html仅作为大神未未提到的细枝末节,进行补充。
阅读全文
摘要:浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel:http://ju.outofm...
阅读全文
摘要:spark中saveAsTextFile如何最终生成一个文件 http://www.lxway.com/641062624.htm 一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00一直到part-0n,n自然就是task的个数,亦即是最后的stage的
阅读全文
摘要:转自:http://my.oschina.net/hanzhankang/blog/200275 附:各种操作的逻辑执行图 https://github.com/JerryLead/SparkInternals/blob/master/markdown/2-JobLogicalPlan.md 本文提
阅读全文
摘要:https://github.com/JerryLead/SparkInternals/blob/master/markdown/3-JobPhysicalPlan.md stage 和 task 的划分问题。只要在 ShuffleDependency 处断开,就只剩 NarrowDependenc
阅读全文
摘要:相关资料:Spark属性配置 http://www.cnblogs.com/chengxin1982/p/4023111.html本文出处:转载自过往记忆(http://www.iteblog.com/)本文链接地址: 《Spark三种属性配置方式详细说明》(http://www.iteblog.c...
阅读全文
摘要:在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程...
阅读全文
摘要:RDD被视为由不同的数据块组成,对于RDD的存取是以数据块为单位的,本质上分区(partition)和数据块(block)是等价的,只是看待的角度不同。数据块Spark存储管理模块中所管理的几种主要数据块RDD数据块:用来标识所缓存的RDD数据Shuffle数据块:用来标识持久化的Shuffle数据...
阅读全文
摘要:Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316502.html Standalone spark-env.sh 配置http://www.sxt.
阅读全文
摘要:Spark 多线程时的序列化问题 临时记录Exception in thread "Thread-28" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.e...
阅读全文
摘要:配置概述hadoop-env.sh一个可由hadoop脚本调用的bourne shell文件,它制定hadoop要用的JDK环境变量、守护进程JDK选项、pid文件和log文件夹core-site.xml指定与hadoop守护进程和客户端相关参数的xml文件hdfs-site.xml指定HDFS守护...
阅读全文
摘要:本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的...
阅读全文