部分文章内容为公开资料查询整理,原文出处可能未标注,如有侵权,请联系我,谢谢。邮箱地址:gnivor@163.com ►►►需要气球么?请点击我吧!

随笔分类 -  Spark

摘要:窄依赖、宽依赖以及stage的划分依据:https://www.cnblogs.com/itboys/p/6673046.html 参考: http://blog.csdn.net/u012684933/article/details/51028707 参考: http://blog.csdn.ne 阅读全文
posted @ 2017-12-19 21:35 流了个火 阅读(10576) 评论(0) 推荐(0) 编辑
摘要:参考:http://blog.csdn.net/u010454030/article/details/69291663 和一般的saveAsTextFile不同之处在于增加了一个参数 classOf[GzipCodec] 阅读全文
posted @ 2017-09-20 16:03 流了个火 阅读(788) 评论(0) 推荐(0) 编辑
摘要:Spark java.io.IOException: Filesystem closed partition数量太小,读取数据后进行repartition重新分片再处理。 Spark Streaming问题: Spark Twitter Streaming exception : (org.apac 阅读全文
posted @ 2017-08-02 15:44 流了个火 阅读(411) 评论(0) 推荐(0) 编辑
摘要:DataSet:面向对象的,从JVM进行构建,或从其它格式进行转化 DataFrame:面向SQL查询,从多种数据源进行构建,或从其它格式进行转化 RDD DataSet DataFrame互转 DataFrameTest1.scala DataFrameTest2.scala DataFrameT 阅读全文
posted @ 2017-03-30 10:51 流了个火 阅读(1546) 评论(0) 推荐(0) 编辑
摘要:参考资料: http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark http://stackoverflow.com/questions/34078430/treereduce-vs-reduceby 阅读全文
posted @ 2016-10-19 20:15 流了个火 阅读(3794) 评论(0) 推荐(1) 编辑
摘要:1. 官网下载源码 source code,地址: http://spark.apache.org/downloads.html 2. 使用maven编译: 注意在编译之前,需要设置java堆大小以及永久代大小,避免mvn出现内存溢出的情况。 windows下设置:%MAVEN_HOME%\bin\ 阅读全文
posted @ 2016-05-03 20:44 流了个火 阅读(1630) 评论(0) 推荐(0) 编辑
摘要:一、引子 在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGr 阅读全文
posted @ 2016-01-25 15:10 流了个火 阅读(2265) 评论(0) 推荐(0) 编辑
摘要:Spark 集成算法的数据格式即评估方法 类别 算法名称 需求格式 评估方法 聚类算法 KMeans RDD[Verctor] 分类算法 DecisionTree(决策树) RDD[LabeledPoint] ACU,F-measure,ROC LogisticRegression(逻辑回归) RD 阅读全文
posted @ 2016-01-15 22:16 流了个火 阅读(1365) 评论(0) 推荐(0) 编辑
摘要:原文链接:http://blog.csdn.net/w412692660/article/details/43639683 首先,推荐下大神(anzhsoft)的文章,http://blog.csdn.net/column/details/spark.html仅作为大神未未提到的细枝末节,进行补充。 阅读全文
posted @ 2016-01-10 21:23 流了个火 编辑
摘要:浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel:http://ju.outofm... 阅读全文
posted @ 2015-12-16 21:51 流了个火 阅读(1421) 评论(0) 推荐(0) 编辑
摘要:spark中saveAsTextFile如何最终生成一个文件 http://www.lxway.com/641062624.htm 一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00一直到part-0n,n自然就是task的个数,亦即是最后的stage的 阅读全文
posted @ 2015-11-26 19:58 流了个火 阅读(20473) 评论(1) 推荐(0) 编辑
摘要:转自:http://my.oschina.net/hanzhankang/blog/200275 附:各种操作的逻辑执行图 https://github.com/JerryLead/SparkInternals/blob/master/markdown/2-JobLogicalPlan.md 本文提 阅读全文
posted @ 2015-10-30 16:56 流了个火 阅读(648) 评论(0) 推荐(0) 编辑
摘要:https://github.com/JerryLead/SparkInternals/blob/master/markdown/3-JobPhysicalPlan.md stage 和 task 的划分问题。只要在 ShuffleDependency 处断开,就只剩 NarrowDependenc 阅读全文
posted @ 2015-10-30 15:38 流了个火 阅读(2607) 评论(0) 推荐(0) 编辑
摘要:相关资料:Spark属性配置 http://www.cnblogs.com/chengxin1982/p/4023111.html本文出处:转载自过往记忆(http://www.iteblog.com/)本文链接地址: 《Spark三种属性配置方式详细说明》(http://www.iteblog.c... 阅读全文
posted @ 2015-10-18 15:34 流了个火 阅读(738) 评论(0) 推荐(0) 编辑
摘要:在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程... 阅读全文
posted @ 2015-07-24 10:43 流了个火 阅读(6011) 评论(0) 推荐(0) 编辑
摘要:RDD被视为由不同的数据块组成,对于RDD的存取是以数据块为单位的,本质上分区(partition)和数据块(block)是等价的,只是看待的角度不同。数据块Spark存储管理模块中所管理的几种主要数据块RDD数据块:用来标识所缓存的RDD数据Shuffle数据块:用来标识持久化的Shuffle数据... 阅读全文
posted @ 2015-05-18 21:34 流了个火 阅读(203) 评论(0) 推荐(0) 编辑
摘要:Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316502.html Standalone spark-env.sh 配置http://www.sxt. 阅读全文
posted @ 2015-04-25 13:49 流了个火 阅读(542) 评论(0) 推荐(0) 编辑
摘要:Spark 多线程时的序列化问题 临时记录Exception in thread "Thread-28" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.e... 阅读全文
posted @ 2015-04-08 22:22 流了个火 编辑
摘要:配置概述hadoop-env.sh一个可由hadoop脚本调用的bourne shell文件,它制定hadoop要用的JDK环境变量、守护进程JDK选项、pid文件和log文件夹core-site.xml指定与hadoop守护进程和客户端相关参数的xml文件hdfs-site.xml指定HDFS守护... 阅读全文
posted @ 2014-12-02 21:38 流了个火 阅读(1863) 评论(0) 推荐(0) 编辑
摘要:本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的... 阅读全文
posted @ 2014-11-25 19:34 流了个火 阅读(1512) 评论(0) 推荐(0) 编辑

►►►需要气球么?请点击我吧!►►►
View My Stats