Spark - 随笔分类 - 流了个火

Spark笔记-repartition和coalesce

摘要：窄依赖、宽依赖以及stage的划分依据：https://www.cnblogs.com/itboys/p/6673046.html 参考： http://blog.csdn.net/u012684933/article/details/51028707 参考： http://blog.csdn.ne 阅读全文

posted @ 2017-12-19 21:35 流了个火阅读(10576) 评论(0) 推荐(0) 编辑

Spark笔记-gz压缩存储到HDFS【转】

摘要：参考：http://blog.csdn.net/u010454030/article/details/69291663 和一般的saveAsTextFile不同之处在于增加了一个参数 classOf[GzipCodec] 阅读全文

posted @ 2017-09-20 16:03 流了个火阅读(788) 评论(0) 推荐(0) 编辑

Spark运行时错误与解决

摘要：Spark java.io.IOException: Filesystem closed partition数量太小，读取数据后进行repartition重新分片再处理。 Spark Streaming问题： Spark Twitter Streaming exception : (org.apac 阅读全文

posted @ 2017-08-02 15:44 流了个火阅读(411) 评论(0) 推荐(0) 编辑

Spark笔记-DataSet，DataFrame

摘要：DataSet：面向对象的，从JVM进行构建，或从其它格式进行转化 DataFrame：面向SQL查询，从多种数据源进行构建，或从其它格式进行转化 RDD DataSet DataFrame互转 DataFrameTest1.scala DataFrameTest2.scala DataFrameT 阅读全文

posted @ 2017-03-30 10:51 流了个火阅读(1546) 评论(0) 推荐(0) 编辑

Spark笔记-treeReduce、reduce、reduceByKey

摘要：参考资料： http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark http://stackoverflow.com/questions/34078430/treereduce-vs-reduceby 阅读全文

posted @ 2016-10-19 20:15 流了个火阅读(3794) 评论(0) 推荐(1) 编辑

Spark笔记--使用Maven编译Spark源码(windows)

摘要：1. 官网下载源码 source code，地址： http://spark.apache.org/downloads.html 2. 使用maven编译：注意在编译之前，需要设置java堆大小以及永久代大小，避免mvn出现内存溢出的情况。 windows下设置：%MAVEN_HOME%\bin\ 阅读全文

posted @ 2016-05-03 20:44 流了个火阅读(1630) 评论(0) 推荐(0) 编辑

Spark Executor Driver资源调度小结【转】

摘要：一、引子在Worker Actor中，每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程，Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGr 阅读全文

posted @ 2016-01-25 15:10 流了个火阅读(2265) 评论(0) 推荐(0) 编辑

Spark笔记--机器学习基本数据格式

摘要：Spark 集成算法的数据格式即评估方法类别算法名称需求格式评估方法聚类算法 KMeans RDD[Verctor] 分类算法 DecisionTree（决策树） RDD[LabeledPoint] ACU，F-measure，ROC LogisticRegression（逻辑回归） RD 阅读全文

posted @ 2016-01-15 22:16 流了个火阅读(1365) 评论(0) 推荐(0) 编辑

Spark源码--Broadcast

摘要：原文链接：http://blog.csdn.net/w412692660/article/details/43639683 首先，推荐下大神（anzhsoft）的文章，http://blog.csdn.net/column/details/spark.html仅作为大神未未提到的细枝末节，进行补充。阅读全文

posted @ 2016-01-10 21:23 流了个火编辑

Spark学习笔记--Graphx

摘要：浅谈Graphx: http://blog.csdn.net/shangwen_/article/details/38645601Pregel: http://blog.csdn.net/shangwen_/article/details/38479835Bagel:http://ju.outofm... 阅读全文

posted @ 2015-12-16 21:51 流了个火阅读(1421) 评论(0) 推荐(0) 编辑

Spark保存到HDFS或本地文件相关问题

摘要：spark中saveAsTextFile如何最终生成一个文件 http://www.lxway.com/641062624.htm 一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00一直到part-0n，n自然就是task的个数，亦即是最后的stage的阅读全文

posted @ 2015-11-26 19:58 流了个火阅读(20473) 评论(1) 推荐(0) 编辑

Spark学习笔记--Transformation 和 action

摘要：转自：http://my.oschina.net/hanzhankang/blog/200275 附：各种操作的逻辑执行图 https://github.com/JerryLead/SparkInternals/blob/master/markdown/2-JobLogicalPlan.md 本文提阅读全文

posted @ 2015-10-30 16:56 流了个火阅读(648) 评论(0) 推荐(0) 编辑

Spark学习笔记--stage和task的划分

摘要：https://github.com/JerryLead/SparkInternals/blob/master/markdown/3-JobPhysicalPlan.md stage 和 task 的划分问题。只要在 ShuffleDependency 处断开，就只剩 NarrowDependenc 阅读全文

posted @ 2015-10-30 15:38 流了个火阅读(2607) 评论(0) 推荐(0) 编辑

Spark学习笔记-三种属性配置详细说明【转】

摘要：相关资料：Spark属性配置 http://www.cnblogs.com/chengxin1982/p/4023111.html本文出处：转载自过往记忆（http://www.iteblog.com/）本文链接地址: 《Spark三种属性配置方式详细说明》（http://www.iteblog.c... 阅读全文

posted @ 2015-10-18 15:34 流了个火阅读(738) 评论(0) 推荐(0) 编辑

Spark学习笔记-使用Spark History Server

摘要：在运行Spark应用程序的时候，driver会提供一个webUI给出应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口，也就是说，Spark应用程序运行完后，将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程... 阅读全文

posted @ 2015-07-24 10:43 流了个火阅读(6011) 评论(0) 推荐(0) 编辑

Spark学习笔记--概念知识

摘要：RDD被视为由不同的数据块组成，对于RDD的存取是以数据块为单位的，本质上分区（partition）和数据块（block）是等价的，只是看待的角度不同。数据块Spark存储管理模块中所管理的几种主要数据块RDD数据块：用来标识所缓存的RDD数据Shuffle数据块：用来标识持久化的Shuffle数据... 阅读全文

posted @ 2015-05-18 21:34 流了个火阅读(203) 评论(0) 推荐(0) 编辑

Spark link集合

摘要：Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration（Spark配置） http://www.cnblogs.com/vincent-hv/p/3316502.html Standalone spark-env.sh 配置http://www.sxt. 阅读全文

posted @ 2015-04-25 13:49 流了个火阅读(542) 评论(0) 推荐(0) 编辑

Spark问题记录

摘要：Spark 多线程时的序列化问题临时记录Exception in thread "Thread-28" org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.e... 阅读全文

posted @ 2015-04-08 22:22 流了个火编辑

HDFS配置文件内容解释

摘要：配置概述hadoop-env.sh一个可由hadoop脚本调用的bourne shell文件，它制定hadoop要用的JDK环境变量、守护进程JDK选项、pid文件和log文件夹core-site.xml指定与hadoop守护进程和客户端相关参数的xml文件hdfs-site.xml指定HDFS守护... 阅读全文

posted @ 2014-12-02 21:38 流了个火阅读(1863) 评论(0) 推荐(0) 编辑

Spark RDD API详解(一) Map和Reduce

摘要：本文由cmd markdown编辑，原始链接：https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的... 阅读全文

posted @ 2014-11-25 19:34 流了个火阅读(1512) 评论(0) 推荐(0) 编辑

流了个火

#推荐系统 #推荐工程 #视频推荐

随笔分类 - Spark

公告