2018年7月26日

摘要: 0前言: 老齐的这本书写的平易近人,书中内容简单明了,文笔诙谐流畅,确实是一本不错的python入门书籍,在这里我说一些自己的情况,我是06年上大学学习计算机的,由于中学时候受老师上网有毒言论的影响,几乎就没碰过电脑,所以大学学计算机的时候,基本上就只知道开机,关机这些操作。经过4年大学本科的计算机 阅读全文
posted @ 2018-07-26 01:59 钻研spark 阅读(147) 评论(0) 推荐(0)
摘要: 0 分布式并行图计算的进化路线:pregel => graphlab => GraphX => graphFrame 1)pregel 是谷歌很早开发的一个分布式图计算系统,类似于mapreduce将大数据的处理分成两个阶段:map 和 reduce,谷歌将图计算分成三个阶段GAS: gather 阅读全文
posted @ 2018-07-26 01:56 钻研spark 阅读(127) 评论(0) 推荐(0)
摘要: Shuffle是性能调优的一个重点,它的定义是: 计算过程中,要将某种具有共同特征的一类数据汇聚到一个计算节点上,例如在wordCount中要将相同的单词汇聚到同一个节点才能计算出单词的个数,这种把数据重新打乱然后汇聚到不同节点的过程就是shuffle。 在shuffle过程中,要进行中间结果的持久 阅读全文
posted @ 2018-07-26 01:55 钻研spark 阅读(116) 评论(0) 推荐(0)
摘要: 1 架构 scheduler 模块主要包括两个类:DAGScheduler 和 TaskScheduler DAGScheduler 的主要作用是根据job建立DAG,将DAG划分为不同的Stage,再将每个Stage划分成一组task,最后将task分配给TaskScheduler, TaskSc 阅读全文
posted @ 2018-07-26 01:51 钻研spark 阅读(121) 评论(0) 推荐(0)
摘要: 概论 driver与worker的计算关系 executor部分的逻辑比较直接: 如上图所示,在driver进程的运行空间里,创建一个context变量,context变量通过Cluster Manager确立起与worker之间的联系,每个worker完成主程序分发下来的部分任务。 task的执行 阅读全文
posted @ 2018-07-26 01:47 钻研spark 阅读(153) 评论(0) 推荐(0)
摘要: 0 数据容错机制: 1)数据检查点 2)记录数据更新, RDD使用的lineage是记录数据更新 1 rdd是什么: 1.1 rdd的构成:rdd是只读的分布式的存储在worker上的数据集合, 比如 JavaRDD<String> record; 是从hdfs上创建出来的用户行为信息,一个条记录是 阅读全文
posted @ 2018-07-26 01:21 钻研spark 阅读(120) 评论(0) 推荐(0)

导航