2015 年 12月 28 日随笔档案 - 逸新

2015年12月28日

spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--（视频笔记）

摘要： map 通过自定义函数 f:T->u 将元数据T转换为u，不会将split进行合并flatMap通过自定义函数 f:T->u 进行数据变换，并将拆分后的小集合合并成一个大集合。mapPartitionsIter => iter.filter(_>3)作用于整个分区（例如hbase表等）进行操作glo... 阅读全文

posted @ 2015-12-28 19:30 逸新阅读(397) 评论(0) 推荐(0) 编辑

spark RDD 中runtime流程解析--（视频笔记）

摘要： cache 可以通过 persist 物化操作流程图阅读全文

posted @ 2015-12-28 19:29 逸新阅读(216) 评论(0) 推荐(0) 编辑

spark RDD中transformation的lazy特性深度解析和手动证明--（视频笔记）

摘要： lazy在action执行前是不会进行计算的，只是记录下当前要做的事情。action结果会返回给driver可以避免产生各种众多的中间数据spark lazy 配置验证，是否是完全不执行，可以在shell节点使用一个不存在的hdfs文件路径来创建RDD尝试，如果不报错，则说明没执行如果报错了，则说明... 阅读全文

posted @ 2015-12-28 19:28 逸新阅读(768) 评论(0) 推荐(0) 编辑

动手实战创建RDD的三种方式--（视频笔记）

摘要： 1、通过scala集合（数组，range）val collection = sc.parallelize(1 to 10000)2、在hdfs或者hbaseval hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")3、其... 阅读全文

posted @ 2015-12-28 19:27 逸新阅读(509) 评论(0) 推荐(0) 编辑

RDD 到底是什么--（视频笔记）

摘要： 1、RDD 只读的分区数据集合。2、RDD的依赖关系，生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中，可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions（hdfs的一个分片就是一个partition，每个... 阅读全文

posted @ 2015-12-28 19:25 逸新阅读(429) 评论(0) 推荐(0) 编辑

RDD产生的技术背景--（视频笔记）

摘要： 1、RDD生成：外部文件，别的RDD结果。2、RDD是批量写，可以定位的具体读哪一行。3、在一个数据集中，执行多种或者多次交互式查询4、更好的支持多步骤迭代5、MR 在迭代中必须将中间结果写入磁盘阅读全文

posted @ 2015-12-28 19:23 逸新阅读(206) 评论(0) 推荐(0) 编辑

RDD容错处理方式和传统容错处理方式的比较--（视频笔记）

摘要： 1、HDFS只能读取，或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式，数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点：通过数据中心的网络，连接所在的机器之间，复制庞大的数据集。消耗网络和磁盘。记录数据的更新：更新的很多，则记录成本很高。4、RDD... 阅读全文

posted @ 2015-12-28 19:23 逸新阅读(526) 评论(0) 推荐(0) 编辑

idea+maven+scala+spark 集成

摘要： 1、安装jdk2、安装idea3、安装maven4、安装scalawindows下下载msi安装文件，因为当前spark使用的scala版本为 2.10.4，因此也选择安装2.10.4版本的scala。5、安装idea的scala扩展工具http://blog.csdn.net/stark_sum... 阅读全文

posted @ 2015-12-28 17:09 逸新阅读(5822) 评论(1) 推荐(0) 编辑

逸新

公告