摘要:
map 通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并flatMap通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。mapPartitionsIter => iter.filter(_>3)作用于整个分区(例如hbase表等)进行操作glo... 阅读全文
摘要:
cache 可以通过 persist 物化操作流程图 阅读全文
摘要:
lazy在action执行前是不会进行计算的,只是记录下当前要做的事情。action结果会返回给driver可以避免产生各种众多的中间数据spark lazy 配置验证,是否是完全不执行,可以在shell节点使用一个不存在的hdfs文件路径来创建RDD尝试,如果不报错,则说明没执行如果报错了,则说明... 阅读全文
摘要:
1、通过scala集合(数组,range)val collection = sc.parallelize(1 to 10000)2、在hdfs或者hbaseval hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")3、其... 阅读全文
摘要:
1、RDD 只读的分区数据集合。2、RDD的依赖关系,生成RDD的血统。3、RDD支持基于工作集的运用。可以显性的将数据存储在内存中,可以支持高效数据重用。4、RDD是分布式数据编程的一种抽象5、RDD的特征a list of partitions(hdfs的一个分片就是一个partition,每个... 阅读全文
摘要:
1、RDD生成:外部文件,别的RDD结果。2、RDD是批量写,可以定位的具体读哪一行。3、在一个数据集中,执行多种或者多次交互式查询4、更好的支持多步骤迭代5、MR 在迭代中必须将中间结果写入磁盘 阅读全文
摘要:
1、HDFS只能读取,或者通过其他途径创建2、transfrmation是lazy的。3、传统的容错方式,数据检查点或者记录数据的更新容错是分布式最困难的部分。数据检查点:通过数据中心的网络,连接所在的机器之间,复制庞大的数据集。消耗网络和磁盘。记录数据的更新:更新的很多,则记录成本很高。4、RDD... 阅读全文
摘要:
1、安装jdk2、安装idea3、安装maven4、安装scalawindows下 下载msi安装文件,因为当前spark使用的scala版本为 2.10.4,因此也选择安装2.10.4版本的scala。5、安装idea的scala扩展工具http://blog.csdn.net/stark_sum... 阅读全文