2017 年 9月 16 日随笔档案 - toov5

2017年9月16日

摘要：创建RDD 有两种方式 1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据，只记录了一下元数据 2 从过scala集合或者数组以并行化的方式创建RDD collect 把结果收集起来放到 scala数组里面 reduce 汇聚方法传进去 count rdd有多少元素 to 阅读全文

posted @ 2017-09-16 16:59 toov5 阅读(161) 评论(0) 推荐(0) 编辑

spark总结4 算子问题总结

摘要：官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后会产生一个rdd spark 的算子分为两类一类 Transformation 转换一类 Action 动作 Transformation 延迟执行记录元数据信息当计算任务触发Action时候才会真正的开始计算阅读全文

posted @ 2017-09-16 11:31 toov5 阅读(192) 评论(0) 推荐(0) 编辑

spark总结3

摘要： cd 到hadoop中然后格式化进入到 bin下找到 hdfs 然后看看里面有哈参数： ./hdfs namenode -format 格式化然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本：创建个目录 h 阅读全文

posted @ 2017-09-16 11:01 toov5 阅读(149) 评论(0) 推荐(0) 编辑

toov5

公告