摘要: 创建RDD 有两种方式 1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据,只记录了一下元数据 2 从过scala集合或者数组以并行化的方式创建RDD collect 把结果收集起来放到 scala数组里面 reduce 汇聚 方法传进去 count rdd有多少元素 to 阅读全文
posted @ 2017-09-16 16:59 toov5 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后 会产生一个rdd spark 的算子分为两类 一类 Transformation 转换 一类 Action 动作 Transformation 延迟执行 记录元数据信息 当计算任务触发Action时候才会真正的开始计算 阅读全文
posted @ 2017-09-16 11:31 toov5 阅读(192) 评论(0) 推荐(0) 编辑
摘要: cd 到hadoop中 然后格式化 进入到 bin下 找到 hdfs 然后看看里面有哈参数: ./hdfs namenode -format 格式化 然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本: 创建个目录 h 阅读全文
posted @ 2017-09-16 11:01 toov5 阅读(149) 评论(0) 推荐(0) 编辑