随笔分类 -  Spark

摘要:创建RDD 有两种方式 1 通过hdfs支持的文件系统创建 RDD, RDD里面没有真正要计算的数据,只记录了一下元数据 2 从过scala集合或者数组以并行化的方式创建RDD collect 把结果收集起来放到 scala数组里面 reduce 汇聚 方法传进去 count rdd有多少元素 to 阅读全文
posted @ 2017-09-16 16:59 toov5 阅读(161) 评论(0) 推荐(0) 编辑
摘要:官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后 会产生一个rdd spark 的算子分为两类 一类 Transformation 转换 一类 Action 动作 Transformation 延迟执行 记录元数据信息 当计算任务触发Action时候才会真正的开始计算 阅读全文
posted @ 2017-09-16 11:31 toov5 阅读(192) 评论(0) 推荐(0) 编辑
摘要:cd 到hadoop中 然后格式化 进入到 bin下 找到 hdfs 然后看看里面有哈参数: ./hdfs namenode -format 格式化 然后启动 sbin/start-dfs.sh hdfs的关系界面 http://192.168.94.132:50070/ 创建文本: 创建个目录 h 阅读全文
posted @ 2017-09-16 11:01 toov5 阅读(149) 评论(0) 推荐(0) 编辑
摘要:网页访问时候 没有打开 注意防火墙! 启动park shell bin下面的spark-shell 这样启动的是单机版的 可以看到没有接入集群中: 应该这么玩儿 用park协议 spark://192.168.94.132:7077 地址 协议 ./spark-shell --mster spark 阅读全文
posted @ 2017-09-15 22:10 toov5 阅读(140) 评论(0) 推荐(0) 编辑
摘要:安装jdk 下载spark安装包 解压 重点来了: 配置 spark: 进入 conf 》 spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 添加: 在该配置文件中添加如下配置 阅读全文
posted @ 2017-09-15 20:46 toov5 阅读(113) 评论(0) 推荐(0) 编辑
摘要:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算 Spark不仅支持Scala编写应用程序,而且支持Java和Python等语言进行编写,特别是Scala是一种高效、可拓展的语言,能够用简洁的代码处理较为复杂的处理工作。 Spark生态圈即BDAS 》 Spark具有很强的适应性,能够读 阅读全文
posted @ 2017-09-11 21:12 toov5 阅读(4062) 评论(0) 推荐(0) 编辑
摘要:注意在启动spark时候要指定参数 要不就死启动的单机版的 /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell \ --master spark://node1.itcast.cn:7077 \ --executor-memory 2g \ -- 阅读全文
posted @ 2017-08-13 17:25 toov5 阅读(267) 评论(0) 推荐(0) 编辑