摘要: 概述Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分区元素的集合,能够被并行操作。RDDS来源: 1.Hadoop文件系统或支持Hadoop的文件系统... 阅读全文
posted @ 2015-11-05 13:43 大数据从业者FelixZh 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 最重要的前提就是:集群中的所有机器的用户名和用户组必须一样一般做法都是在每台机器上新建用户组和用户名。比如:sudo addgroup sparks 新建用户组sparks; sudo adduser spark sparks 在新建用户组sparks中添加用户spark sudo addu... 阅读全文
posted @ 2015-11-05 11:24 大数据从业者FelixZh 阅读(329) 评论(0) 推荐(0) 编辑