摘要: spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是 阅读全文
posted @ 2017-08-08 23:02 新际航 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: zookeeper的选举过程大致如下: zookeeper的选举过程,就是选出一个在n/2+1个节点中选出一个节点为主节点的过程。比如,当我们启动一个有5个节点的zookeeper集群的时候。首先启动server1,然后server1选举自己为leader,但是现在只有1个节点,所以无法确定lead 阅读全文
posted @ 2017-08-08 22:40 新际航 阅读(1027) 评论(2) 推荐(0) 编辑
摘要: num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你 阅读全文
posted @ 2017-08-08 22:38 新际航 阅读(21609) 评论(2) 推荐(2) 编辑