摘要: 转载自 Spark Streaming 使用 阅读全文
posted @ 2017-08-07 20:51 新际航 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 转载自: Spark SQL、DataFrame和Datase 阅读全文
posted @ 2017-08-07 20:48 新际航 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 缺点: DataFrame DataFrame引入了schema和off-heap schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在sche 阅读全文
posted @ 2017-08-07 20:47 新际航 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 转载自: spark总结 第一个Spark程序 关于RDD 弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象,RDD是只读的,在RDD之上的操作都是并行的。实际上,RDD只是一个逻辑实体,其中存储了分布式数据集的一些信息,并没有包含所谓的“物理数据”,“物理数据”只有在RDD被计算并持久化之 阅读全文
posted @ 2017-08-07 20:42 新际航 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 本文转载自: spark的运行方式 本文主要讲述运行spark程序的几种方式,包括:本地测试、提交到集群运行、交互式运行 等。 在以下几种执行spark程序的方式中,都请注意master的设置,切记。 运行自带样例 可以用 run-example 执行spark自带样例程序,如下: 或者同样的: 交 阅读全文
posted @ 2017-08-07 20:40 新际航 阅读(409) 评论(0) 推荐(0) 编辑