摘要: 1、什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main pr 阅读全文
posted @ 2018-03-31 22:30 梦里南柯 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 一、执行Spark任务: 客户端 1、Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-e 阅读全文
posted @ 2018-03-31 14:59 梦里南柯 阅读(359) 评论(0) 推荐(0) 编辑
摘要: Spark Core 一、什么是Spark? 1、什么是Spark?生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈: 1、Spark Core 2、Spark SQL 3、S 阅读全文
posted @ 2018-03-31 14:24 梦里南柯 阅读(413) 评论(0) 推荐(0) 编辑
摘要: Scala语言的高级特性 一、Scala的集合 1、可变集合mutable 不可变集合immutable 2、列表:List 3、序列: 常用的序列: Vector、Range 运行结果: 4、集(Set): 是不重复元素的集合,默认的实现:HashSet 运行结果: 5、模式匹配:match 相当 阅读全文
posted @ 2018-03-31 13:47 梦里南柯 阅读(452) 评论(0) 推荐(0) 编辑